AI 음악 생성에 'IAMF 기술' 세계 최초 적용

AI 음악 생성에 'IAMF 기술' 세계 최초 적용

포자랩스가 차세대 3D 오디오 규격인 IAMF* 기술을 적용한 데이터 확보에 성공했습니다. 이를 바탕으로 AI 3D 오디오 생성 기술 개발에 본격적으로 착수하여, AI 작곡 시장에 새로운 패러다임을 제시할 예정입니다.

이는 최근 삼성리서치가 개발한 IAMF 기술을 활용해 3D 오디오 시장을 선점하려는 움직임으로, 크리에이터들이 MIDI* 음악을 기반으로 손쉽게 3D 오디오 콘텐츠를 제작할 수 있는 환경을 제공할 것으로 기대를 모으고 있습니다.

IAMF는 오픈 소스 기반의 3D 오디오 기술로, 삼성전자를 포함해 구글, 애플, 넷플릭스, 아마존, 메타 등 다양한 글로벌 기업이 참여하는 오픈미디어 연합(AOM)*에서 최초로 채택한 오디오 기술 규격입니다. 특히 유튜브가 ‘2025년 IAMF 기술 기반 3D 오디오 서비스 도입 계획’*을 발표하면서, VR, AR, 스트리밍, 게임, 방송 등 다양한 분야에서의 활용 가능성이 큰 주목을 받고 있습니다.

포자랩스는 이러한 시장 변화에 발맞춰 AI 작곡의 글로벌 표준으로 자리 잡기 위해 IAMF 기술이 적용된 데이터를 확보하고, 자동화된 3D 오디오 생성 모델을 구축할 계획입니다.

3D 오디오 기술은 하나의 곡을 이루는 수십 개의 트랙 각각에 공간 오디오 정보를 적용할 수 있어, 청취자가 어떤 환경에서 음악을 들어도 최적의 공간감을 경험할 수 있게 해줍니다. 이를 구현하기 위해서는 음악을 구성하는 각 트랙의 분리된 데이터셋을 구축해야 하며, 트랙 단위로 음원을 생성할 수 있어야 합니다.

포자랩스는 창업 초기부터 저작권 문제를 해결하기 위해 전문 작곡가를 고용하여 트랙 단위의 작곡 데이터를 직접 제작해 왔습니다. 또한, NeurIPS*와 AAAI* 같은 세계 최고 권위의 AI 학회에서 트랙 기반 MIDI 생성 기술을 인정받았습니다.

이번 3D 오디오 데이터셋 역시 포자랩스 소속 전문 사운드 엔지니어와 공간 음향 스튜디오를 활용해 자체적으로 구축하고 있으며, 기존에 확보한 작곡 데이터에 공간 오디오 정보를 추가하여 점차 확장하고 있습니다.

포자랩스는 삼성과 구글의 IAMF 기술 발표 이후, 다양한 상황에서 활용 가능한 10여 가지 장르의 3D 오디오 콘텐츠를 개발해 왔습니다. 이 과정에서 공간감을 구성하는 수십 가지 메타 정보를 정의하고, 이를 AI가 학습할 수 있도록 데이터셋으로 구축하는 데 성공했습니다. 이러한 기술적 성과를 기반으로, 포자랩스는 대규모 데이터셋 구축과 상용화된 3D 오디오 자동화 모델 개발에 박차를 가할 계획입니다.

한편, 글로벌 AI 음악 생성 서비스인 Suno와 Udio는 전체 음원을 한 번에 생성하는 방식을 채택하고 있어, 트랙별 음원 수정이나 공간 음향 기술 적용이 사실상 불가능한 상황입니다.

포자랩스의 김태현 CSO는 “IAMF 기술이 오픈 소스로 개방된 만큼, 누구나 손쉽게 3D 오디오 콘텐츠를 만들고 활용할 수 있는 시대가 올 것으로 기대한다.”며, “세계 최초로 AI 기술을 활용해 3D 오디오 콘텐츠를 전 세계적으로 확산시키는 데 기여함과 동시에 글로벌 파트너들과 협력해 관련 생태계를 구축하며 기술 발전에 집중할 것”이라고 밝혔습니다.


* IAMF(Immersive Audio Model and Formats)는 AOM(Alliance for Open Media)이 채택한 몰입형 오디오를 위한 오픈소스 기반의 기술 규격이다. 오디오 메타데이터를 통해 TV, 사운드바, 모바일 등 다양한 기기에서 최적화된 몰입형 사운드를 제공하며, VR, AR, 스트리밍 및 방송 등에서 활용 가능하다. 효율적인 오디오 압축 코덱들과 통합되어 다양한 포맷의 3D 오디오를 음향 효과를 높이는 메타 데이터와 함께 고품질로 전송 가능한 특징이 있다.

* MIDI(Musical Instrument Digital Interface)는 디지털 악기, 컴퓨터, 그리고 기타 음악 장비 간의 통신 표준을 제공하는 기술이다. 주로 전자 음악 제작과 연주에서 사용되며, 어떤 키를 누르고, 얼마나 세게 눌렀으며, 얼마 동안 유지했는지 등의 정보를 전달한다. 현재 대다수의 대중음악이 MIDI를 활용하여 제작되고 있다. 

* AOM(Alliance for Open Media, 오픈미디어 연합)은 글로벌 기술 기업이 모여 멀티 미디어의 규격 개발을 목표로 운영하는 비영리 산업 컨소시엄으로 삼성전자, 구글, 아마존, 애플, 메타 등 38개사가 참여하고 있다. 대표적으로 AV1 코덱 개발을 통해 기존 비디오 코덱의 라이선스 비용 문제를 해결하여 동일한 품질의 비디오를 보다 효율적으로 스트리밍할 수 있도록 지원한다. 최근 IAMF 기술 규격의 완성으로 오디오 분야로도 확장 중이다.

* YouTube는 YouTube Device Partner Summit 2024에서 2025년 IAMF 기술 기반 3D 오디오 서비스 도입 계획을 발표했다.

* NeurIPS (Neural Information Processing Systems)는 인공지능(AI), 기계학습(ML), 통계, 및 뇌과학 등 다양한 분야의 연구자들이 참여하는 세계적인 학술대회이다. 1987년에 시작되어 매년 개최되며, 최신 연구 발표와 워크숍, 튜토리얼 등이 진행되며, AI 분야에서 가장 권위 있는 행사 중 하나로 분류된다. 
포자랩스 게재 논문 - Lee, H., Kim, T., Kang, H., Ki, M., Hwang, H., Han, S., & Kim, S. J. (2022). ComMU: Dataset for combinatorial music generation. Advances in Neural Information Processing Systems, 35, 39103-39114.

* AAAI (Association for the Advancement of Artificial Intelligence)는 인공지능(AI) 연구와 개발을 촉진하는 권위있는 국제 학술 단체로, 매년 AI 분야의 최신 연구와 기술을 논의한다.
포자랩스 게재 논문 - Ryu, J., Rhyu, S., Yoon, H. G., Kim, E., Yang, J. Y., & Kim, T. (2024). MID-FiLD: MIDI Dataset for Fine-Level Dynamics. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 38, No. 1, pp. 222-230).