국제무대로 향하는 포자랩스 음원 생성 AI

포자랩스 저술 논문, NeurIPS 등재

국제무대로 향하는 포자랩스 음원 생성 AI

포자랩스가 저술한 논문 'ComMU: Dataset for Combinatorial Music Generation'이 세계 최고 권위의 AI 학회 '신경정보처리시스템학회'(NeurIPS)에 등재되었어요. 포자랩스의 기술력이 국제무대에서 인정받는 계기가 된 것인데요. 

음원 생성 AI 모델 개발의 난이도와 NeurIPS의 까다로운 논문 심사 기준을 잘 알고 있는 AI 개발자님들은 이번 논문 등재 소식을 반가워하실 거라 생각해요. 다만, 비개발자들님들에게는 논문도, 학회도 생소한 개념이죠. 그래서 오늘은 비개발자도 이해할 수 있는 ComMU: Dataset for Combinatorial Music Generation 논문 설명회 시간을 가져보려고 해요. 

우선 ComMU 논문. 그것이 무엇인가요?

ComMU: Dataset for Combinatorial Music Generation은 포자랩스만의 AI 음원 생성 기술을 설명해 놓은 연구 논문이에요. 인간의 곡과 견주어도 손색없는 수준의 음원을 만들기 위해 지난 5년 동안 연구한 결과를 집대성한 자료에요. 쉽게 말해, 요리로 치면 '레시피'인 셈이죠. '어떤 재료'를 섞어 '어떤 테크닉'으로 요리할 것인지 풀어 설명한 자료 정도로 이해하시면 조금 쉽게 이해가 될까요? 논문에 대한 자세한 내용은 잠시 후 설명 드릴게요.

세계 최고 권위의 AI 학회 
NeurIPS는 어떤 곳인지 알려주세요.

신경정보처리시스템학회(Neural Information Processing Systems)의 축약어로 기계 학습, 빅데이터, 시청각 정보처리 등 다양한 AI 분야의 연구가 발표되는 학회에요. 1987년 처음 학회가 열렸고요. 전 세계 학자, 연구자들이 모여 연구 결과를 발표하고 토론하며 각 분야의 기술 발전을 도모하는 자리에요. NeurIPS는 ICLR(표현학습 국제학회)과 함께 전 세계 인공지능 학회를 선도하고 있어요. 그런 이유로 학교, 기관, 기업의 논문이 NeurIPS와 같은 저명한 학회에 등재되었다는 사실을 앞다퉈 보도하기도 해요. 

ComMU 논문의 NeurIPS 등재,
어떤 의미인가요?

미국 뉴올리언스에서 열린 2022 NeurIPS 콘퍼런스에 참가한 포자랩스 연구진

포자랩스의 AI 음원 생성 기술력이 국제적으로 인정받는 계기가 되었어요. 가장 권위 있는 학회에 논문이 등재된 만큼, 논문에 공개한 포자랩스의 데이터셋이 음원 생성 AI 업계에서 글로벌 스탠더드가 될 수 있는 계기가 되기도 했고요. 지난 12월, 미국 뉴올리언스에서 열린 제37회 NeurIPS 콘퍼런스에도 참가해 전 세계 AI연구원과 빅 테크 기업 관계자를 대상으로 논문에 대해 설명하는 자리를 가졌어요. 

논문을 통해 데이터셋을 공개한 만큼 글로벌 음원 생성 AI 시장이 포자랩스와 함께 동반성장 하기를 바라고 있습니다. 이를 통해 멋진 일들이 펼쳐질 것이라 기대하고 있어요.

논문을 통해 공개한
포자랩스 AI 음원 생성 방식도 궁금해요 

일단 포자랩스 AI 음원 생성 방식은 Conditional Music Generation이에요. 말 그대로 사용자가 원하는 조건(Condition)에 부합하는 음원을 생성해 주는 기술이에요. 장르, 스타일, 악기 등 사용자가 특정하게 원하는 조건이 있다면 조건에 부합하는 결과물을 만들어 내는 기술이에요. 힙합 - 트랩 장르의 808 베이스가 깔린 음악을 요청하면 해당 조건에 맞는 음원을 생성할 수 있는 것이죠.

사용자가 선택할 수 있는 조건은 총 12가지에요. 포자랩스에서는 이를 12가지 메타데이터라고 부르고 있고, 이를 ComMU 논문에 모두 공개했어요. 아래 조건(condition)에 알맞은 값을 입력해 음원 샘플을 생성하고, 이렇게 생성한 음원 샘플을 조합해 완성된 형태의 음악을 만들어 내는 것이죠.
bpm
genre
key
instrument
track-role
time signature
pitch range
number of measures
chord progression
min velocity
max velocity
rhythm

위 12가지 메타데이터는 프로 작곡가들의 객관화된 작곡 프로세스에 뿌리를 두고 세분화했어요. 이 때문에 세분화한 데이터셋을 AI 모델이 학습해 다양하고(diverse), 통제 가능하며(controllable), 인간의 곡과 비견되는 높은 품질(high quality)의 AI 음원을 만들어낼 수 있어요.  

ComMU(Combinatorial Music Generation)
무슨 뜻인지도 궁금해요

초록색 바(bar)는 모두 AI 생성 음원 샘플이에요. 샘플을 조합해 음악을 만들어요.

이름에서 알 수 있듯이 무언가 조합한다는 건데요. 12가지 메타데이터에 알맞은 값을 입력해 생성한 여러 AI 음원 *샘플을 조합(Combination)해 완성된 형태의 곡을 만들어요. 여기서 *샘플이란, 음악을 구성하는 4마디 ~ 16마디의 작곡 재료에요. 백문불여일견, *샘플이 무엇인지 영상을 통해 확인해 볼까요?
https://youtu.be/Tb6WButhFqg

위 영상과 같이, 포자랩스 역시 많은 AI 음원 샘플들을 조합해 작곡을 완성하고 있고, 이런 이유로 포자랩스 음원 생성 방식을 Combinatorial Music Generation 이라고 명명한 것이죠. 기존 음원 생성 AI 모델에서는 객관화, 범주화하지 못했던 장르(genre), 트랙의 역할(track-role) 등을 데이터화해 더욱 높은 품질의 음원을 보다 다양하게 만들 수 있는 것이죠. 

이번 ComMU: Dataset for Combinatorial Music Generation 논문 관련 더 자세한 내용은 아래 링크에서 확인 가능합니다.

ComMU 논문 확인하러 가기