메타의 심리스 M4T
메타는 최근에 새로운 AI 번역 모델인 '심리스 M4T'를 출시했습니다. 이 모델은 최대 100개 언어에 대해 텍스트 대 음성, 음성 대 텍스트, 음성 대 음성, 텍스트 대 텍스트 등 여러 종류의 번역 처리가 가능합니다.

심리스 M4T의 주요 기능
- 음성 인식: 100개 언어에 대한 음성 인식을 지원합니다.
- 음성-텍스트 번역: 100개 언어에 대한 음성을 텍스트로 번역하는 기능을 제공합니다.
- 음성-음성 번역: 100개 입력 언어와 36개 출력 언어를 지원하는 음성을 다른 언어의 음성으로 번역하는 기능을 제공합니다.
- 텍스트-텍스트 번역: 100개 언어에 대한 텍스트를 다른 언어의 텍스트로 번역하는 기능을 제공합니다.
- 텍스트-음성 번역: 100개 입력 언어와 35개 출력 언어를 지원하는 텍스트를 다른 언어의 음성으로 변환하는 기능을 제공합니다.
심리스 M4T의 독특한 점
심리스 M4T는 여러 모델을 사용하는 다른 번역기들과 달리 단일 시스템으로 구현되어 있습니다. 이는 오류와 지연을 줄이고 번역 프로세스의 효율성과 품질을 높이는 데 도움이 됩니다. 심리스 M4T는 Meta의 이전 AI 작업을 기반으로 구축되었습니다.
심리스 M4T의 학습 과정
심리스 M4T는 '심리스어라인 (SeamlessAlign)'이라는 멀티모달 데이터셋을 통해 학습되었습니다. 이 데이터셋은 총 47만시간 이상의 데이터를 포함하고 있습니다.
심리스어라인(SeamlessAlign)은 메타가 개발한 AI 번역 모델인 '심리스 M4T'의 학습에 사용된 멀티모달 데이터셋입니다. 이 데이터셋은 총 47만시간 이상의 데이터를 포함하고 있습니다.

심리스어라인의 주요 특징
- 다양한 데이터: 심리스어라인은 텍스트 데이터와 음성 데이터를 모두 포함하고 있습니다. 텍스트 데이터는 위키피디아, 뉴스 소스, 대본화된 연설 등에서 추출된 문장들로 구성되어 있으며, 음성 데이터는 공개된 웹데이터에서 얻은 4백만 시간 이상의 데이터를 포함하고 있습니다.
- 멀티모달 학습: 심리스어라인은 멀티모달 학습을 지원합니다. 멀티모달 학습은 여러 종류의 데이터(예: 텍스트, 음성, 이미지 등)를 동시에 사용하여 모델을 학습하는 방법을 말합니다. 이를 통해 모델은 각 데이터 유형의 장점을 최대한 활용하고, 한 유형의 데이터만 사용할 때 발생할 수 있는 한계를 극복할 수 있습니다.
심리스 M4T의 목표
심리스 M4T의 주요 목표는 서로 다른 언어를 사용하는 사람들 간에 효과적인 의사소통을 돕는 것입니다. 메타는 이 모델이 "언어 차이를 넘어 실시간으로 의사소통을 가능하게 하는 기반이 될 것"이라고 밝혔습니다.
참고로, 메타는 이 모델이 연구자와 개발자가 기술을 기반으로 구축할 수 있도록 무료 라이선스로 출시되고 있다고 밝혔습니다.
심리스 M4T와 이전 버전의 주요 차이점
- 언어 지원: 심리스 M4T는 텍스트 기능에서 약 100개의 언어를 지원하며, 음성 출력 기능에서는 약 36개의 언어를 지원합니다. 이전 모델과 비교했을 때, 지원하는 언어의 수가 늘어났습니다.
- 번역 유형: 심리스 M4T는 음성 인식, 음성-텍스트 번역, 음성-음성 번역, 텍스트-텍스트 번역, 텍스트-음성 번역 등 다양한 종류의 번역 처리가 가능합니다. 이전 모델에 비해 번역 유형이 확장되었습니다.
- 학습 데이터: 심리스 M4T는 '심리스어라인 (SeamlessAlign)'이라는 멀티모달 데이터셋을 통해 학습되었습니다. 이 데이터셋은 총 47만시간 이상의 데이터를 포함하고 있습니다. 이전 모델에 비해 학습 데이터의 양이 증가하였습니다.
- 시스템 구조: 심리스 M4T는 단일 시스템으로 구현되어 있습니다. 이는 오류와 지연을 줄이고 번역 프로세스의 효율성과 품질을 높이는 데 도움이 됩니다. 이전 모델에 비해 시스템 구조가 개선되었습니다.
'인공지능' 카테고리의 다른 글
구글 바드, 구글 렌즈를 통한 새로운 기능 업데이트 (371) | 2023.09.24 |
---|---|
하이퍼 클로바X 적용한 한컴독스 폴라리스 AI, 문서작업에서 해방시켜줄까? (30) | 2023.08.27 |
LG에 이어 SKT도 투자한 AI 스타트업 앤트로픽, OpenAI처럼 될 수 있을까? (30) | 2023.08.14 |
RVC Web UI와 가우디오 스튜디오를 이용해서 AI 커버 만들어보기 (30) | 2023.08.09 |
LG CNS가 투자한 앤스로픽, 그리고 GhatGPT 대항마 클로드2 (0) | 2023.08.07 |