작년 12월 초,

다가올 새해에는 오랫동안 손 놓았던 영어 공부를 해보겠노라 서점에 들러 3권의 책을 구입했다.

수십 년 동안 영어, 일본어, 중국어 공부를 해오며 느낀 점은 머릿속의 생각을 즉각 외국어로 바꿀 수 있는지가 관건이었다.

이도 무식하게 외울 수도 있지만 나름대로의 규칙을 통해 머릿속에 저장하다 보면 자연스럽게 활용할 수 있음을 중국어 학습 때 크게 느꼈었다.

이런 규칙을 문법이란 틀에 가두지 않고 쉽게 설명하는 한 영상을 보게 되었다.

관련 영상 몇 편을 보며 이거다 싶어 서점으로 바로 향했고, 키위엔 영어회화 2권과 이를 활용할 다른 학습서도 한 권 들고 왔다.

친절하게도 QR코드로 저자의 유튜브 강의를 볼 수 있었지만 결정적으로 본문의 문장들이 mp3로 제공되지 않았다.

이로 인해 영어 학습은 뒷전으로 하고 책의 문장들을 원어민 발음으로 만들고자 영상편집 시 자주 사용하던 일레븐랩스를 찾는다.

그동안 우리가 들었던 AI음성은 어색함 자체이지만 일레븐랩스에서 제공하는 AI음성은 거의 원어민 발음과 다름없다.

한국어 테스트를 입력하면 다양한 나라의 원어민 발음 수준으로 음성 변환이 가능하고 이를 mp3와 같은 파일로 다운로드할 수 있다. 즉, 영어뿐만 아니라 한국어부터 전 세계 다양한 언어를 지원하고 있기에 외국어 학습 시 활용하면 큰 도움이 될 거라 생각한다.

일레븐랩스 웹사이트에서는 문장별 파일을 만들기 위해선 한 문장 입력하고 변환하고 이를 다운로드하고 파일명 바꾸는 등 수백 개의 문장을 이런 식으로 작업한다면 꽤 긴 시간이 걸린다. 문제는 단순반복 작업의 지루함을 못 이겨 영어 학습 의지마저 잃을 수 있기에 주의해야 한다.

결국, 일레븐랩스의 API를 이용해 문장을 입력하면 자동으로 문장별 원어민 발음으로 mp3를 만들 수 있게 프로그램을 만들기 시작했다.

그렇게 책의 챕터별로 mp3를 만들고 나니 문득 이를 활용한 프로그램을 만들면 좋지 않을까 생각이 스치고 지나간다. 바로 macOS용으로 KeyWe English라는 프로그램을 제작에 착수한다. Mac에서의 개발은 한 번도 해보지 않아기에 아마도 도전심이 발동한 것 같다.

주말에 몰아 프로그램을 만들며 올 1월 초 macOS용으로 Unit1부터 Unit30까지의 자료를 포함하여 배포한다.

그래도 어렵게 만들며 무료 배포란 딱지를 붙여 야심 차게 공개했지만 OS특성상 관심가지는 주변인들을 찾아볼 수 없었다.

결국 일주일정도의 시간을 더 쏟아 Windows용도 1월 초 함께 배포하게 되었다.

이후 Unit30~40까지의 추가 자료도 배포하며, 일부 사용자들께서 문제점을 지적해 주시어 긴급 패치도 등록하고 Unit41~50까지 추가 자료도 배포하게 된다.

내가 지금까지 장황하게 설명한 건 여기서부터이다.

음성파일만 자동화한다고 쉽게 해결되는 게 아닌 책의 문장을 텍스화 해야 하고 챕터별 메인 화면 구성 등의 수작업이 생각하는 것 이상으로 시간 쏟아부어야 한다.

핸드폰으로 책을 스캔하고 문자만 뽑아 메신저로 보내고 이를 엑셀파일에 붙여 검수하며 유닛별로 다듬는다.

이후, 파워포인트에서 각 유닛별로 사용할 메인 페이지를 만들고 이를 이미지파일로 변환한다.

여기까지 끝내면 정리한 텍스트를 오디오 파일로 변환한다.

그리고, 프로그램에서 인식할 수 있는 목차를 만들고 마지막으로 프로그램 데이터로 변환한다.

아무튼, 이게 책의 내용을 디지털화하는 게여간 손이 많이 가는 게 아니다.

상업적 배포가 아닌 광고하나 넣지 않은 무료배포이다 보니 내 진도 위주로 학습데이터를 만들고 있는 같았다.

그렇게 5월 첫날을 보내며, 나머지 Unit51~60 그리고 부록으로 제공되는 실전회화 15개의 자료를 하루를 다 쏟아가며 작업했다.

그런데, 실전회화 15개의 챕터가 대화식으로 구성되어 있어 이를 최소한 A와 B 사람의 구분을 위한 음성 구분이 필요하다 느끼며 그동안 수정도 하지 않던 외국어 음성 생성기 프로그램 일명 AIVoice V1을 다시 손보게 된다.

기존 프로그램은 제공한 문장을 한 명의 목소리로만 문장별로 mp3로 만들었다. 하지만, 지금은 A와 B가 주고받는 형태의 대화이기에 서로 다른 목소리로 저장할 필요가 있었다. 역시 오랜만에 소스를 들여다보니 토통 머릿속에 들어오지 않는다.

거기에 어린아이의 목소리가 없어 새로운 목소리를 추가하려는데 전에 어떻게 했었는지 도통 기억이 나질 않는다.

얼마 시간이 지나지 않았는데 벌써 망각의 다리를 건넌 건가 싶을 정도로 하나씩 들여다본다.

Voice별 ID가 있는지는 오늘 처음 알았다. Lisa 음성을 새로 추가했는데 Lisa와 Adam조합으로 하면 아빠와 딸의 대화가 아주 자연스럽게 들린다. 확실히 일레븐랩스의 음성기술은 놀랄만하다.

참고로 아래 소스는 음성별 아이디를 확인할 수 있는 파이썬 코드이다. 일레븐랩스에서 발급받은 API키를 넣으면 사용할 수 있는 음성과 이에 해당하는 ID를 확인할 수 있다.

가급적 5월 첫날 추가자료를 배포하고 마무리하려 했는데 보조 프로그램 개선한답시고 반나절을 거기에 쏟은 것 같다.

AIVoice 프로그램을 이용하면 텍스트만 있으면 영어, 일본어, 중국어, 포르투칼어 등 전 세계 음성으로 쉽게 mp3 파일로 변환할 수 있다. 일레븐랩스 웹 페이지를 이용하여 변환할 수 있지만 문장별 저장이나 대화 방식의 저장은 역시 편집이 필요하니 음성파일 만드는데 보통 이상의 수고를 들여야 한다. 아무튼 이번에 대화 식으로 만들기 위해 추가 기능도 넣었다.

조만간 버전 업데이트하면서 무료로 공개할 계획이다.

그렇게 KeyWe Engish V1의 막바지 작업도 거의 마무리 단계이다. 정작 내 영업학습은 뒷전이 되고 누구 좋으라고 이리도 매진했는지는 몰라도 하나는 크게 남는다.

나의 열정을 불타오르게 만드는 것들 중에 하나라는 것.

자료화 작업에 대해 좀 더 자동화를 위해 고민을 하고 있다. 그리고, PC 베이스가 아닌 웹이나 앱도 고민 중이다.

해야 할 것들이 쌓여 있지만 늘 지니고 다니는 스마트폰에서의 접근을 무시 못하기에 고민 또한 쌓여 간다.

이제 곳 KewWe English V1이 마무리되겠지만 누군가에게는 조금이나마 도움이 되길 바란다.

2024년 5월 1일, VOKA.

By voka

답글 남기기