🗞️
[Update] 사용자 딕셔너리 (AI보이스 발음 커스텀 설정)
사용하시는 AI보이스가 특정 단어를 제대로 발음하지 못할 때 유용한 사용자 딕셔너리 기능이 업데이트되었습니다.아래는 실제 사용 예시인데요.전문용어나 약어를 제대로 발음하지 못하는 경우 원하시는 형태로 조정할 수 있으며, 특정 단어 발음이 어색한 경우 실제 발음나는대로 쓰는 방식으로 개선...
Junwoo
2025-11-27
🗞️
[Update] 프로젝트 즐겨찾기 기능
자주 사용하는 나만의 템플릿으로부터 빠르게 작업을 시작하실 수 있도록 프로젝트 즐겨찾기 기능이 업데이트되었습니다.프로젝트의 설정 버튼을 눌러 즐겨찾기에 추가할 수 있으며, 즐겨찾기 영역에서 곧장 [이 템플릿으로 시작] 할 수 있습니다.프로젝트 즐겨찾기에는 최대 20개의 프로젝트를 등록할...
Junwoo
2025-11-24
🗞️
[Update] 프로젝트 및 라이브러리 폴더 기능
프로젝트 및 라이브러리 리소스 관리를 효율적으로 하실 수 있는 폴더 기능이 추가되었습니다.프로젝트 폴더워크스페이스별로 새 프로젝트 옆의 드롭다운 버튼을 눌러 폴더를 추가할 수 있습니다. 또한 프로젝트를 드래그 앤 드롭해서 폴더 안으로 이동시키거나 프로젝트 설정 버튼을 통해 다른 위치로 ...
Junwoo
2025-11-13
📣
50대 부동산 공인중개사 대표님의 스마트한 블로그+유튜브 콘텐츠 동시 제작 비법
요즘 부동산 중개업에서도 유튜브를 활용해 부동산 매물 홍보나 부동산 관련 정보를 영상 콘텐츠로 제공하시는 사례가 많이 보입니다.잠실마이스 공인중개사 사무소의 안태용 대표님은 지난 1년간 비디오스튜를 꾸준히 활용해오신 고객님이신데요. 기존에는 다른 편집 프로그램을 통해 직접 목소리 녹음을...
Junwoo
2025-10-01
🎓
당신의 스크립트를 영상으로: 실용적인 콘텐츠 리퍼포징 전략
이 포스팅은 글을 작성하시는 그 흐름을 그대로 이어가는 콘텐츠 리퍼포징의 실전 가이드입니다. 영상 제작이 ‘또 다른 일’로, 즉 부담으로 느껴지셨다면 이 글을 끝까지 읽어봐주세요!이미 작성하신 블로그 URL이나 작성 중이신 스크립트를 곧장 유튜브, 링크드인, 틱톡, 인스타그램 릴스의 영...
Junwoo
2025-09-26
🗞️
[Update] AI보이스 클로닝 기능
1~3분 정도 길이의 목소리 음성 파일로 나만의 TTS를 생성할 수 있는 AI보이스 클로닝 기능이 업데이트되었습니다.AI보이스 > Custom브라우저 상에서 실시간으로 녹음하거나, 미리 녹음된 음성파일을 업로드하여 생성할 수 있습니다.워크스페이스별로 1개의 클로닝 보이스를 생성할 ...
Junwoo
2025-09-22
🤔
업무에 자연스럽게 녹아들 수 있는 동영상 편집 솔루션: 비디오스튜가 나아갈 길
블로그 포스팅은 끝냈는데, 영상은 늘 '나중'으로 미뤄지는 일이 많지 않나요? 저 역시 마케팅 활동을 하면서 이러한 병목을 수없이 경험해왔습니다.왜 이런 일이 반복될까요?영상 편집이라는 일이 고유한 업무 영역으로 존재하고 있기 때문이라는 생각입니다.물론 영상 편집 자체가 고유한 일로 존...
Junwoo
2025-09-17
🎓
대본 하나로 영상까지: 실무에서 진짜 '일'이 되게 하는 AI 동영상 편집 솔루션은?
요즘에 수많은 AI 동영상 SaaS 솔루션들이 ‘대본만 넣으면 영상이 완성된다’고 말합니다.하지만 여러분의 실무에 도입하기 위해서는 좀더 생각해보셔야 할 부분들이 있는데요.마케터 입장에서는 분명 빠르게 비디오 하나를 뽑아내는 것도 중요하겠지만, 결국에는 우리 브랜드의 결을 살리고 캠페인...
Junwoo
2025-09-01
비디오스튜에는 다양한 AI 보이스들이 탑재되어 있습니다. Google Wavenet, Amazon Polly, KT AI Voice, Naver Clova, Azure, ElevenLabs까지…
그렇다보니 자연스레 파생되는 이슈는 다들 학습된 모델이 달라서 똑같은 문장이 주어져도 읽는 방식이 미묘하게 다르다는 것입니다. 특히 단위를 읽을 때 그 차이가 두드러졌습니다.
이 포스팅을 통해 TTS 생성 시 한국어로 단위를 읽을 때 제대로 읽기 위해 고려했던 점들에 대해 이야기해보고자 합니다.
측정 단위 제대로 읽게 하기
TTS 엔진들을 다양하게 사용하다보니, 예를 들어 "100kg"이라는 표현을 읽을 때도 각 엔진들은 제각각으로 읽는 이슈가 있었습니다. "백 케이쥐"라고 읽는 엔진도 있고, "백 크흐..."라고 말끝을 흐리는 AI도 있었죠. (
AI도 당황하면 말끝을 흐리나…)물론 "백 킬로그램"이라고 정확하게 읽는 엔진도 있습니다.
그래서 이러한 단위들을 라이브러리화해서 전처리를 하는 프로세스를 개발했습니다. 모든 엔진들이 동일하게 읽도록 하기 위함이었죠.
숫자 제대로 읽게 하기
이렇게 서비스를 운영하다보니, 생각치 못한 이슈에 또 봉착하게 되었습니다. (한국어는 정말 매력덩어리..)
한국어에서는 숫자를 읽는 방식이 두 가지라는 점이죠. 우리는 본능적으로 사용하고 있어 잘 느끼지 못할 수 있습니다.
예를 들어, 시간을 말할 때 "10시 10분"은 "열 시 십 분"으로 읽죠. 왜죠…?
그리고 일반적인 숫자는 "일, 이, 삼"과 같은 한자어로 읽지만, 뒤에 수량을 나타내는 단위(수량사라고 해요. 저도 처음 들어봤어요…)가 붙으면 "한 개, 두 개, 세 개"로 읽게 됩니다. 공식적으로 수치를 재는 단위는 한자어를 쓰고요. (예: 10cm = “십 센치미터”)
자, 제가 숫자를 하나 드려볼께요. “90개”. 어떻게 읽으시나요?
원칙적으로는 90개까지는 “아흔 개”라고 읽는 것이 맞습니다. 아마 “구십 개”라고 읽으신 분들도 있으실꺼에요. 숫자가 커질 수록 우리가 일반적으로 더 편한 방식이 있기 마련이죠.
작은 숫자로 생각해볼까요? “9개”. 네, 이건 모두가 다 “아홉 개”라고 읽으셨을 것입니다.
이 원칙에 따라서 1~99까지는 고유한글로 읽는 방식으로 전처리 프로세스를 개발하게 되었습니다. 하지만 이는 말그대로 원칙적인 것이고, 고객들의 피드백에 따라 이 기준을 변경할 가능성을 열어두고 있습니다. 40개라면 “마흔 개”보다 “사십 개”가 더 자연스럽게 받아들여질 수 있으니까요.
어쨋든 일관된 사용경험을 위해 “하나, 둘, 셋”의 고유한글에 대응되는 단위 라이브러리를 만들게 되었습니다.
이 라이브러리는 TTS 서비스를 구현하려는 분들이라면 참고해주세요. 단, 지금도 끊임없이 고객 피드백을 통해 생각치 못한 단위들이 발견되고 있어서 완전한 버전은 아님을 말씀드립니다.
UX의 디테일 = SaaS의 성공
수량사라는 처음 듣는 표현을 접하면서, 한국에서 동영상 편집 SaaS 솔루션을 서비스하면서 많은 어려움이 있었는데, 또 한번 느끼게 되는 계기가 되었습니다. 정말이지 한국어는 변화무쌍하고 대단한 언어입니다…
동시에 영어권 서비스가 부럽다는 생각도 들었지만, 그 쪽은 또 그 쪽 나름대로의 고충이 있겠죠.
물론 비디오스튜에는 [텍스트 수동 지정]이라는 기능이 있습니다. 화면에 보이는 것과 상관없이 TTS를 생성하는 방법이죠.
< 화면에 보여지는 자막과 상관없이 TTS에서 읽을 소리를 설정하기 >
이 방법을 통해서 원하는대로, 소리나는대로 적어주면 되니까 TTS가 더 자연스럽게 발음하도록 유도할 수도 있고 잘못 읽는 단위를 사용자가 직접 수정할 수도 있습니다.
그럼에도 저희가 이렇게 디테일에 집중하는 이유는, 이런 작은 차이들이 서비스의 성장을 결정짓는다는 확신 때문입니다.
사용자는 숫자 표현이 포함된 문장을 입력하는 순간 어떻게 읽겠다라는 생각이 있습니다. 일단 그대로 생성되지 않는 다면 일차적으로 문제일 것이고요. 그걸 추가 편집을 하지 않아도 생각했던 그대로의 결과물이 가장 빠르게 나오도록 하는 것이 저희가 지향하는 UX의 종착점입니다.
앞으로도 계속 이렇게 저희가 하는 UX적인 고민들을 포스팅해보도록 하겠습니다. 앞서 말씀드린 것 처럼 모든 서비스들이 상향평준화되고 있는 현 상황에서는 이러한 디테일에 대한 고민이 서비스의 명암을 가른다고 믿으니까요.