🗞️
[Updates] AI보이스 클로닝 기능
1~3분 정도 길이의 목소리 음성 파일로 나만의 TTS를 생성할 수 있는 AI보이스 클로닝 기능이 업데이트되었습니다.AI보이스 > Custom브라우저 상에서 실시간으로 녹음하거나, 미리 녹음된 음성파일을 업로드하여 생성할 수 있습니다.워크스페이스별로 1개의 클로닝 보이스를 생성할 ...
Junwoo
2025-09-22
🤔
업무에 자연스럽게 녹아들 수 있는 동영상 편집 솔루션: 비디오스튜가 나아갈 길
블로그 포스팅은 끝냈는데, 영상은 늘 '나중'으로 미뤄지는 일이 많지 않나요? 저 역시 마케팅 활동을 하면서 이러한 병목을 수없이 경험해왔습니다.왜 이런 일이 반복될까요?영상 편집이라는 일이 고유한 업무 영역으로 존재하고 있기 때문이라는 생각입니다.물론 영상 편집 자체가 고유한 일로 존...
Junwoo
2025-09-17
🎓
대본 하나로 영상까지: 실무에서 진짜 '일'이 되게 하는 AI 동영상 편집 솔루션은?
요즘에 수많은 AI 동영상 SaaS 솔루션들이 ‘대본만 넣으면 영상이 완성된다’고 말합니다.하지만 여러분의 실무에 도입하기 위해서는 좀더 생각해보셔야 할 부분들이 있는데요.마케터 입장에서는 분명 빠르게 비디오 하나를 뽑아내는 것도 중요하겠지만, 결국에는 우리 브랜드의 결을 살리고 캠페인...
Junwoo
2025-09-01
📣
보도자료 영상 자동화의 현실 해법: 비디오스튜 오토메이션 API
지난 1년간 비디오스튜는 한국언론진흥재단(KPF)의 뉴스콘텐츠 공용인프라 사업에 참여하면서 각종 자동화 솔루션들을 제공하고 있습니다.10여 개 이상의 언론사와 함께 API를 검증하면서 현장 기자, 편집국, 전산팀, 영상팀으로부터 실제 현장의 소리를 들어올 수 있었는데요.언론사들에서 가장...
Junwoo
2025-08-05
🗞️
[Updates] 파일 편집 도구 추가 (역재생, 배경제거, 화질개선)
사용자가 업로드한 미디어 파일에 대한 AI 편집 도구가 추가되었습니다. 업로드한 파일 자체를 수정하기 때문에 이미 프로젝트 곳곳에 삽입되어 있다면 모두 일괄적으로 변경되게 됩니다.라이브러리에서 편집을 원하는 파일 위에 마우스 우클릭 > 설정 > 파일 편집 도구 순서로 메뉴를 ...
Junwoo
2025-07-29
🎓
메이크닷컴에 비디오스튜 API를 사용한 동영상 생성 자동화 프로세스 만들기
이번 포스팅에서는 메이크와 비디오스튜 API를 활용해서 동영상 자동 생성 프로세스를 구축하는 과정을 소개하고자 합니다.시작하며먼저 알려드릴 점은 이 포스팅에서는 메이크의 전반적인 사용방법은 다루지 않습니다. 메이크에서 어떤 식으로 소재를 발굴하고, 가공하는지는 유저의 의도에 따라 다양한...
Junwoo
2025-07-22
🗞️
[Update] 감정 조절이 가능한 AI 보이스 추가 안내
‘일반’, ‘기쁨’, ‘슬픔’, ‘화남’, ‘차분한’의 총 다섯 가지 감정 표현이 가능한 AI 보이스가 추가되었습니다.목소리 선택 시에 직접 들어보고 사용하거나 편집화면에서도 곧장 변경할 수 있습니다.현재까지 약 30종의 노인, 아이를 포함한 AI보이스가 추가되었으며 향후 30종 더 추...
Junwoo
2025-07-17
🗞️
[Update] 한 프로젝트에 BGM 여러 개 넣기
프로젝트별로 한 개의 배경음악만 적용되던 것에서, 부분적으로 다른 음악을 설정할 수 있도록 기능이 개선되었습니다.기존과 동일하게 [글로벌 BGM]은 프로젝트별로 한 가지를 적용할 수 있으며, 기본적으로 재생되는 음악입니다.하지만 하이트라이트 부분 등 특별한 상황에 다른 음악을 넣고 싶으...
Junwoo
2025-07-11
비디오스튜에는 다양한 AI 보이스들이 탑재되어 있습니다. Google Wavenet, Amazon Polly, KT AI Voice, Naver Clova, Azure, ElevenLabs까지…
그렇다보니 자연스레 파생되는 이슈는 다들 학습된 모델이 달라서 똑같은 문장이 주어져도 읽는 방식이 미묘하게 다르다는 것입니다. 특히 단위를 읽을 때 그 차이가 두드러졌습니다.
이 포스팅을 통해 TTS 생성 시 한국어로 단위를 읽을 때 제대로 읽기 위해 고려했던 점들에 대해 이야기해보고자 합니다.
측정 단위 제대로 읽게 하기
TTS 엔진들을 다양하게 사용하다보니, 예를 들어 "100kg"이라는 표현을 읽을 때도 각 엔진들은 제각각으로 읽는 이슈가 있었습니다. "백 케이쥐"라고 읽는 엔진도 있고, "백 크흐..."라고 말끝을 흐리는 AI도 있었죠. (
AI도 당황하면 말끝을 흐리나…)물론 "백 킬로그램"이라고 정확하게 읽는 엔진도 있습니다.
그래서 이러한 단위들을 라이브러리화해서 전처리를 하는 프로세스를 개발했습니다. 모든 엔진들이 동일하게 읽도록 하기 위함이었죠.
숫자 제대로 읽게 하기
이렇게 서비스를 운영하다보니, 생각치 못한 이슈에 또 봉착하게 되었습니다. (한국어는 정말 매력덩어리..)
한국어에서는 숫자를 읽는 방식이 두 가지라는 점이죠. 우리는 본능적으로 사용하고 있어 잘 느끼지 못할 수 있습니다.
예를 들어, 시간을 말할 때 "10시 10분"은 "열 시 십 분"으로 읽죠. 왜죠…?
그리고 일반적인 숫자는 "일, 이, 삼"과 같은 한자어로 읽지만, 뒤에 수량을 나타내는 단위(수량사라고 해요. 저도 처음 들어봤어요…)가 붙으면 "한 개, 두 개, 세 개"로 읽게 됩니다. 공식적으로 수치를 재는 단위는 한자어를 쓰고요. (예: 10cm = “십 센치미터”)
자, 제가 숫자를 하나 드려볼께요. “90개”. 어떻게 읽으시나요?
원칙적으로는 90개까지는 “아흔 개”라고 읽는 것이 맞습니다. 아마 “구십 개”라고 읽으신 분들도 있으실꺼에요. 숫자가 커질 수록 우리가 일반적으로 더 편한 방식이 있기 마련이죠.
작은 숫자로 생각해볼까요? “9개”. 네, 이건 모두가 다 “아홉 개”라고 읽으셨을 것입니다.
이 원칙에 따라서 1~99까지는 고유한글로 읽는 방식으로 전처리 프로세스를 개발하게 되었습니다. 하지만 이는 말그대로 원칙적인 것이고, 고객들의 피드백에 따라 이 기준을 변경할 가능성을 열어두고 있습니다. 40개라면 “마흔 개”보다 “사십 개”가 더 자연스럽게 받아들여질 수 있으니까요.
어쨋든 일관된 사용경험을 위해 “하나, 둘, 셋”의 고유한글에 대응되는 단위 라이브러리를 만들게 되었습니다.
이 라이브러리는 TTS 서비스를 구현하려는 분들이라면 참고해주세요. 단, 지금도 끊임없이 고객 피드백을 통해 생각치 못한 단위들이 발견되고 있어서 완전한 버전은 아님을 말씀드립니다.
UX의 디테일 = SaaS의 성공
수량사라는 처음 듣는 표현을 접하면서, 한국에서 동영상 편집 SaaS 솔루션을 서비스하면서 많은 어려움이 있었는데, 또 한번 느끼게 되는 계기가 되었습니다. 정말이지 한국어는 변화무쌍하고 대단한 언어입니다…
동시에 영어권 서비스가 부럽다는 생각도 들었지만, 그 쪽은 또 그 쪽 나름대로의 고충이 있겠죠.
물론 비디오스튜에는 [텍스트 수동 지정]이라는 기능이 있습니다. 화면에 보이는 것과 상관없이 TTS를 생성하는 방법이죠.
< 화면에 보여지는 자막과 상관없이 TTS에서 읽을 소리를 설정하기 >
이 방법을 통해서 원하는대로, 소리나는대로 적어주면 되니까 TTS가 더 자연스럽게 발음하도록 유도할 수도 있고 잘못 읽는 단위를 사용자가 직접 수정할 수도 있습니다.
그럼에도 저희가 이렇게 디테일에 집중하는 이유는, 이런 작은 차이들이 서비스의 성장을 결정짓는다는 확신 때문입니다.
사용자는 숫자 표현이 포함된 문장을 입력하는 순간 어떻게 읽겠다라는 생각이 있습니다. 일단 그대로 생성되지 않는 다면 일차적으로 문제일 것이고요. 그걸 추가 편집을 하지 않아도 생각했던 그대로의 결과물이 가장 빠르게 나오도록 하는 것이 저희가 지향하는 UX의 종착점입니다.
앞으로도 계속 이렇게 저희가 하는 UX적인 고민들을 포스팅해보도록 하겠습니다. 앞서 말씀드린 것 처럼 모든 서비스들이 상향평준화되고 있는 현 상황에서는 이러한 디테일에 대한 고민이 서비스의 명암을 가른다고 믿으니까요.