자막에 '감정'이 들어오기 시작했다 — 청각 4모듈, 1년 뒤의 정직한 업데이트
본문 바로가기
발명 기록

자막에 '감정'이 들어오기 시작했다 — 청각 4모듈, 1년 뒤의 정직한 업데이트

by accesslog 2026. 6. 20.
============================================================ -->

먼저 쉽게 말하면

예전에 저는 "자막은 소리의 1/5만 채운다"는 글을 썼습니다. 말의 내용은 자막이 보여 주지만, 감정·방향·위험함 같은 나머지는 빠진다는 이야기였습니다.

그때 저는 "큰 회사들이 이 나머지를 안 하는 건 시장이 작아서일 것"이라고 가정했습니다.

1년이 지나, 그 가정의 일부가 틀렸다는 걸 정직하게 적습니다. 빅테크가 자막에 감정을 넣기 시작했거든요.

그 사이 일어난 일 — 구글이 시작했다

2024년 말, 구글이 안드로이드에 Expressive Captions(표현하는 자막)를 내놨습니다. 단순히 "무슨 말"인지뿐 아니라, 어떤 톤인지, 어디를 강조하는지, 주변에서 무슨 소리가 나는지를 자막에 함께 보여 줍니다. "무엇을 말했나"를 넘어 "어떻게 말했나"를 담기 시작한 것입니다.

학계에서도 이미 입증되고 있었습니다. 청각장애 당사자를 대상으로 한 연구(CHI 2023)에서, 감정·운율을 시각화한 자막이 기존 자막보다 화자의 감정·강조를 훨씬 잘 전달했고, 읽기 쉬움은 조금만 떨어졌습니다.

어려운 말 풀이

  • 운율 — 말의 높낮이·강세·리듬. 같은 "괜찮아"도 진심인지 비꼼인지를 가르는 정보입니다.
  • Expressive Captions — 구글이 만든, 감정·강조·주변 소리까지 보여 주는 자막 기능(안드로이드).

무엇이 맞았고, 무엇이 아직 남았나

제가 정리했던 "소리의 5가지 정보"로 다시 보면 이렇습니다. (✅=예전부터, ◐=시작됨, ✗=아직 빈자리)

소리의 5가지 정보 — 빅테크 자막이 지금 채우는 정도
소리의 정보 지금 상태
내용 (무슨 말)✅ 예전부터 — 자막의 기본
감정·운율 (어떤 톤)◐ 시작됨 — 구글 Expressive Captions(2024)
주변 소리 (무슨 소리)◐ 일부 — 소리 종류 표시
방향 (어디서 나나)✗ 아직 — 거의 빈자리
맥락 (위험한가)✗ 아직 — 거의 빈자리

즉, 제가 그렸던 4모듈 중 '감정·운율'은 빅테크가 채우기 시작했고, '방향'과 '맥락'은 여전히 비어 있습니다.

빅테크가 들어오면, 개인 발명은 의미가 없나

정직하게 말하면, 감정·운율 자막은 이제 구글이 저보다 잘합니다. 거대한 데이터와 기기를 가졌으니까요. 여기서 두 가지를 배웠습니다.

  • 방향이 맞았다는 확인. "감정을 자막에"라는 아이디어가 헛것이 아니라, 큰 회사도 같은 방향으로 움직였다는 건 그 필요가 진짜라는 뜻입니다.
  • 발명자가 설 자리는 "빅테크가 아직 안 하는 빈자리". 방향(어디서 나는 소리인지), 맥락(횡단보도 경적처럼 위험한지), 그리고 진동·신호의 공통 표준 — 시장이 작아 큰 회사가 손대지 않는 곳입니다. 저는 이쪽으로 방향을 좁히려 합니다.

아직 풀리지 않은 질문

그럼 방향·맥락은 빅테크도 왜 아직 안 할까요? 제 다음 가정은 이렇습니다 — 방향을 알려면 마이크가 여러 개인 기기가 필요하고, "위험한 소리"라고 알렸다가 틀리면 책임 문제가 생기며, 진동 신호엔 표준이 없어 만들 이유가 약하다는 것. 이 가정도 다음 글에서 검증해 보려 합니다. 틀렸다면 알려 주세요.

쓴 사람의 한마디

저는 청각장애 당사자가 아닙니다. 그래서 "이 기능이 실제로 도움이 되는지"는 끝내 당사자분들의 판단이 가장 중요합니다. Expressive Captions를 써 보셨다면 어땠는지, 방향·맥락 정보가 정말 필요한지, 댓글이나 이메일로 알려 주시면 다음 설계에 반영하겠습니다. 발명은 혼자 그리는 그림이 아니라, 틀린 가정을 하나씩 지워 가는 일이라고 생각합니다.

정보 출처: Google 공식 블로그(Expressive Captions, 2024), CHI 2023 "Visualization of Speech Prosody and Emotion in Captions" (ACM), 관련 보도 (2026년 기준). 기능·연구는 계속 업데이트됩니다.