자막은 소리의 1/5만 채운다 — 청각장애인 AI 보조기술 4모듈 1차 설계 공유
본문 바로가기
발명 기록

자막은 소리의 1/5만 채운다 — 청각장애인 AI 보조기술 4모듈 1차 설계 공유

by accesslog 2026. 5. 4.
3줄 요약
  • 청각장애인 AI 보조기술 4모듈의 1차 설계가 끝나서 공개한다.
  • 출발점은 단순한 발견이다. 자막은 소리의 5요소(내용·감정·맥락·방향·장면) 중 1개만 채운다.
  • 검증이 필요한 가정 4가지를 함께 적었다. 비판·반박·다른 사례 모두 댓글로 부탁한다.
쉬운 글로 보기 (3분)

청각장애인을 위한 AI 도구 4가지를 설계하고 있습니다. 1차 설계가 끝나서 공개합니다.

먼저 알게 된 것은 이거입니다. 소리에는 5가지 정보가 있습니다. 무슨 말인지(내용), 어떤 감정인지(운율), 어디서 나는 소리인지(방향), 위험한지 안전한지(맥락), 음악이라면 어떤 분위기인지. 자막은 첫 번째 하나만 보여줍니다. 네 개가 빠진 채 대화하는 셈입니다.

제가 만드는 4가지는 이 빠진 네 개를 채우는 도구입니다. 음악의 감정을 색과 진동으로, 말의 톤을 자막 옆 색깔로, 위험한 소리를 위치와 함께, 진동 신호의 표준 언어를.

아직 검증되지 않은 가정이 몇 가지 있습니다. 잘못된 가정은 댓글로 알려주세요. 특히 청각장애 당사자분들의 피드백이 절실합니다.

한 달쯤 전부터 청각장애인을 위한 AI 보조기술 4모듈을 설계하고 있다. 하루 30분, 일이 끝난 늦은 밤에. 1차 설계가 어느 정도 정리돼서 매트릭스와 모듈 정의를 공개한다. 발표·논문·공모전 제출 전에 검증받고 싶은 가정이 몇 개 있어서, 그 항목들을 분명히 적어두는 글이다.

출발점 — 자막은 소리의 1/5만 채운다

발단은 한 문장이었다.

"자막 사용자는 평균적으로 말의 38%에 해당하는 정보를 잃는다. 단어는 잡지만 톤·운율·강세·감정·억양은 모두 사라진다."

— Vy & Fels (2009), HCI 학계에서 반복적으로 인용되는 통계

이 38%라는 숫자가 묘하게 오래 남았다. 우리가 친구의 "괜찮아"에서 진짜 괜찮은지 알아채는 건 단어가 아니라 톤이다. 그게 38% 빠진 채로 대화한다는 건 어떤 감각일까.

더 찾아보다가 한 가지를 정리하게 됐다. 소리는 한 가지 정보가 아니다. 인간은 한 번의 소리에서 동시에 5가지를 추출한다.

  • 내용 — 무슨 말인지, 무슨 소리인지
  • 감정·운율 — 화났는지 슬픈지, 진심인지 비꼼인지
  • 방향 — 앞에서 났는지 뒤에서 났는지
  • 맥락 — 위험한 소리인지, 일상 소음인지
  • 장면 음악 — 분위기, 감정의 흐름

현행 보조기술은 거의 대부분 첫 번째 하나만 채운다. 나머지 네 개는 공백이다. 한 장으로 정리하면 이렇다.

다섯 칸 중 한 칸만 채워져 있다. 네 칸은 공백이다. 4모듈은 이 네 칸 각각에 대응한다.

4모듈 1차 설계

거창하지 않다. 한 줄씩이면 이렇다.

  • Track A — 음악 감정 변환. 음악의 감정을 AI로 분석해 색·진동 패턴으로 변환한다. 슬픈 곡과 기쁜 곡이 같은 진동이 되지 않도록. (대응 칸: ⑤)
  • Track B — 운율 시각화. 말의 톤·강세·감정을 분석해 자막 옆에 색 그라디언트와 아이콘으로 띄운다. "괜찮아"가 진짜인지 비꼼인지 보이도록. (대응 칸: ②)
  • Track C — 맥락 인지. 소리 + GPS + 가속도계를 결합해 "어디서 / 왜 위험한지"까지 알려준다. 횡단보도 경적은 일반 도로와 다르게 처리되도록. (대응 칸: ③④)
  • Track D — 촉각 표준. 진동 신호의 의미가 제조사·앱마다 다르다. 단어·문법 수준의 오픈 표준을 제안한다. 누구든 갖다 쓸 수 있도록. (전 모듈 공통 인터페이스)

네 개를 동시에 진행하지는 않는다. 지금은 Track A·C 두 개를 우선 시도하고, B·D는 올해 후반과 2027년에 차례로 시작한다. 완성 속도보다 매트릭스가 정확하게 채워지는지가 더 중요한 단계다.

검증이 필요한 가정 4가지

1차 설계에는 아직 검증되지 않은 가정이 들어 있다. 발표하기 전에 분명히 적어둔다. 이 항목들에 대한 비판·반박·다른 사례를 받고 싶다.

① 매트릭스 자체가 완전한가? 5요소 분류는 ASSETS·CHI의 보조기술 연구 동향을 종합해서 만들었지만, 빠진 6번째 정보가 있을 수 있다. 예: 잔향(공간감), 속도감, 거리감 같은 항목을 따로 둘지 ⑤ 안에 묶을지가 불확실하다. 분류를 다르게 잡아야 하는 이유가 있다면 듣고 싶다.

② Apple·Google이 ②③④를 안 하는 이유 — 시장 평균 때문일까? 가장 의심스러운 가정이 이거다. 큰 회사가 안 하는 건 보통 (a) 시장이 작거나, (b) 기술이 미숙하거나, (c) 평균에 안 맞기 때문이다. 나는 (c)라고 가정하고 있다. 보조기술이 정확히 "평균에 안 맞는 사람"을 위한 영역이라고 봤기 때문이다. 하지만 다른 이유 — 예컨대 책임 회피, 데이터 부족, 사용자 거부감 — 가 더 클 가능성도 있다.

③ 4모듈이 정말 사용자에게 도움이 되나? 가장 무거운 가정이다. 데모와 프로토타입 단계에서는 답할 수 없는 질문이다. HCI 연구실·청각장애 단체와 작은 파일럿(인지율 측정·일상 사용 일지)을 시도하려고 한다. 적합한 협력 채널이나, 비슷한 도구로 이미 검증된 사례가 있으면 알려주면 좋겠다.

④ Track D 표준 제안이 통과 가능한가? 표준은 누군가 초안을 가져와야 시작된다. 반도체 측정 표준 분야에서 ISO 18516(박막 두께 측정 표준)에 1저자로 참여하면서 그 과정을 옆에서 봤다. 단어·문법 수준의 단순한 초안부터 시작하면 통과 가능성은 있다고 보지만, 보조공학 영역의 표준화 흐름은 반도체와 다를 수 있다. KS·ISO TC 159(접근성) 경험이 있는 분의 조언이 필요하다.

피드백 받고 싶은 항목 (구체)

너무 포괄적인 피드백 요청은 받기 어렵다. 그래서 구체 항목으로 적어둔다. 댓글·이메일·DM 어떤 채널이든 좋다.

  • 매트릭스 5요소에 빠진 정보가 있다면 무엇인지
  • 4모듈 중 우선순위가 잘못됐다고 느끼는 부분
  • 현행 도구(자막·SoundShirt·Apple Haptics 등) 평가 중 사실관계 오류
  • 당사자분이 일상에서 가장 부족하다고 느끼는 정보 종류 (5요소 중 또는 외부)
  • HCI·접근성 연구실, 청각장애 단체 중 협업 가능성이 있는 곳
  • 비슷한 시도를 하고 있는 다른 프로젝트·논문 (놓친 선행연구)

다음 단계

5월부터 7월까지는 Track A 데모(Streamlit·HuggingFace Spaces)와 Track C 프로토타입을 우선 만든다. 7월 이후 Track D 표준 초안 작성을 시작하고, 9월 NeurIPS Workshop on AI for Accessibility 제출과 10월 ASSETS Posters/Demos를 목표로 잡았다. 매주 진행 상황은 이 블로그 발명 기록 카테고리에 올린다. 실패한 가정도 같이 적을 생각이다. 그게 더 쓸모 있는 데이터일 가능성이 있어서.

참고한 자료

  • Vy, Q. V., & Fels, D. I. (2009). Using avatars for improving speaker identification in captioning. INTERACT 2009. — 자막 정보 손실 통계 인용
  • WHO World Report on Hearing (2021) — 전 세계 청각 장애·난청 인구 추정
  • Goodman et al., "Soundwatch: Exploring smartwatch-based deep learning approaches to support sound awareness for deaf and hard of hearing users" (ASSETS 2020)
  • Apple Human Interface Guidelines — Music Haptics (2024)
  • Not Impossible Labs — Music: Not Impossible / SoundShirt 28-actuator project
  • Google Sound Notifications & Apple Sound Recognition 공식 문서 (2024)
  • ISO 18516:2019 — Surface chemical analysis: thin film thickness measurement (참여 경험 출처)

AccessLog · 에세이 · 2026-05-04 · 김용범 (Yongbum Kim)