우리 집에는 서로 다른 스마트폰이 4대가 있습니다.
모두 삼성 스마트폰으로 매일 아침 4 식구가 빅스비를 찾습니다.
"하이 빅스비, 오늘 날씨는?"
"하이 빅스비, 지금 몇 시니?"
바쁜 아침 출근 시간에 시간을 옷을 입으면서, 시간을 물어보거나, 우산을 가져가야 하는지, 또는 옷을 두껍게 입어야 하는지, 얇게 입어야 하는지를 알아보기 위해 위 두 마디는 매일 아침에 우리집에서 일어나는 풍경 중의 하나입니다.
저는 여기에 하나 더 추가하는 경우가 많습니다. 근방 둔 스마트폰이 어디 있는지 알아보기 위해, "하이 빅스비, 어디 있니?"라고 물어보고, "저, 여기 있어요."라고 스마트폰이 이야기를 합니다.
저희 집 스마트폰은 4개인데, 제가 어디 있는지 물어보면, 항상 제 전화기만 반응을 합니다. 다른 전화기는 제 목소리가 입력되어 있지 않기 때문에 반응을 하지 않는 것이지요.
삼성 빅스비 같은 AI 음성 프로그램은 어떻게 가족들 간의 목소리도 구분해서 서로 다르게 반응하는 걸까요?
저는 이쪽 분야의 전공자도 아니고, 더군다나 관련된 기술자가 아니기에 자세한 것은 알지 못합니다. 하지만, 학교 때 배운 음운론에 관한 어설픈 지식을 가지고 있어서 아주 피상적인 원리는 대강 이해를 하고 있습니다.
https://nous-temperature.tistory.com/237
더불어 "주파수와 음소"와 관련이 있다는 것을요.
우리가 말을 할 때, 소리는 공기를 매개로 해서 전달됩니다. 각각의 음성은 서로 다른 주파수나 파형을 가지면서 다른 사람의 귀에 전달되고, 그게 무슨 말인지 이해를 하게 됩니다.
빅스비 같은 인공지능 기계는 사람과 다르게 사람의 목소리 신호를 주파수나 목소리가 가지는 파형 스펙트럼으로 바꾼 후, 이 음성을 음소 단위로 분류해서 사람의 말을 인식합니다. 그런데, 사람마다 목소리가 다르기 때문에 저장된 음성과 비교하여 서로 다른 사람을 구별하는 것입니다. 이는 다른 말로 하면, 사람마다 목소리의 주파수와 파형 등은 사람의 지문처럼 독특성을 지니고 있다는 말이 됩니다.
음운학이나 음성학의 개념을 약간이라도 찾아본다면, "음성"과 "음소"는 본질적으로 큰 차이가 납니다. "음성"은 우리가 말할 때 나는 물리적인 소리이며 "음소"는 그 음성을 듣고 청자나 화자가 인식하는 소리입니다.
예를 들면, "불, 풀, 뿔" 이 세 음성은 우리나라 말에서는 분명하게 구별되는 말입니다. 그래서, 'ㅂ, ㅍ, ㅃ'은 우리말에서 서로 다른 음소가 되지만, 영어에서는 그렇지 않습니다. (여기서 흔히 오해하고 있는 것이 있는데, 우리는 "불"을 "bul"이 아닌 "pul"로 발음(=음성)합니다.) 이 말을 영어 화자가 들으면 똑같은 말로 인식하기 때문에 'ㅂ, ㅍ, ㅃ'는 영어 화자 입장에서는 음소가 아닙니다. 우리가 서로 다른 의미를 가진 right와 light를 발음할 때, "r과 "l"로 구별하지 못하고 "ㄹ"사용하는 것과 같은 이치입니다.
사람마다 음성의 주파수가 모두 다른 데, 어떻게 유튜브 등에서 자막 버튼을 누르면 해당 말이 텍스트로 변환되는 것일까요?
그것은 음소나 음성의 특정한 주파수 범위 내에서 같은 음소나 음성으로 인식하고 발화한다는 것을 알 수 있습니다. 여러 음소나 음성 등을 연구한 논문들을 읽어보면, 예를 들어, "ㄴ"과 "ㅂ"은 거의 모든 사람들은 음의 높낮이는 다르더라도 특정 주파수 범위를 가진다는 것을 알 수 있습니다. 그래서 인공지능뿐만 아니라 특정 주파수 범위에 있는 목소리를 어떤 음성인지를 인식할 수 있다는 것입니다. 특히, ㄴ, ㅂ은 주파수 범위가 확연하게 차이가 나는 발음 중의 하나이긴 합니다.
"하이 빅스비, 오늘 기분 어때?"라고 물었더니, 오늘은 빅스비가 "구름 한 점 없이 맑은 기분은 유지하고 있어요."라고 말합니다. 물어보는 말에 따라 답변이 항상 똑같은 것이 아닌데, 빅스비가 울적한 제 마음을 아는지 마음 풀라고 하는 것 같습니다.
이는 많은 사람들의 음성 정보를 받으면 받을수록 몇 년 전의 "알파고"처럼 여러 가지 상황에 따라 학습하기 때문일 것입니다.
여기에 어떤 말을 하는 상황 등에 따라서 의미가 변할 수도 있다는 것을 배우거나 입력해야 할 것입니다. 어떤 외국인이 송아지 모습을 보고 "머리에 풀난 송아지가 나무를 들이받았다."라고 한다면 우리는 외국인이 발음한 "풀"을 "뿔"로 인식할 수도 있을 것입니다. "풀난"이라는 발음을 AI가 인식했을 때도, "머리", "송아지", "들이받았다" 등과 함께 합쳐진 말은 "풀"이 아닌 "뿔"이라는 것을 입력된 데이터를 많이 쌓는다면 잘못 발음한 것도 바르게 인식할지 모릅니다.
그냥 그렇다는 이야기입니다. 비교적 높은 주파수 영역을 나타내는 "ㅂ"과 낮은 주파수 영역을 가지는 "ㄴ"의 유무를 꼭 따져봐야 하는 것인지는 판단하기 나름이 아닐 것이라고 느끼는 이유이기도 합니다.
아바타 2 후기 - 일포 (日浦)가 유난히 눈에 들어온 까닭 (1) | 2022.12.26 |
---|---|
유튜브 커뮤니티 탭이 활성화되다 (0) | 2022.11.13 |
2022 교육과정 시안 영어, 그리고 여러 생각들 - 1 (0) | 2022.08.30 |
한자 순이 보였다 - 한산 용의 출현 후기 (0) | 2022.07.28 |
[교과서 편집] 누가 교과서를 아름답다 했는가? - 교과서 개발 과정 (4) | 2022.07.13 |