사람이 될 수 없는 '음성 인식 비서'
상태바
사람이 될 수 없는 '음성 인식 비서'
  • 레이 클라크, 스완지 대학교 강사
  • 승인 2019.12.02 15:06
  • 댓글 0
이 기사를 공유합니다

(사진: tomasso79/Shutterstock)
(사진: tomasso79/Shutterstock)

현재 2억 가구 이상이 음성 인터넷 접속 기능을 갖춘 스마트 스피커를 보유하고 있다고 추정된다. 주방용 가전이나 자동차는 물론이고 많은 스마트폰에 설치된 말하는 가상 비서들에게 이 스피커를 덧붙이면 알렉사(Alexa)와 시리(Siri)가 된다.
 
말이 인간의 기본적인 일부인 이상, 이러한 비서들이 마땅히 우리처럼 말하고 행동하도록 설계되어야 한다고 생각할 수밖에 없다. 그런데 말이 우리에게 기기와 상호작용 방법을 제공하지만, 진정 현실적인 인간의 대화를 복제하기는 믿기 힘들 정도로 어렵다. 게다가 연구결과에 따르면, 기계를 인간처럼 말하게 만들려는 애쓰는 게 불필요하고 심지어 부정직한 수고일 수 있다. 따라서 우리는 대신 이러한 비서들과 상호작용하는 방법과 이유를 재고해보고, 그들이 기계라서 주는 이점을 받아들이는 법을 배울 필요가 있을지 모른다.
 
음성 기술 설계자들은 종종 ‘인간다움(humanness)’이라는 개념에 대해 언급한다. 최근의 인공 음성 개발의 발전 덕분에 이러한 시스템의 목소리는 인간과 기계를 구분하기 모호할 정도로 점점 더 인간 목소리처럼 들리게 되었다. 이러한 인터페이스의 언어를 더 인간적으로 보이게 만들려는 노력도 추진되고 있다.
 
사람과 대화하는 것처럼 대화할 수 있는 기계를 만들려는 노력 

아마도 전화로 약속을 예약할 수 있는 서비스인 구글 듀플렉스(Google Duplex)가 가장 유명할지 모른다. 이 시스템에 인간적인 특성을 첨가하기 위해 구글은 음성 출력에 “음”과 “어” 같은 소리도 집어넣었다. 우리가 대화를 듣고 있거나 곧 말하려고 한다는 신호를 보낼 때 흔히 내는 소리이다. 구글 듀플렉스의 경우 소리가 사람이 하는 말처럼 자연스럽게 들리게 만들려고 이런 소리를 집어넣었다. 그런데 대체 왜 그렇게 자연스럽거나 더 인간적인 소리가 중요한가?
 
시스템이 인간이 내는 것과 같은 소리를 내고 인간처럼 행동하게 만들려고 하게 된 건 우리가 이 시스템들의 설계를 도모할 때 대중문화적 영감을 받아서 그런 것일 수도 있다. 즉, 우리는 지난 수십 년 동안 문학, 텔레비전, 영화에 나오는 기계와 대화하는 인간의 모습에 매료되었다. 심지어 운영체제와 그것의 사용자 사이의 사랑 이야기도 목격했다. 대중문화 속에서 등장하는 이 모든 기계는 사람처럼 소리를 내고 반응한다.  

우리는 가상 조수는 인간이 아니란 사실을 명심해야 한다. (사진: Phonlamai Photo/Shutterstock)
우리는 가상 비서는 인간이 아니란 사실을 명심해야 한다. (사진: Phonlamai Photo/Shutterstock)

우리와 기계 사이의 대화를 사람과 사람 사이의 대화처럼 만들려면 흥미로운 기술적 도전들을 극복해야 한다. 이를 위해 아마존은 최근 "오락, 스포츠, 정치, 기술, 패션과 같은 다양한 최신 이벤트와 인기 있는 주제에 대해 인간과 일관성 있고 친근하게 대화할 수 있는 ‘소셜 로봇’을 창조“하겠다는 목표 달성을 위해 알렉사 프라이즈(Alexa Prize)라는 대회를 개최한다고 밝혔다. 현재 이 대회는 경쟁 팀들에게 소셜 로봇과 인간 사이에 20분간 이어지는 대화를 만들 것을 요구한다.
 
과학 전반에서 펼쳐지는 다른 도전들과 마찬가지로 이러한 웅대한 도전은 분명 최첨단 기술을 발전시킴으로써 계획되거나 계획되지 않은 이익을 얻는다. 그러나 기계에 다른 인간들처럼 우리와 진정으로 대화할 수 있는 능력을 주려고 할 때 우리는 우리가 말하는 사람들과의 상호작용의 실제 목적이 무엇이며, 그것이 우리가 기계와 하고 싶은 대화와 같은 유형의 대화인지를 고민해봐야 한다.
 
인간 같은 기계를 만든다는 것의 의미

우리는 과업을 완수하고, 상호 관계를 맺고 유지하기 위해 다른 사람들과 대화를 나누는데, 종종 이 두 가지 목적은 서로 얽혀 있다. 하지만 사람들은 기계를 제한된 목적에 봉사하는 도구로 보고, 우리가 매일 다른 사람들과 맺는 관계를 기계와 맺는 데 별다른 흥미를 갖지는 않는다.
 
따라서 우리처럼 들리는 기계와의 자연스러운 대화를 추구하는 게 불필요하고 부담스러운 목표가 될 수 있다. 그것은 실제 우리처럼 소통하고 이해할 수 있는 시스템을 만들 수 있다는 비현실적인 기대만 낳을 수 있다. 아마존 에코(Amazon Echo)나 구글 홈(Google Home)과 소통해본 사람이라면 누구나 기존 시스템으로는 그런 소통과 이해가 불가능하다는 것을 알고 있다.
    
우리는 기계와 할 수 있고, 하고 싶은 상호작용의 종류에는 기술적·철학적 면에서 모두 근본적인 한계가 있을 수 있음을 인정할 수 있다. 우리는 인간과의 대화를 상호작용의 황금 기준으로 삼기보다는 그것으로부터 영감을 받아야 한다. 예를 들어, 기계 시스템을 인간과 유사한 대화자가 아닌 행위자로 인식하는 게 더욱 매력적이고 표현적인 인터페이스를 만드는 데 유용한 방법일 수 있다. 특정 맥락에서는 대화의 특정 요소를 통합하는 노력이 필요할 수도 있다. 그렇지만 우리는 인간 같은 대화의 상호작용을 기본 설계 목표로 삼기보다는 그것이 필요한지부터 생각해봐야 한다. 

 

* 본 칼럼 내용은 Asia Times의 편집 방향과 일치하지 않을 수 있습니다.
 

 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사
이슈포토