응용 프로그램의 수와 음성 인터페이스의 중요성이 빠르게 증가하고 있습니다-AvtoTachki

내용

빅 XNUMX
미국인들은 사고 싶어한다
씻고, 굽고, 닦고!
오래 된 개념입니다. 마침내 그녀의 시간이 왔습니까?
기술적으로 어려운 질문
목소리? 그래픽 아트? 아니면 둘 다?
안전을 조심하십시오!

오리건 주 포틀랜드에 사는 한 미국인 가족은 최근 Alex의 음성 비서가 개인 채팅을 녹음하여 친구에게 보냈다는 사실을 알게 되었습니다. 언론에서 Danielle이라고 불리는 집 주인은 기자들에게 "신뢰할 수 없기 때문에 이 장치를 다시는 연결하지 않을 것"이라고 말했습니다.

알렉사, 미국 수천만 가정의 Echo 스피커(1) 및 기타 가제트에서 제공하는 는 이름이나 사용자가 말하는 "호출 단어"를 들을 때 녹음을 시작합니다. 즉, TV 광고에서 "Alexa"라는 단어가 언급되어도 장치가 녹화를 시작할 수 있습니다. 하드웨어 유통업체인 Amazon은 이것이 바로 이 경우에 발생했다고 말합니다.

회사 측은 성명을 통해 "나머지 대화 내용은 음성 비서가 메시지를 보내라는 명령으로 해석했다"고 밝혔다. "어느 시점에서 Alexa는 "누구에게?"라고 큰 소리로 물었습니다. 견목 바닥재에 대한 가족 대화의 지속은 기계에서 고객의 연락처 목록에 있는 항목으로 인식되어야 합니다.” 적어도 아마존은 그렇게 생각합니다. 따라서 번역은 일련의 사고로 축소됩니다.

그러나 불안은 여전하다. 우리가 여전히 편안하다고 느꼈던 집에서 어떤 이유로 우리는 일종의 "음성 모드"로 들어가야 하고, 우리가 말하는 것, TV가 방송하는 것, 그리고 물론 서랍장에 있는 이 새로운 스피커를 시청해야 합니다. 말한다 . 우리를.

그럼에도 불구하고 기술 결함과 개인 정보 보호 문제에도 불구하고 Amazon Echo와 같은 장치의 인기가 높아짐에 따라 사람들은 음성을 사용하여 컴퓨터와 상호 작용하는 아이디어에 익숙해지기 시작했습니다..

Amazon의 CTO인 Werner Vogels가 2017년 말 AWS re:Invent 세션에서 지적했듯이 기술은 지금까지 컴퓨터와 상호 작용하는 능력을 제한했습니다. 우리는 키보드를 사용하여 Google에 키워드를 입력합니다. 이것은 여전히 기계에 정보를 입력하는 가장 일반적이고 쉬운 방법이기 때문입니다.

보겔스가 말했다. -

빅 XNUMX

전화에서 Google 검색 엔진을 사용할 때 우리는 아마도 오래 전에 통화하라는 마이크 표시를 보았을 것입니다. 이것 지금 구글 (2) 검색어를 지시하거나 음성으로 메시지를 입력하는 등의 기능이 있습니다. 최근 몇 년 동안 Google, Apple 및 Amazon이 크게 개선되었습니다. 음성 인식 기술. Alexa, Siri 및 Google Assistant와 같은 음성 비서는 음성을 녹음할 뿐만 아니라 사용자가 말하는 내용을 이해하고 질문에 답변합니다.

Google Now는 모든 Android 사용자에게 무료로 제공됩니다. 예를 들어 애플리케이션은 알람을 설정하고 일기 예보를 확인하고 Google 지도에서 경로를 확인할 수 있습니다. Google Now 상태의 대화식 확장 구글 어시스턴트() – 장비 사용자에 대한 가상 지원. 주로 모바일 및 스마트 홈 기기에서 사용 가능합니다. Google Now와 달리 양방향 교환에 참여할 수 있습니다. 이 어시스턴트는 2016년 3월 Google 메시징 앱 Allo와 Google Home 음성 스피커(XNUMX)의 일부로 데뷔했습니다.

3. 구글 홈

IOS 시스템에는 자체 가상 비서도 있습니다. 시리, Apple의 운영 체제 iOS, watchOS, tvOS homepod 및 macOS에 포함된 프로그램입니다. Siri는 5년 4월 Let's Talk iPhone 컨퍼런스에서 iOS 2011 및 iPhone XNUMXs와 함께 데뷔했습니다.

이 소프트웨어는 대화형 인터페이스를 기반으로 합니다. 사용자의 자연스러운 음성을 인식하고(iOS 11에서는 수동으로 명령을 입력할 수도 있음) 질문에 답하고 작업을 완료합니다. 머신러닝의 도입으로 시간이 지남에 따라 어시스턴트가 개인 취향 분석 사용자가 더 관련성 높은 결과와 권장 사항을 제공할 수 있습니다. Siri는 지속적인 인터넷 연결이 필요합니다. 여기서 정보의 주요 출처는 Bing 및 Wolfram Alpha입니다. iOS 10은 타사 확장에 대한 지원을 도입했습니다.

빅 XNUMX 중 또 다른 하나 코타나. Microsoft에서 만든 지능형 개인 비서입니다. Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android 및 iOS 플랫폼에서 지원됩니다. Cortana는 2014년 XNUMX월 샌프란시스코에서 열린 Microsoft Build Developer Conference에서 처음 소개되었습니다. 프로그램 이름은 Halo 게임 시리즈의 캐릭터 이름에서 따왔습니다. Cortana는 영어, 이탈리아어, 스페인어, 프랑스어, 독일어, 중국어 및 일본어로 제공됩니다.

이미 언급한 프로그램의 사용자 알렉사 또한 언어 제한도 고려해야 합니다. 디지털 비서는 영어, 독일어, 프랑스어 및 일본어만 구사합니다.

Amazon Virtual Assistant는 Amazon Lab126에서 개발한 Amazon Echo 및 Amazon Echo Dot 스마트 스피커에 처음 사용되었습니다. 음성 인터랙션, 음악 재생, 할 일 목록 생성, 알람 설정, 팟캐스트 스트리밍, 오디오북 재생 및 실시간 날씨, 교통, 스포츠 및 뉴스(4)와 같은 기타 뉴스 정보를 제공합니다. Alexa는 여러 스마트 장치를 제어하여 홈 자동화 시스템을 만들 수 있습니다. 아마존 스토어에서 편리한 쇼핑을 할 때도 사용할 수 있습니다.

4. 사용자가 Echo를 사용하는 용도(연구에 따르면)

사용자는 타사에서 개발한 추가 기능인 Alexa "스킬"()을 설치하여 Alexa 경험을 향상시킬 수 있습니다. 다른 설정에서는 날씨 및 오디오 프로그램과 같은 앱으로 더 일반적으로 지칭됩니다. 대부분의 Alexa 장치를 사용하면 .

아마존은 확실히 오늘날 스마트 스피커 시장을 지배하고 있습니다(5). 2018년 XNUMX월 새로운 서비스를 선보인 IBM이 XNUMX위권 진입을 노리고 있다. 왓슨의 조수, 음성 제어로 가상 비서의 자체 시스템을 만들고자 하는 회사를 위해 설계되었습니다. IBM 솔루션의 장점은 무엇입니까? 회사 대표에 따르면 우선 개인화 및 개인 정보 보호를 위한 훨씬 더 큰 기회에 대해 설명합니다.

첫째, Watson Assistant에는 브랜드가 없습니다. 회사는 이 플랫폼에서 자체 솔루션을 만들고 자체 브랜드로 레이블을 지정할 수 있습니다.

둘째, 자체 데이터 세트를 사용하여 보조 시스템을 훈련할 수 있습니다. IBM은 이를 통해 다른 VUI(음성 사용자 인터페이스) 기술보다 해당 시스템에 기능과 명령을 더 쉽게 추가할 수 있다고 말합니다.

셋째, Watson Assistant는 사용자 활동에 대한 정보를 IBM에 제공하지 않습니다. 플랫폼의 솔루션 개발자는 중요한 데이터만 보관할 수 있습니다. 한편, 예를 들어 Alexa로 기기를 구축하는 사람은 소중한 데이터가 결국 Amazon에 저장된다는 사실을 알아야 합니다.

Watson Assistant에는 이미 여러 구현이 있습니다. 예를 들어 이 시스템은 마세라티 컨셉트 카(6)의 음성 비서를 만든 Harman이 사용했습니다. 뮌헨 공항에서 IBM 어시스턴트는 승객이 이동할 수 있도록 페퍼 로봇을 구동합니다. 세 번째 예는 음성 기술이 스마트 홈 미터에 사용되는 Chameleon Technologies입니다.

6. 마세라티 컨셉카의 왓슨 어시스턴트

여기에 기본 기술도 새로운 것이 아니라는 점을 추가할 가치가 있습니다. Watson Assistant에는 기존 IBM 제품, Watson Conversation 및 Watson Virtual Agent에 대한 암호화 기능과 언어 분석 및 채팅을 위한 API가 포함되어 있습니다.

Amazon은 스마트 음성 기술의 선두주자일 뿐만 아니라 이를 직접 비즈니스로 전환하고 있습니다. 그러나 일부 회사는 훨씬 더 일찍 Echo 통합을 실험했습니다. BI 및 분석 업계의 회사인 Sisense는 2016년 XNUMX월 Echo 통합을 도입했습니다. 결과적으로 스타트업 Roxy는 호텔 산업을 위한 음성 제어 기능이 있는 자체 소프트웨어 및 하드웨어를 만들기로 결정했습니다. 올해 초 Synqq는 음성 및 자연어 처리를 사용하여 키보드로 입력하지 않고도 메모와 캘린더 항목을 추가하는 메모 작성 앱을 출시했습니다.

이 모든 중소기업은 높은 야망을 가지고 있습니다. 그러나 무엇보다도 모든 사용자가 음성 커뮤니케이션 플랫폼 구축에서 가장 중요한 역할을 하는 Amazon, Google, Apple 또는 Microsoft에 데이터를 전송하고 싶어하는 것은 아니라는 사실을 알게 되었습니다.

미국인들은 사고 싶어한다

2016년에 음성 검색은 전체 Google 모바일 검색의 20%를 차지했습니다. 이 기술을 매일 사용하는 사람들은 가장 큰 이점으로 편의성과 멀티태스킹을 꼽습니다. (예를 들어, 자동차를 운전하는 동안 검색 엔진을 사용하는 기능).

Visiongain 분석가들은 스마트 디지털 비서의 현재 시장 가치를 1,138억 2018만 달러로 추정하고 있으며, 이러한 메커니즘이 점점 더 많이 존재합니다. Gartner에 따르면 이미 XNUMX년 말까지 우리 상호작용의 30% 기술은 음성 시스템과의 대화를 통해 이루어집니다.

영국 리서치 회사 IHS Markit에 따르면 AI 기반 디지털 비서 시장은 올해 말까지 4억 개에 도달하고 2020년에는 7억 개까지 증가할 수 있습니다.

eMarketer와 VoiceLabs의 보고서에 따르면 2017년에 35,6만 명의 미국인이 한 달에 한 번 이상 음성 제어를 사용했습니다. 이는 전년 대비 약 130% 증가한 수치입니다. 디지털 비서 시장만 해도 2018년 23% 성장할 것으로 예상됩니다. 이것은 당신이 이미 그것들을 사용하고 있다는 것을 의미합니다. 60,5 천만 미국인, 이는 생산자에게 구체적인 돈을 가져다 줄 것입니다. RBC Capital Markets는 Alexa 인터페이스가 2020년까지 Amazon에서 최대 10억 달러의 수익을 창출할 것으로 추정합니다.

씻고, 굽고, 닦고!

음성 인터페이스는 점점 더 과감하게 가전 및 가전 시장에 진입하고 있습니다. 이는 작년 IFA 2017 전시회에서 이미 볼 수 있었는데, 예를 들어 미국 회사 Neato Robotics는 Amazon Echo 시스템을 비롯한 여러 스마트 홈 플랫폼 중 하나에 연결되는 로봇 청소기를 선보였습니다. Echo 스마트 스피커와 대화하여 낮이나 밤의 특정 시간에 집 전체를 청소하도록 기계에 지시할 수 있습니다.

터키 회사 Vestel이 Toshiba 브랜드로 판매하는 스마트 TV부터 독일 회사 Beurer의 온열 담요에 이르기까지 다양한 음성 인식 제품이 쇼에서 선보였습니다. 이러한 전자 장치 중 상당수는 스마트폰을 사용하여 원격으로 활성화할 수도 있습니다.

그러나 보쉬 관계자에 따르면 어떤 홈 어시스턴트 옵션이 지배적일지 말하기에는 너무 이르다. IFA 2017에서 독일 기술 그룹은 Echo에 연결된 세탁기(7), 오븐 및 커피 머신을 선보였습니다. 또한 Bosch는 향후 자사 장치가 Google 및 Apple 음성 플랫폼과 호환되기를 원합니다.

7. 아마존 에코와 연결되는 보쉬 세탁기

Fujitsu, Sony 및 Panasonic과 같은 회사는 자체 AI 기반 음성 비서 솔루션을 개발하고 있습니다. Sharp는 이 기술을 시장에 진입하는 오븐과 소형 로봇에 추가하고 있습니다. Nippon Telegraph & Telephone은 음성 제어 인공 지능 시스템을 적용하기 위해 하드웨어 및 장난감 제조업체를 고용하고 있습니다.

오래 된 개념입니다. 마침내 그녀의 시간이 왔습니까?

사실, 음성 사용자 인터페이스(VUI)의 개념은 수십 년 동안 존재해 왔습니다. 몇 년 전에 Star Trek이나 2001: A Space Odyssey를 본 사람이라면 누구나 2000년 경에는 우리 모두가 목소리로 컴퓨터를 제어할 것이라고 예상했을 것입니다. 또한 이러한 유형의 인터페이스의 가능성을 본 것은 공상과학 소설 작가뿐만이 아닙니다. 1986년 Nielsen 연구원들은 IT 전문가들에게 2000년까지 사용자 인터페이스의 가장 큰 변화가 무엇이라고 생각하는지 물었습니다. 그들은 가장 자주 음성 인터페이스의 개발을 지적했습니다.

그러한 해결책을 기대할 만한 이유가 있습니다. 결국 언어 의사 소통은 사람들이 의식적으로 생각을 교환하는 가장 자연스러운 방법이므로 인간-기계 상호 작용에 사용하는 것이 지금까지 가장 좋은 솔루션인 것 같습니다.

최초의 VUI 중 하나인 신발장, IBM에서 60년대 초에 만들었습니다. 그것은 오늘날의 음성 인식 시스템의 선구자였습니다. 그러나 VUI 장치의 개발은 컴퓨팅 성능의 한계로 인해 제한되었습니다. 인간의 말을 실시간으로 파싱하고 해석하려면 많은 노력이 필요하고, 그것이 실제로 가능해지기까지 XNUMX년 이상의 시간이 걸렸다.

음성 인터페이스가 있는 장치는 90년대 중반에 대량 생산에 등장하기 시작했지만 인기를 얻지는 못했습니다. 음성 제어(다이얼링) 기능이 있는 최초의 전화기는 필립스 스파크1996년 발매. 그러나 이 혁신적이고 사용하기 쉬운 장치는 기술적 한계에서 자유롭지 못했습니다.

음성 인터페이스 형태를 갖춘 다른 전화기(RIM, Samsung 또는 Motorola와 같은 회사에서 제작)가 정기적으로 시장에 출시되어 사용자가 음성으로 전화를 걸거나 문자 메시지를 보낼 수 있습니다. 그러나 그들 모두는 특정 명령을 암기하고 그 당시 장치의 능력에 맞게 강제적이고 인공적인 형태로 발음해야했습니다. 이로 인해 많은 오류가 발생하여 사용자 불만이 발생했습니다.

그러나 우리는 이제 기계 학습과 인공 지능의 발전이 기술과 상호 작용하는 새로운 방법으로서 대화의 잠재력을 열어주는 컴퓨팅의 새로운 시대에 들어서고 있습니다(8). 음성 인터랙션을 지원하는 장치의 수는 VUI 개발에 큰 영향을 미치는 중요한 요소가 되었습니다. 오늘날 세계 인구의 거의 1/3이 이미 이러한 유형의 행동에 사용할 수 있는 스마트폰을 소유하고 있습니다. 대부분의 사용자가 마침내 음성 인터페이스를 조정할 준비가 된 것 같습니다.

8. 음성 인터페이스 개발의 현대사

하지만 스페이스 오디세이의 등장인물들처럼 컴퓨터와 자유롭게 대화하기 위해서는 많은 문제를 극복해야 한다. 기계는 여전히 언어적 뉘앙스를 잘 다루지 못합니다. 게다가 많은 사람들이 여전히 검색 엔진에 음성 명령을 내리는 것을 불편하게 생각합니다..

통계에 따르면 음성 도우미는 주로 집이나 친한 친구 사이에서 사용됩니다. 인터뷰에 응한 사람 중 누구도 공공 장소에서 음성 검색을 사용한 사실을 인정하지 않았습니다. 그러나 이러한 봉쇄는 이 기술의 보급으로 사라질 가능성이 높습니다.

기술적으로 어려운 질문

시스템(ASR)이 직면한 문제는 음성 신호에서 유용한 데이터를 추출하고 이를 사람에게 특정 의미를 갖는 특정 단어와 연관시키는 것입니다. 생성되는 소리는 매번 다릅니다.

음성 신호 가변성 예를 들어 억양이나 억양을 인식하는 자연적인 속성입니다. 음성 인식 시스템의 각 요소에는 특정 작업이 있습니다. 처리된 신호 및 해당 매개변수를 기반으로 언어 모델과 연결된 음향 모델이 생성됩니다. 인식 시스템은 작동하는 어휘의 크기를 결정하는 작거나 많은 패턴을 기반으로 작동할 수 있습니다. 그들은 할 수있다 작은 사전 개별 단어나 명령을 인식하는 시스템의 경우 뿐만 아니라 대규모 데이터베이스 언어 세트와 동등한 것을 포함하고 언어 모델(문법)을 고려합니다.

음성 인터페이스가 처음에 직면한 문제 말을 올바르게 이해하다, 예를 들어 전체 문법 시퀀스가 생략되는 경우가 많고 언어 및 음성 오류, 오류, 누락, 음성 결함, 동음이의어, 부당한 반복 등이 발생합니다. 이러한 모든 ACP 시스템은 빠르고 안정적으로 작동해야 합니다. 적어도 그것이 기대입니다.

어려움의 원인은 또한 인식 시스템의 입력에 입력되는 인식된 음성 이외의 음향 신호입니다. 모든 종류의 간섭 및 소음. 가장 간단한 경우에 필요합니다. 걸러내다. 이 작업은 일상적이고 쉬워 보입니다. 결국 다양한 신호가 필터링되고 모든 전자 엔지니어는 이러한 상황에서 무엇을 해야 하는지 알고 있습니다. 그러나 음성 인식 결과가 우리의 기대에 부응하려면 매우 신중하고 신중하게 수행해야 합니다.

현재 사용하고 있는 필터링은 음성 신호와 함께 마이크가 포착한 외부 잡음과 음성 신호 자체의 내부 특성을 제거할 수 있어 인식이 어렵다. 그러나 분석된 음성 신호에 대한 간섭이 ... 다른 음성 신호, 예를 들어 주변에서 시끄러운 토론일 때 훨씬 더 복잡한 기술적 문제가 발생합니다. 이 질문은 문헌에서 소위 . 이것은 이미 소위 복잡한 방법의 사용을 요구합니다. 디콘볼루션 (해석) 신호.

음성 인식 문제는 여기서 끝나지 않습니다. 연설에는 다양한 유형의 정보가 포함되어 있다는 사실을 깨달을 가치가 있습니다. 사람의 목소리는 성별, 나이, 소유자의 다른 성격 또는 건강 상태를 나타냅니다. 음성 신호에서 발견되는 특징적인 음향 현상을 기반으로 다양한 질병의 진단을 다루는 의생명공학과가 있습니다.

음성 신호의 음향 분석의 주요 목적이 화자를 식별하거나 그가 주장하는 사람(키, 암호 또는 PUK 코드 대신 음성)을 확인하는 것인 애플리케이션도 있습니다. 이것은 특히 스마트 빌딩 기술에 중요할 수 있습니다.

음성 인식 시스템의 첫 번째 구성 요소는 микрофон. 그러나 마이크에 의해 포착된 신호는 일반적으로 거의 사용되지 않습니다. 연구에 따르면 음파의 모양과 경로는 사람, 말하는 속도, 부분적으로는 대담한 사람의 기분에 따라 크게 달라지지만 말의 내용 자체를 약간 반영하는 것으로 나타났습니다.

따라서 신호를 올바르게 처리해야 합니다. 현대 음향, 음성학 및 컴퓨터 과학은 함께 음성 신호를 처리, 분석, 인식 및 이해하는 데 사용할 수 있는 풍부한 도구 세트를 제공합니다. 신호의 동적 스펙트럼, 소위 동적 스펙트로그램. 그것들은 얻기가 매우 쉽고, 동적 스펙트로그램의 형태로 표시되는 음성은 이미지 인식에 사용되는 것과 유사한 기술을 사용하여 비교적 쉽게 인식할 수 있습니다.

간단한 음성 요소(예: 명령)는 전체 스펙트로그램의 단순 유사성으로 인식할 수 있습니다. 예를 들어, 음성 인식 휴대폰 사전에는 수십에서 수백 개의 단어와 구문만 포함되어 있으며 일반적으로 쉽고 효율적으로 식별할 수 있도록 미리 쌓입니다. 이는 간단한 제어 작업에는 충분하지만 전체 응용 프로그램을 심각하게 제한합니다. 이 계획에 따라 구축된 시스템은 일반적으로 음성이 특별히 훈련된 특정 화자만 지원합니다. 따라서 자신의 목소리를 사용하여 시스템을 제어하려는 새로운 사람이 있는 경우 수락되지 않을 가능성이 큽니다.

이 작업의 결과는 스펙트로그램 2-W, 즉 XNUMX차원 스펙트럼입니다. 이 블록에는 주의를 기울일 가치가 있는 또 다른 활동이 있습니다. 분할. 일반적으로 말해서 우리는 연속적인 음성 신호를 개별적으로 인식할 수 있는 부분으로 나누는 것에 대해 이야기하고 있습니다. 전체의 인식은 이러한 개별 진단에서만 가능합니다. 이 절차는 길고 복잡한 연설을 한 번에 식별하는 것이 불가능하기 때문에 필요합니다. 음성 신호에서 어떤 부분을 구별할 것인지에 대해 전체 볼륨이 이미 작성되었으므로 구별된 부분이 음소(동등한 소리), 음절 또는 이음일지 여부를 지금 결정하지 않을 것입니다.

자동 인식 프로세스는 항상 개체의 일부 기능을 참조합니다. 음성 신호에 대해 수백 개의 서로 다른 매개변수 세트가 테스트되었습니다. 인식된 프레임으로 분할 그리고 갖는 선택한 기능이에 따라 이러한 프레임이 인식 프로세스에 표시되므로 (각 프레임에 대해 개별적으로) 수행할 수 있습니다. 분류, 즉. 미래에 그것을 나타낼 프레임에 식별자를 할당합니다.

다음 단계 프레임을 별도의 단어로 조립 -소위를 기반으로합니다. 암시적 마르코프 모델(HMM-)의 모델. 그런 다음 단어의 몽타주가 나옵니다. 문장을 완성.

이제 잠시 동안 Alexa 시스템으로 돌아갈 수 있습니다. 그의 예는 기계가 사람을 "이해"하는 다단계 프로세스를 보여줍니다. 더 정확하게는 그 사람이 제공한 명령 또는 질문한 질문입니다.

단어를 이해하는 것과 의미를 이해하는 것과 사용자의 의도를 이해하는 것은 완전히 다른 것입니다.

따라서 다음 단계는 NLP 모듈()의 작업이며, 그 작업은 사용자 의도 인식, 즉. 명령/질문이 발화된 맥락에서 의미. 의도가 확인되면 소위 기술과 능력의 할당, 즉 스마트 어시스턴트가 지원하는 특정 기능. 날씨에 대한 질문의 경우 날씨 데이터 소스가 호출되며 음성으로 처리됩니다(TTS - 메커니즘). 결과적으로 사용자는 질문에 대한 답변을 듣게 됩니다.

목소리? 그래픽 아트? 아니면 둘 다?

가장 잘 알려진 현대 상호 작용 시스템은 그래픽 사용자 인터페이스 (그래픽 인터페이스). 불행히도 GUI는 디지털 제품과 상호 작용하는 가장 확실한 방법이 아닙니다. 이를 위해 사용자는 먼저 인터페이스 사용 방법을 배우고 이후의 각 상호 작용에서 이 정보를 기억해야 합니다. 많은 상황에서 음성은 장치에 말을 하는 것만으로 VUI와 상호 작용할 수 있기 때문에 훨씬 더 편리합니다. 사용자가 특정 명령이나 상호 작용 방법을 암기하고 암기하도록 강요하지 않는 인터페이스는 문제를 덜 유발합니다.

물론 VUI의 확장이 보다 전통적인 인터페이스를 포기하는 것을 의미하는 것은 아닙니다. 오히려 여러 상호 작용 방식을 결합한 하이브리드 인터페이스를 사용할 수 있게 될 것입니다.

음성 인터페이스는 모바일 컨텍스트의 모든 작업에 적합하지 않습니다. 그것으로 우리는 자동차를 운전하는 친구에게 전화를 걸고 그에게 SMS를 보낼 수도 있지만 시스템 ()으로 전송되고 시스템 (시스템)에서 생성되는 정보의 양으로 인해 최신 전송을 확인하는 것이 너무 어려울 수 있습니다. Rachel Hinman이 그녀의 저서 Mobile Frontier에서 제안한 것처럼 VUI를 사용하는 것은 입력 및 출력 정보의 양이 적은 작업을 수행할 때 가장 효과적입니다.

인터넷에 연결된 스마트폰은 편리하기도 하지만 불편하기도 합니다(9). 사용자가 무언가를 구매하거나 새로운 서비스를 사용하려고 할 때마다 다른 앱을 다운로드하고 새 계정을 만들어야 합니다. 음성 인터페이스의 사용 및 개발을 위한 필드가 여기에 생성되었습니다. 전문가들은 사용자가 다양한 앱을 설치하거나 각 서비스에 대해 별도의 계정을 만들도록 강요하는 대신 VUI가 이러한 번거로운 작업의 부담을 AI 기반 음성 비서로 옮길 것이라고 말합니다. 그가 격렬한 활동을 수행하는 것이 편리할 것입니다. 우리는 그에게 명령을 내릴 뿐입니다.

9. 스마트폰을 통한 음성 인터페이스

오늘날에는 전화와 컴퓨터 그 이상이 인터넷에 연결되어 있습니다. 스마트 온도 조절 장치, 조명, 주전자 및 기타 많은 IoT 통합 장치도 네트워크에 연결됩니다(10). 따라서 우리 주변에는 우리 삶을 채우는 무선 장치가 있지만 모두 그래픽 사용자 인터페이스에 자연스럽게 들어맞는 것은 아닙니다. VUI를 사용하면 쉽게 우리 환경에 통합할 수 있습니다.

10. 사물 인터넷과의 음성 인터페이스

음성 사용자 인터페이스를 만드는 것은 곧 핵심 디자이너 기술이 될 것입니다. 이것은 실제 문제입니다. 음성 시스템을 구현해야 할 필요성은 사전 예방적 설계, 즉 사용자의 초기 의도를 이해하려고 노력하고 대화의 모든 단계에서 사용자의 요구와 기대를 예상하는 데 더 집중하도록 권장합니다.

음성은 데이터를 입력하는 효율적인 방법입니다. 사용자가 원하는 방식으로 시스템에 신속하게 명령을 내릴 수 있습니다. 반면에 화면은 정보를 표시하는 효율적인 방법을 제공합니다. 즉, 시스템에서 많은 양의 정보를 동시에 표시할 수 있으므로 사용자의 메모리에 대한 부담이 줄어듭니다. 그것들을 하나의 시스템으로 결합하는 것이 고무적으로 들리는 것은 논리적입니다.

Amazon Echo 및 Google Home과 같은 스마트 스피커는 시각적 디스플레이를 전혀 제공하지 않습니다. 적당한 거리에서 음성 인식의 정확도를 크게 향상시켜 핸즈프리 작동을 허용하여 유연성과 효율성을 높입니다. 이미 음성 제어 기능이 있는 스마트폰이 있는 사용자에게도 바람직합니다. 그러나 화면이 없다는 것이 큰 한계입니다.

신호음만 사용자에게 가능한 명령을 알리는 데 사용할 수 있으며 출력을 소리내어 읽는 것은 가장 기본적인 작업을 제외하고는 지루합니다. 요리하는 동안 음성 명령으로 타이머를 설정하는 것은 좋지만 시간이 얼마나 남았는지 묻게 할 필요는 없습니다. 정기적인 일기 예보를 받는 것은 사용자에게 기억력 테스트가 됩니다. 사용자는 화면에서 한 눈에 파악하기보다는 일주일 내내 일련의 사실을 듣고 흡수해야 합니다.

디자이너들은 이미 하이브리드 솔루션, 기본 에코 스마트 스피커에 디스플레이 화면을 추가한 에코 쇼(11). 이것은 장비의 기능을 크게 확장합니다. 그러나 Echo Show는 스마트폰과 태블릿에서 오랫동안 사용할 수 있었던 기본 기능을 수행할 수 있는 능력이 여전히 훨씬 떨어집니다. 예를 들어 (아직) 웹 서핑을 하거나 리뷰를 표시하거나 Amazon 장바구니의 내용을 표시할 수 없습니다.

시각적 디스플레이는 본질적으로 단순한 소리보다 풍부한 정보를 사람들에게 제공하는 더 효과적인 방법입니다. 음성 우선으로 디자인하는 것은 음성 상호 작용을 크게 향상시킬 수 있지만 장기적으로 상호 작용을 위해 시각적 메뉴를 임의로 사용하지 않는 것은 한 손을 등 뒤로 묶고 싸우는 것과 같습니다. 종단 간 지능형 음성 및 디스플레이 인터페이스의 복잡성으로 인해 개발자는 인터페이스에 대한 하이브리드 접근 방식을 진지하게 고려해야 합니다.

음성 생성 및 인식 시스템의 효율성과 속도를 높이면 다음과 같은 응용 프로그램 및 영역에서 사용할 수 있습니다.

• 군대(예: F16 VISTA와 같은 비행기 또는 헬리콥터의 음성 명령),

• 자동 텍스트 전사(음성에서 텍스트로),

• 대화형 정보 시스템(Prime Speech, 음성 포털),

• 모바일 장치(전화, 스마트폰, 태블릿),

• 로봇 공학(Cleverbot - 인공 지능과 결합된 ASR 시스템),

• 자동차(Blue & Me와 같은 자동차 부품의 핸즈프리 제어),

• 홈 애플리케이션(스마트 홈 시스템).

안전을 조심하십시오!

자동차, 가전 제품, 난방/냉각 및 홈 보안 시스템 및 다수의 가전 제품에서 음성 인터페이스(종종 AI 기반)를 사용하기 시작했습니다. 이 단계에서 기계와의 수백만 건의 대화에서 얻은 데이터는 컴퓨팅 클라우드. 마케터들이 관심을 갖고 있는 것은 분명합니다. 그리고 그들뿐만이 아닙니다.

시만텍 보안 전문가의 최근 보고서에 따르면 음성 명령 사용자는 홈 보안 시스템은 물론 도어록과 같은 보안 기능을 제어하지 말 것을 권장합니다. 비밀번호나 기밀 정보를 저장할 때도 마찬가지입니다. 인공 지능과 스마트 제품의 보안은 아직 충분히 연구되지 않았습니다.

집안 곳곳의 기기들이 모든 말을 들을 때 시스템의 해킹 및 오용 위험이 매우 중요한 문제가 됩니다. 공격자가 로컬 네트워크 또는 관련 이메일 주소에 액세스하면 스마트 장치 설정이 변경되거나 공장 설정으로 재설정되어 중요한 정보가 손실되고 사용자 기록이 삭제될 수 있습니다.

즉, 보안 전문가는 음성 및 VUI 기반 인공 지능이 아직 잠재적인 위협으로부터 우리를 보호하고 낯선 사람이 무언가를 요청할 때 입을 다물 만큼 똑똑하지 않다고 두려워합니다.