IBM이 음성인식과 자연어 분석기술을 강화한 새로운 API 5개를 공개했다. 새로운 API는 현재 베타판으로 제공되며, 정식판이 출시되지 전까지 누구나 무료로 이용할 수 있다.
IBM은 2월4일 ▲스피치투텍스트 ▲텍스트투스피치 ▲트레이드오브애널리틱스 ▲콘셉트인사이트 ▲비주얼레코니션 기술을 ‘왓슨 디벨로퍼 클라우드’에서 지원하기 시작했다. IBM은 2013년부터 내부에서 사용되던 ‘왓슨’ 기술을 ‘왓슨 디벨로퍼 클라우드’로 전환해 외부에 판매하고 있다. 현재 총 13개의 API가 공개됐다.
스피치투텍스트 서비스는 음성을 문자로 변환해주는 기술이다. 개발자들은 스피치투텍스트 API를 자신의 애플리케이션에서 붙여 ‘시리’와 같은 음성인식 기능을 추가할 수 있다. IBM이 어려운 음성인식 기술을 대신 개발하고, 개발자는 IBM이 만든 기술을 빌려 앱 성능을 더 높일 수 있는 셈이다. 현재 스피치투텍스트는 영어만 인식할 수 있다.
텍스트투스피치는 반대로 문자를 음성으로 변환해주는 기술이다. 현재 영어와 스페인어만 지원한다. IBM은 공식 블로그를 통해 “시각장애인을 위한 앱, 운전 중 문자를 읽어주는 앱 등에 활용할 수 있다”라고 설명했다.
트레이드오브애널리틱스와 콘셉트인사이트는 데이터 분석기술이다. 트레이드오브애널리틱스는 사용자의 결정을 도와주는 도구다. 사용자가 어떤 휴대폰을 살지 고민하고 있다고 치자. 이때 사용자는 제조사, 휴대폰 크기, 가격, 색깔, 카메라 화질 등을 고려해 휴대폰을 고른다. 트레이드오브애널리틱스 여러 데이터를 토대로 사용자가 고려하는 요소에 가중치를 매긴다. 그리고 “가격을 비교하면 A사, 휴대폰 크기를 비교하면 B사 제품이 낫다”라는 식의 결과를 만들어 그래프로 보여준다.
콘셉트인사이트는 좀 더 광범위한 키워드로 데이터를 분석하는 기술이다. 기존 검색 기술보다 좀 더 다양한 요소를 고려하며 의미망 검색 등에 활용될 수 있다.
비주얼레코니션은 이미지나 비디오 화면의 내용을 분석하는 기술로, 딥러닝 기반으로 만들어졌다. 사용자가 사진을 입력하면 해당 사진에 어떤 물체가 있는지, 어떤 정보를 담고 있는지 등의 결과를 글로 받을 수 있다.
왓슨 디벨로퍼 클라우드는 IBM의 PaaS(Platform as a Service)인 ‘블루믹스’ 위에서 작동하는 기술이다. IBM은 왓슨 디벨로퍼 클라우드에 새로운 기능을 추가해 클라우드 경쟁력을 높일 예정이다.