「音声認識」とは、人間の話し言葉をコンピュータが自動的に認識する処理技術です。 人間が耳で聞いた音声を理解する複雑なしくみをコンピューターで再現しています。 音声認識は、「あ」や「い」などの声の特徴を蓄積した音響モデルや、文章や単語を蓄積した言語モデル・単語辞書などから構成され、デコーダと呼ばれるプログラムがそれらのモデルや辞書をもとに認識処理を行います。 また、周囲の雑音を取り除いたり、マイクの特性を考慮したりすることで認識率を向上させます。
多くの音声認識で利用される「言語モデル」はニュース記事等の正しい日本語から構築されているため、くだけた話し言葉の認識が非常に難しいとされています。 しかし、Webからの効率的な言語収集を行うことで、くだけた話しことばや、特殊な若者用語なども認識を可能にしています。
音声認識は、長い文章を書き起こしたいのか、単語を認識させたいのか、音声ファイルの中身を検索したいのか、など目的によって必要な機能が異なります。 当社は様々な用途や利用シーンに合わせられるように、ぞれぞれ特徴の異なる複数の音声認識エンジンを開発しています。
今まで音声認識はビジネスユースとして利用されてきた例が多く、インターネットが発展した現在でも、音声認識を十分に活かしたWEBサービスは非常に少いといえます。 弊社は、創業時からのWEBサービスの開発技術を活かし、大勢の方が更に楽しく便利になる「SR」×「WEB」のサービスを開発することが可能です。
*下記の画像をクリックすると、しゃべったーの使い方がオーバーレイで表示されます。
しゃべったーは、話し言葉をコンピュータが自動的に認識する処理技術「音声認識」を使った、携帯電話で話すだけで文字入力できるサービスです。
twitterで使用される日本語はニュースなどで用いられる文法的に正しい日本語とは違い、崩れた文法や表現の日本語が使われています。したがって、通常の音声認識で使用する言語モデルではなく、twitterに最適化された言語モデルが必要になります。 弊社は、この言語モデルの構築を、twitterの書き込み約1000万件超をクローリングすることによって、twitterに適応した言語モデルを構築しています。
Copyright(c) 2006-2009 Catalog Inc. All rights reserved.