日本語音声合成ライブラリ(Linux版、FreeBSD版)

私たちは音声合成と音声認識で新しいヒューマン・インターフェースを追求しています。


日本語音声合成ライブラリ(Linux版、FreeBSD版)

日本語音声合成とは、漢字カナ混じりの日本語テキストデータを音声波形(PCM)に変換するプログラムのことです。このライブラリを使えば、日本語のテキストを合成音声で喋らせることができるようになります。本ライブラリは、業界トップクラスの評価を受けている富士通製音声合成エンジンを Linuxおよび、FreeBSD 用にまとめたものであり、正確な読みと自然なイントネーション、明瞭な発音を特徴としています。

製品情報のトップ

特徴

音声合成には大きくわけて言語処理と波形処理の2つの処理が必要になります。

言語処理

日本語の漢字混じり文を表音文字に変換します。より正確な読みとアクセントを作り出すために以下の技術を使用しています。
  • 連続音声認識技術を応用した高精度な形態素解析技術
  • 約14万語の単語の読みとアクセント等を記憶した単語辞書

波形処理

表音文字を音声波形(PCM)に変換します。高い明瞭度(聞き取りやすさ)を実現するために以下の技術を使用しています。
  • 自然音声に近い母音と子音のタイミングを生成するためのルールベース
  • 波形編集に基づく音声波形生成技術
その結果、抜群の読み正解率と、発声の滑らかさ、韻律の自然性、了解性に優れた音声合成システムとなっています。

動作環境 (i386 PC Linux)

Linux 版

FreeBSD版

kernel2.2系 + glibc2.1系
kernel2.4系 + glibc2.2系
kernel2.6系 + glibc2.3系
FreeBSD 4.10 (i386)
FreeBSD 5.2.1 (i386)

動作確認済みディストリビューション

Linux 版

FreeBSD版

kernel2.2系 + glibc2.1系
・RedHut Linux 6.2J
・TurboLinux 6.0 Workstation

kernel2.4系 + glibc2.2系
・RedHut Linux 7.2
・RedHut Linux 8.0
・TurboLinux 7.0 Workstation
・Vine Linux 2.5

kernel2.6系 + glibc2.3系
・Fedora Core3 (i-386)
・Fedora Core4 (i-386)
・TurboLinux 10 Desktop
・Momonga Linux2
FreeBSD 4.10 (i386)
FreeBSD 5.2.1 (i386)

開発環境

 gccによる C言語


価格

CD-R版 10,780円(税込)+990円(別途送料税込)
ベクタープロレジより購入 5,280円(税込)

ランタイム契約(当社に直接ご相談ください)
100本単位で1000本に達するまでは1本あたり1,100円(税込)
1000本を超えた時点から、1本あたり550円(税込)のロイヤリティとなります。

使用条件

お客様は、本製品を1台のコンピュータに組み込み使用することができます。本製品を利用して作成した実行ファイルは、弊社の許諾を受けることなく、また、ロイヤリティを支払うことなく、複製・配布・販売することができます。ただし、言語辞書、波形辞書を含めて、複製・配布・販売することはできません。貴社製品として、言語辞書、波形辞書を含めての複製・配布・販売をする場合には別途ランタイム契約が必要となります。

仕様

発声制御機能

次の機能がプログラムで制御可能となります。
種類 文字 数値 標準値 初期値 機能
男性の声の指定 M 1~5 3 M3 男性の声を指定します。数値が大きいほど声が高くなります。
女性の声の指定 F 1~5 3 女性の声を指定します。数値が大きいほど声が高くなります。
発声速度の指定 S 0~9 5 S5 発声速度を指定します。数値が大きいほど速くなります。
音量の指定 V 0~9 7 V7 音量を指定します。数値が大きいほど音量が大きくなります。
発声速度のテーブル番号の指定 L 0~9 0 0 発声速度の変化具合を調整するテーブル番号を指定します。数値が大きいほど変化が緩やかです。省略した場合は前に指定したテーブル番号が有効となります。
高域強調の指定 T 0, 1 0 T0 高域強調の有無を指定します。0のとき高域強調を行いません。1のとき高域強調を行います。
抑揚の指定 I 0~3 2
I2 抑揚(イントネーション)の強度を指定します。数字が大きいほどはっきりと抑揚の大きい声になります。

波形辞書

16KHz,11KHz,(8KHz)の3種類の波形辞書(各男女2声)を提供しています。(8KHzはオプション)
波形辞書と組み合せることにより次の6種類の音声合成データを出力できます。
16KHz 16bit 16bitモノラルPCMデータ
8bit 8bitモノラルμ-law PCMデータ
11.025KHz 16bit 16bitモノラルPCMデータ
8bit 8bitモノラルμ-law PCMデータ
8KHz(オプション) 16bit 16bitモノラルPCMデータ
8bit 8bitモノラルμ-law PCMデータ

言語辞書

約14万語を搭載した漢字/表音文字変換辞書です。ここには、いろいろなケースにおける漢字の読み方やアクセント、文法情報などが表音文字という形で格納されています。
また、専門分野別にユーザ辞書が15個まで指定できます。
波形処理API一覧
言語処理API一覧

お申し込み

本製品はショップでは販売されておりません。
ベクターのプロレジサービスをご利用いただけるか、直接当社(CD-R版のみ)へご注文ください。

Linux 版

ご注文は、こちらから
ベクターのプロレジサービスは、こちらから


FreeBSD 版

ご注文は、こちらから
ベクターのプロレジサービスは、こちらから


個人情報の取り扱いについて



製品情報のトップ