太田健吾 / Kengo Ohta (ota)

阿南工業高等専門学校准教授 / 豊橋技術科学大学客員准教授。博士（工学）。

音声言語処理、自然言語処理、AI の教育応用について研究しています。

AIに関する共同研究や技術相談を受け付けています。
（例. 音声AIアプリ、LLMの導入、チャットボット構築、教育向けAIシステム）
まずはお気軽にメールでご相談ください: kengo [at] anan-nct.ac.jp

所属

阿南工業高等専門学校 創造技術工学科情報コース准教授
豊橋技術科学大学 大学院工学研究科客員准教授（音声言語処理研究室）
株式会社 Harmonized Interactions 取締役

主要な研究業績

End-to-End Spontaneous Speech Recognition Based on Disfluency Labeling
K. Horii, M. Fukuda, K. Ohta, R. Nishimura, A. Ogawa, N. Kitaoka
IEICE Trans. Inf. & Syst., 2026
フィラーや言い淀みを含む話し言葉音声の認識精度を改善するために、フィラーや言い淀みを記号ラベルで表現し、 End-to-End 音声認識モデルに明示的に学習させる手法を提案しました。

Domain Adaptation Using Non-Parallel Target Domain Corpus for Self-Supervised Learning-Based ASR
T. Kinouchi, A. Ogawa, Y. Wakabayashi, K. Ohta, N. Kitaoka
Speech Communication, 2025
音声認識モデルを特定のドメインに適応させる際に、目標ドメインの音声データのみを用いて自己教師あり音声認識モデルを適応する手法を提案しました。

Backchannel Prediction for Natural Spoken Dialog Systems Using General Speaker and Listener Information
Y. Fukunaga, R. Nishimura, K. Ohta, N. Kitaoka
Interspeech 2025
自然な音声対話システムを実現するために、個人識別情報に依存しない汎用的な話し手・聞き手のベクトル表現を用いて、相槌の種類を予測する手法を提案しました。

Improving Speech Recognition for Japanese Deaf and Hard-of-Hearing People by Replacing Encoder Layers
K. Takahashi, Y. Wakabayashi, K. Ohta, A. Kobayashi, N. Kitaoka
ICAICTA 2024, Best Paper Award
聴覚障害者による日本語発話音声の認識精度を改善するために、健常者音声で事前学習した音声認識モデルのエンコーダ層を聴覚障害者音声向けに置き換える適応手法を提案しました。

Boosting CTC-based ASR Using Inter-layer Attention-based CTC Loss
K. Hojo, Y. Wakabayashi, K. Ohta, A. Ogawa, N. Kitaoka
Interspeech 2024
高速推論が可能な CTC ベース音声認識モデルの精度向上を目的として、Transformer エンコーダの各層出力をアテンションで重み付けして学習に利用する層間 CTC 損失を提案しました。

Recognition of Target Domain Japanese Speech Using Language Model Replacement
D. Mori, K. Ohta, R. Nishimura, A. Ogawa, N. Kitaoka
EURASIP Journal on Audio, Speech, and Music Processing, 2024
End-to-End 音声認識モデルを目標ドメインに適応させるために、ベイズ定理に基づいて音声認識モデルに内在する言語情報を置換する手法を提案しました。

Response Type Selection for Chat-like Spoken Dialog Systems Based on LSTM and Multi-task Learning
K. Ohta, R. Nishimura, N. Kitaoka
Speech Communication, 2021
雑談音声対話システムにおける応答タイプ選択の精度を向上させるために、ユーザ発話の単語系列を LSTM で処理し、マルチタスク学習により応答タイプを分類する手法を提案しました。

Text-to-speech system for low-resource language using cross-lingual transfer learning and data augmentation
Z. Byambadorj, R. Nishimura, A. Ayush, K. Ohta, N. Kitaoka
EURASIP Journal on Audio, Speech, and Music Processing, 2021
学習データの少ない低資源言語の音声合成を実現するために、英語・日本語の大規模コーパスで事前学習したモデルに対して、言語を横断した転移学習とデータ拡張を組み合わせました。