AIScriberは、会議やインタビューなどの音声ファイルをアップロードするだけで、自動的に文字起こしを行い、AI を活用して詳細な議事録を生成してくれるWebアプリケーションです。 議事録作成の手間を大幅に削減し、会議の内容を効率的に記録・共有できます。
- 音声ファイルのアップロード: MP3, WAV, MP4 形式の音声ファイルをドラッグ&ドロップまたは選択してアップロードできます。
- 自動文字起こし: アップロードされた音声ファイルは自動的に高精度な音声認識エンジンによって文字起こしされます。
- AI 議事録生成: 文字起こしされたテキストから、Gemini, ChatGPT, Claude などの強力なAIモデルを用いて、構造化された詳細な議事録を自動生成します。
- 議事録の再生成: 生成された議事録に満足できない場合は、ボタン一つで別のAIモデルを使って再生成できます。
- 議事録のダウンロード: 生成された議事録は、テキストファイルまたはMarkdownファイルとしてダウンロードできます。
- 進捗状況の表示: ファイルのアップロード、音声認識、議事録生成の進捗状況がリアルタイムで表示されます。
- 利用状況の確認: APIの利用可能回数などを確認できます。
AIScriber は、以下のコンポーネントで構成されています。
- フロントエンド: HTML, CSS, JavaScript を使用し、ユーザーインターフェースを提供します。
- バックエンド: Python の Flask フレームワークを使用し、APIエンドポイントを提供します。
- 音声認識エンジン: Google Speech Recognition API を使用して音声をテキストに変換します。
- AI 議事録生成エンジン:
- Gemini API (Google)
- ChatGPT API (OpenAI)
- Claude API (Anthropic)
- 必要なライブラリをインストールします。
pip install -r requirements.txt
.env
ファイルに各APIキーを設定します。SECRET_KEY=your_secret_key ANTHROPIC_API_KEY=your_anthropic_api_key GOOGLE_API_KEY=your_google_api_key OPENAI_API_KEY=your_openai_api_key
- アプリケーションを実行します。
flask run
- Webブラウザで
http://127.0.0.1:5000/
にアクセスします。 - 音声ファイルをドラッグ&ドロップするか、ファイル選択ボタンをクリックしてアップロードします。
- アップロードが完了すると、自動的に文字起こしが始まり、その後、議事録が生成されます。
- 議事録を確認し、必要に応じてダウンロードするか、再生成ボタンをクリックして別のAIモデルで議事録を生成します。
- 各AI API の利用には、それぞれのサービスの利用規約に従う必要があります。
- 無料枠を超えた利用には、課金が発生する場合があります。
- 長時間録音された音声ファイルの処理には時間がかかる場合があります。
- 音声録音機能の追加
- 議事録の編集機能の追加
- ユーザーアカウント機能の追加
- 複数の言語への対応
このプロジェクトは MIT ライセンスで公開されています。
このプロジェクトは、以下のオープンソースソフトウェアを利用しています。
- Flask
- Socket.IO
- Google Speech Recognition API
- Gemini API
- ChatGPT API
- Claude API
- [あなたの名前]
このプロジェクトへの貢献を歓迎します。 バグレポート、機能リクエスト、プルリクエストなど、お気軽にご連絡ください。