# 日本語自然言語解析入門：Ginza & Spacy (VS Code Local Environment)

**環境**: VS Code + Jupyter Notebook Extension + Python Local Environment

**プロジェクト**: `/Users/shaw/code_project/sophia/NLP/`

## 🔧 互換性情報 (2025年7月更新)

### ✅ 推奨構成 (GiNZA v5.2公式対応)
- **Python**: 3.8以上
- **spaCy**: v3.4.4 (GiNZA v5.2公式対応バージョン)
- **GiNZA**: v5.2.0
- **ja_ginza**: v5.2.0

### ⚠️ 互換性注意事項
- spaCy 3.8系では一部のモデルで問題が報告されています
- 安定動作のため、spaCy 3.4.4の使用を強く推奨
- Python 3.7以下はGiNZA v5.2でサポート対象外

## 🔧 環境セットアップ / Environment Setup

### 仮想環境の作成と有効化（推奨）

```bash
# ターミナルで実行 / Run in terminal
cd /Users/shaw/code_project/sophia/NLP
python -m venv ginza_env
source ginza_env/bin/activate  # macOS/Linux
# ginza_env\Scripts\activate  # Windows
```

## 📦 パッケージインストール / Package Installation

**重要**: ローカル環境では依存関係が自動解決されるため、Colabより安定しています。

### 📋 公式互換性情報 (GiNZA v5.2, 2025年7月現在)

- **Python**: 3.8以上
- **SpaCy**: v3.4.4 (GiNZA v5.2の公式対応バージョン)
- **Ginza**: 5.2.0
- **ja_ginza**: 5.2.0

### ⚠️ バージョン互換性について

- **GiNZA v5.2**: spaCy v3.4.4と完全互換
- **SpaCy 3.8系**: 一部のモデルで互換性問題が報告されている
- **推奨構成**: Python 3.8+ + spaCy 3.4.4 + GiNZA 5.2.0

### 🔧 エラーが発生した場合の対処順序:
  1. パッケージの再インストール（正確なバージョン指定）
  2. カーネルの再起動
  3. 仮想環境の再作成
  4. Python 3.8以上であることの確認

In [1]:
# 【Step 1】確定バージョンでのパッケージインストール
# Definitive package installation with verified versions

import sys
print(f"Python version: {sys.version}")
print(f"Python executable: {sys.executable}")

# Python 3.8以上の確認
python_version = sys.version_info
if python_version.major == 3 and python_version.minor >= 8:
    print(f"✅ Python {python_version.major}.{python_version.minor}.{python_version.micro} - GiNZA v5.2対応")
else:
    print(f"⚠️ Python {python_version.major}.{python_version.minor}.{python_version.micro} - Python 3.8以上を推奨")

print("\n🎯 確定バージョンでインストール開始...")
print("📌 実績確認済み: spaCy 3.4.4 + GiNZA 5.2.0")

# 確定バージョンでのインストール
#### 確実に、このjupiterカーネル環境でのpythonを使うよう、
# !pip install xxxx
#ではなく
# !{sys.executable} -m pip install xxxx
#を使う。
!{sys.executable} -m pip install --upgrade pip

!{sys.executable} -m pip uninstall -y spacy thinc numpy

# spacy3.4.4をいれたので、numpyとthincもそれにあわせたものに変える
!{sys.executable} -m pip uninstall -y numpy
!{sys.executable} -m pip install "numpy>=1.21,<1.24"
#numpyをかえたので、numpyが依存しているthincもかえておく
####!{sys.executable} -m pip install --force-reinstall thinc
!{sys.executable} -m pip uninstall -y thinc
!{sys.executable} -m pip install "thinc<8.1.0,>=8.0.0"


!{sys.executable} -m pip install "spacy==3.4.4"

!{sys.executable} -m pip install "ginza==5.2.0" 

!{sys.executable} -m pip install "ja_ginza==5.2.0"

"""
!pip install --upgrade pip
!pip install "spacy==3.4.4"
!pip install "ginza==5.2.0" 
!pip install "ja_ginza==5.2.0"
"""


print("\n✅ 確定バージョンインストール完了")
print("🎉 互換性確認済みの安定構成が完了しました")

Python version: 3.10.13 (main, Jul  2 2025, 20:23:28) [GCC 13.3.0]
Python executable: /home/acdevel/WORK/PY/KOUGI/DE/NLP/ginza_env_jupiter310/bin/python
✅ Python 3.10.13 - GiNZA v5.2対応

🎯 確定バージョンでインストール開始...
📌 実績確認済み: spaCy 3.4.4 + GiNZA 5.2.0
Found existing installation: spacy 3.4.4
Uninstalling spacy-3.4.4:
  Successfully uninstalled spacy-3.4.4
Found existing installation: thinc 8.1.12
Uninstalling thinc-8.1.12:
  Successfully uninstalled thinc-8.1.12
Found existing installation: numpy 1.23.5
Uninstalling numpy-1.23.5:
  Successfully uninstalled numpy-1.23.5
[0mCollecting numpy<1.24,>=1.21
  Using cached numpy-1.23.5-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.3 kB)
Using cached numpy-1.23.5-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (17.1 MB)
Installing collected packages: numpy
Successfully installed numpy-1.23.5
[0mCollecting thinc<8.1.0,>=8.0.0
  Using cached thinc-8.0.17-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.meta

In [2]:
# 【Step 2】ja_ginzaモデルダウンロード
# Download ja_ginza model

import spacy

print(f"🔍 SpaCy version: {spacy.__version__}")


print("📥 ja_ginza モデルをダウンロード中... (SKIPしないといけない")

####!{sys.executable} -m spacy download ja_ginza
####!python -m spacy download ja_ginza

print("✅ ja_ginza モデルのダウンロード完了(SKIPしないといけない)")

# モデルロードテスト
print("🧪 モデルロードテスト...")
nlp = spacy.load('ja_ginza')
print("✅ ja_ginza モデルのロード成功")

🔍 SpaCy version: 3.4.4
📥 ja_ginza モデルをダウンロード中... (SKIPしないといけない
✅ ja_ginza モデルのダウンロード完了(SKIPしないといけない)
🧪 モデルロードテスト...
✅ ja_ginza モデルのロード成功


In [3]:
# 【Step 3】動作確認
# Basic operation verification

import spacy
import ginza

print(f"✅ SpaCy version: {spacy.__version__}")

# モデルロードと基本テスト
nlp = spacy.load('ja_ginza')
test_text = "日本語自然言語処理のテストです。"
doc = nlp(test_text)

print(f"🧪 テスト: '{test_text}' → {len(doc)} トークン")
print("🎉 セットアップ完了！")

✅ SpaCy version: 3.4.4
🧪 テスト: '日本語自然言語処理のテストです。' → 6 トークン
🎉 セットアップ完了！


## 📄 データファイルの読み込み / Load Data File

**データパス**: `/Users/shaw/code_project/sophia/NLP/二刀流が本格的に復活へ.txt`

In [7]:
# 【Step 4】データファイルの読み込み
# Load data file

import os 
from pathlib import Path

# プロジェクトのファイルパス
####project_root = Path('/Users/shaw/code_project/sophia/NLP')
project_root = Path('/home/acdevel/WORK/PY/KOUGI/DE/NLP')
####data_file = project_root / '二刀流が本格的に復活へ.txt'
####data_file = project_root / '二刀流か゛本格的に復活へ.txt'
data_file = project_root / 'NitouryuGaHonkakuteniFukkatue.txt'

print(f"プロジェクトルート: {project_root}")
print(f"データファイル: {data_file}")
print(f"ファイル存在確認: {data_file.exists()}")

try:
    with open(data_file, encoding='utf-8') as f:
        text = f.read()
    
    print('\n【入力テキスト / Input Text】')
    print(f"文字数: {len(text)} 文字")
    print('\n【最初の200文字 / First 200 characters】')
    print(text[:200])
    
except FileNotFoundError:
    print(f"❌ ファイルが見つかりません: {data_file}")
    print("ファイルパスを確認してください")
    
    # サンプルテキストで代用
    text = "大谷翔平選手の二刀流が本格的に復活へ向かっている。今シーズンは投打ともに素晴らしい成績を残している。ファンは彼の活躍に期待を寄せている。"
    print(f"\n📝 サンプルテキストを使用: {text}")
    
except Exception as e:
    print(f"❌ ファイル読み込みエラー: {e}")

プロジェクトルート: /home/acdevel/WORK/PY/KOUGI/DE/NLP
データファイル: /home/acdevel/WORK/PY/KOUGI/DE/NLP/NitouryuGaHonkakuteniFukkatue.txt
ファイル存在確認: True

【入力テキスト / Input Text】
文字数: 1015 文字

【最初の200文字 / First 200 characters】
## 二刀流が本格的に復活へ

今季は春先に投手としての調整が難航すると、二刀流復帰による身体への負担増や、打撃への悪影響を懸念する評論家などから「今季も打者一本で行くべきだ」という意見も出た。 そんな中、大谷は6月16日（現地時間、以下同）に、急転直下で二刀流復活を果たす。663日ぶりの登板は、1イニング限定だったが、28球を投じ、二刀流選手として完全復活へ大きな一歩を踏み出した。 その後は、い


## 🔍 形態素解析・構文解析 / Morphological & Syntactic Analysis

In [8]:
# 【Step 5】NLP処理の実行
# Execute NLP processing

import spacy
import ginza

print("🚀 Ginza NLP パイプライン開始")

# モデルロード
nlp = spacy.load('ja_ginza')
print("✅ ja_ginza モデルロード成功")

# テキストの解析
if 'text' not in globals():
    text = "大谷翔平選手の二刀流が本格的に復活へ向かっている。今シーズンは投打ともに素晴らしい成績を残している。"
    print(f"⚠️ サンプルテキストを使用: {text}")

doc = nlp(text)
print(f"✅ 解析完了: {len(list(doc.sents))} 文, {len(doc)} トークン")

🚀 Ginza NLP パイプライン開始
✅ ja_ginza モデルロード成功
✅ 解析完了: 20 文, 604 トークン


In [9]:
# 【Step 6】詳細な解析結果の表示
# Display detailed analysis results

print("="*60)
print("📊 形態素解析・構文解析結果 / Morphological & Syntactic Analysis Results")
print("="*60)

for sent_num, sent in enumerate(doc.sents, 1):
    print(f"\n【文 {sent_num} / Sentence {sent_num}】: {sent.text}")
    print("-"*50)
    print(f"{'ID':<3} {'単語':<8} {'原形':<8} {'品詞':<6} {'詳細品詞':<15} {'係り受け':<10} {'係り先':<8}")
    print("-"*50)
    
    for token in sent:
        print(f"{token.i:<3} {token.text:<8} {token.lemma_:<8} {token.pos_:<6} {token.tag_:<15} {token.dep_:<10} {token.head.text:<8}")
    
    print("\n")

📊 形態素解析・構文解析結果 / Morphological & Syntactic Analysis Results

【文 1 / Sentence 1】: ##
--------------------------------------------------
ID  単語       原形       品詞     詳細品詞            係り受け       係り先     
--------------------------------------------------
0   #        #        SYM    補助記号-一般         ROOT       #       
1   #        #        SYM    補助記号-一般         dep        #       



【文 2 / Sentence 2】: 二刀流が本格的に復活へ

今季は春先に投手としての調整が難航すると、二刀流復帰による身体への負担増や、打撃への悪影響を懸念する評論家などから「今季も打者一本で行くべきだ」という意見も出た。
--------------------------------------------------
ID  単語       原形       品詞     詳細品詞            係り受け       係り先     
--------------------------------------------------
2   二刀流      二刀流      NOUN   名詞-普通名詞-一般      nsubj      難航      
3   が        が        ADP    助詞-格助詞          case       二刀流     
4   本格的      本格的      ADJ    名詞-普通名詞-形状詞可能   advcl      難航      
5   に        だ        AUX    助動詞             cop        本格的     
6   復活       復活       NOUN   名詞-普通名詞-サ変可能    obl        難航      
7   へ    

## 📈 解析結果の可視化 / Visualization of Analysis Results

In [10]:
# 【Step 7】品詞分析
# Part-of-speech analysis

from collections import Counter

"""
品詞（英語）    日本語訳        出現回数
NOUN    名詞
ADP     前置詞・後置詞（助詞など）
PUNCT   句読点
VERB    動詞
NUM     数詞
AUX     助動詞
SCONJ   従属接続詞
ADJ     形容詞
ADV     副詞
PROPN   固有名詞
SYM     記号
PRON    代名詞
CCONJ   等位接続詞
DET     限定詞（冠詞など）

POSタグ フルスペル（英語）      日本語訳（参考）
ADP     Adposition      前置詞・後置詞（「に」「で」「の」「へ」など）
AUX     Auxiliary       助動詞
SCONJ   Subordinating Conjunction       従属接続詞（?ならば、?ので 等）
PROPN   Proper Noun     固有名詞（人名・地名など）
PRON    Pronoun 代名詞（私、彼、それ 等）
CCONJ   Coordinating Conjunction        等位接続詞（そして、また 等）
DET     Determiner      限定詞（冠詞、指示語など）
"""

# 品詞の統計
pos_counts = Counter([token.pos_ for token in doc if not token.is_space])
print("📊 品詞別出現回数 / POS Frequency")
print("-"*30)

for pos, count in pos_counts.most_common():
    print(f"{pos:<10}: {count:>3} 回")

📊 品詞別出現回数 / POS Frequency
------------------------------
NOUN      : 170 回
ADP       : 129 回
PUNCT     :  76 回
VERB      :  56 回
NUM       :  45 回
AUX       :  43 回
SCONJ     :  25 回
ADJ       :  13 回
ADV       :  11 回
PROPN     :  11 回
SYM       :   9 回
PRON      :   6 回
CCONJ     :   3 回
DET       :   2 回


In [11]:
# 【Step 8】固有表現抽出
# Named Entity Recognition

print("🏷️ 固有表現抽出 / Named Entity Recognition")
print("-"*40)

if doc.ents:
    print(f"{'固有表現':<15} {'ラベル':<10} {'説明':<20}")
    print("-"*40)
    
    for ent in doc.ents:
        print(f"{ent.text:<15} {ent.label_:<10} {spacy.explain(ent.label_) or 'N/A':<20}")
else:
    print("固有表現が検出されませんでした")

🏷️ 固有表現抽出 / Named Entity Recognition
----------------------------------------
固有表現            ラベル        説明                  
----------------------------------------
春先              Date       N/A                 
投手              Position_Vocation N/A                 
二刀流             Animal_Part N/A                 
評論家             Position_Vocation N/A                 
一本              N_Product  N/A                 
大谷              Province   N/A                 
6月16日           Date       N/A                 
現地時間、以下同        Time       N/A                 
663日            Period_Day N/A                 
1イニング           N_Event    N/A                 
28球             N_Product  N/A                 
二刀流選手           Position_Vocation N/A                 
一歩              Countx_Other N/A                 
中5日             Frequency  N/A                 
2度              Frequency  N/A                 
3登板             N_Product  N/A                 
4イニング           N_Event    N/A           



## 💾 結果の保存 / Save Results

解析結果をプロジェクト内に保存します。

In [None]:
# 【Step 9】解析結果の保存
# Save analysis results

import json
from datetime import datetime

# 出力ディレクトリの作成
output_dir = project_root / 'analysis_results'
output_dir.mkdir(exist_ok=True)

# タイムスタンプ付きファイル名
timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
output_file = output_dir / f'ginza_analysis_{timestamp}.json'

# 解析結果の構造化
analysis_results = {
    'metadata': {
        'timestamp': timestamp,
        'spacy_version': spacy.__version__,
        'input_file': str(data_file),
        'text_length': len(text),
        'sentence_count': len(list(doc.sents)),
        'token_count': len(doc)
    },
    'pos_analysis': dict(pos_counts),
    'named_entities': [
        {
            'text': ent.text,
            'label': ent.label_,
            'start': ent.start_char,
            'end': ent.end_char
        } for ent in doc.ents
    ],
    'sentences': [
        {
            'text': sent.text,
            'tokens': [
                {
                    'text': token.text,
                    'lemma': token.lemma_,
                    'pos': token.pos_,
                    'tag': token.tag_,
                    'dep': token.dep_,
                    'head': token.head.text
                } for token in sent if not token.is_space
            ]
        } for sent in doc.sents
    ]
}

# JSON形式で保存
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(analysis_results, f, ensure_ascii=False, indent=2)

print(f"✅ 解析結果を保存しました: {output_file}")
print(f"📁 ファイルサイズ: {output_file.stat().st_size / 1024:.1f} KB")
print("2025.07.17再確認")

✅ 解析結果を保存しました: /home/acdevel/WORK/PY/KOUGI/DE/NLP/analysis_results/ginza_analysis_20250718_030059.json
📁 ファイルサイズ: 125.1 KB


## 📚 解析結果の解説 / Explanation of Analysis Results

### 出力項目の説明

- **text**: 元の単語 / original word
- **lemma_**: 原形 / lemma (base form)
- **pos_**: 品詞 / part of speech (Universal POS tags)
- **tag_**: 詳細な品詞 / detailed POS (language-specific)
- **dep_**: 構文関係 / syntactic relation
- **head.text**: 係り先の単語 / head word

### Universal POS Tags

- **NOUN**: 名詞 / Noun
- **VERB**: 動詞 / Verb
- **ADJ**: 形容詞 / Adjective
- **ADV**: 副詞 / Adverb
- **PRON**: 代名詞 / Pronoun
- **DET**: 限定詞 / Determiner
- **ADP**: 接置詞 / Adposition
- **PART**: 助詞 / Particle
- **PUNCT**: 句読点 / Punctuation

## 🎯 まとめ / Summary

このノートブックでは、VS Code環境でGinzaとSpaCyを使った日本語テキスト解析を実行した。

### 実行した処理
1. ✅ ローカル環境でのGinza/SpaCyセットアップ
2. ✅ プロジェクトファイルからのテキスト読み込み
3. ✅ 形態素解析・構文解析の実行
4. ✅ 品詞分析と固有表現抽出
5. ✅ 結果の構造化とJSON保存

### 次のステップ
- 📊 解析結果の可視化（matplotlib, plotly）
- 🔍 より詳細な言語学的分析
- 🤖 機械学習との組み合わせ
- 📈 大量テキストの一括処理
- 🔗 **GitHubでのバージョン管理とコード共有**

### プロジェクト構造
```
/Users/shaw/code_project/sophia/NLP/
├── 二刀流が本格的に復活へ.txt          # 入力データ
├── NLP入門_Ginza_Spacy_VSCode.ipynb   # このノートブック
├── analysis_results/                   # 解析結果
│   └── ginza_analysis_YYYYMMDD_HHMMSS.json
├── ginza_env/                         # 仮想環境（推奨）
└── .git/                              # Gitリポジトリ（次セクションで作成）
```

## 🔗 GitHubとの連携・バックアップ / GitHub Integration & Backup

### GitHubリポジトリ作成手順

1. **GitHubアカウント作成/ログイン**
   - https://github.com にアクセス
   - アカウント作成またはログイン

2. **新規リポジトリ作成**
   - 右上の「+」→「New repository」
   - Repository name: `nlp-ginza-spacy-analysis`
   - Description: `日本語自然言語処理プロジェクト - Ginza & SpaCy`
   - Public/Private選択
   - 「Add a README file」にチェック
   - 「Create repository」をクリック

3. **ローカル環境でのGit設定**
   - 初回のみ：Git設定とSSHキー登録が必要

### Git/GitHub連携の基本概念

- **リポジトリ**: プロジェクトのコード保存場所
- **コミット**: 変更の記録単位
- **プッシュ**: ローカルからGitHubへのアップロード
- **プル**: GitHubからローカルへのダウンロード
- **ブランチ**: 開発ライン（main/masterが基本）

### 自動同期の利点

- **バックアップ**: ローカルファイル損失時の復旧
- **バージョン管理**: 変更履歴の追跡
- **共有**: チーム開発や公開
- **ポートフォリオ**: 技術力のアピール

### 📋 必要な事前設定

以下のコマンドは、初回のみ実行する。既に設定済みの場合はスキップ可能。

In [21]:
# 【Git Setup 1】Git初期設定の確認と設定
# Git initial configuration check and setup

import subprocess
import os

def run_command(command, description):
    """コマンド実行と結果表示"""
    print(f"🔧 {description}")
    print(f"実行: {command}")
    try:
        ####result = subprocess.run(command, shell=True, capture_output=True, text=True, cwd='/Users/shaw/code_project/sophia/NLP')
        result = subprocess.run(command, shell=True, capture_output=True, text=True, cwd='/home/acdevel/WORK/PY/KOUGI/DE/NLP')
        if result.stdout:
            print(f"✅ 結果: {result.stdout.strip()}")
        if result.stderr and result.returncode != 0:
            print(f"⚠️ エラー: {result.stderr.strip()}")
        return result.returncode == 0
    except Exception as e:
        print(f"❌ 実行エラー: {e}")
        return False

# Git設定確認
print("="*50)
print("Git設定確認")
print("="*50)

run_command("git --version", "Gitバージョン確認")
run_command("git config --global user.name", "ユーザー名確認")
run_command("git config --global user.email", "メールアドレス確認")

print("\n💡 設定が空の場合は以下コマンドで設定:")
print('git config --global user.name "Your Name"')
print('git config --global user.email "your.email@example.com"')

Git設定確認
🔧 Gitバージョン確認
実行: git --version
✅ 結果: git version 2.43.0
🔧 ユーザー名確認
実行: git config --global user.name
✅ 結果: t-hashimoto-4r4
🔧 メールアドレス確認
実行: git config --global user.email
✅ 結果: t-hashimoto-4r4@eagle.sophia.ac.jp

💡 設定が空の場合は以下コマンドで設定:
git config --global user.name "Your Name"
git config --global user.email "your.email@example.com"


In [22]:
# 【Git Setup 2】プロジェクトのGit初期化
# Initialize Git repository for the project

import os
from pathlib import Path

####project_dir = Path('/Users/shaw/code_project/sophia/NLP')
project_dir = Path('/home/acdevel/WORK/PY/KOUGI/DE/NLP')
os.chdir(project_dir)

print("="*50)
print("Gitリポジトリ初期化")
print("="*50)

# Gitリポジトリ初期化
if not (project_dir / '.git').exists():
    success = run_command("git init", "Gitリポジトリ初期化")
    if success:
        print("✅ Gitリポジトリを初期化しました")
    else:
        print("❌ 初期化に失敗しました")
else:
    print("✅ 既にGitリポジトリが存在します")

# カレントディレクトリ確認
print(f"\n📂 作業ディレクトリ: {os.getcwd()}")

# ファイル一覧表示
run_command("ls -la", "プロジェクトファイル確認")

Gitリポジトリ初期化
🔧 Gitリポジトリ初期化
実行: git init
✅ 結果: Initialized empty Git repository in /home/acdevel/WORK/PY/KOUGI/DE/NLP/.git/
✅ Gitリポジトリを初期化しました

📂 作業ディレクトリ: /home/acdevel/WORK/PY/KOUGI/DE/NLP
🔧 プロジェクトファイル確認
実行: ls -la
✅ 結果: total 184
drwxrwxr-x 8 acdevel acdevel   4096 Jul 11 17:11 .
drwxrwxr-x 7 acdevel acdevel   4096 Jul 11 17:05 ..
drwxr-xr-x 7 acdevel acdevel   4096 Jul 11 17:11 .git
-rwxr-xr-x 1 acdevel acdevel 145992 Jul 11 17:09 NLP_Nyumon_Ginza_Spacy_VSCode.ipynb
-rwxrwxr-x 1 acdevel acdevel   2743 Jul 11 14:38 NitouryuGaHonkakuteniFukkatue.txt
drwxr-xr-x 2 acdevel acdevel   4096 Jul 11 14:52 analysis_results
drwxr-xr-x 5 acdevel acdevel   4096 Jul  2 19:38 ginza_env
drwxr-xr-x 5 acdevel acdevel   4096 Jul  2 20:34 ginza_env310
drwxr-xr-x 6 acdevel acdevel   4096 Jul 11 13:52 ginza_env_jupiter310
drwxr-xr-x 6 acdevel acdevel   4096 Jul 11 11:55 ginza_env_jupiter310.bkbk
-rw-r--r-- 1 acdevel acdevel    331 Jul  2 20:25 typescript


True

In [23]:
# 【Git Setup 3】.gitignoreとREADME.md作成
# Create .gitignore and README.md files

# .gitignore作成（バージョン管理から除外するファイル指定）
gitignore_content = """# Python
__pycache__/
*.pyc
*.pyo
*.pyd
.Python
env/
venv/
.venv/
ginza_env/
.env

# Jupyter Notebook
.ipynb_checkpoints/
*/.ipynb_checkpoints/*

# IDE
.vscode/
.idea/
*.swp
*.swo

# macOS
.DS_Store
.AppleDouble
.LSOverride

# 分析結果（サイズが大きくなる可能性）
analysis_results/*.json

# 一時ファイル
*.tmp
*.log

# 自分独自環境
ginza_env/
ginza_env310/
ginza_env_jupiter310/
ginza_env_jupiter310.bkbk/
typescript


"""

# README.md作成（プロジェクト説明）
readme_content = """# 日本語自然言語処理プロジェクト - Ginza & SpaCy

## 概要
このプロジェクトは、VS Code環境でGinzaとSpaCyを使用した日本語自然言語処理の実装例である。

## 環境
- **Python**: 3.8以上
- **spaCy**: 3.4.4
- **GiNZA**: 5.2.0
- **開発環境**: VS Code + Jupyter Notebook Extension

## セットアップ

1. 仮想環境作成
```bash
python -m venv ginza_env
source ginza_env/bin/activate  # macOS/Linux
```

2. パッケージインストール
```bash
pip install spacy==3.4.4 ginza==5.2.0 ja_ginza==5.2.0
python -m spacy download ja_ginza
```

3. ノートブック実行
```bash
jupyter notebook NLP入門_Ginza_Spacy_VSCode.ipynb
```

## 主な機能
- 形態素解析・構文解析
- 品詞分析
- 固有表現抽出
- 解析結果のJSON出力

## ファイル構成
```
NLP/
├── NLP入門_Ginza_Spacy_VSCode.ipynb  # メインノートブック
├── 二刀流が本格的に復活へ.txt         # サンプルデータ
├── analysis_results/              # 解析結果
├── ginza_env/                     # 仮想環境
└── README.md                      # このファイル
```

## ライセンス
MIT License

## 更新履歴
- 2025/07/01: 初期リリース、GitHubリポジトリ作成
"""

# ファイル作成
try:
    with open('.gitignore', 'w', encoding='utf-8') as f:
        f.write(gitignore_content)
    print("✅ .gitignore ファイルを作成しました")
    
    with open('README.md', 'w', encoding='utf-8') as f:
        f.write(readme_content)
    print("✅ README.md ファイルを作成しました")
    
    # ファイル作成確認
    run_command("ls -la *.md .gitignore", "作成ファイル確認")
    
except Exception as e:
    print(f"❌ ファイル作成エラー: {e}")

✅ .gitignore ファイルを作成しました
✅ README.md ファイルを作成しました
🔧 作成ファイル確認
実行: ls -la *.md .gitignore
✅ 結果: -rw-r--r-- 1 acdevel acdevel  449 Jul 11 17:12 .gitignore
-rw-r--r-- 1 acdevel acdevel 1282 Jul 11 17:12 README.md


In [24]:
# 【Git Setup 4】初期コミット実行
# Execute initial commit

print("="*50)
print("初期コミット実行")
print("="*50)

# ステージング（追加対象ファイル指定）
run_command("git add .", "全ファイルをステージングに追加")

# ステータス確認
run_command("git status", "Gitステータス確認")

# 初期コミット実行
commit_message = "Initial commit: NLP project setup with Ginza & SpaCy"
success = run_command(f'git commit -m "{commit_message}"', "初期コミット実行")

if success:
    print("✅ 初期コミットが完了しました")
    
    # コミット履歴確認
    run_command("git log --oneline", "コミット履歴確認")
else:
    print("❌ コミットに失敗しました")
    print("💡 Gitユーザー設定が未完了の可能性があります")

初期コミット実行
🔧 全ファイルをステージングに追加
実行: git add .
🔧 Gitステータス確認
実行: git status
✅ 結果: On branch master

No commits yet

Changes to be committed:
  (use "git rm --cached <file>..." to unstage)
	new file:   .gitignore
	new file:   NLP_Nyumon_Ginza_Spacy_VSCode.ipynb
	new file:   NitouryuGaHonkakuteniFukkatue.txt
	new file:   README.md
🔧 初期コミット実行
実行: git commit -m "Initial commit: NLP project setup with Ginza & SpaCy"
✅ 結果: [master (root-commit) 334aaaf] Initial commit: NLP project setup with Ginza & SpaCy
 4 files changed, 2316 insertions(+)
 create mode 100644 .gitignore
 create mode 100755 NLP_Nyumon_Ginza_Spacy_VSCode.ipynb
 create mode 100755 NitouryuGaHonkakuteniFukkatue.txt
 create mode 100644 README.md
✅ 初期コミットが完了しました
🔧 コミット履歴確認
実行: git log --oneline
✅ 結果: 334aaaf Initial commit: NLP project setup with Ginza & SpaCy


In [26]:
# 【GitHub Setup 5】リモートリポジトリ接続
# Connect to GitHub remote repository

print("="*50)
print("GitHubリモートリポジトリ接続")
print("="*50)

# GitHubリポジトリURL設定（要変更）
github_username = "t-hashimoto-4r4" # "YOUR_USERNAME"  # ここを自分のGitHubユーザー名に変更
repo_name = "nlp-ginza-spacy-analysis"
github_url = f"https://github.com/{github_username}/{repo_name}.git"
####github_url = f"https://github.com/t-hashimoto-4r4/nlp-ginza-spacy-analysis.git"


print(f"🔗 接続先: {github_url}")
print("⚠️ 注意: github_username変数を自分のGitHubユーザー名に変更してください")

# リモートリポジトリ追加
if github_username != "YOUR_USERNAME":
    success = run_command(f"git remote add origin {github_url}", "リモートリポジトリ追加")
    
    if success:
        print("✅ リモートリポジトリを追加しました")
        
        # リモート確認
        run_command("git remote -v", "リモートリポジトリ確認")
    else:
        print("❌ リモートリポジトリ追加に失敗しました")
        print("💡 既に追加済みの可能性があります")
        run_command("git remote -v", "現在のリモート確認")
else:
    print("⚠️ GitHubユーザー名を設定してから実行してください")
    print("github_username = 'your-actual-username' に変更")

GitHubリモートリポジトリ接続
🔗 接続先: https://github.com/t-hashimoto-4r4/nlp-ginza-spacy-analysis.git
⚠️ 注意: github_username変数を自分のGitHubユーザー名に変更してください
🔧 リモートリポジトリ追加
実行: git remote add origin https://github.com/t-hashimoto-4r4/nlp-ginza-spacy-analysis.git
✅ リモートリポジトリを追加しました
🔧 リモートリポジトリ確認
実行: git remote -v
✅ 結果: origin	https://github.com/t-hashimoto-4r4/nlp-ginza-spacy-analysis.git (fetch)
origin	https://github.com/t-hashimoto-4r4/nlp-ginza-spacy-analysis.git (push)


In [27]:
# 【GitHub Setup 6】初回プッシュ実行
# Execute initial push to GitHub

print("="*50)
print("GitHubへの初回プッシュ")
print("="*50)

# ブランチ名確認
run_command("git branch", "現在のブランチ確認")

# メインブランチ設定（GitHubの標準は'main'）
run_command("git branch -M main", "ブランチ名をmainに設定")

# 初回プッシュ実行
print("🚀 GitHubへプッシュ中...")
print("💡 認証が必要な場合があります（Personal Access Tokenまたはユーザー名/パスワード）")

success = run_command("git push -u origin main", "初回プッシュ実行")

if success:
    print("🎉 GitHubへの初回プッシュが完了しました！")
    print(f"🔗 リポジトリURL: https://github.com/{github_username}/{repo_name}")
    print("✅ これでコードがGitHubでバックアップされました")
else:
    print("❌ プッシュに失敗しました")
    print("💡 以下を確認してください:")
    print("  1. GitHubでリポジトリが作成されているか")
    print("  2. GitHubユーザー名が正しいか")
    print("  3. 認証情報（Personal Access Token）が設定されているか")
    print("  4. インターネット接続が正常か")

GitHubへの初回プッシュ
🔧 現在のブランチ確認
実行: git branch
✅ 結果: * master
🔧 ブランチ名をmainに設定
実行: git branch -M main
🚀 GitHubへプッシュ中...
💡 認証が必要な場合があります（Personal Access Tokenまたはユーザー名/パスワード）
🔧 初回プッシュ実行
実行: git push -u origin main


KeyboardInterrupt: 

In [28]:
# 【GitHub Sync】継続的な同期・バックアップ
# Continuous synchronization and backup
# 追加した行


def git_sync(commit_message=None):
    """GitHubとの同期を実行する関数"""
    
    if not commit_message:
        from datetime import datetime
        timestamp = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
        commit_message = f"Update: {timestamp}"
    
    print("="*50)
    print("GitHubとの同期実行")
    print("="*50)
    
    # 変更ファイル確認
    run_command("git status", "変更ファイル確認")
    
    # 全変更をステージング
    run_command("git add .", "変更ファイルをステージング")
    
    # コミット実行
    success = run_command(f'git commit -m "{commit_message}"', "コミット実行")
    
    if success:
        # プッシュ実行
        push_success = run_command("git push origin main", "GitHubへプッシュ")
        
        if push_success:
            print("🎉 GitHubとの同期が完了しました！")
            return True
        else:
            print("❌ プッシュに失敗しました")
            return False
    else:
        print("ℹ️ コミットする変更がありませんでした")
        return True

# 同期実行例
print("📋 使用例:")
print("git_sync()  # 自動メッセージ")
print("git_sync('新機能追加: 感情分析機能')  # カスタムメッセージ")

# 実際に同期を実行する場合は以下のコメントアウトを外す
# git_sync("ノートブック更新: GitHubとの連携機能追加")

📋 使用例:
git_sync()  # 自動メッセージ
git_sync('新機能追加: 感情分析機能')  # カスタムメッセージ


### 🎯 GitHub連携完了後の運用

#### 日常的なワークフロー

1. **コード変更後の同期**
```python
git_sync("機能追加: 新しい解析機能を実装")
```

2. **定期バックアップ**
```python
git_sync()  # タイムスタンプ付き自動メッセージ
```

3. **他環境からのクローン**
```bash
git clone https://github.com/YOUR_USERNAME/nlp-ginza-spacy-analysis.git
cd nlp-ginza-spacy-analysis
```

#### 重要な注意事項

- **認証**: Personal Access Token推奨（パスワード認証は非推奨）
- **大容量ファイル**: analysis_results/は.gitignoreで除外済み
- **秘密情報**: APIキーや個人情報は絶対にコミットしない
- **仮想環境**: ginza_env/も除外済み（requirements.txtで管理）

#### トラブルシューティング

**プッシュ失敗時**
```bash
git pull origin main  # 最新版取得
git push origin main  # 再プッシュ
```

**認証エラー時**
- GitHub Settings → Developer settings → Personal access tokens
- 新しいトークンを生成し、git認証に使用

**大容量ファイルエラー時**
```bash
git reset --soft HEAD~1  # 直前のコミットを取り消し
# 大容量ファイルを.gitignoreに追加後、再コミット
```