# 第11回：データ処理・分析・可視化の総合実践 (Pandas)

## 🎯 最終目標
**インタラクティブなビザ発行数分析ダッシュボード**

### 📋 本日のロードマップ
| Part | 時間 | 内容 | 成果物 |
|------|------|------|--------|
| Part 1 | 15分 | **Pandas基礎** | データ読み込み・観察・基本フィルタ |
| Part 2 | 20分 | **データ分析** | 集計・ランキング・複数条件 |
| Part 3 | 20分 | **Streamlit連携** | インタラクティブUI |
| Part 4 | 20分 | **データ可視化** | 美しいグラフ・ダッシュボード |
| Part 5 | 8分 | **統合** | 完成版アプリ |

### 📊 使用するデータ
**日本政府ビザ発行統計データ**
- 年別・国別のビザ発行数
- 実際の公開データを使用（実践的！）


# Part 1: Pandas基礎 🐼
## データをプログラムで扱えるようになろう

**時間: 15分**

### 1-1. 環境準備とデータ読み込み（5分）


In [15]:
# ライブラリのインポート
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt
import numpy as np

print("📚 ライブラリの読み込み完了！")


📚 ライブラリの読み込み完了！


In [16]:
# CSVファイルの読み込み
# 'visa_number_in_japan.csv'をアップロードしておく
df = pd.read_csv('visa_number_in_japan.csv')

print("✅ データの読み込みが完了しました！")
print(f"データサイズ: {df.shape[0]}行 × {df.shape[1]}列")


✅ データの読み込みが完了しました！
データサイズ: 1945行 × 48列


### 1-2. データの観察（5分）
データの中身を覗いてみましょう！

**🔍 確認ポイント**: 何年分のデータ？どんな国が含まれている？


In [None]:
# 最初の5行を表示
print("📄 データの先頭5行:")
df.head()


In [None]:
# データの基本情報（行数、列数、データ型）
print("ℹ️ データの基本情報:")
print(f"データサイズ: {df.shape}")
print(f"列名: {list(df.columns)}")
print("\nデータ型と欠損値情報:")
df.info()


In [None]:
# データの範囲を確認
print("📊 データの範囲:")
print(f"年の範囲: {df['Year'].min()} - {df['Year'].max()}")
print(f"国の数: {df['Country'].nunique()}カ国")
print(f"総レコード数: {len(df):,}件")

print("\n上位10カ国:")
print(df['Country'].value_counts().head(10))


### 1-3. 基本的なフィルタリング（5分）
条件を指定してデータを絞り込む

**💡 ポイント**: `df[条件式]`で必要なデータだけを抽出できる


In [None]:
# 中国のデータだけを取り出す
china_data = df[df['Country'] == 'China']
print(f"🇨🇳 中国のデータ件数: {len(china_data)}件")
print("中国のデータ（先頭5行）:")
china_data.head()


In [None]:
# 2017年のデータだけを取り出す
year_2017 = df[df['Year'] == 2017]
print(f"📅 2017年のデータ件数: {len(year_2017)}件")

# 2017年の上位10国
top_2017 = year_2017.groupby('Country')['Number of issued_numerical'].sum().sort_values(ascending=False).head(10)
print("\n2017年 国別TOP10:")
print(top_2017)


In [None]:
# 発行数が10,000以上のデータ
large_count = df[df['Number of issued_numerical'] >= 10000]
print(f"🔢 発行数が10,000以上のデータ件数: {len(large_count)}件")

print("\n発行数が多いデータ（先頭10件）:")
large_count.sort_values('Number of issued_numerical', ascending=False).head(10)


# Part 2: データ分析 📊
## 集計・ランキング・複雑な条件

**時間: 20分**

### 2-1. 複数条件フィルタリング（8分）


In [None]:
# AND条件（両方の条件を満たす）
# 2017年かつ中国のデータ
china_2017 = df[(df['Year'] == 2017) & (df['Country'] == 'China')]
print(f"🔍 2017年かつ中国のデータ: {len(china_2017)}件")
print(china_2017)


In [None]:
# OR条件（いずれかの条件を満たす）
# 中国または韓国のデータ
china_or_korea = df[(df['Country'] == 'China') | (df['Country'] == 'Korea')]
print(f"🔍 中国または韓国のデータ: {len(china_or_korea)}件")

# 年別の内訳
print("\n年別内訳:")
print(china_or_korea.groupby(['Year', 'Country']).size().unstack(fill_value=0))


In [None]:
# isin()メソッド（複数の値のいずれかに一致）
# 指定した国のデータをまとめて取得
countries_list = ['China', 'Korea', 'United States', 'Vietnam', 'Philippines']
selected_data = df[df['Country'].isin(countries_list)]
print(f"🔍 指定した{len(countries_list)}カ国のデータ: {len(selected_data)}件")

# 国別の総計
country_totals = selected_data.groupby('Country')['Number of issued_numerical'].sum().sort_values(ascending=False)
print("\n指定国の発行数合計:")
print(country_totals)


### 2-2. データ集計（groupby）（7分）

**🔑 キーポイント**: `groupby()`はExcelのピボットテーブルのような機能


In [None]:
# 国別の合計発行数
country_totals = df.groupby('Country')['Number of issued_numerical'].sum()
print("🌍 国別の合計発行数 (TOP10):")
print(country_totals.sort_values(ascending=False).head(10))


In [None]:
# 年別の合計発行数
yearly_totals = df.groupby('Year')['Number of issued_numerical'].sum()
print("📅 年別の合計発行数:")
print(yearly_totals)

