In [None]:
# print()関数を使って文字を表示します
print('hello')

# 日本語も表示できます
print('こんにちは、Python！')


In [None]:
# pandasをインポート（pdという名前で使うのが慣習）
import pandas as pd

# データを辞書形式で作成
data = {
    '名前': ['太郎', '花子', '次郎', '美香', '三郎'],
    '年齢': [25, 23, 27, 22, 30],
    '身長': [170, 158, 175, 162, 168],
    '体重': [65, 50, 70, 52, 72]
}

# DataFrameを作成（Excelのような表形式）
df = pd.DataFrame(data)
print('作成したデータフレーム:')
print(df)


In [None]:
# リストを作成
fruits = ['りんご', 'みかん', 'バナナ', 'ぶどう']
print('果物リスト:', fruits)

# リストの要素数
print('果物の種類:', len(fruits), '個')

# forループでリストの要素を1つずつ処理
print('\n好きな果物：')
for fruit in fruits:
    print('-', fruit)


In [None]:
# pandasをインポート（pdという名前で使うのが慣習）
import pandas as pd

# 簡単なデータを作成
data = {
    '名前': ['太郎', '花子', '次郎', '美香', '三郎'],
    '年齢': [25, 23, 27, 22, 30],
    '身長': [170, 158, 175, 162, 168],
    '体重': [65, 50, 70, 52, 72]
}

# DataFrameを作成
df = pd.DataFrame(data)
print('作成したデータフレーム:')
print(df)


In [None]:
# 基本的な統計情報を表示
print('データの統計情報:')
print(df.describe())

# BMIを計算して新しい列を追加
df['BMI'] = df['体重'] / (df['身長']/100)**2
df['BMI'] = df['BMI'].round(1)  # 小数点第1位まで

print('\nBMIを追加したデータ:')
print(df)


In [6]:
# matplotlibをインポート
import matplotlib.pyplot as plt

# Jupyter Notebook内でグラフを表示するための設定
%matplotlib inline

# 日本語フォントの設定（文字化けを防ぐ）
plt.rcParams['font.sans-serif'] = ['Hiragino Sans', 'Yu Gothic', 'Meirio', 'Takao', 'IPAexGothic', 'IPAPGothic', 'VL PGothic', 'Noto Sans CJK JP']
plt.rcParams['axes.unicode_minus'] = False


In [None]:
# 棒グラフを作成
plt.figure(figsize=(8, 6))  # グラフのサイズを設定
plt.bar(df['名前'], df['年齢'], color='skyblue')
plt.title('メンバーの年齢', fontsize=16)
plt.xlabel('名前', fontsize=12)
plt.ylabel('年齢', fontsize=12)
plt.grid(axis='y', alpha=0.3)  # y軸にグリッドを表示
plt.show()


In [None]:
# 散布図を作成（身長と体重の関係）
plt.figure(figsize=(8, 6))
plt.scatter(df['身長'], df['体重'], s=100, alpha=0.6, color='coral')

# 各点に名前を表示
for idx, row in df.iterrows():
    plt.annotate(row['名前'], (row['身長'], row['体重']), 
                 xytext=(5, 5), textcoords='offset points')

plt.title('身長と体重の関係', fontsize=16)
plt.xlabel('身長 (cm)', fontsize=12)
plt.ylabel('体重 (kg)', fontsize=12)
plt.grid(True, alpha=0.3)
plt.show()


In [None]:
# 複数のグラフを並べて表示
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 左側：BMIの棒グラフ
axes[0].bar(df['名前'], df['BMI'], color='lightgreen')
axes[0].set_title('BMI比較', fontsize=14)
axes[0].set_ylabel('BMI', fontsize=12)
axes[0].axhline(y=22, color='red', linestyle='--', alpha=0.5, label='標準BMI(22)')
axes[0].legend()
axes[0].grid(axis='y', alpha=0.3)

# 右側：年齢と体重の関係
axes[1].scatter(df['年齢'], df['体重'], s=150, alpha=0.6, color='purple')
axes[1].set_title('年齢と体重の関係', fontsize=14)
axes[1].set_xlabel('年齢', fontsize=12)
axes[1].set_ylabel('体重 (kg)', fontsize=12)
axes[1].grid(True, alpha=0.3)

# 各点に名前を表示
for idx, row in df.iterrows():
    axes[1].annotate(row['名前'], (row['年齢'], row['体重']), 
                     xytext=(5, 5), textcoords='offset points')

plt.tight_layout()  # レイアウトを調整
plt.show()


In [None]:
# 基本的なif文
age = 20

if age >= 20:
    print('成人です')
else:
    print('未成年です')

# 複数の条件（elif）
score = 85

if score >= 90:
    print('評価: 優')
elif score >= 80:
    print('評価: 良')
elif score >= 70:
    print('評価: 可')
else:
    print('評価: 不可')


In [None]:
# BMIによる健康状態の判定
def check_health_status(bmi):
    if bmi < 18.5:
        return '低体重'
    elif bmi < 25:
        return '標準'
    elif bmi < 30:
        return '肥満度1'
    else:
        return '肥満度2以上'

# データフレームに健康状態を追加
df['健康状態'] = df['BMI'].apply(check_health_status)
print(df[['名前', 'BMI', '健康状態']])


In [None]:
# 基本的な関数の定義
def greeting(name):
    """名前を受け取って挨拶を返す関数"""
    return f'こんにちは、{name}さん！'

# 関数の呼び出し
message = greeting('太郎')
print(message)

# 複数の引数を持つ関数
def calculate_bmi(height_cm, weight_kg):
    """身長(cm)と体重(kg)からBMIを計算する関数"""
    height_m = height_cm / 100
    bmi = weight_kg / (height_m ** 2)
    return round(bmi, 1)

# 関数の使用
my_bmi = calculate_bmi(170, 65)
print(f'BMI: {my_bmi}')


In [None]:
# デフォルト引数を持つ関数
def introduce(name, age, city='東京'):
    """自己紹介をする関数（cityはデフォルト値あり）"""
    print(f'私は{name}です。{age}歳で、{city}に住んでいます。')

# デフォルト値を使う場合
introduce('花子', 25)

# デフォルト値を上書きする場合
introduce('次郎', 30, '大阪')


In [None]:
# 辞書の作成
person = {
    '名前': '田中太郎',
    '年齢': 25,
    '職業': 'エンジニア',
    '趣味': ['読書', 'プログラミング', '映画鑑賞']
}

# 値の取得
print(f"名前: {person['名前']}")
print(f"年齢: {person['年齢']}")

# 値の追加・更新
person['出身地'] = '東京'  # 新しいキーの追加
person['年齢'] = 26  # 既存の値の更新

print('\n更新後の辞書:')
print(person)


In [None]:
# 辞書のループ処理
print('個人情報:')
for key, value in person.items():
    print(f'  {key}: {value}')

# 複数の辞書をリストに格納
members = [
    {'名前': '太郎', '年齢': 25, 'スキル': 'Python'},
    {'名前': '花子', '年齢': 23, 'スキル': 'JavaScript'},
    {'名前': '次郎', '年齢': 27, 'スキル': 'Java'}
]

# リスト内の辞書を処理
print('\nメンバー一覧:')
for member in members:
    print(f"{member['名前']} ({member['年齢']}歳) - {member['スキル']}")


In [None]:
# 基本的なtry-except
def divide(a, b):
    try:
        result = a / b
        return result
    except ZeroDivisionError:
        print('エラー: 0で割ることはできません')
        return None

# 正常な計算
print(f'10 ÷ 2 = {divide(10, 2)}')

# エラーが発生する計算
print(f'10 ÷ 0 = {divide(10, 0)}')


In [None]:
# 複数のエラーを処理
def get_list_item(my_list, index):
    try:
        return my_list[index]
    except IndexError:
        print(f'エラー: インデックス{index}は範囲外です')
        return None
    except TypeError:
        print('エラー: インデックスは整数である必要があります')
        return None

# テスト
test_list = ['apple', 'banana', 'orange']

print(f'インデックス1: {get_list_item(test_list, 1)}')  # 正常
print(f'インデックス10: {get_list_item(test_list, 10)}')  # 範囲外エラー
print(f'インデックス"a": {get_list_item(test_list, "a")}')  # 型エラー


In [None]:
# CSVファイルとして保存
df.to_csv('members_data.csv', index=False, encoding='utf-8-sig')
print('CSVファイルを保存しました: members_data.csv')

# CSVファイルの読み込み
df_loaded = pd.read_csv('members_data.csv')
print('\n読み込んだデータ:')
print(df_loaded.head())


In [None]:
# テキストファイルの書き込み
with open('sample.txt', 'w', encoding='utf-8') as f:
    f.write('Pythonプログラミングを学習中です。\n')
    f.write('ファイルの読み書きは重要なスキルです。\n')
    f.write('頑張って練習しましょう！')

print('テキストファイルを作成しました: sample.txt')

# テキストファイルの読み込み
print('\nファイルの内容:')
with open('sample.txt', 'r', encoding='utf-8') as f:
    content = f.read()
    print(content)


In [None]:
# データのフィルタリング（条件抽出）
print('BMIが22以上の人:')
high_bmi = df[df['BMI'] >= 22]
print(high_bmi[['名前', 'BMI', '健康状態']])

print('\n20代の人:')
twenties = df[(df['年齢'] >= 20) & (df['年齢'] < 30)]
print(twenties[['名前', '年齢']])


In [None]:
# グループ化と集計（groupby）
# 年代ごとにグループ化するための列を追加
df['年代'] = (df['年齢'] // 10) * 10
df['年代'] = df['年代'].astype(str) + '代'

# 年代別の統計
print('年代別の平均値:')
age_group_stats = df.groupby('年代')[['身長', '体重', 'BMI']].mean().round(1)
print(age_group_stats)


In [None]:
# 欠損値の処理
# サンプルデータに欠損値を追加
import numpy as np
df_with_nan = df.copy()
df_with_nan.loc[2, '体重'] = np.nan  # 次郎の体重を欠損値に

print('欠損値のあるデータ:')
print(df_with_nan[['名前', '体重', 'BMI']])

# 欠損値の確認
print('\n欠損値の数:')
print(df_with_nan.isnull().sum())

# 欠損値を平均値で埋める
df_with_nan['体重'].fillna(df_with_nan['体重'].mean(), inplace=True)
print('\n欠損値を埋めた後:')
print(df_with_nan[['名前', '体重']])


In [None]:
# 折れ線グラフ（時系列データの例）
# サンプルの月別体重データを作成
months = ['1月', '2月', '3月', '4月', '5月', '6月']
taro_weight = [65, 64.5, 64, 63.5, 63, 62.5]
hanako_weight = [50, 49.5, 49, 48.5, 48, 47.5]

plt.figure(figsize=(10, 6))
plt.plot(months, taro_weight, marker='o', label='太郎', linewidth=2)
plt.plot(months, hanako_weight, marker='s', label='花子', linewidth=2)
plt.title('体重の推移', fontsize=16)
plt.xlabel('月', fontsize=12)
plt.ylabel('体重 (kg)', fontsize=12)
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()


In [None]:
# ヒストグラム（データの分布）
# より多くのサンプルデータを生成
np.random.seed(42)
heights = np.random.normal(165, 10, 100)  # 平均165cm、標準偏差10cmの100人分のデータ

plt.figure(figsize=(10, 6))
plt.hist(heights, bins=15, color='skyblue', edgecolor='black', alpha=0.7)
plt.title('身長の分布', fontsize=16)
plt.xlabel('身長 (cm)', fontsize=12)
plt.ylabel('人数', fontsize=12)
plt.axvline(x=heights.mean(), color='red', linestyle='--', linewidth=2, label=f'平均: {heights.mean():.1f}cm')
plt.legend()
plt.grid(axis='y', alpha=0.3)
plt.show()


In [None]:
# 円グラフ（割合を表示）
# 健康状態の人数を集計
health_counts = df['健康状態'].value_counts()

plt.figure(figsize=(8, 8))
plt.pie(health_counts.values, labels=health_counts.index, autopct='%1.1f%%', startangle=90)
plt.title('健康状態の割合', fontsize=16)
plt.axis('equal')  # 円を正円にする
plt.show()


In [None]:
# データの結合 - merge（SQL的な結合）
# 別のデータフレームを作成（趣味データ）
hobby_data = pd.DataFrame({
    '名前': ['太郎', '花子', '次郎', '美香'],
    '趣味': ['読書', '料理', 'スポーツ', '音楽']
})

# 成績データも作成
score_data = pd.DataFrame({
    '名前': ['太郎', '花子', '次郎', '三郎'],
    '数学': [85, 90, 75, 80],
    '英語': [70, 95, 80, 75]
})

print('趣味データ:')
print(hobby_data)
print('\n成績データ:')
print(score_data)

# merge()で結合（名前をキーとして）
merged_df = pd.merge(df[['名前', '年齢', 'BMI']], hobby_data, on='名前', how='left')
print('\n趣味データと結合:')
print(merged_df)

# 複数のデータを結合
full_merged = pd.merge(merged_df, score_data, on='名前', how='left')
print('\n全データを結合:')
print(full_merged)


In [None]:
# データの縦方向結合 - concat
# 新しいメンバーのデータ
new_members = pd.DataFrame({
    '名前': ['四郎', '五郎'],
    '年齢': [28, 26],
    '身長': [172, 169],
    '体重': [68, 64]
})

# 縦方向に結合
all_members = pd.concat([df[['名前', '年齢', '身長', '体重']], new_members], ignore_index=True)
print('全メンバー（結合後）:')
print(all_members)

# データの並び替え - sort_values
print('\n年齢順に並び替え:')
sorted_by_age = df.sort_values('年齢')
print(sorted_by_age[['名前', '年齢', 'BMI']])

print('\nBMIの降順で並び替え:')
sorted_by_bmi = df.sort_values('BMI', ascending=False)
print(sorted_by_bmi[['名前', 'BMI', '健康状態']])

# ピボットテーブル - データの集計と変形
# サンプル販売データを作成
sales_data = pd.DataFrame({
    '月': ['1月', '1月', '1月', '2月', '2月', '2月', '3月', '3月', '3月'],
    '商品': ['りんご', 'みかん', 'バナナ', 'りんご', 'みかん', 'バナナ', 'りんご', 'みかん', 'バナナ'],
    '売上': [100, 150, 80, 120, 160, 90, 110, 140, 85]
})

print('\n販売データ:')
print(sales_data)

# ピボットテーブルで集計
pivot_table = sales_data.pivot_table(values='売上', index='商品', columns='月', aggfunc='sum')
print('\nピボットテーブル（商品×月の売上）:')
print(pivot_table)


In [None]:
# 重複データの処理
# 重複を含むデータを作成
duplicate_data = pd.DataFrame({
    '名前': ['太郎', '花子', '太郎', '次郎', '花子'],
    '年齢': [25, 23, 25, 27, 23],
    '部署': ['営業', '企画', '営業', '技術', '企画']
})

print('重複を含むデータ:')
print(duplicate_data)

# 重複の確認
print('\n重複している行:')
print(duplicate_data[duplicate_data.duplicated()])

# 重複を削除
print('\n重複削除後:')
unique_data = duplicate_data.drop_duplicates()
print(unique_data)

# 特定の列での重複削除
print('\n名前の重複を削除（最初の出現を残す）:')
unique_names = duplicate_data.drop_duplicates(subset=['名前'], keep='first')
print(unique_names)


In [None]:
# 文字列データの操作
# 文字列を含むデータフレーム
text_data = pd.DataFrame({
    'メールアドレス': ['taro@example.com', 'HANAKO@GMAIL.COM', 'jiro@yahoo.co.jp'],
    '電話番号': ['03-1234-5678', '090-9876-5432', '080-1111-2222']
})

print('元のデータ:')
print(text_data)

# 文字列の小文字化
text_data['メールアドレス_小文字'] = text_data['メールアドレス'].str.lower()
print('\nメールアドレスを小文字に変換:')
print(text_data)

# 文字列の分割
text_data['ドメイン'] = text_data['メールアドレス'].str.split('@').str[1]
print('\nドメインを抽出:')
print(text_data[['メールアドレス', 'ドメイン']])

# 文字列の置換
text_data['電話番号_ハイフンなし'] = text_data['電話番号'].str.replace('-', '')
print('\n電話番号のハイフンを除去:')
print(text_data[['電話番号', '電話番号_ハイフンなし']])


In [None]:
# 日付データの扱い方
# 日付を含むデータフレーム
date_data = pd.DataFrame({
    '日付文字列': ['2024-01-15', '2024-02-20', '2024-03-10', '2024-04-05'],
    '売上': [15000, 18000, 22000, 19000]
})

# 文字列を日付型に変換
date_data['日付'] = pd.to_datetime(date_data['日付文字列'])
print('日付型に変換:')
print(date_data)
print('\nデータ型を確認:')
print(date_data.dtypes)

# 日付から情報を抽出
date_data['年'] = date_data['日付'].dt.year
date_data['月'] = date_data['日付'].dt.month
date_data['曜日'] = date_data['日付'].dt.day_name()
print('\n日付から情報を抽出:')
print(date_data)

# 日付でのフィルタリング
print('\n2024年2月以降のデータ:')
filtered = date_data[date_data['日付'] >= '2024-02-01']
print(filtered[['日付', '売上']])


In [None]:
# apply関数の活用 - カスタム関数の適用
# 複雑な処理を行う関数を定義
def categorize_sales(sales):
    """売上を分類する関数"""
    if sales >= 20000:
        return '高'
    elif sales >= 17000:
        return '中'
    else:
        return '低'

# apply()で関数を適用
date_data['売上カテゴリ'] = date_data['売上'].apply(categorize_sales)
print('売上カテゴリを追加:')
print(date_data[['日付', '売上', '売上カテゴリ']])

# 複数列に対する処理
def calculate_tax(row):
    """行全体を受け取って消費税込み価格を計算"""
    return row['売上'] * 1.1

date_data['税込価格'] = date_data.apply(calculate_tax, axis=1)
print('\n税込価格を計算:')
print(date_data[['売上', '税込価格']])

# カテゴリ型データの扱い
# カテゴリ型に変換するとメモリ効率が良くなる
date_data['売上カテゴリ'] = pd.Categorical(date_data['売上カテゴリ'], 
                                           categories=['低', '中', '高'], 
                                           ordered=True)
print('\nカテゴリ型の情報:')
print(date_data['売上カテゴリ'].dtype)
