# Pandasで日本の祭りデータを分析しよう！

## はじめに

こんにちは！これからPythonプログラミングを学ぶ皆さんに、Pandasというライブラリを使ったデータ分析の基礎について説明します。Pandasは、データ分析や処理に特化した強力なライブラリで、大量のデータを効率的に扱うことができます。

このホームページでは、日本の祭りデータを例に、Pandasの基本的な使い方を学んでいきます。初心者の方でも理解できるように、分かりやすく解説していきますので、ぜひ最後までお付き合いください。

## Pandasのインポート

まず、Pandasライブラリをインポートする方法から説明します。


In [3]:
import pandas as pd


`import pandas as pd`は、Pandasライブラリをインポートし、`pd`という短い名前で使えるようにしています。これにより、コードを書くときに毎回`pandas`と長い名前を書く必要がなくなります。

## CSVファイルの読み込み

次に、CSVファイルを読み込む方法を説明します。CSVは「Comma-Separated Values」の略で、データをカンマで区切って保存するファイル形式です。


In [4]:
# 祭りデータのCSVファイルを読み込む
df = pd.read_csv("japanese_festivals.csv")
print("CSVファイルを読み込みました。")
print(df.head())


CSVファイルを読み込みました。
       name        date prefecture
0       祇園祭  2023-07-17        京都府
1    青森ねぶた祭  2023-08-02        青森県
2     阿波おどり  2023-08-12        徳島県
3  さっぽろ雪まつり  2023-02-04        北海道
4       高山祭  2023-04-14        岐阜県


`pd.read_csv()`関数を使って、"japanese_festivals.csv"というファイルを読み込んでいます。読み込んだデータは`df`という変数（データフレーム）に格納されます。

`df.head()`は、データフレームの最初の5行を表示する関数です。これを使って、データの概要を確認できます。

## データフレームの基本操作

Pandasのデータフレームには、様々な便利な操作方法があります。


In [5]:
# 特定の列を選択
prefecture_column = df["prefecture"]
print("都道府県の列：")
print(prefecture_column.head())

# 複数の列を選択
selected_columns = df[["name", "date", "prefecture"]]
print("\n選択された列：")
print(selected_columns.head())

# ユニークな値を取得
unique_prefectures = df["prefecture"].unique()
print("\nユニークな都道府県：")
print(unique_prefectures)


都道府県の列：
0    京都府
1    青森県
2    徳島県
3    北海道
4    岐阜県
Name: prefecture, dtype: object

選択された列：
       name        date prefecture
0       祇園祭  2023-07-17        京都府
1    青森ねぶた祭  2023-08-02        青森県
2     阿波おどり  2023-08-12        徳島県
3  さっぽろ雪まつり  2023-02-04        北海道
4       高山祭  2023-04-14        岐阜県

ユニークな都道府県：
['京都府' '青森県' '徳島県' '北海道' '岐阜県' '東京都' '福岡県' '長崎県' '秋田県' '高知県' '熊本県' '山形県']


- `df["prefecture"]`で、"prefecture"（都道府県）列だけを選択しています。
- `df[["name", "date", "prefecture"]]`で、複数の列を選択しています。
- `df["prefecture"].unique()`で、"prefecture"列のユニーク（重複のない）な値を取得しています。

## データのフィルタリング

条件に合うデータだけを抽出する方法を説明します。


In [6]:
# 東京都の祭りだけを抽出
tokyo_festivals = df[df["prefecture"] == "東京都"]
print("東京都の祭り：")
print(tokyo_festivals)

# 7月の祭りだけを抽出
july_festivals = df[df["date"].str.contains("7月")]
print("\n7月の祭り：")
print(july_festivals)


東京都の祭り：
   name        date prefecture
5   神田祭  2023-05-11        東京都
13  三社祭  2023-05-19        東京都

7月の祭り：
Empty DataFrame
Columns: [name, date, prefecture]
Index: []


- `df[df["prefecture"] == "東京都"]`で、都道府県が東京都の祭りだけを抽出しています。
- `df[df["date"].str.contains("7月")]`で、開催日に"7月"を含む祭りだけを抽出しています。

## データの保存

分析結果を新しいCSVファイルとして保存する方法を説明します。


In [7]:
# 東京都の祭りデータを新しいCSVファイルとして保存
tokyo_festivals.to_csv("tokyo_festivals.csv", index=False)
print("東京都の祭りデータを保存しました。")


東京都の祭りデータを保存しました。


`to_csv()`メソッドを使って、データフレームをCSVファイルとして保存しています。`index=False`は、行番号を保存しないようにするオプションです。

## まとめ

このホームページでは、Pandasを使った基本的なデータ分析の方法を、日本の祭りデータを例に説明しました。

1. Pandasのインポート
2. CSVファイルの読み込み
3. データフレームの基本操作（列の選択、ユニークな値の取得）
4. データのフィルタリング
5. データの保存

これらの操作を使いこなすことで、大量のデータから必要な情報を素早く抽出し、分析することができます。例えば、特定の地域や時期の祭りを簡単に見つけたり、祭りの傾向を分析したりすることが可能になります。

Pandasは非常に強力なライブラリで、ここで紹介した以外にも多くの機能があります。データの集計、グラフ化、時系列分析など、様々な分析ツールが用意されています。

これからプログラミングを学ぶ皆さんは、ぜひPandasの基本を身につけ、自分の興味のあるデータ分析に活用してみてください。旅行計画を立てるときの観光スポット分析や、趣味の映画データベースの整理など、日常生活の様々な場面でPandasの力を活かすことができるでしょう。

Pandasを使いこなせるようになれば、大量のデータを効率的に処理し、そこから価値ある情報を引き出すことができます。これは、ビジネスや研究の場面でも非常に重要なスキルとなります。

データ分析の世界は奥が深く、常に新しい手法や技術が生まれています。Pandasの基礎を学んだ後は、さらに高度な分析手法やデータ可視化ツールなどにも挑戦してみてください。データが語る物語を読み解く力は、きっと皆さんの人生を豊かにするはずです。