<a href="https://colab.research.google.com/github/jumbokh/python_learn/blob/master/notebooks/Pandas%E5%85%A5%E9%96%80.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 1. 導入 Pandas 並讀取數據

In [None]:
import pandas as pd

# 從 CSV 文件讀取數據
df = pd.read_csv('your_data.csv')

# 查看前5行
print(df.head())

# 查看數據框的基本信息
print(df.info())

### 2. 選擇列與篩選行

In [None]:
# 選擇特定的列
selected_columns = df[['Column1', 'Column2']]

# 篩選符合條件的行（篩選 'Age' 大於 30 的數據）
filtered_data = df[df['Age'] > 30]

# 同時篩選多個條件（篩選 'Age' 大於 30 且 'Gender' 為 'Male' 的數據）
filtered_data_multi = df[(df['Age'] > 30) & (df['Gender'] == 'Male')]

print(filtered_data_multi.head())

### 3. 處理缺失值

In [None]:
# 查看每列缺失值的數量
print(df.isnull().sum())

# 刪除包含缺失值的行
df_cleaned = df.dropna()

# 用特定值填補缺失值（用平均值填補 'Age' 欄位的缺失值）
df['Age'].fillna(df['Age'].mean(), inplace=True)

print(df_cleaned.head())


###4. 數據的基本統計分析

In [None]:
# 查看所有數值型數據的統計摘要
print(df.describe())

# 查看某列的統計數據
print(df['Age'].describe())

# 計算數據的相關性
print(df.corr())

### 5. 分組與聚合操作

In [None]:
# 按性別分組，並計算每組的平均年齡
grouped_data = df.groupby('Gender')['Age'].mean()

# 按性別和地區分組，並計算銷售額總和
grouped_sales = df.groupby(['Gender', 'Region'])['Sales'].sum()

print(grouped_data)
print(grouped_sales)


### 6. 數據可視化

In [None]:
import matplotlib.pyplot as plt

# 簡單的直方圖
df['Age'].hist(bins=10)
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.title('Age Distribution')
plt.show()

# 繪製折線圖
df.groupby('Date')['Sales'].sum().plot()
plt.xlabel('Date')
plt.ylabel('Total Sales')
plt.title('Sales Over Time')
plt.show()

### 7. 寫入數據到新文件

In [None]:
# 將處理後的數據寫入新的 CSV 文件
df.to_csv('cleaned_data.csv', index=False)

### 8. 合併數據集

In [None]:
# 假設有兩個數據框 df1 和 df2
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Name': ['Alice', 'Bob', 'Charlie']})
df2 = pd.DataFrame({'ID': [1, 2, 3], 'Score': [90, 80, 85]})

# 使用 'ID' 列合併兩個數據框
merged_df = pd.merge(df1, df2, on='ID')

print(merged_df)

### 9. 時間序列操作

In [None]:
# 將 'Date' 列轉換為 datetime 格式
df['Date'] = pd.to_datetime(df['Date'])

# 設置日期為索引
df.set_index('Date', inplace=True)

# 按月進行重採樣並計算銷售額的總和
monthly_sales = df['Sales'].resample('M').sum()

print(monthly_sales)