# Pandas入門

# 　

## CSVファイル読み込み

In [None]:
# Pandasを「pd」という略称名で読み込み
import pandas as pd

In [None]:
# CSVファイルを読み込み
df = pd.read_csv('california_housing_train.csv')

In [None]:
# DataFrameという形式で表現される
type(df)

#  

## DataFrameの中身確認

In [None]:
# データ全体を表示
df

In [None]:
# 先頭の数行だけを表示 
df.head()

In [None]:
# DataFrameの行数，列数を確認
df.shape

#  

## CSVファイルの書き出し

In [None]:
# DataFrameのデータのCSVファイルへの書き出し
df.to_csv('output_test.csv')

#  

## 各列の統計量算出

In [None]:
# DataFrameの各列に対する統計量（平均値や標準偏差等）の算出
df.describe()

#  

## 列同士の相関係数算出

In [None]:
# DataFrameの各列に対する相関係数の算出
df.corr()

#  

## 行の並べ替え

In [None]:
# 以下より便宜上，先頭の数行だけ用います
df = df.head()
df

In [None]:
# total_roomsを基準にDataFrameの行を昇順に並べ替え
# 並べ替え結果をdf_asに格納する
df_as = df.sort_values(by='total_rooms')

In [None]:
# 並べ替え結果を表示
df_as

In [None]:
# total_roomsを基準にDataFrameの行を降順に並べ替え
# 並べ替え結果をdf_deに格納する
df_de = df.sort_values(by='total_rooms', ascending=False)

In [None]:
# 並べ替え結果を表示
df_de

#  

## 行列番号によるデータ選択

In [None]:
# DataFrameから0行1列目の値を選択（番号を整数で指定）
df.iloc[0, 1]

# python標準のデータ型で結果を返す

In [None]:
# DataFrameから0行1列目の値を選択（番号をリストで指定）
df.iloc[[0], [1]]

# DataFrameの形式のまま結果を返す

In [None]:
# DataFrameから 0〜5 行 0〜2 列目の値を選択
df.iloc[0:6, 0:3]

In [None]:
# DataFrameから3行目を選択（列の指定なし）
df.iloc[[3], :]

In [None]:
# DataFrameから2列目を選択（行の指定なし）
df.iloc[:, [2]]

#  

## 列名によるデータ選択

In [None]:
# DataFrameからlongitudeを選択（列名を文字列で指定）
df["longitude"]

# Seriesという形式で結果を返す

In [None]:
# 返される結果がSeries形式であることを確認
type(df["longitude"])

In [None]:
# DataFrameからlongitudeを選択（列名をリストで指定）
df[["longitude"]]

# DataFrameの形式のまま結果を返す

#  

## 条件指定によるデータ選択

In [None]:
## housing_median_ageの値が15より大きい行のみ選択

# 手順１：条件に合致する行ならTrue，そうでないならFalseを要素とするSeriesを作成
mask = df['housing_median_age'] > 15
mask

In [None]:
# 手順２
df[mask]

In [None]:
# 手順１と手順２は一行で実行可能
df[df['housing_median_age'] > 15]

In [None]:
## housing_median_ageの値が15より小さい，または19より大きい行のみ選択

# 手順１：条件に合致する行ならTrue，そうでないならFalseを要素とするSeriesを作成
mask2 = (df['housing_median_age'] < 15) | (df['housing_median_age'] > 19)

# 手順２
df[mask2]

In [None]:
## housing_median_ageの値が15より大きい，かつ19より小さい行のみ選択

# 手順１：条件に合致する行ならTrue，そうでないならFalseを要素とするSeriesを作成
mask3 = (df['housing_median_age'] > 15) & (df['housing_median_age'] < 19)

# 手順２
df[mask3]

#  

## 条件指定によるデータの置換

In [None]:
## housing_median_ageが19より大きい場合，値を19に書き換える

# 手順１：条件に合致する行ならTrue，そうでないならFalseを要素とするSeriesを作成
mask = df["housing_median_age"] > 19
mask

# 手順２
df.loc[mask, "housing_median_age"] = 19
df

#  

## 欠損値の処理

In [None]:
# 欠損値を人為的に作成
df.iloc[0,:]["latitude"] = None
df.iloc[2,:]["longitude"] = None
df.iloc[4,:]["housing_median_age"] = None
df

In [None]:
## 欠損値のある行の除外（ある1列の欠損にのみ着目）

# 手順１：欠損がある行ならTrue，そうでないならFalseを要素とするSeriesを作成
mask = df["latitude"].isna()==False

# 手順２
df_nan_removed = df[mask]
df_nan_removed

In [None]:
## 欠損値のある行の除外（全ての列の欠損に着目）
df_nan_removed = df.dropna()
df_nan_removed

In [None]:
## 欠損値を別の値で補間（ある1つの列のみに対して補間）
df["latitude"] = df["latitude"].fillna(30)
df

In [None]:
## 欠損値を別の値で補間（全ての列に対し一括で補間）

# 手順１：列ごとの補間値示すSeriesを作成（平均値で補間）
mean = df.mean()
mean

In [None]:
# 手順２
df_replaced = df.fillna(mean)
df_replaced