# Pandasデータ分析

## 1.初めてのpandas

### DataFrame作成「pd.DataFrame」
<P>df = pd.DataFrame({'カラム名1': ['値1','値2','値3'],
<P>                     'カラム名2': ['値1','値2','値3'],
<p>                     'カラム名3':['値1','値2','値3'],})

### pandasを使ったデータ読み込み「pd.read_csv()」
1. データ読み込み
<p>pd.read_csv('データ名.csv')
2. 全ての列を同一のデータ型で読み込む
<p>df1 = pd.read_csv('hoikuen.csv',encoding='shift_jis', dtype='str')
3. 特定の列をインデックスとして読み込む
<p>hoikuen = pd.read_csv('hoikuen.csv',encoding='shift_jis',index_col='No.')
4. 列名を絞って読み込む
<p>df2 = pd.read_csv('hoikuen.csv', encoding='shift_jis',usecols=['施設名','0歳児定員','2歳児定員'])

### データの表示「<p>head() tail() unique() value_counts()」
1. 先頭n行を参照する
<p>head()
2. 末尾n行を参照する
<p>tail()
3. 各列のユニークな要素のリストを表示する
<p>unique()
4. ユニークな要素の値とその出現回数を表示する
<p>value_counts()
5. 出現回数を正規化し、割合として表示する
<p>value_counts(normalize=True)

## 2.pandasを使ったデータ確認

### データの基本統計量確認「len() .size .columns .shape」
1. 読み込んだデータの行数を確認するには、len()
<P>print(len(hoikuen.columns))
2. 読み込んだデータの要素数を確認するには、.size
<p>hoikuen.size
3. 読み込んだデータの列名を取得するには、.columns
<P>cols_list = list(hoikuen.columns)
4. データの大きさを確認する
<p>hoikuen.shape


### データの並び替え「sort_values() reset_index()」
1. データの要素の値に応じてソートする
<p>sort_values()
2. 降順はascending=False
<P>hoikuen.sort_values(by='4・5歳児定員',ascending=False).head(1)
3. ソート順で新たにインデックスを振り直す　reset_index()
<p>hoikuen.sort_values(by='合計園児定員', ascending=False).reset_index().head(3)
<p>※drop=Trueで元々のインデックスが不要
4. 欠損値が含まれるレコードを先頭に集約し、ソートする　na_position='first'
<p>hoikuen.sort_values(by='0歳児定員', ascending=False,na_position='first').reset_index(drop=True).head(3)
5. カラムを2つ選ぶ場合
<P>hoikuen.sort_values(by=['公私区分', '合計園児定員'],ascending=[False,False]).head(1)

### データの選択を行う1「df[''] type() iloc[] loc[]」
1. 特定の列のみ取り出す
<p>df['カラム名']
2. 複数の列を取り出す
<p>df[['カラム名', 'カラム名']]
3. データの型や変数の型を取得
<p>type(変数名)
<p>type(df['カラム名'])
4. 特定の行のみを位置番号を用いて、取り出す
<p>df.iloc[行]
5. 複数行を取り出す
<p>df.iloc[[行１,行2]]
6. 行の位置番号だけではなく、列の位置番号も指定する
<p>df.iloc[[行１,行２],[列１,列２]]
7. 特定行を列名やインデックス名を用いて取り出す
<p>.df.loc[行]


### データの選択を行う2「df[df[''] >= ] str.contains()」
1. 条件を指定する
<P>df[df['カラム名'] >= 条件]
2. 複数条件を指定する
<p>df[(df['カラム名'] >= 条件1) & (df['カラム名'] >= 条件2)]
3. 検索したい列に対して、ある文字列を含むデータを抽出する
<p>df[df['カラム名'].str.contains('文字列')]

### データの集約の確認「groupby() agg()」
1. 指定したカラムの値に基づいてグループ化する
<p>df.groupby('カラム名')
２. 複数の列に対してグループ化を行い、列の合計を取得
<p>df.groupby(['カラム名1','カラム名2']).sum()
3. グルーム化を行い、あるカラムの合計値や平均値を一括に算出する
df.groupby(['カラム名1','カラム名2']).agg(['count','max', 'min', 'sum'])['統計量を出したいカラム名']

**【GroupByオブジェクトに対しての操作詳細】**
<p>特定カラムの平均:groupBy(列名1).mean()
<p>複数カラムの平均:groupBy(列名1,列名2,...).mean()
<p>特定カラムの総和:groupBy(列名1).sum(列名1)
<p>複数カラムの総和:groupBy(列名1,列名2,...).sum()
<p>特定カラムの最大値:groupBy(列名1).max(列名1)
<p>複数カラムの最大値:groupBy(列名1,列名2,...).max()
<p>特定カラムの最小値:groupBy(列名1).min(列名1)
<p>複数カラムの最小値:groupBy(列名1,列名2,...).min()

### データの要約統計量の確認「describe()」
1. 各列ごとに平均や標準偏差、最大値、最小値、最頻値などの要約統計量を取得
<p>df.describe()
2. 全ての列に対して、要約統計量を算出
<P>df.describe(include='all')
3. 算出した要約統計量の行にアクセスする
<p>df.describe().loc['要約統計量']
4. 算出した要約統計量の行の要素にアクセスする
<p>df.describe().loc['要約統計量']['要素']

## 3.pandasを使ったデータ操作

### 新しい列、行の追加「df[''] = '' loc[] = 値」
1. スカラーの追加
<p>df['新しいカラム名'] = '値'
<p>df['新しいカラム名'] = ['値1','値2','値3',...]
<p>df['新しいカラム名'] = df['カラム名１'] - df['カラム名2'] ※欠損値に気をつける
<p>df = df.assign(新しいカラム名='値')
2. 新規で行を追加
<p>df.loc[新しい行] = 値
<p>df.loc[新しい行] = [値1, '値2', '値3',...]

### 既存の列、行の削除とデータの修正「drop() copy()」
1. 削除したい列名を指定し列を削除
<P>df.drop(columns='カラム名')
2. 元のDataFrameをコピーする
<P>df_copy = df.copy()
3. 削除したい列名以外のデータを作成
<p>df_copy = df[df['カラム名']!='削除したいカラム']
4. 列の名前を変更する
<p>df_copy = df.rename(columns={'元のカラム名': '変更後のカラム名'})
5. 行の削除
<p>df_copy = df.drop(削除したい行数, axis=0)

<p>※df_copy = df[[col for col in df.columns if '削除したいカラム名' not in col]]

### データのクレンジング「isnull() info() dropna() any() fillna() .dtypes astype()」
1. データの欠損確認(True or False)
<p> df.isnull()
2. データの欠損値の合計値を取得
<p> df.isnull().sum()
3. データの要約を表示する(欠損値も確認可能)
<p> df.info()
4. 欠損値を持つレコードを削除する
<p>df.dropna()
5. 欠損値を持つ列が一つでもあるレコードを抽出
<p>df.isnull().any(axis=1)
6. 欠損値を持っているレコードの先頭５行を表示
<p>df[df.isnull().any(axis=1)].head(5)
7. 欠損値補完を行う
<p>df.fillna(値)
8. 各列のデータ型を確認
<P>df.dtypes
9. データ型の変更
<p>df = df.astype({'カラム名1': 変更後のデータ型 ,
<p>                ’カラム名2': 変更後のデータ型 ,
<p>                ’カラム名３': 変更後のデータ型 })

### データの結合「merge() concat()」
1. df1とdf2を、キーをキーとして内部結合
<p>pd.merge(df1, df2, on='キー', how='inner')
2. df1とdf3を左外部結合する
<p>pd.merge(df1, df3, on='キー', how='left')
3. データdf1とdf２を縦方法に連結
<P>pd.concat([df1,df2])
4. データdf1とdf２とdf3を縦方法に連結
<p>pd.concat([df1,df2,df3])
5. データdf1とdf2を横方向に結合
<P>pd.concat([df1,df2],axis=1)

**結合の方法(how)**
<p>inner: 内部結合。両方のデータに含まれるキーだけを残す。
<p>left: 左外部結合。１つ目のデータのキーをすべて残す。
<p>right: 右外部結合。2つ目のデータのキーをすべて残す。
<p>outer: 完全外部結合。すべてのキーを残す。

## 4.pandasを使ったデータ可視化

### pandasでのデータ可視化「plot()」
<p>df.plot()
<p>plt.show()


【plot()でよく使う引数】
<p>引数y: y軸の変数指定
<p>引数x: x軸の変数指定
<p>引数figsize: サイズ（tuple型で指定）
<p>引数subplots: サブプロットをするかどうか（True もしくはFalse）
<p>引数layout: サブプロットの行数、列数の指定
<p>引数sharex: x軸の範囲の共有可否（True もしくはFalse）
<p>引数sharey: y軸の範囲の共有可否（True もしくはFalse）
<p>引数title: グラフタイトル
<p>引数grid: グリッドの有無（True もしくはFalse）
<p>引数colormap: 色（色の名前もしくはカラーコードを指定）
<p>引数legend: 凡例の有無（True もしくはFalse）
<p>引数alpha: 透過率（0〜1で1が濃く、0が薄い）

### pandasを使ってのヒストグラム作成「hist()」
1. ヒストグラムを表示
<p>df.hist()
<p>plt.show()
2. グラフの重なりがないようにヒストグラムを表示
<P>df.hist()
<p>plt.tight_layout()
<p>plt.show()



**【plt.でよく使うグラフ装飾方法】**
<p>plt.title('グラフタイトル'):グラフタイトルの追加
<p>plt.xlabel('X軸ラベル'): X軸ラベルの追加
<p>plt.ylabel('Y軸ラベル'): Y軸ラベルの追加
<p>plt.xlim(Xの最小値, Xの最大値): X軸の表示範囲
<p>plt.ylim(Yの最小値, Yの最大値): Y軸の表示範囲
<p>plt.grid(): 罫線の追加（True もしくはFalse）
<p>plt.legend(): 凡例の追加
<p>plt.tight_layout(): グラフの重なりがないようなプロット

**【.histでよく使う引数】**
<p>引数ax: 複数のデータフレームから生成したヒストグラムを重ねて作画する
<p>引数by: ラベルを元にヒストグラムを作成する
<p>引数grid: グリッドの有無（True もしくはFalse）
<p>引数xlabelsize: x軸ラベルの文字サイズ
<p>引数xrot: x軸ラベルの傾き具合（xrot=90は、時計回りに90度回転したxラベルを表示します）
<p>引数ylabelsize: y軸ラベルの文字サイズ
<p>引数yrot: y軸ラベルの傾き具合（yrot=90は、時計回りに90度回転したyラベルを表示します）
<p>引数sharex: x軸の範囲の共有可否（True もしくはFalse）
<p>引数sharey: y軸の範囲の共有可否（True もしくはFalse）
<p>引数figsize: グラフのサイズ(tuple型で指定)
<p>引数bins: 基数の数(デフォルトは10)
<p>引数layout: 複数のヒストグラムのレイアウトを指定
<p>引数edgecolor: 枠線の色（色の名前もしくはカラーコードを指定）

### pandasを使っての棒グラフ作成「plot.bar() plot.barh」
1. 垂直棒グラフ
<P>plot.bar()
<p>plt.show()
2. 水平棒グラフ
<p>plot.barh()
<p>plt.show()

## 5.その他

```
# カラム内の特定の値を表示し、それ以外の場合はNaNを返す
df['カラム名'].where(df['カラム名'] == '値')

# カラム内に特定の値がない行を指定の値に置き換える
df['カラム名'].where((df['カラム名'] % 2 == 0) & (df['カラム名'] < 0), df['カラム名'] * 100, inplace=True)

# whereの反対に特定の値以外を表示し、特定の値はNaNを返す
df['カラム名'].mask(df['カラム名'] == '値')

# カラム内に特定の値がある行を指定の値に置き換える
df['カラム名'].mask(df['カラム名'] % 2 != 0, df['カラム名'] * 10, inplace=True)

# dfにdf2を横軸に追加(行数はそのまま)
df.append(df2, ignore_index=True,)

# 重複チェックし、重複している場合は最初の行を残す
df_fillna = df_fillna.drop_duplicates()

# one-hotエンコーディング
pd.get_dummies(df["カラム名"])

# 離散化
df["カラム名"] = pd.cut(df["カラム名"], bins=区切る数, right=False)

# 性別がFを女性、Mを男性に置換
df.replace({"F": "女性", "M": "男性"}, inplace=True)

# 直前の値で埋める
df.replace(None, method="ffill")

# 66歳以上を65歳に丸める場合
df["age_mask"] = df.age.mask(df.age >= 66, 65)

# 25歳以上を残し、それ以外は25歳に丸める場合
df["age_where"] = df.age.where(df.age >= 25, 25)

# データフレーム化
df = pd.DataFrame(x)

df.index

df.単価 >= 150

# 引数に渡したリストに含まれるかどうか
df[df.商品.isin(["じゃがいも", "パセリ"])]

# datetimeへ型変換
df["datetime"] = pd.to_datetime(df.datetime, format="%Y/%m/%d %H:%M:%S")

# dtで年月日、曜日などを抽出　strftime()で任意のフォーマットの文字列に変換
df["date"] = df.datetime.dt.strftime("%Y/%m/%d")

df.datetime.dt.month

# offsetsオブジェクトは時間を遅らせたり進めたりできる
df.datetime += pd.offsets.Hour(6)

# リサンプリング
df.resample("W", on="datetime").last()

# datetime列をindex列に設定
df.set_index("datetime", inplace=True)

# 1時間ごとにリサンプリングし、欠損値は直前のサンプリング点の値で埋める
df.resample("H").ffill()

# 1時間ごとに2次スプライン補間でリサンプリング
df.resample("H").interpolate(method="quadratic")
```