# Pandasデータの使用方法
`pandas`は，Pythonでデータの操作や分析を効率的に行うためのライブラリである．

主に構造化データ（例えば、表形式のデータ、CSVファイル、Excelファイルなど）を扱うために使用され，
データの前処理、集計、可視化、統計分析などを簡単に行うことができる．

<img src="images/pandas_data.png" width="400">

**DataFrame**
  
    pandasの最も特徴的なデータ構造はDataFrameです。DataFrameは、行と列からなる2次元のラベル付きデータ構造で、ExcelのスプレッドシートやSQLのテーブルに似ています。行と列にラベル（インデックスとカラム名）がついているため、データを扱いやすく、操作も簡単です。

**Series**

    Seriesは、1次元のラベル付き配列で、DataFrameの列を構成する単位です。データとラベルが1対1で対応するため、非常に効率的にデータを操作できます。

**データの読み書き**

    CSVファイルやExcelファイル，SQLデータベース，JSONなど，さまざまな形式のデータを読み書きするための関数を提供している．
    
**データ操作**

    データのフィルタリングや並べ替え，集計，欠損値の処理，データの変換，グルーピング（groupby）などが簡単にできる．

  

In [126]:
import numpy as np
import pandas as pd

In [127]:
# 乱数を使って100行3列のデータを作成
np.random.seed(0)  # 再現性のためシードを設定，削除すると実行するたび値が変更される

# 3列のデータをランダムに生成
data_pd = {
    'Column1': np.random.randint(1, 100, 100),                   # 1から100の整数を100個生成
    'Column2': np.random.randn(100),                             # 標準正規分布に従う乱数を100個生成
    'Column3': np.random.choice(['A', 'B', 'C', 'D', 'E'], 100)  # 'A', 'B', 'C'からランダムに選択
}

data_s  = {
    'Column1': np.random.randint(1, 1000, 100),                  # 1から100の整数を100個生成
}

df = pd.DataFrame(data_pd) # DataFrameを作成
ds = pd.Series(data_s)     # Seriesを作成

print(type(df), type(ds))  # 変数タイプを確認する，DataFrameとSeriesは使える関数や処理が異なるので注意する
print(df.dtypes)           # Dataframeの各列に入っているデータの変数タイプを確認する

<class 'pandas.core.frame.DataFrame'> <class 'pandas.core.series.Series'>
Column1      int64
Column2    float64
Column3     object
dtype: object


<img src="images/dataframe.png" width="500">

In [128]:
print(df.head(), "\n")  # データ最初の5行を表示, Dataframeのみ
print(df.tail(), "\n")  # データ最後の5行を表示, Dataframeのみ
print(df.columns,"\n")  # 列名を表示, Dataframeのみ
print(df.index,  "\n")  # index番号を表示 (指定しない限り自動割り当て）

   Column1   Column2 Column3
0       45  0.144079       E
1       48  0.398542       E
2       65  0.026869       C
3       68  1.055837       D
4       68 -0.073183       D 

    Column1   Column2 Column3
95       86  0.576848       A
96       49  0.060000       A
97       50  0.513794       B
98       70 -0.657177       A
99       42 -0.680979       D 

Index(['Column1', 'Column2', 'Column3'], dtype='object') 

RangeIndex(start=0, stop=100, step=1) 



■ 特定の行，特定の列を指定して任意の値を取り出す

In [129]:
print(df["Column2"].head(), "\n") # "Column2"列のデータだけ取り出す, 長いため最初の5行のみ出力する
print(df["Column2"][2], "\n")     # "Column2"列2行目のデータだけ取り出す 
print(df.iloc[2], "\n")           # 2行目のデータを取り出す

0    0.144079
1    0.398542
2    0.026869
3    1.055837
4   -0.073183
Name: Column2, dtype: float64 

0.026869248389851576 

Column1          65
Column2    0.026869
Column3           C
Name: 2, dtype: object 



In [130]:
# 2~20行目のデータを取り出す
# 指定する配列番号は21だが，取り出せるデータは1つ前の20番目まで
print(df.iloc[2:21]) 

    Column1   Column2 Column3
2        65  0.026869       C
3        68  1.055837       D
4        68 -0.073183       D
5        10 -0.665721       B
6        84 -0.044112       C
7        22 -0.363267       E
8        37 -0.012345       D
9        88  0.042121       D
10       71  1.959296       B
11       89 -0.198426       B
12       89  0.330534       B
13       13 -1.435828       B
14       59  0.027528       C
15       66  1.120605       A
16       40 -0.224039       D
17       88 -0.420183       B
18       47  0.999830       E
19       89  0.431034       D
20       82 -0.650913       B


In [131]:
# column名を指定し特定の行（10~20行目）を取り出す
print(df["Column2"][10:21]) 

10    1.959296
11   -0.198426
12    0.330534
13   -1.435828
14    0.027528
15    1.120605
16   -0.224039
17   -0.420183
18    0.999830
19    0.431034
20   -0.650913
Name: Column2, dtype: float64


■ 特定の列におけるデータ個数や平均値，標準偏差などを出力する

In [137]:
# "Column1"列の統計情報を出力する
print(df["Column1"].describe(), "\n")

# 統計情報から更に平均値のみを取り出す
print(df["Column1"].describe()["mean"]) 

count    100.000000
mean      47.850000
std       27.015661
min        1.000000
25%       24.000000
50%       48.000000
75%       70.250000
max       92.000000
Name: Column1, dtype: float64 

47.85


■ 特定の行列値を置換する

ここでは，Column3の2~5行目の値を文字'Z'に

In [133]:
print(df.iloc[2:8])          # 置換前
df.loc[2:5, 'Column3'] = 'Z' # もしくは df.iloc[2:6, df.columns.get_loc('Column3')] = 'Z'
print(df.iloc[2:8])          # 置換後

   Column1   Column2 Column3
2       65  0.026869       C
3       68  1.055837       D
4       68 -0.073183       D
5       10 -0.665721       B
6       84 -0.044112       C
7       22 -0.363267       E
   Column1   Column2 Column3
2       65  0.026869       Z
3       68  1.055837       Z
4       68 -0.073183       Z
5       10 -0.665721       Z
6       84 -0.044112       C
7       22 -0.363267       E
