# Pandas入門

## Pandasとは
Pandas(パンダス)はデータ解析を容易にする機能を提供するPythonのデータ解析ライブラリです。

## Pandasを使うメリット
Pandasを使うメリットは主に2つあります。
### 1. 多種の型のデータを一つのデータフレームで扱えること
NumPyの配列（np.array）はすべての要素が同じ型でなければなりません。
よって、csvファイルの読み書きなどでは、NumPyは非常に不便なライブラリです。
その点、Pandasのデータフレームは異なる型のデータを入れることが出来ます。
Pandasのデータフレームに格納することで、データの前処理が容易にできます。
### 2.データ加工や解析の関数が多いこと
別章で示した欠損値の削除・補完の他にも、これから紹介する様々な便利な関数がPandasには備わっています。
そういった様々な関数の使い方をこの章では学びます。

In [1]:
import pandas as pd

### Seriesは1列のみのデータ型です。
シリーズはデータ(values)とそれに対応する行ラベル(index)を持つ1次元データ構造であり、辞書型とは違ってデータには順番があります。

In [2]:
s1 = pd.Series([1,2,3,5])
print(s1)

0    1
1    2
2    3
3    5
dtype: int64


### データフレームは2次元のラベル付きのデータ構造で、Pandasでは最も多く使われるデータ型です。
データフレームのイメージとして、スプレッドシートやSQLのテーブルをイメージするとわかりやすいです。
DataFrameは複数の列を持ち、DataFrameから1列を抽出した場合も勝手にSeriesになります。
また、シリーズと同様に様々な型のデータを保持することが出来ます。

In [5]:
df = pd.DataFrame({
    '名前' :['田中', '山田', '高橋'],
    '役割' : ['営業部長', '広報部', '技術責任者'],
    '身長' : [178, 173, 169]
})
print(df)
print(df.dtypes)
print(df.columns)

   名前     役割   身長
0  田中   営業部長  178
1  山田    広報部  173
2  高橋  技術責任者  169
名前    object
役割    object
身長     int64
dtype: object
Index(['名前', '役割', '身長'], dtype='object')


In [8]:
data = {
     '名前' :['田中', '山田', '高橋'],
    '役割' : ['営業部長', '広報部', '技術責任者'],
    '身長' : [178, 173, 169]
}
df = pd.DataFrame(data, columns=["名前", "役割", "身長"])

print(df)

df.columns = ['Name', 'Position', 'Height']

print(df)

   名前     役割   身長
0  田中   営業部長  178
1  山田    広報部  173
2  高橋  技術責任者  169
  Name Position  Height
0   田中     営業部長     178
1   山田      広報部     173
2   高橋    技術責任者     169


In [12]:
import numpy as np
df = pd.DataFrame(np.random.randn(20,2))
df.head()
df.head().append(df.tail())

Unnamed: 0,0,1
0,0.752617,0.647546
1,0.28412,-1.407386
2,0.235878,1.1795
3,-0.912952,-0.352712
4,-1.044602,0.451336
15,-1.498945,-0.492234
16,1.992124,0.447611
17,-1.011442,0.454119
18,1.464587,0.062958
19,1.440275,0.779156


In [13]:
df = pd.DataFrame([[10, 20], [25, 50]], index=["1行", "2行"], columns=["1列", "2列"])

In [14]:
print(df.loc["1行", :])

1列    10
2列    20
Name: 1行, dtype: int64


In [15]:
print(df.loc[: , ["1列", "2列"]])

    1列  2列
1行  10  20
2行  25  50


In [17]:
print(df.loc[: , ["1列"]]) 

    1列
1行  10
2行  25


In [18]:
print(df.iloc[1:2])

    1列  2列
2行  25  50


In [19]:
print(df.iloc[:, -1])  # 負のインデックスを使い、末尾の要素から位置指定し2列目の全ての行を取得。

1行    20
2行    50
Name: 2列, dtype: int64


In [20]:
df = pd.DataFrame([[10, 20,30, 30], [25, 50,65, 80]], index=["1行", "2行"], columns=["A", "B", "C", "D"])
print(df)

     A   B   C   D
1行  10  20  30  30
2行  25  50  65  80


In [22]:
df = pd.DataFrame([[10,20,30,30],[25,50,65,80]], index=["1行", "2行"], columns=["A", "B", "C", "D"])
print(df)

     A   B   C   D
1行  10  20  30  30
2行  25  50  65  80


In [25]:
print(df.query('A >= 20 and C <= 70'))

     A   B   C   D
2行  25  50  65  80


In [26]:
data = pd.read_csv("https://aiacademy.jp/dataset/sample_data.csv",
                   encoding="cp932",
                   skiprows=1, # 1行読み飛ばす
                   )

print(data)
print(type(data)) # <class 'pandas.core.frame.DataFrame'>
print(data.dtypes)

"""
エクセルの場合は下記のように使います。
.read_excel("任意のファイル名.xlsx",encoding='utf8')
"""

# 書き出したcsvファイルをExcelで文字化けしないCSVファイルを書き出すには
# to_csv関数の引数にencoding='utf_8_sig'をつけてください。
# data.to_csv('./output.csv', encoding='utf_8_sig')

     a0   b0   c0   d0
0    a1   b1   c1   d1
1    a2   b2   c2   d2
2    a3   b3   c3   d3
3    a4   b4   c4   d4
4    a5   b5   c5   d5
5    a6   b6   c6   d6
6    a7   b7   c7   d7
7    a8   b8   c8   d8
8    a9   b9   c9   d9
9   a10  b10  c10  d10
10  a11  b11  c11  d11
<class 'pandas.core.frame.DataFrame'>
a0    object
b0    object
c0    object
d0    object
dtype: object


'\nエクセルの場合は下記のように使います。\n.read_excel("任意のファイル名.xlsx",encoding=\'utf8\')\n'

In [27]:
df = pd.DataFrame(np.random.randn(20,2))
df.sort_index(ascending=False) # 降順

Unnamed: 0,0,1
19,-1.373542,0.216056
18,-0.758407,-0.161418
17,0.351642,-0.630853
16,-0.210243,-0.178929
15,2.208783,-2.233109
14,1.182708,1.959116
13,-0.371577,-0.051277
12,0.545072,-0.246231
11,-0.531821,-1.244903
10,1.415864,-0.895917


In [31]:
# 昇順でソートするには上記の降順ソートのコードをコメントアウトして下記を実行してください
df.sort_values(by=1) # key(カラム名)が1の昇順(小さい順)でソート
df.sort_values(by=1, ascending=False)  # keyが1の降順(大きい順)でソート

Unnamed: 0,0,1
14,1.182708,1.959116
7,-0.864215,1.221186
0,-0.756849,1.157801
3,0.037931,0.96554
19,-1.373542,0.216056
4,0.558498,0.118768
8,0.062882,0.015364
13,-0.371577,-0.051277
18,-0.758407,-0.161418
16,-0.210243,-0.178929


In [32]:
df = pd.DataFrame({"int": [1, np.nan, np.nan, 32],
                   "str": ["python", "ai", np.nan, np.nan],
                   "flt": [5.5, 4.2, -1.2, np.nan]})
print(df)

    int     str  flt
0   1.0  python  5.5
1   NaN      ai  4.2
2   NaN     NaN -1.2
3  32.0     NaN  NaN


In [35]:
print(df.isnull())
print(df.notnull())

     int    str    flt
0  False  False  False
1   True  False  False
2   True   True  False
3  False   True   True
     int    str    flt
0   True   True   True
1  False   True   True
2  False  False   True
3   True  False  False


In [36]:
# "int"列にNaNがある行の削除
print(df.dropna(subset=["int"]))

# NaNがある行を全て削除する
print(df.dropna())

# NaNを全て0に置換する
print(df.fillna(0)) # 第一引数にmethod="ffill" 第二引数にlimtit=数字 とすることで指定した数字までは前のデータを使ってNaNを埋めることができます

    int     str  flt
0   1.0  python  5.5
3  32.0     NaN  NaN
   int     str  flt
0  1.0  python  5.5
    int     str  flt
0   1.0  python  5.5
1   0.0      ai  4.2
2   0.0       0 -1.2
3  32.0       0  0.0


In [38]:
df2 = pd.DataFrame({"int": [1, np.nan, np.nan, 32],
                   "str": ["python", "ai", np.nan, np.nan],
                   "flt": [5.5, 4.2, -1.2, np.nan]})

# int列だけ0で補完
df2.fillna({"int": 0}) # 特定の列に対しては辞書型を用いる


# 列ごとに異なる値を使いたい時は複数のキーを渡す。
df2.fillna({"int": 0, "str": "ai"}) 

# 特定の列(例えばflt)を削除
df2.drop(labels="flt",axis=1)
"""
  int str
0 1.0 python
1 NaN ai
2 NaN NaN
3 32.0  NaN
"""

# 複数の列を削除
df2.drop(labels=["flt", "str"],axis=1)

"""
  int
0 1.0
1 NaN
2 NaN
3 32.0
"""

# indexを指定すると行を消すこともできます
df2.drop(index=1, axis=0)
"""
int str flt
0 1.0 python  5.5
2 NaN NaN -1.2
3 32.0  NaN NaN
"""

# 元のデータに反映して削除するにはinplaceオプションにTrueを渡します
df2.drop(labels="flt", axis=1, inplace=True)
print(df2)

"""
int str
0 1.0 python
1 NaN ai
2 NaN NaN
3 32.0  NaN
"""

    int     str
0   1.0  python
1   NaN      ai
2   NaN     NaN
3  32.0     NaN


'\nint str\n0 1.0 python\n1 NaN ai\n2 NaN NaN\n3 32.0  NaN\n'

In [39]:
df3 = pd.DataFrame(np.random.rand(6,3))
print(df3) # データの確認

          0         1         2
0  0.736381  0.708291  0.035655
1  0.798996  0.699748  0.895429
2  0.516997  0.364623  0.558330
3  0.128185  0.854013  0.683648
4  0.257730  0.273227  0.641315
5  0.174350  0.770535  0.204336


## 演習問題

1. シリーズのデータ型を自由に作ってください。
2. データフレームのデータ型を自由に作ってください。
3. あるSNSサービスのユーザー10人のフォロー数やフォロワー数のcsvファイルがあります。
このファイルのヘッダーがユーザーID,フォロー,フォロワー,いいねが与えられております。
これらそれぞれuser_id,follow,follower,likeに変換したoutput.csvファイルを出力してください。
データは下記URLにありますのでダウンロードしてください。
4. d1 = {"data1": ["a","b","c","d","c","a"], "data2": range(6)}を使って、d1という名前のDataFrameを作ってください。
5. 4で作ったデータフレームをcsvファイル(.csv)とエクセルファイル(.xlsx)に書き出してください。
6. 5で作成されたエクセルファイル(.xlsx)とcsvファイル(.csv)をそれぞれ読み込んでください。
7. 5で作成したエクセルファイルに新しい列(カラム)を追加してください。
8. 7に対してappendを使い、行を追加してください。

In [40]:
free1= pd.Series([1,2,34,3])
free1

0     1
1     2
2    34
3     3
dtype: int64

In [44]:
free2 = pd.DataFrame([1,2],[2,3])
free2

Unnamed: 0,0
2,1
3,2


In [47]:
sample = pd.read_csv('sns_data.csv')
sample

Unnamed: 0,ユーザーID,フォロー,フォロワー,いいね
0,1,230,42502,20556
1,2,1214,160,89012052
2,3,6692,285,5519888
3,4,88,362,4019
4,5,277,633,3424
5,6,185,927,16420
6,7,440,848,12051
7,8,1409,145228,5283
8,9,3891,154205,712
9,10,1042,167201,128


In [49]:
sample.columns = ['user_id','follow','follower','like']
sample.to_csv('output.csv')

In [56]:
d1 = {"data1": ["a","b","c","d","c","a"], "data2": range(6)}
d1

{'data1': ['a', 'b', 'c', 'd', 'c', 'a'], 'data2': range(0, 6)}

In [58]:
df1 = pd.DataFrame(d1)
d1.to_xlsx('d1.xlsx')
d1.to_csv('d1.csv')

AttributeError: 'dict' object has no attribute 'to_xlsx'

In [59]:
d1 = {"data1": ["a","b","c","d","c","a"], "data2": range(6)}
df1 = pd.DataFrame(d1)

In [60]:
df1.to_csv("kadai.csv") # csvの書き込み
df1.to_excel("kadai.xlsx",encoding='utf8') # csvの書き込み

In [62]:
# 6
c = pd.read_csv("kadai.csv")
print(c)
e = pd.read_excel("kadai.xlsx")
print(e)

   Unnamed: 0 data1  data2
0           0     a      0
1           1     b      1
2           2     c      2
3           3     d      3
4           4     c      4
5           5     a      5
   Unnamed: 0 data1  data2
0           0     a      0
1           1     b      1
2           2     c      2
3           3     d      3
4           4     c      4
5           5     a      5


In [63]:
# 7
e = pd.read_excel("kadai.xlsx")
print(e.columns)
print(e.index)
e["data3"] =  ["b","b","c","d","a","a"]
print(len(e.index))
print(e)

Index(['Unnamed: 0', 'data1', 'data2'], dtype='object')
RangeIndex(start=0, stop=6, step=1)
6
   Unnamed: 0 data1  data2 data3
0           0     a      0     b
1           1     b      1     b
2           2     c      2     c
3           3     d      3     d
4           4     c      4     a
5           5     a      5     a


In [67]:
# 8
s = pd.Series([ "c",12, "b",13], index=e.columns)
print(s)
e = e.append(s, ignore_index=True)
print(e)


Unnamed: 0     c
data1         12
data2          b
data3         13
dtype: object
  Unnamed: 0 data1 data2 data3
0          0     a     0     b
1          1     b     1     b
2          2     c     2     c
3          3     d     3     d
4          4     c     4     a
5          5     a     5     a
6          c    12     b    13
7          c    12     b    13
