In [None]:
# Pandas
"""
シリーズ
データフレーム
パネル
"""

In [2]:
# シリーズ
"""
一列のみのデータ型
データ(values)とラベル(index)をもつデータ構造
"""
import pandas as pd

s1 = pd.Series([1, 2, 3, 5])
print(s1)
"""
0    1
1    2
2    3
3    5
dtype: int64 # データの型
"""

0    1
1    2
2    3
3    5
dtype: int64


In [3]:
# ilocでインデックスを指定し、データを取り出せる
import pandas as pd

s2 = pd.Series([1, 2, 5, 9], index=["A", "B", "C", "D"])
print(s2)
"""
A    1
B    2
C    5
D    9
dtype: int64
"""

A    1
B    2
C    5
D    9
dtype: int64


In [5]:
print(s2.iloc[0]) # 1
print(s2.iloc[1]) # 2
print(s2.iloc[2]) # 5
print(s2.iloc[3]) # 9

1
2
5
9


In [6]:
# データフレーム
"""
二次元のラベル付きデータ構造
"""
import pandas as pd
df = pd.DataFrame({
    '名前': ['山田', '田中',  '佐藤'],
    '役割': ['課長', '部長',  '社長'],
    '年齢': [30, 40, 50]
})
print(df)

   名前  年齢  役割
0  山田  30  課長
1  田中  40  部長
2  佐藤  50  社長


In [7]:
print(df.dtypes)

名前    object
年齢     int64
役割    object
dtype: object


In [8]:
print(df.columns)

Index(['名前', '年齢', '役割'], dtype='object')


In [9]:
"""
リスト型のデータをもつ辞書型をDataFrame関数の引数に渡すことで、
データフレームを生成することができる
"""
import pandas as pd
data = pd.DataFrame({
    '名前': ['山田', '田中',  '佐藤'],
    '役割': ['課長', '部長',  '社長'],
    '年齢': [30, 40, 50]
})
df = pd.DataFrame(data, columns=['名前', '役割', '年齢'])
print(df)

   名前  役割  年齢
0  山田  課長  30
1  田中  部長  40
2  佐藤  社長  50


In [10]:
df.columns = ['Name', 'Position', 'age']
print(df)

  Name Position  age
0   山田       課長   30
1   田中       部長   40
2   佐藤       社長   50


In [11]:
# パネル
"""
三次元データフレーム
同じサイズのデータフレームをまとめたもの
"""
import numpy as np
import pandas as pd
from pandas_datareader import data, wb

dict_data = {'item1': pd.DataFrame(np.random.randn(3, 2)),
            'item2': pd.DataFrame(np.random.randn(3, 2))}
data = pd.Panel(dict_data)
print(data)

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 3 (major_axis) x 2 (minor_axis)
Items axis: item1 to item2
Major_axis axis: 0 to 2
Minor_axis axis: 0 to 1


In [12]:
print(data.item1)

          0         1
0  0.444470 -0.233347
1  0.747759  0.802384
2 -0.630699  0.170214


In [16]:
# 欠損値の処理
"""
欠損値の扱うメソッド
- dropna
  - 指定の軸方向にデータ列を見て、欠損値の有無に関して指定の条件を満たす場合にそのデータ列を削除する
- fillna
  - 欠損値を指定の値、もしくは方法で埋めることができる
- isnull
  - データの要素ごとにNaNはTrue、そのほかはFalseとして扱い、元のデータと同じサイズのオブジェクトを返す
- notnull
  - isnullの逆の真偽値を返す
"""
import pandas as pd
import numpy as np

df = pd.DataFrame({'int': [1, np.nan, np.nan, 32],
                 'str': ['Python', 'AI', np.nan, np.nan],
                 'flt': [5.5, 4.1, -1.2, np.nan]})

print(df)

   flt   int     str
0  5.5   1.0  Python
1  4.1   NaN      AI
2 -1.2   NaN     NaN
3  NaN  32.0     NaN


In [21]:
# int列にnanがある列を削除
df.dropna(subset=["int"])

Unnamed: 0,flt,int,str
0,5.5,1.0,Python
3,,32.0,


In [22]:
# nanがある列を削除
df.dropna()

Unnamed: 0,flt,int,str
0,5.5,1.0,Python


In [24]:
df2 = pd.DataFrame(np.random.rand(6, 3))
print(df2)

          0         1         2
0  0.054029  0.404112  0.091726
1  0.122892  0.842660  0.618214
2  0.421962  0.757408  0.278902
3  0.498503  0.347813  0.314458
4  0.863540  0.303691  0.286820
5  0.669506  0.222296  0.029411


In [25]:
# nanをすべて0に置換
df.fillna(0)

Unnamed: 0,flt,int,str
0,5.5,1.0,Python
1,4.1,0.0,AI
2,-1.2,0.0,0
3,0.0,32.0,0


In [26]:
df.isnull()

Unnamed: 0,flt,int,str
0,False,False,False
1,False,True,False
2,False,True,True
3,True,False,True


In [27]:
df.notnull()

Unnamed: 0,flt,int,str
0,True,True,True
1,True,False,True
2,True,False,False
3,False,True,False


In [36]:
# データの入出力
"""
1. テキスト形式のデータファイルからデータの読み込み
2. バイナリ形式のデータファイルからデータの読み込み
3. データベースからのデータの読み込み
4. Web上からのデータの読み込み
"""
import pandas as pd

data = pd.read_csv("http://aiacademy.jp/dataset/sample_data.csv",
                   encoding='cp932',
                   skiprows=1)

print(data)

     a0   b0   c0   d0
0    a1   b1   c1   d1
1    a2   b2   c2   d2
2    a3   b3   c3   d3
3    a4   b4   c4   d4
4    a5   b5   c5   d5
5    a6   b6   c6   d6
6    a7   b7   c7   d7
7    a8   b8   c8   d8
8    a9   b9   c9   d9
9   a10  b10  c10  d10
10  a11  b11  c11  d11


In [37]:
print(data.dtypes)

a0    object
b0    object
c0    object
d0    object
dtype: object
