In [19]:
import pandas as pd

# Pandas入門-03.Pandasとは？

## Pandasとは？
- データ分析を行うためのライブラリ
- データの読み込み、加工、集計、可視化などの機能を提供
- データ分析において、NumPyと並ぶ基本的なライブラリ
- 人工知能開発やデータ分析において、必須ともいえるライブラリ

## Pandasの基本的なデータ構造
Pandasは読み込んだデータを、以下の2つのデータ構造で扱う
- DataFrame
最も基本的なデータ構造。2次元のデータを扱うことができる。
- Series


## csvファイルの読み込み
- csvファイルを読み込むには、read_csv()関数を使う
- read_csv()関数の引数に、読み込むファイルのパスを指定する
- ファイルのパスは、絶対パスまたは相対パスで指定する
- 文字コードがUTF-8の場合は、encoding='utf-8'などと、指定の文字コードを指定する
-指定の行（列）をスキップして読み込む場合は、skiprows=1などと、スキップする行数を指定する
```python
import pandas as pd

df = pd.read_csv('data.csv', encoding='utf-8', skiprows=1)
```

In [20]:
df = pd.read_csv('MOCK_DATA.csv', encoding='shift_jis') #今回は、shift_jisで読み込み
df

Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Rodolphe,Hannabus,rhannabus0@ibm.com,Polygender,201.86.166.113
1,2,Jourdan,Seivwright,jseivwright1@irs.gov,Female,151.201.232.138
2,3,Oliver,McQuorkell,omcquorkell2@google.com,Male,229.38.217.227
3,4,Jaime,Sawyer,jsawyer3@hubpages.com,Male,19.97.248.192
4,5,Weylin,Yacob,wyacob4@lulu.com,Male,158.151.187.150
...,...,...,...,...,...,...
995,996,Edgard,Syrett,esyrettrn@vkontakte.ru,Male,238.19.22.231
996,997,Dorise,Test,dtestro@china.com.cn,Female,228.101.51.203
997,998,Scott,Gimblet,sgimbletrp@meetup.com,Male,34.227.162.219
998,999,Packston,Frowen,pfrowenrq@meetup.com,Male,212.65.237.230


In [21]:
type(df)

pandas.core.frame.DataFrame

## 表示する行数（列数）の設定
- 表示する行数（列数）を設定するには、set_option()関数を使う
```python
pd.set_option('display.max_rows', 100) # 表示する行数を100行に設定
pd.set_option('display.max_columns', 100) # 表示する列数を100列に設定
```

In [22]:
pd.set_option('display.max_rows', 10) #表示する行数を指定
df

Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Rodolphe,Hannabus,rhannabus0@ibm.com,Polygender,201.86.166.113
1,2,Jourdan,Seivwright,jseivwright1@irs.gov,Female,151.201.232.138
2,3,Oliver,McQuorkell,omcquorkell2@google.com,Male,229.38.217.227
3,4,Jaime,Sawyer,jsawyer3@hubpages.com,Male,19.97.248.192
4,5,Weylin,Yacob,wyacob4@lulu.com,Male,158.151.187.150
...,...,...,...,...,...,...
995,996,Edgard,Syrett,esyrettrn@vkontakte.ru,Male,238.19.22.231
996,997,Dorise,Test,dtestro@china.com.cn,Female,228.101.51.203
997,998,Scott,Gimblet,sgimbletrp@meetup.com,Male,34.227.162.219
998,999,Packston,Frowen,pfrowenrq@meetup.com,Male,212.65.237.230


設定した行数をリセットするには、以下のようにする
```python
pd.reset_option('display.max_rows')
pd.reset_option('display.max_columns')
```

In [23]:
pd.reset_option('display.max_rows') #表示する行数をリセット

DataFrameの最初の数行を表示するには、head()関数を使う
```python
df.head(5) # 最初の5行を表示
```
反対に最後の数行を表示するには、tail()関数を使う
```python
df.tail(5) # 最後の5行を表示
```
ランダムに行を表示するには、sample()関数を使う
```python
df.sample(5) # ランダムに5行を表示
```

In [24]:
df.head(5)


Unnamed: 0,id,first_name,last_name,email,gender,ip_address
0,1,Rodolphe,Hannabus,rhannabus0@ibm.com,Polygender,201.86.166.113
1,2,Jourdan,Seivwright,jseivwright1@irs.gov,Female,151.201.232.138
2,3,Oliver,McQuorkell,omcquorkell2@google.com,Male,229.38.217.227
3,4,Jaime,Sawyer,jsawyer3@hubpages.com,Male,19.97.248.192
4,5,Weylin,Yacob,wyacob4@lulu.com,Male,158.151.187.150


In [25]:
df.sample(5)

Unnamed: 0,id,first_name,last_name,email,gender,ip_address
544,545,Delphine,Branca,dbrancaf4@github.io,Female,42.70.226.12
892,893,Zeb,Grindlay,zgrindlayos@moonfruit.com,Male,172.161.233.16
272,273,Nixie,Fessions,nfessions7k@yelp.com,Genderfluid,255.40.93.133
324,325,Maurizio,Bodleigh,mbodleigh90@google.pl,Male,206.178.200.138
593,594,Abigael,Leith-Harvey,aleithharveygh@sun.com,Female,94.186.213.136


## 統計量の取得

基本統計量を取得するには、describe()関数を使う
```python
df.describe() # 基本統計量を取得
```
なお、桁数を指定して数字を丸める場合は、round()関数を使う
```python
df.describe().round(2) # 基本統計量を取得, 桁数を2桁に丸める
```

In [26]:
df.describe().round(1)

Unnamed: 0,id
count,1000.0
mean,500.5
std,288.8
min,1.0
25%,250.8
50%,500.5
75%,750.2
max,1000.0


## グループに集約する

groupby()関数を使うと、指定した列の値でグループに集約することができる
```python
df.groupby('column_name') # column_nameでグループに集約
```

In [31]:
df.groupby('id').mean().round(1)

TypeError: Could not convert Rodolphe to numeric

## データフレームの結合

データフレームを結合するには、mearge()関数を使う
```python
df1.merge(df2, on='column_name') # df1とdf2をcolumn_nameで結合
```
デフォルトでは、内部結合（inner join）となる（両方にあるキーのみ結合）
キーが一致しない行は、結合されない。

共通のキーがない場合でも、結合したい場合は、how='outer'を指定する
```python
df1.merge(df2, on='column_name', how='outer') # df1とdf2をcolumn_nameで結合
```

縦に結合するには、concat()関数を使う
```python
pd.concat([df1, df2]) # df1とdf2を縦に結合
```