# Pandas
```index```
+ [データサイエンスのためのPython入門⑩〜PandasインストールからSeriesの使い方〜](https://datawokagaku.com/pandas_series/)
+ [データサイエンスのためのPython入門11〜PandasのDataFrameを作る．CSVファイルを読み込む〜](https://datawokagaku.com/dataframe/)
+ [データサイエンスのためのPython入門12〜DataFrameの基本的な使い方(head, describe, Seriesの取得など)〜](https://datawokagaku.com/dataframe_howto_1/)
+ [データサイエンスのためのPython入門13〜DataFrameのフィルタ操作の基本(超重要)〜](https://datawokagaku.com/dataframe_filter/)
+ [データサイエンスのためのPython入門14〜DataFrameの欠損値NaNに対応する〜](https://datawokagaku.com/dataframe_nan/)
+ [データサイエンスのためのPython入門15〜DataFrameのgroupbyをマスターする〜](https://datawokagaku.com/dataframe_groupby/)
+ [データサイエンスのためのPython入門16〜DataFrameのテーブル結合を完全解説(merge, join, concat)〜](https://datawokagaku.com/dataframe_merge/)
+ [データサイエンスのためのPython入門17〜DataFrameの重要関数(apply, unique, value_counts)を超わかりやすく解説〜](https://datawokagaku.com/dataframe_apply/)
+ [データサイエンスのためのPython入門18〜DataFrameのその他頻出関数(to_csv, iterrows, sort_values)を解説〜](https://datawokagaku.com/dataframe_func1/)
+ [データサイエンスのためのPython入門19〜DataFrameのその他頻出関数(pivot_table, xs)を解説〜](https://datawokagaku.com/dataframe_func2/)


---
## 10: インストールからSeriesの使い方
    Pandasはデータ操作や解析を目的として作られたPythonライブラリで、NumPyをなかで使っている。
    とりわけ表形式のデータ処理が得意で、エクセルで処理するようなことをPythonでできる。

### | Pandasをimport

In [None]:
import pandas as pd

In [None]:
# Pandasの所在確認
pd.__file__

### | Seriesを使う
    PandasにあるSeriesというクラスを使う。
    Series：表形式のデータの各行、カラムを切り取ったデータを表すデータ形式

<img src='https://datawokagaku.com/wp-content/uploads/2020/01/dataframe_yougo.png' width=65%>

+ Table(テーブル):表形式のデータ
+ header(ヘッダー):表の一番うえに並んでいるの
+ column(カラム):ヘッダーを構成する一つ一つ
+ row(ロウ):表には色々なデータがずらっとヘッダーのカラム順に合わせて並んでいる一行一行
+ recode(レコード):行のこと

<img src='https://datawokagaku.com/wp-content/uploads/2020/01/dataframe_series.png' width=65%>

+ DataFrame(データフレーム):Pandasでは、この表をDataFrameというデータ構造で扱う。
+ Series(シリーズ):各行をSeriesというデータ構造を使って扱う。（縦に切り取ってもSeriesになる）
（つまり，Seriesというデータ構造が集まってDataFrameというデータ構造になるイメージ）


In [None]:
# 作り方は簡単で、dictionaryを作ってそれをpd.Series()に入れるだけ!
data = {
    'name':'John',
    'sex':'mael',
    'age':22
}

john_s = pd.Series(data)
print(john_s)
print('\n Johns age is {}.'.format(john_s['age']))

In [None]:
# NumPy Arraysを使って作ることも可能
import numpy as np
array = np.array([100, 200, 300])
array = pd.Series(array)
print(array)

In [None]:
array = array.rename(index={0:'a',1:'b',2:'c'})
print(array)

## 11: DataFrameを作る CSVファイルを読み込む

### | DataFrameの作り方

#### - ndarrayから作る

In [None]:
import pandas as pd 
import numpy as np


ndarray = np.random.randint(5, size=(5, 4))
pd.DataFrame(data=ndarray)

In [None]:
columns = ['a', 'b', 'c', 'd']
index = np.arange(0, 50, 10)
pd.DataFrame(data=ndarray, index=index, columns=columns)

#### - dictionaryから作る

In [None]:
data1 = {
    'name':'John',
    'sex':'male',
    'age':22
}
data2 = {
    'name':'Zack',
    'sex':'male',
    'age':30
}
data3 = {
    'name':'Emily',
    'sex':'female',
    'age':32
}
pd.DataFrame([data1, data2, data3])

#### - ファイルから読み込む

In [None]:
pd.read_csv('url')

## 12: DataFrameの基本的操作(head, describe, Seriesの取得など)

In [1]:
import pandas as pd
df = pd.read_csv('train.csv')

#### - .head()

In [2]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### -.describe()

In [3]:
#統計量確認
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


#### - .columns

In [4]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

### | ブラケット[]で特定のカラムだけ抜き出したSeriesを取得する

In [5]:
age_df = df['Age']
age_df

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [7]:
type(age_df)

pandas.core.series.Series

In [8]:
df[['Age', 'Parch', 'Fare']].head()

Unnamed: 0,Age,Parch,Fare
0,22.0,0,7.25
1,38.0,0,71.2833
2,26.0,0,7.925
3,35.0,0,53.1
4,35.0,0,8.05


#### -.iloc[int]
(index location)

>```memo```
>
>     基本はカラムは文字列，indexは数値になると思います.
>     たまにindexにID（タイタニックでいうと PassengerId ）を指定することもありますが,
>    行の取得にはほとんどの場合 ```.iloc[] ```を使います． 私は滅多に ```loc[] ```は使わないです．
>
>     カラムはできるだけ意味のある文字列にしてください． 意味を持たない数値はややこしいのでやめましょう．

In [9]:
df.iloc[888]

PassengerId                                         889
Survived                                              0
Pclass                                                3
Name           Johnston, Miss. Catherine Helen "Carrie"
Sex                                              female
Age                                                 NaN
SibSp                                                 1
Parch                                                 2
Ticket                                       W./C. 6607
Fare                                              23.45
Cabin                                               NaN
Embarked                                              S
Name: 888, dtype: object

In [10]:
df.iloc[888]['Age']

nan

In [11]:
# NaNというのはnp.nanでありNoneではないことに注意!!!
import numpy as np
np.isnan(df.iloc[888]['Age'])

True

In [12]:
df.iloc[888]['Age'] is None

False

In [13]:
df2 = pd.read_csv('train.csv').iloc[5:10] # Slicing
df2.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


#### - .drop()
>     複数のカラムを落としたい場合はカラムをリストにして渡してください．
>     また， dropしても元のdfは変更されません．

In [14]:
df2.drop(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [15]:
df2.drop('Age', axis=1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,SibSp,Parch,Ticket,Fare,Cabin,Embarked
5,6,0,3,"Moran, Mr. James",male,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,1,0,237736,30.0708,,C


In [16]:
df2

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [17]:
df2 = df2.drop(['Age', 'Parch'], axis=1) #元のdfを上書きする

In [18]:
df2

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,SibSp,Ticket,Fare,Cabin,Embarked
5,6,0,3,"Moran, Mr. James",male,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,3,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,0,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,1,237736,30.0708,,C


```Python
# df上書きパターン１ : inplace=True
df = pd.read_csv('train.csv')
df.drop(['Age', 'Cabin'], axis=1, inplace=True)


# df上書きパターン２ : 同名変数に再代入
df = pd.read_csv('train.csv')
df = df.drop(['Age', 'Cabin'], axis=1)
```


>```memo```
>
>      私は後者を使います． 理由は， ぱっと見でわかるしデータサイエンスではよく使う書き方だからです．
>      他のプログラミング言語を勉強した人からすると， 後者は違和感のある書き方だと思います．
>      なるべく結果は違う変数にして変数名を変えて意味を持たせることが多いと思います．
>      例えば df_drop という変数名にしたりとか
>      しかし， データサイエンスでは一つの変数が巨大なメモリを使っているケースが多いです．
>      タイタニックのデータは練習用なので小さいですが，実業務では普通に1万レコードとかになったりします．
>      大きなデータを複数のメモリでコピーしていくとすぐにメモリリーク(メモリ不足)を起こしてしまうので， 同じメモリを使いまわすのが定石です．
>      (ここではdfというオブジェクトを使い回しています．)

## 13: DataFrameのフィルタ操作の基本(超重要)

## 14: DataFrameの欠損値NaNに対応

## 15: DataFrameのgroupby

## 16: DataFrameのテーブル結合(merge, join, concat)

## 17: DataFrameの重要関数(apply, unique, value_counts)

## 18: DataFrameのその他頻出関数(to_csv, iterrows, sort_values)

## 19: DataFrameのその他頻出関数(pivot_table, xs)