# Introduction to pandas

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/shinchu/dataviz-notebooks/blob/main/week_1/intro-to-pandas.ipynb)

## データ処理で使うライブラリ

### NumPy

Pythonを利用して科学計算を行うための基本的なライブラリです。配列の計算を行うための関数が含まれています。

In [2]:
import numpy as np

### pandas

表形式のデータを高速に処理することができるライブラリです。
主な機能として、

* CSVファイルの読み書き
* 統計量の算出
* 並べ替え
* データの選択
* 条件指定による選択
* 欠損値の除去／補間

があります。

pandasにはデータ処理に便利なデータ構造と関数が含まれています。特にDataFrameオブジェクトは、2次元の表形式でデータを保持することができて取り扱いに便利なので、よく使われます。

In [3]:
import pandas as pd

## pandasの基本

###  データ形式

#### Series

* pandasのデータ構造
* 1次元のリストの値とインデックスが付いたオブジェクト
* 特別に指定しない限りは、0からインデックスが付与される

In [4]:
sample_series = pd.Series([1, 2, 3])

In [5]:
sample_series

0    1
1    2
2    3
dtype: int64

In [6]:
type(sample_series)

pandas.core.series.Series

#### DataFrame

* pandasのデータ構造
* データ分析に使うデータはDataFrameとして扱うことが多い
* Seriesの集合体で、行と列からなる

In [16]:
sample_df = pd.DataFrame({
    "名前": ["David", "Eliza", "Fred"],
    "点数": [90, 87, 68]
})

In [17]:
sample_df

Unnamed: 0,名前,点数
0,David,90
1,Eliza,87
2,Fred,68


In [18]:
type(sample_df)

pandas.core.frame.DataFrame

### 基本的な操作

#### CSVファイルを読み込む

`pd.read_csv()`でカンマ区切りのファイルを読み込みます。区切り文字を指定することで、タブ区切りなどのファイルも読み込むことができます。

今回はURLから読み込みますが、PC上に保存されているローカルファイルもパスを指定することで、同じ要領で読み込めます。

Google Driveに保存されているファイルを読み込むこともできます。ぜひ方法を調べてみてください。

In [14]:
new_data = pd.read_csv("https://raw.githubusercontent.com/shinchu/dataviz-notebooks/main/data/read_sample.csv")

In [15]:
new_data

Unnamed: 0,名前,点数
0,Alice,77
1,Bob,59
2,Charlie,87


#### CSVファイルとして保存する

`DataFrame.to_csv()`でデータフレームをカンマ区切りのファイルとして保存できます。

`sep="\t"`とすると、タブ区切りで保存できます。

In [20]:
sample_df.to_csv("sample_df.csv", index=False, header=True, sep=",")

In [None]:
# Colabからファイルをダウンロードする

from google.colab import files

files.download("sample_df.csv")

### データフレームを扱う

Titanic datasetを使って、pandasの使い方を学びましょう。

これは、1912年に北大西洋で氷山に衝突して沈没したタイタニック号の乗客の生存状況に関するデータセットです。

In [9]:
# ライブラリのインポート

import pandas as pd
import numpy as np

In [22]:
# データの読み込み
titanic = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv")

In [23]:
# データの確認
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


このデータセットには、891データ（行）、15属性（列）が含まれていることが分かります。

15の属性が意味するところは、下記の通りです。
各属性の意味はの、データ取得時に整理しておきましょう。

オープンデータであれば、カラム情報は通常公開されています。
ログを取得したり、スクレイピングをしたりして自分で作成するデータの場合は、データ仕様書も作ってください。

||||
|---|---|---|
|survived|生存フラグ|||
|pclass|客室等級||


#### 1行目の要素を取得する


pandasでは、整数の位置インデックスを参照できます。位置インデックスは0から始まる整数です。参照する場合は、`iloc`属性を利用します。

In [24]:
titanic.iloc[0]

survived                 0
pclass                   3
sex                   male
age                   22.0
sibsp                    1
parch                    0
fare                  7.25
embarked                 S
class                Third
who                    man
adult_male            True
deck                   NaN
embark_town    Southampton
alive                   no
alone                False
Name: 0, dtype: object

In [25]:
# 3行目の要素を取得してみましょう
 


#### 特定の列（カラム）を取得する

取得したいカラム名を指定することで、特定のカラムをシリーズ形式で抽出できます。

In [26]:
titanic_class = titanic["class"]

In [27]:
titanic_class

0       Third
1       First
2       Third
3       First
4       Third
        ...  
886    Second
887     First
888     Third
889     First
890     Third
Name: class, Length: 891, dtype: object

In [None]:
# 乗船地を示すカラムを取得してみましょう

