# Introduction to pandas

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/shinchu/dataviz-notebooks/blob/main/week_1/intro-to-pandas.ipynb)

## データ処理で使うライブラリ

### NumPy

Pythonを利用して科学計算を行うための基本的なライブラリです。配列の計算を行うための関数が含まれています。

In [2]:
import numpy as np

### pandas

表形式のデータを高速に処理することができるライブラリです。
主な機能として、

* CSVファイルの読み書き
* 統計量の算出
* 並べ替え
* データの選択
* 条件指定による選択
* 欠損値の除去／補間

があります。

pandasにはデータ処理に便利なデータ構造と関数が含まれています。特にDataFrameオブジェクトは、2次元の表形式でデータを保持することができて取り扱いに便利なので、よく使われます。

In [3]:
import pandas as pd

## pandasの基本

###  データ形式

#### Series

* pandasのデータ構造
* 1次元のリストの値とインデックスが付いたオブジェクト
* 特別に指定しない限りは、0からインデックスが付与される

In [4]:
sample_series = pd.Series([1, 2, 3])

In [5]:
sample_series

0    1
1    2
2    3
dtype: int64

In [6]:
type(sample_series)

pandas.core.series.Series

#### DataFrame

* pandasのデータ構造
* データ分析に使うデータはDataFrameとして扱うことが多い
* Seriesの集合体で、行と列からなる

In [9]:
sample_df = pd.DataFrame({
    "名前": ["Alice", "Bob", "Charlie"],
    "点数": [77, 59, 87]
})

In [10]:
sample_df

Unnamed: 0,名前,点数
0,Alice,77
1,Bob,59
2,Charlie,87


In [11]:
type(sample_df)

pandas.core.frame.DataFrame

### 基本的な操作

#### CSVファイルを読み込む

new_data 

Titanic datasetを使って、pandasの使い方を学びましょう。

これは、1912年に北大西洋で氷山に衝突して沈没したタイタニック号の乗客の生存状況に関するデータセットです。

In [9]:
# ライブラリのインポート

import pandas as pd
import numpy as np

# データ可視化ライブラリseabornを読み込む
# titanic datasetがこのライブラリに含まれているため
import seaborn as sns

In [10]:
# データの読み込み
titanic = sns.load_dataset("titanic")

In [11]:
# データの確認
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


このデータセットには、891データ、15属性が含まれていることが分かります。


||||
|---|---|---|
|survived||||
|pclass|||