# 1_データの読み込みと簡単な確認
- ここでは、"train.csv"というデータを読み込み、データの概要の理解を試みます
- Pythonで簡単に表形式データを扱うためにPandasというライブラリを使います
- サンプルとして使うデータは、タイタニック号の乗客の属性と生存or死亡が紐づいたデータです

# （事前情報）ライブラリの説明：Pandas


![image.png](attachment:image.png)

## ■写経

### ライブラリインポート
- 表形式データを簡単に扱うためのPandasをプログラムにインポートします。インポートすることでPandasの機能が有効化されます

In [1]:
import pandas as pd

### データ読み込み
- Pandasの機能を使い、"train.csv"というデータをPythonコードで読み込み、Dataframeオブジェクトとして扱います

In [2]:
train = pd.read_csv("train.csv")

### データを見てみる
- head関数をつかって、先頭5行分のデータをダイジェスト表示します

In [3]:
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


- また、tail関数を使えば末尾5行を確認できます

In [4]:
train.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


### (参考)データ各列の説明
- PassengerId：旅客のID
- survived：生存状況（0＝死亡、1＝生存）。通常はこの数値が目的変数として使われる
- pclass： 旅客クラス（1＝1等、2＝2等、3＝3等）。裕福さの目安となる
- name： 乗客の名前
- sex： 性別（male＝男性、female＝女性）
- age： 年齢。一部の乳児は小数値
- sibsp： タイタニック号に同乗している兄弟（Siblings）や配偶者（Spouses）の数
- parch： タイタニック号に同乗している親（Parents）や子供（Children）の数
- ticket： チケット番号
- fare： 旅客運賃
- cabin： 客室番号
- embarked： 出港地（S＝Southampton：サウサンプトン、C＝Cherbourg：シェルブール、Q＝Queenstown：クイーンズタウン）

### 行数と列数を確認する
- shape属性で確認します。shapeはhead()やtail()等の関数と違い、Dataframeオブジェクトが持つ属性の1つであるため()は不要です。出力は"(行数, 列数)"の形式で表示されます

In [5]:
train.shape

(891, 12)

## ■練習問題

1. "practice.csv"を読み込みpracticeという変数に格納してください

In [6]:
practice = pd.read_csv("practice.csv")

2. practiceの行数と列数を調べてください

In [19]:
practice.shape

(150, 12)

3. practiceの先頭5行を表示してください。
　 表示したデータを確認し、PassengerIDが3の生死（Survivedが1なら生存、0なら死亡）を確かめてください

In [17]:
practice.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
