# 1_データの読み込みと簡単な確認
- ここでは、"train.csv"というデータを読み込み、データの概要の理解を試みます
- Pythonで簡単に表形式データを扱うためにPandasというライブラリを使います
- サンプルとして使うデータは、タイタニック号の乗客の属性と生存or死亡が紐づいたデータです

## ■写経

### ライブラリインポート
- 表形式データを簡単に扱うためのPandasをプログラムにインポートします。インポートすることでPandasの機能が有効化されます

In [1]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import pandas as pd

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


### データ読み込み
- Pandasの機能を使い、"train.csv"というデータをPythonコードで読み込み、Dataframeオブジェクトとして扱います

In [12]:
df = pd.read_csv("C:\\Eiko Nakamizo\\Teck０\\index_files\\test.csv")

### データを見てみる
- head関数をつかって、先頭5行分のデータをダイジェスト表示します

In [13]:
df.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


- また、tail関数を使えば末尾5行を確認できます

In [14]:
df.tail()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.05,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.25,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.05,,S
417,1309,3,"Peter, Master. Michael J",male,,1,1,2668,22.3583,,C


### (参考)データ各列の説明
- pclass： 旅客クラス（1＝1等、2＝2等、3＝3等）。裕福さの目安となる
- name： 乗客の名前
- sex： 性別（male＝男性、female＝女性）
- age： 年齢。一部の乳児は小数値
- sibsp： タイタニック号に同乗している兄弟（Siblings）や配偶者（Spouses）の数
- parch： タイタニック号に同乗している親（Parents）や子供（Children）の数
- ticket： チケット番号
- fare： 旅客運賃
- cabin： 客室番号
- embarked： 出港地（C＝Cherbourg：シェルブール、Q＝Queenstown：クイーンズタウン、S＝Southampton：サウサンプトン）
- boat： 救命ボート番号
- body： 遺体収容時の識別番号
- home.dest： 自宅または目的地
- survived：生存状況（0＝死亡、1＝生存）。通常はこの数値が目的変数として使われる

### 行数と列数を確認する
- shape属性で確認します。shapeはhead()やtail()等の関数と違い、Dataframeオブジェクトが持つ属性の1つであるため()は不要です。出力は"(行数, 列数)"の形式で表示されます

In [15]:
df.shape

(418, 11)

## ■練習問題

1. "practice.csv"を読み込みpracticeという変数に格納してください

2. practiceの行数と列数を調べてください

: 

3. practiceの3行目のデータの生死（Survivedが1なら生存、0なら死亡）を確かめてください

: 