# 2_データの詳細な確認
- ここでは、前章よりもさらに詳細なデータ確認を行います
- 膨大なデータを見ても人間には傾向をつかむことは難しいため、統計量という圧縮表現があります。つまり種々の統計量は、膨大なデータのとある特徴を表現する手法として考えられています

## ■写経

### ライブラリインポート（前章と同じ）
- 表形式データを簡単に扱うためのPandasをプログラムにインポートします。インポートすることでPandasの機能が有効化されます

In [1]:
import pandas as pd

### データ読み込み（前章と同じ）
- Pandasの機能を使い、"train.csv"というデータをPythonコードで読み込み、Dataframeオブジェクトとして扱います

In [2]:
df = pd.read_csv("train.csv")

### データを見てみる（前章と同じ）
- head関数をつかって、先頭5行分のデータをダイジェスト表示します

In [3]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### （参考）データ型の説明
格納されているデータはそれぞれデータ型を持っています。  
上記のデータでも数値データや文字列データなど、異なるデータ型を持っておりますが、データ分析をする際は異なるデータ型に応じて適切な処理をしていくことが必要になります。
- int64(整数型)　　　　　　：0、1、2など整数の形式で格納されている64bitの整数データ
- float64（浮動小数点型）　：11.1、22.2など小数の形式で格納されている6bitの浮動小数点のデータ  
- bool（真偽値）　　　　　：True、Falseなどの真偽値のデータ  
- datetime64（日付時刻型）：”2022-01-01 08:30:00”のように日付と時刻を表しているデータ  
- objet（文字列型や混合データ型）："apple"などの文字列などを含むデータ  

＊上記は一例です

### 基本統計量の確認
- describe関数でデータ数、平均、標準偏差、最小値、最大値等の値を確認する
- ただし、あくまで数値データのみの列に関して上記の統計量は計算される（つまり、Nameの平均値などという概念は計算不可！）

In [4]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### (参考)describeで出力される項目の説明
・count（カウント）　　　 :データの個数（欠損値を除く）  
・mean（平均値）　　　  　 :データの平均値  
・std（標準偏差）　　 　 　:データの分散の平方根であり、データの散らばり具合を示す指標  
・min（最小値）　　　  　　:データの中で最小の値  
・25%（パーセンタイル）　:データの下位25%点（第1四分位数）を表し、データの低い方の25%に位置する値  
・50%（パーセンタイル）　:データの中央値を表し、データの中でちょうど真ん中に位置する値  
・75%（パーセンタイル）　:データの下位75%点（第3四分位数）を表し、データの低い方の75%に位置する値  
・max（最大値）　　　　　:データの中で最大の値

### データの型確認
- 各列のデータ型が何であるかを確認します
- Dtypeがint64（整数型）またはfloat64（浮動小数点数型）のカラムが、1つ前のdescribeで統計量計算されていることが確認できます
- Non-Null count（空白でないデータの数）が、1つ前のdescribeでのcountと同義であることが確認できます

### 特定列に注目した確認
- Age（乗客の年齢）に着目し、データの確認をします

In [5]:
# Ageの平均値


In [2]:
# Ageの中央値


In [3]:
# 70歳以上の人のデータを見る


In [4]:
# 丁度80歳の人のデータを見る


In [5]:
# 男性の生存者を年齢の若い順に並べてみる


In [6]:
# 男性の生存者を年齢のご高齢順に並べてみる


## ■練習問題

1. "train.csv"を読み込みtrainという変数に格納してください

2. 男性の生存者の平均年齢と男性の死亡者(0=死亡、1=生存)の平均年齢を表示し、見比べてください

In [7]:
# 生存男性の平均年齢


In [8]:
# 死亡男性の平均年齢


3. 女性全体の平均年齢と、生存した女性の平均年齢を表示し、見比べてください

In [9]:
# 女性全体の平均年齢


In [10]:
# 生存女性の平均年齢
