# 2_データの詳細な確認
- ここでは、前章よりもさらに詳細なデータ確認を行います
- 膨大なデータを見ても人間には傾向をつかむことは難しいため、統計量という圧縮表現があります。つまり種々の統計量は、膨大なデータのとある特徴を表現する手法として考えられています

## ■写経

### ライブラリインポート（前章と同じ）
- 表形式データを簡単に扱うためのPandasをプログラムにインポートします。インポートすることでPandasの機能が有効化されます

In [1]:
import pandas as pd

### データ読み込み（前章と同じ）
- Pandasの機能を使い、"train.csv"というデータをPythonコードで読み込み、Dataframeオブジェクトとして扱います

In [2]:
train = pd.read_csv("train.csv")

### データを見てみる（前章と同じ）
- head関数をつかって、先頭5行分のデータをダイジェスト表示します

In [3]:
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### （参考）データ型の説明
格納されているデータはそれぞれデータ型を持っています。  
上記のデータでも数値データや文字列データなど、異なるデータ型を持っておりますが、データ分析をする際は異なるデータ型に応じて適切な処理をしていくことが必要になります。
- int64(整数型)　　　　　　：0、1、2など整数の形式で格納されている64bitの整数データ
- float64（浮動小数点型）　：11.1、22.2など小数の形式で格納されている6bitの浮動小数点のデータ  
- bool（真偽値）　　　　　：True、Falseなどの真偽値のデータ  
- datetime64（日付時刻型）：”2022-01-01 08:30:00”のように日付と時刻を表しているデータ  
- objet（文字列型や混合データ型）："apple"などの文字列などを含むデータ  

＊上記は一例です

In [4]:
train.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### (参考)describeで出力される項目の説明
・count（カウント）　　　 :データの個数（欠損値を除く）  
・mean（平均値）　　　  　 :データの平均値  
・std（標準偏差）　　 　 　:データの分散の平方根であり、データの散らばり具合を示す指標  
・min（最小値）　　　  　　:データの中で最小の値  
・25%（パーセンタイル）　:データの下位25%点（第1四分位数）を表し、データの低い方の25%に位置する値  
・50%（パーセンタイル）　:データの中央値を表し、データの中でちょうど真ん中に位置する値  
・75%（パーセンタイル）　:データの下位75%点（第3四分位数）を表し、データの低い方の75%に位置する値  
・max（最大値）　　　　　:データの中で最大の値

### データの型確認
- 各列のデータ型が何であるかを確認します
- Dtypeがint64（整数型）またはfloat64（浮動小数点数型）のカラムが、1つ前のdescribeで統計量計算されていることが確認できます
- Non-Null count（空白でないデータの数）が、1つ前のdescribeでのcountと同義であることが確認できます

In [5]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### 特定列に注目した確認
- Age（乗客の年齢）に着目し、データの確認をします

In [6]:
# Ageの平均値
train["Age"].mean()

29.69911764705882

In [7]:
# Ageの中央値
train["Age"].median()

28.0

In [8]:
# 70歳以上の人のデータを見る
train[train["Age"]>=70]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
672,673,0,2,"Mitchell, Mr. Henry Michael",male,70.0,0,0,C.A. 24580,10.5,,S
745,746,0,1,"Crosby, Capt. Edward Gifford",male,70.0,1,1,WE/P 5735,71.0,B22,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S


In [9]:
# 丁度80歳の人のデータを見る
train[train["Age"]==80]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S


In [10]:
# 男性の生存者を年齢の若い順に並べてみる
train[(train["Sex"] == "male")&(train["Survived"] == 1)].sort_values(by="Age")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5000,,S
831,832,1,2,"Richards, Master. George Sibley",male,0.83,1,1,29106,18.7500,,S
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0000,,S
305,306,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.5500,C22 C26,S
...,...,...,...,...,...,...,...,...,...,...,...,...
692,693,1,3,"Lam, Mr. Ali",male,,0,0,1601,56.4958,,S
709,710,1,3,"Moubarek, Master. Halim Gonios (""William George"")",male,,1,1,2661,15.2458,,C
740,741,1,1,"Hawksford, Mr. Walter James",male,,0,0,16988,30.0000,D45,S
828,829,1,3,"McCormack, Mr. Thomas Joseph",male,,0,0,367228,7.7500,,Q


In [21]:
# 男性の生存者を年齢の若い順に並べてみる
train[(train["Sex"] == "male")&(train["Survived"] == 1)].sort_values(by="Age", ascending=False)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0000,A23,S
570,571,1,2,"Harris, Mr. George",male,62.0,0,0,S.W./PP 752,10.5000,,S
587,588,1,1,"Frolicher-Stehli, Mr. Maxmillian",male,60.0,1,1,13567,79.2000,B41,C
647,648,1,1,"Simonius-Blumer, Col. Oberst Alfons",male,56.0,0,0,13213,35.5000,A26,C
449,450,1,1,"Peuchen, Major. Arthur Godfrey",male,52.0,0,0,113786,30.5000,C104,S
...,...,...,...,...,...,...,...,...,...,...,...,...
692,693,1,3,"Lam, Mr. Ali",male,,0,0,1601,56.4958,,S
709,710,1,3,"Moubarek, Master. Halim Gonios (""William George"")",male,,1,1,2661,15.2458,,C
740,741,1,1,"Hawksford, Mr. Walter James",male,,0,0,16988,30.0000,D45,S
828,829,1,3,"McCormack, Mr. Thomas Joseph",male,,0,0,367228,7.7500,,Q


## ■練習問題

1. "train.csv"を読み込みtrainという変数に格納してください

In [11]:
train = pd.read_csv("train.csv")

2. 男性の生存者の平均年齢と男性の死亡者(0=死亡、1=生存)の平均年齢を表示し、見比べてください

In [12]:
# 生存男性の平均年齢
train[(train["Sex"]=="male")&(train["Survived"]==1)]["Age"].mean()

27.276021505376345

In [13]:
# 死亡男性の平均年齢
train[(train["Sex"]=="male")&(train["Survived"]==0)]["Age"].mean()

31.618055555555557

3. 女性全体の平均年齢と、生存した女性の平均年齢を表示し、見比べてください

In [14]:
# 女性全体の平均年齢
train[(train["Sex"]=="female")]["Age"].mean()

27.915708812260537

In [15]:
# 生存女性の平均年齢
train[(train["Sex"]=="female")&(train["Survived"]==1)]["Age"].mean()

28.84771573604061