# 統計解析体験

---



## データの読み込みと表示確認

In [1]:
# pandasをインポート
import pandas as pd

# サンプルデータ Tips の読み込み
df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')

# データフレームの表示
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


* total_bill : 総支払額(食事代、税込み)　(USドル)
* tip : チップ(USドル)
* sex : 性別
* smoker : 喫煙者か否か
* day : 曜日(木・金・土・日のいずれか)
* time : 食事の時間(昼食か夕食か)
* size : 人数

## データフレームの基本情報を表示

In [2]:
# データフレームの基本情報
print('行数・列数：', df.shape)
print('項目名：', df.columns)
print('各列のデータ型：\n', df.dtypes)

行数・列数： (244, 7)
項目名： Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')
各列のデータ型：
 total_bill    float64
tip           float64
sex            object
smoker         object
day            object
time           object
size            int64
dtype: object


df.dtypes で表示される「データ型」の違いが重要です。
* int64 , float64： **数値項目（量的データ）**で、計算の対象になります
* object：**名義項目（質的データ）**で、データを分類する際のカテゴリーキーワードになります。

## 要約統計量の表示

In [3]:
# 要約統計量を表示
df.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


以下の単語は統計上重要なものです。
* mean：平均値
* std（standard deviation）：標準偏差。平均値からの散らばり具合（ばらつき）を表す指標
* min, max：最小値, 最大値
* 25% 50% 75% ：４分位数（しぶんいすう）。データの数で4等分した時の区切り値

## 相関係数の表示

In [4]:
# 相関係数を表示
df.corr( numeric_only=True )

Unnamed: 0,total_bill,tip,size
total_bill,1.0,0.675734,0.598315
tip,0.675734,1.0,0.489299
size,0.598315,0.489299,1.0


支払い総額とチップ、支払い総額と人数、チップと人数（サイズ）、いずれの項目間にも「やや相関（0.4 - 0.7)」があると言えます。



## データの並べ替えの事例

In [5]:
# データを total_bill の順で並べ替え（ 降順 ）
df_sort = df.sort_values( 'total_bill', ascending=False )
df_sort

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
170,50.81,10.00,Male,Yes,Sat,Dinner,3
212,48.33,9.00,Male,No,Sat,Dinner,4
59,48.27,6.73,Male,No,Sat,Dinner,4
156,48.17,5.00,Male,No,Sun,Dinner,6
182,45.35,3.50,Male,Yes,Sun,Dinner,3
...,...,...,...,...,...,...,...
149,7.51,2.00,Male,No,Thur,Lunch,2
111,7.25,1.00,Female,No,Sat,Dinner,1
172,7.25,5.15,Male,Yes,Sun,Dinner,2
92,5.75,1.00,Female,Yes,Fri,Dinner,2


以下の用語は、一般的な言葉として重要です。
* sort（sorting）：ソートは、並べ替えを意味します。
* ascending：昇順。小さいもの順序
* descending：降順。大きいもの順序

## データ抽出の事例

In [6]:
# 女性の行のみ抽出
df_female = df.query( ' sex == "Female" ' )
df_female

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
11,35.26,5.00,Female,No,Sun,Dinner,4
14,14.83,3.02,Female,No,Sun,Dinner,2
16,10.33,1.67,Female,No,Sun,Dinner,3
...,...,...,...,...,...,...,...
226,10.09,2.00,Female,Yes,Fri,Lunch,2
229,22.12,2.88,Female,Yes,Sat,Dinner,2
238,35.83,4.67,Female,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2


* query：クエリーとは「問い合わせ」の意味で、一般にデータベースに対して「条件に合うデータの抽出」を要求することを意味します。

In [7]:
# Dinner に ５名以上で来た客のみ抽出
df_dinner_size = df.query( ' time == "Dinner" and size >= 5 ' )
df_dinner_size

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
155,29.85,5.14,Female,No,Sun,Dinner,5
156,48.17,5.0,Male,No,Sun,Dinner,6
185,20.69,5.0,Male,No,Sun,Dinner,5
187,30.46,2.0,Male,Yes,Sun,Dinner,5
216,28.15,3.0,Male,Yes,Sat,Dinner,5


## クロス集計

In [8]:
# クロス集計 曜日別の男女の数
cross_table = pd.crosstab( df['day'] , df['sex'] )
cross_table

sex,Female,Male
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Fri,9,10
Sat,28,59
Sun,18,58
Thur,32,30


* 土日は男性客が多く、木曜は男女が同じぐらいになることがわかります。

In [9]:
# クロス集計 曜日別の男女の数 正規化
cross_table_n = pd.crosstab( df['day'] , df['sex'] , normalize='index' )
cross_table_n

sex,Female,Male
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Fri,0.473684,0.526316
Sat,0.321839,0.678161
Sun,0.236842,0.763158
Thur,0.516129,0.483871


* 曜日ごとに、合計が 1.0 となるように計算された結果が表示されています。

## 参考：項目別の統計解析

In [10]:
# 曜日別のデータ件数（ value_counts() ）
df_day_counts = df[ 'day' ].value_counts()
df_day_counts

Unnamed: 0_level_0,count
day,Unnamed: 1_level_1
Sat,87
Sun,76
Thur,62
Fri,19


In [11]:
# 曜日別の平均
df_day_mean = df.groupby('day').mean( numeric_only=True )
df_day_mean

Unnamed: 0_level_0,total_bill,tip,size
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Fri,17.151579,2.734737,2.105263
Sat,20.441379,2.993103,2.517241
Sun,21.41,3.255132,2.842105
Thur,17.682742,2.771452,2.451613
