# 통계 이해
## 기술통계 실습
### 자동차 연비 Data Set 에서 기술 통계치 구하기
### [시내에서 연비(mpg) 통계치]

In [57]:
import numpy as np
from scipy import stats
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.stats.proportion import proportions_ztest

ds_mycars = pd.read_csv("mycars.csv", engine="python")

df = ds_mycars[['driving', 'mpg']]

df.groupby('driving').describe()

Unnamed: 0_level_0,mpg,mpg,mpg,mpg,mpg,mpg,mpg,mpg
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
driving,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
4,103.0,14.330097,2.874459,9.0,13.0,14.0,16.0,21.0
f,106.0,19.971698,3.62651,11.0,18.0,19.0,21.0,35.0
r,25.0,14.08,2.215852,11.0,12.0,15.0,15.0,18.0


## 시내 연비 통계치 리뷰

pandas 라이브러리를 이용해 csv 파일을 연다.
데이터 프레임을 생성할 때 driving이라는 컬럼을 행 정보 highway_mileage에 대한 통계치를 보여주도록 한다.
구동방식 별로 묶어주기 위해 groupby를 이용한다.

먼저 시내에서 연비 통계치를 살펴본다. 
일단 driving(구동 방식)은 4, f, r 세 가지로 나뉜다.
평균(mean)을 보면 f(전륜) 방식이 가장 연비가 높다는 것을 알 수 있다.
그 다음 4륜과 후륜 자동차가 근소한 차이로 비슷하다는 것을 알 수 있다.

### [고속도로에서 연비 통계치]

In [58]:
import numpy as np
from scipy import stats
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.stats.proportion import proportions_ztest

ds_mycars = pd.read_csv("mycars.csv", engine="python")

df = ds_mycars[['driving', 'highway_mileage']]

df.groupby('driving').describe()

Unnamed: 0_level_0,highway_mileage,highway_mileage,highway_mileage,highway_mileage,highway_mileage,highway_mileage,highway_mileage,highway_mileage
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
driving,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
4,103.0,19.174757,4.078704,12.0,17.0,18.0,22.0,28.0
f,106.0,28.160377,4.206881,17.0,26.0,28.0,29.0,44.0
r,25.0,21.0,3.662877,15.0,17.0,21.0,24.0,26.0


## 고속도로 연비 통계치 리뷰

고속도로에서 연비 통계치를 살펴보면
mean(평균)을 보았을 때 f(전륜) 자동차가 가장 높은 수치를 기록했고 연비가 가장 높다는 것을 알 수 있다. 시내에서와는 다르게 고속도로에서는 4륜과 후륜 자동차의 연비 차이가 더 난다.
4륜 자동차가 평균 19를 가지면서 고속도로에서 가장 연비가 떨어짐을 알 수 있다.

### [자동차의 모델과 연비(mpg)에 대한 자료]
####  counts, cumulative counts, cumulative percents 계산

In [56]:
import numpy as np
from scipy import stats
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.stats.proportion import proportions_ztest

ds_Exh_QC1 = pd.read_csv("mycars.csv", engine="python")
df = ds_Exh_QC1[['model', 'mpg']]

count = df['model'].value_counts().sort_index()

cumcnt = np.cumsum(count)
percent = count / sum(count) * 100
cumpct = np.cumsum(percent)

count_data = pd.DataFrame({'Count': count, 'Percent': percent, 'CumCnt': cumcnt, 'CumPct': cumpct})
count_data.columns.name='model'
count_data

model,Count,Percent,CumCnt,CumPct
4runner 4wd,6,2.564103,6,2.564103
a4,7,2.991453,13,5.555556
a4 quattro,8,3.418803,21,8.974359
a6 quattro,3,1.282051,24,10.25641
altima,6,2.564103,30,12.820513
c1500 suburban 2wd,5,2.136752,35,14.957265
camry,7,2.991453,42,17.948718
camry solara,7,2.991453,49,20.940171
caravan 2wd,11,4.700855,60,25.641026
civic,9,3.846154,69,29.487179


### Model 별 Count, Cumulative Count, Percent

model 이라는 컬럼을 추가해서 모델 별로 누적 개수, 퍼센트 등을 구한다.
가장 많은 자동차는 caravan 2wd로 나타났다.