# CSV 파일 불러오기

In [None]:
import pandas as pd

df = pd.read_csv('mtcars.csv')
df.head()

In [None]:
df.tail()

In [None]:
print('{} rows, {} columns'.format(*df.shape))

In [None]:
df.rename(columns={'Unnamed: 0': 'name'}, inplace=True)
df.head()

In [None]:
df.info()

- name
    - str
    - 차 이름
- mpg
    - float64
    - miles per gallon
        - 연비
- cyl
    - int64 (수치형)
    - 실린더 수
- disp
    - float64
    - 엔진 배기량(Displacement)
        - 엔진 내부에서 실린더가 움직일 수 있는 총 부피
            - 실린더 넒이 x 스트로크 길이 x 실린더 수
        - 배기량이 크면 더 큰 힘을 낼 수 있으나, 연비가 낮아진다
            - 배기량이 크면 낮은 회전수에도 큰 힘을 내 스포츠카나 대형 차량에 유리
            - 고출력을 위해 실린더 수보다 배기량을 늘리는게 더 경제적
                - 다만 고출력과 함께 부드려운 운전이 목표라면 실린더를 늘려야 함
- hp
    - int64
    - 이론적으로 엔진이 낼 수 있는 최대 힘(Gross Horse Power)
        - 모터에 외부 부하나 기계적 저항이 없는 상태를 가정
            - 자동차에서 분리된 상태에서 힘을 측정
            - 실제 모터의 힘(Net horse power)와 다를 수 있음
        - 마력이 높을수록 가속이 빨라지고 더 무거운 짐도 실을 수 있다
            - 견인차나 트럭과 같은 차량에 필요
        - 최고 속도를 결정하는 요소
- drat
    - float64
    - 구동축(Drive shaft) 후륜축(Rear axle)의 기어비 (Rear axle ratio)
        - 구동축은 변속기를 거치고 난 토크를 후륜축에 전달
        - 후륜축이 1바퀴를 돌려면 구동축은 몇바퀴를 돌려야하는가
        - 기어비에 따른 성능 차이
            - drat이 낮을수록
                - 가속이 느린 대신 부드럽고 꾸준한 주행
                    - 연비가 중요한 차량에 유리
                - 고속 주행시 최고속도를 유지하기 쉬움
                - 연비가 향상됨
                    - 고속도로나 장거리 주행에 유리
                - 견인 능력은 낮아짐
                    - 오프로드 주행에 불리
            - drat이 높을수록
                - 가속이 빠름
                    - 스포츠카가 선호
                - 고속 주행시 최고속도가 낮아질 수 있음
                - 연비가 낮아짐
                    - 도시처럼 자주 가속이나 감속이 잦은 도로에서 유리
                - 견인 능력이 좋음
                    - 오프로드 주행이나 많은 짐을 옮길 때 유리
- wt
    - float64
    - 무게 (weight)
- qsec
    - float64
    - quarter mile time
        - 출발선에서 0.25 마일을 가는데 걸리는 시간 (초)
- vs
    - int64 (범주형)
    - 엔진의 실린더 배열 방식
        - V(0)
            - 실린더를 V자로 배열
            - 높은 출력과 매끄러운 운전을 제공
                - 스포츠카에 사용
        - S(1)
            - 실린더를 일직선(Straight)으로 배열
            - 구조의 단순성과 효율성을 제공
                - 일반 차량에 사용
- am
    - int64 (범주형)
    - 변속기(Transmission) 종류
        - Automate(0)
        - Manual(1)
- gear
    - int64 (수치형)
    - 변속기의 전진 기어 수
        - 1단, 2단, 3단할 때 그거
        - 엔진과 변속기 사이의 기어비를 결정
            - rear axle ratio와는 별개
- carb
    - int64 (수치형)
    - 엔진의 기화기 수
        - 기화기는 연료와 공기를 섞어 엔진의 점화실로 보내는 역할
            - 연료의 흐름을 조절하는 역할
        - 엔진의 RPM을 조절하는 역할
            - 전기 모터의 힘을 조절하기 위해 전류를 조절하는 것과 비슷한 역할을 함
        - 개수에 따른 성능
            - 단일
                - 연료 공급이 단순화됨
                - 엔진 출력이 낮지만 일상적인 주행에 적당
                - 엔진의 반응속도가 다소 느림
                - 연비가 높음
                - 일반 승용차에 적합
            - 다중
                - 연료 공급을 세밀하게 조절할 수 있음
                - 더 많은 연료를 공급할 수 있어 엔진 출력을 극대화할 수 있음
                - 엔진이 더 민첩하고 즉각적으로 반응함
                - 연비가 낮음
                - 스포츠카에 적합

In [None]:
df.dtypes

In [None]:
df.describe()

In [None]:
df.nunique(dropna=True)[['gear', 'am']]

# Gear X Transmission 조합에 따른 데이터 개수 구하기

In [None]:
# 1. pandas.corsstab
pd.crosstab(index=df['gear'], columns=df['am'])

In [None]:
# 2. DataFrame.pivot_table
df.pivot_table(values='name', 
               index='gear',
               columns='am', 
               aggfunc='count', 
               fill_value=0.0)


In [None]:
# 3. DataFrame.groupby
df[['gear', 'am', 'name']].groupby(['gear', 'am']).count()

In [None]:
df_gear_am_count = pd.crosstab(index=df['gear'], columns=df['am'])
df_gear_am_count.columns = ['Auto', 'Manual']
s_gear_am_count = df_gear_am_count.stack()

In [None]:
import matplotlib.pyplot as plt

_, ax = plt.subplots()

pd.DataFrame({'count': s_gear_am_count}, index=s_gear_am_count.index).plot(kind='bar', ax=ax)
ax.set_title('# of Cars by Gear x Transmission')
ax.set_xlabel('(Gear, Auto Transmission)')
ax.set_ylabel('X of Cars')
ax.get_legend().remove()
ax.set_xticklabels(ax.get_xticklabels(), rotation=30, ha='right')

plt.show()

# feature 별 히스토그램

In [None]:
columns = df.drop(['name'], axis=1).columns.to_list()
columns

In [None]:
fig, axs = plt.subplots(nrows=4, ncols=3, figsize=(10, 10))

fig.suptitle('Histograms of Variables')

for i, column in enumerate(columns):
    ax = plt.subplot(4, 3, i + 1)
    
    ax.hist(x=column, data=df)
    ax.set_title(column)
    ax.grid(True)

ax = plt.subplot(4, 3, columns.index('am') + 1)
ax.set_xticks(ticks=[0, 1], labels=['Auto', 'Manual'])
ax.set_xlim(-0.5, 1.5)

ax = plt.subplot(4, 3, columns.index('vs') + 1)
ax.set_xticks(ticks=[0, 1], labels=['V-angles', 'Straight'])
ax.set_xlim(-0.5, 1.5)

ax = plt.subplot(4, 3, 12)
ax.remove()

plt.tight_layout()
plt.show()

# Cylinder 수와 Horse Power의 상관관계

In [None]:
from matplotlib.ticker import MaxNLocator

_, ax = plt.subplots()

ax.scatter(x=df['cyl'], y=df['hp'], s=100, alpha=0.5)
ax.set_title('Cylinder vs Horse Power')
ax.set_xlabel('# of Cylinders')
ax.set_ylabel('Gross Horse Power')
ax.xaxis.set_major_locator(MaxNLocator(integer=True))

plt.show()

# MPG와 Horse Power의 상관관계

In [None]:
_, ax = plt.subplots()

ax.scatter(x=df['mpg'], y=df['hp'], alpha=0.5)
ax.set_xlabel('MPG')
ax.set_ylabel('Gross Horse Power')
ax.set_title('MPG vs Horse Power')

plt.show()

# 각 column별 상관계수

In [None]:
df_corr = df.drop(['name'], axis=1, inplace=False).corr()
df_corr.style.background_gradient(cmap='PRGn')

In [None]:
df_corr[['mpg', 'qsec']].style.background_gradient(cmap='PRGn')

In [None]:
df.drop(['name', 'mpg', 'qsec'], axis=1).corr().style.map(lambda x: 'color:red' if x != 1.0 and (x >= 0.8 or x <= -0.8) else None)

In [None]:
pd.crosstab(index=df['cyl'], columns=df['vs'].map(lambda x: ['V', 'S'][x]))

Q: 이런 데이터셋을 분석해서 얻을 수 있는 경제적 가치는 무엇일까요? 어떤 비즈니스 상황에서 이런 데이터셋을 분석해서 어떤 경제적 가치를 얻을 수 있을까요?

A: 자동차의 성능을 높이기 위해 어떤 부품을 우선적으로 실험해볼지를 결정해 실험 비용을 최소화해볼 수 있다. 예를 들어, Gross Horse Power(hp)의 경우 mpg와 qsec 모두 높은 상관관계를 보인다. 이는 엔진의 마력을 올릴수록 자동차의 가속력과 최대 속도가 확실하게 증가하지만 그만큼 연비도 감소함을 알 수 있다. 만약 오프로드 차량이나 적재량이 커야하는 자동차의 경우 연비를 어느정도 희생할 수 있는지를 따져봐야 한다.
하지만 Rear axle ratio(drat)의 경우 mpg와 연관성이 있지만 qsec과는 거의 없다는 것을 알 수 있다. 만약 Rear axle ratio가 독랍적으로 높일 수 있다면 연비는 높이면서 가속력에는 영향을 주지 않을 수 있다. 그러면 Rear axle ratio를 먼저 고려하고 늘어난 연비만큼 엔진 마력에 투자해볼 수도 있다.

In [None]:
plt.scatter(x=df['cyl'], y=df['disp'], alpha=0.5)
plt.title('# of Cylinders vs. Displacement')
plt.xlabel('# of Cylinders')
plt.ylabel('Displacement')
plt.show()

- cyl과 disp의 상관계수: 0.902033
    - 실제로 Displacement값을 추정할 때 cylinder 수가 들어가기 때문으로 보임
    - 완벽하게 정비례하지 않은 이유는 챠량마다 cylinder의 크기와 스트로크 길이가 다르기 때문

In [None]:
plt.scatter(x=df['wt'], y=df['mpg'])
plt.title('Weight vs. MPG')
plt.xlabel('Weight')
plt.ylabel('MPG')
plt.show()

- wt와 mpg의 상관관계: -0.867659
    - mpg와의 상관관계중 가장 높음
    - 부품의 성능보다도 차량 전체 무게가 연비에 가장 큰 영향을 준다
        - 부품 자체의 무게를 줄이는 것도 고려해볼 수 있을 듯 하다.