## 라이브러리 로드

In [1]:
# 데이터 분석을 위한 pandas 라이브러리를 불러옵니다.
# 데이터 시각화를 위한 seaborn 을 불러옵니다.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


In [2]:
print(pd.__version__)
print(sns.__version__)


1.1.5
0.11.1


In [None]:
# 0.11.0 버전에서 변화가 많으니 이 버전 이상을 사용해 주세요. 
# !pip install seaborn --upgrade

## 데이터셋 불러오기
<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg">

* seaborn 데이터셋 위치 : https://github.com/mwaskom/seaborn-data

In [5]:
# df
df = sns.load_dataset('mpg')
df.shape

(398, 9)

## 데이터셋 일부만 가져오기

In [6]:
# head
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino


In [None]:
# tail
df.tail()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
393,27.0,4,140.0,86.0,2790,15.6,82,usa,ford mustang gl
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup
395,32.0,4,135.0,84.0,2295,11.6,82,usa,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,usa,ford ranger
397,31.0,4,119.0,82.0,2720,19.4,82,usa,chevy s-10


In [None]:
# sample
df.sample()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
189,15.5,8,304.0,120.0,3962,13.9,76,usa,amc matador


## 매번 봐야 하는 기술통계값 코드 한 줄로 보기 
### Pandas Profiling
* [pandas-profiling/pandas-profiling: Create HTML profiling reports from pandas DataFrame objects](https://github.com/pandas-profiling/pandas-profiling)

In [None]:
# 아래 명령어로 설치합니다.
# 2.8.0 이상 버전에서 폰트 설정방법이 변경되어 아래 버전을 사용을 추천합니다.
#!pip install pandas_profiling==2.8.0

In [None]:
from pandas_profiling import ProfileReport
profile = ProfileReport(df, title="Pandas Profiling Report")

In [None]:
profile

Output hidden; open in https://colab.research.google.com to view.

In [None]:
# 주피터 노트북이 있는 위치에 html파일이 생성됩니다.
profile.to_file("pandas_profile_report.html")

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

### sweetviz
* [sweetviz · PyPI](https://pypi.org/project/sweetviz/)
<img src="https://warehouse-camo.ingress.cmh1.psfhosted.org/210c4eb7317c8b0d2e7d0784b1a9697c096050ef/687474703a2f2f636f6f6c74696d696e672e636f6d2f53562f4c61796f75742d416e696d332e676966">

In [None]:
# 아래 명령어로 설치해 주셔야지 사용할 수 있습니다.
!pip install sweetviz

In [None]:
import sweetviz as sv

my_report = sv.analyze(df)
# 타겟변수 없이 그릴 수도 있고 타겟변수를 지정할 수도 있습니다.
# 타겟변수는 범주형이 아닌 수치, bool 값만 가능합니다. 
# 데이터에 따라 수치형으로 되어있지만 동작하지 않을 수도 있습니다. 
# my_report = sv.analyze(df, target_feat ='mpg')
my_report.show_html()

                                             |          | [  0%]   00:00 -> (? left)

Report SWEETVIZ_REPORT.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


## 결측치 보기

In [8]:
df.isnull().sum()

mpg             0
cylinders       0
displacement    0
horsepower      6
weight          0
acceleration    0
model_year      0
origin          0
name            0
dtype: int64

In [10]:
df.isnull().mean() *100

mpg             0.000000
cylinders       0.000000
displacement    0.000000
horsepower      1.507538
weight          0.000000
acceleration    0.000000
model_year      0.000000
origin          0.000000
name            0.000000
dtype: float64

## 기술통계 보기

In [12]:
df.describe()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year
count,398.0,398.0,398.0,392.0,398.0,398.0,398.0
mean,23.514573,5.454774,193.425879,104.469388,2970.424623,15.56809,76.01005
std,7.815984,1.701004,104.269838,38.49116,846.841774,2.757689,3.697627
min,9.0,3.0,68.0,46.0,1613.0,8.0,70.0
25%,17.5,4.0,104.25,75.0,2223.75,13.825,73.0
50%,23.0,4.0,148.5,93.5,2803.5,15.5,76.0
75%,29.0,8.0,262.0,126.0,3608.0,17.175,79.0
max,46.6,8.0,455.0,230.0,5140.0,24.8,82.0


In [13]:
# 범주형 데이터 값에 대해서 기술통계 확인가능
df.describe(include=object)

Unnamed: 0,origin,name
count,398,398
unique,3,305
top,usa,ford pinto
freq,249,6
