## 라이브러리 로드

In [1]:
# 데이터 분석을 위한 pandas 라이브러리를 불러옵니다.
# 데이터 시각화를 위한 seaborn 을 불러옵니다.
import pandas as pd
import seaborn as sns

In [2]:
print(pd.__version__)
print(sns.__version__)

1.3.5
0.11.2


In [3]:
# 0.11.0 버전에서 변화가 많으니 이 버전 이상을 사용해 주세요. 
# !pip install seaborn --upgrade

## 데이터셋 불러오기
<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg">

* seaborn 데이터셋 위치 : https://github.com/mwaskom/seaborn-data

In [4]:
# df
df = sns.load_dataset("mpg")
df.shape

(398, 9)

## 데이터셋 일부만 가져오기

In [5]:
# head
df.head(3)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite


In [6]:
# tail
df.tail(3)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
395,32.0,4,135.0,84.0,2295,11.6,82,usa,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,usa,ford ranger
397,31.0,4,119.0,82.0,2720,19.4,82,usa,chevy s-10


In [7]:
# sample
df.sample(3)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
46,22.0,4,140.0,72.0,2408,19.0,71,usa,chevrolet vega (sw)
102,26.0,4,97.0,46.0,1950,21.0,73,europe,volkswagen super beetle
174,18.0,6,171.0,97.0,2984,14.5,75,usa,ford pinto


## 매번 봐야 하는 기술통계값 코드 한 줄로 보기 
### Pandas Profiling
* [pandas-profiling/pandas-profiling: Create HTML profiling reports from pandas DataFrame objects](https://github.com/pandas-profiling/pandas-profiling)

In [8]:
# 아래 명령어로 설치합니다.
!pip install pandas_profiling --upgrade

Collecting pandas_profiling
  Downloading pandas_profiling-3.2.0-py2.py3-none-any.whl (262 kB)
[K     |████████████████████████████████| 262 kB 7.3 MB/s 
[?25hCollecting PyYAML>=5.0.0
  Downloading PyYAML-6.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (596 kB)
[K     |████████████████████████████████| 596 kB 41.0 MB/s 
Collecting visions[type_image_path]==0.7.4
  Downloading visions-0.7.4-py3-none-any.whl (102 kB)
[K     |████████████████████████████████| 102 kB 11.7 MB/s 
[?25hCollecting multimethod>=1.4
  Downloading multimethod-1.8-py3-none-any.whl (9.8 kB)
Collecting pydantic>=1.8.1
  Downloading pydantic-1.9.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (10.9 MB)
[K     |████████████████████████████████| 10.9 MB 49.4 MB/s 
Collecting htmlmin>=0.1.12
  Downloading htmlmin-0.1.12.tar.gz (19 kB)
Collecting tangled-up-in-unicode==0.2.0
  Downloading tangled_up_in_unicode-0.2.0-py3-none-any.whl (4.7 MB)
[K     |

In [8]:
from pandas_profiling import ProfileReport
profile = ProfileReport(df, title="Pandas Profiling Report")

ImportError: ignored

In [None]:
# 주피터 노트북이 있는 위치에 html파일이 생성됩니다.
profile.to_file("pandas_profile_report.html")

### sweetviz
* [sweetviz · PyPI](https://pypi.org/project/sweetviz/)
<img src="https://warehouse-camo.ingress.cmh1.psfhosted.org/210c4eb7317c8b0d2e7d0784b1a9697c096050ef/687474703a2f2f636f6f6c74696d696e672e636f6d2f53562f4c61796f75742d416e696d332e676966">

In [None]:
# 아래 명령어로 설치해 주셔야지 사용할 수 있습니다.
# !pip install sweetviz

In [None]:
import sweetviz as sv

my_report = sv.analyze(df)
# 타겟변수 없이 그릴 수도 있고 타겟변수를 지정할 수도 있습니다.
# 타겟변수는 범주형이 아닌 수치, bool 값만 가능합니다. 
# 데이터에 따라 수치형으로 되어있지만 동작하지 않을 수도 있습니다. 
# my_report = sv.analyze(df, target_feat ='mpg')
my_report.show_html()