# 판다스 프로파일링(Pandas-Profiling)

좋은 머신 러닝 결과를 얻기 위해서는 데이터의 성격을 파악하는 과정이 선행되어야한다.<br>
이 과정에서 데이터 내 값의 분포, 변수 간의 관계, Null 값과 같은 결측값(missing values) 존재 유무 등을 파악하게 되는데 이와 같이 데이터를 파악하는 과정을 EDA(Exploratory Data Analysis, 탐색적 데이터 분석)이라고 한다.

- pandas_profiling은 2023.04.01 부터 deprecated 되었다.
- 대신 2월 1일에 출시된 ydata-profiling 를 설치하여 사용하면 된다.

### 1. 파일 불러오기

In [1]:
import pandas as pd
import ydata_profiling
data = pd.read_csv("spam.csv", encoding="latin1")
print(data[:5])

     v1                                                 v2 Unnamed: 2  \
0   ham  Go until jurong point, crazy.. Available only ...        NaN   
1   ham                      Ok lar... Joking wif u oni...        NaN   
2  spam  Free entry in 2 a wkly comp to win FA Cup fina...        NaN   
3   ham  U dun say so early hor... U c already then say...        NaN   
4   ham  Nah I don't think he goes to usf, he lives aro...        NaN   

  Unnamed: 3 Unnamed: 4  
0        NaN        NaN  
1        NaN        NaN  
2        NaN        NaN  
3        NaN        NaN  
4        NaN        NaN  


### 2. 리포트 생성하기

In [3]:
pr = data.profile_report()
pr.to_file("./pr_report.html") # pr_report.html 파일로 저장

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

### 3. 리포트 살펴보기

In [5]:
pr



#### 1) 개요(Overview)

Overview는 데이터의 전체적인 개요를 보여준다.<br>
데이터의 크기, 변수의 수, 결측값(missing value) 비율, 데이터의 종류는 어떤 것이 있는지를 볼 수 있다.<br><br>
- Dataset statistics
    - 해당 데이터는 총 5,572개의 샘플(행)을 가지고 있으며, 5개의 열을 가지고 있다.
    - 하나의 값을 셀이라고 했을 때, 총 5,572 x 5개의 셀이 존재하지만 그 중 16.648개(59.8%)가 결측값(missing values)으로 확인된다.
- Alert
    - alert을 보면 사실 결측값들은 Unnamed라는 3개의 열에 존재한다.
    - 3개의 열 모두는 99% 이상이 결측값을 갖고 있어 데이터에서 별다른 의미를 갖지 못한다.
    - 앞서 메일의 본문을 의미한다고 했던 v2은 총 5,169개의 중복되지 않은 값(distinct value)을 갖고있다.
    - 총 샘플의 갯수가 5,572개인것을 감안하면 403개의 메일은 중복이 존재한다는 의미이다.

#### 2) 변수(Variables)

변수는 데이터에 존재하는 모든 특성 변수들에 대한 결측값, 중복을 제외한 유일한 값의 개수 등의 통계치를 보여준다.<br>
또한 상위 5개의 값에 대해서는 우측에 바 그래프로 시각화한 결과를 제공한다.<br>

- Unnamed 열
    - 3개의 열 모두 99% 이상의 값이 결측값이다.
    - Unnamed_2 열은 총 5,572개의 값 중에서 5,522개가 결측값이다.
    - 이는 총 50개의 결측값이 아닌 값이 존재함을 의미한다. 그리고 그 중 중복을 제거한 유일한 값의 갯수는 43개이다.
- v1, v2 열
    - v1은 해당 메일이 정상 메일(ham)인지, 스팸 메일(spam)인지 유무가 기재되어져 있다.
    - v1의 경우 유일한 값의 갯수(distinct count)가 2개뿐으로 5,572개의 값 중에서 우측의 바 그래프를 통해 4,825개가 ham이고 747개가 spam인 것을 알 수 있다.
    - 이느 ㄴ데이터에서 정상 메일 샘플이 훨씬 많다는 것을 보여준다.
    - v2의 경우 5,572개의 메일 본문 중에서 중복을 제외하면 5,169개의 유일한 내용의 메일 본문을 갖고 있다.
    - 또한 v1과 v2 모두 결측값(missing values)은 존재하지 않는데, 이는 결과적으로 데이터 전처리를 수행할 때, Unnamed라는 3개의 열을 제거하고 나서는 별도의 결측값 전처리는 필요가 없음을 의미한다.

#### 3) 상세사항(Toggle details)

- ham이 총 4,825개로 이는 전체 값 중 86.6%에 해당되며, spam은 747개로 전체 값 중에서는 13.4%에 해당된다.
- 전체 값의 최대 길이, 최소 길이, 평균 길이와 값의 구성에 대해서 볼 수 있다.
- 위에서 열거한 기능들 외에도 수치형 데이터를 위한 상관계수(correlations), 결측값에 대한 히트맵(headmap), 수지도(dendrogram) 등의 기능을 지원한다.