# Ch01. 자연어 처리(natural language processing)란?

In [None]:
import warnings
warnings.filterwarnings('ignore')



# v05. 판다스 프로파일링 (Pandas-Profiling)

- 좋은 머신 러닝 결과를 얻기 위해서는 **데이터의 성격을 파악하는 과정**이 선행되어야 한다.
- 이 과정에서 다음과 같은 것들을 파악하게 된다.
  - 데이터 내 값의 분포
  - 변수 간의 관계
  - Null 값과 같은 결측값(missing values) 존재 유무
- 이와 같이 데이터를 파악하는 과정을 **EDA(Exploratory Data Analysis, 탐색적 데이터 분석)**이라고 한다.
- 이번에는 방대한 양의 데이터를 가진 데이터프레임을 `.profile_report()`라는 명령으로 탐색하는 패키지인 **판다스 프로파일링(pandas-profiling)**을 소개한다.

<br>

## 5.1 실습 파일 불러오기

- [링크](https://www.kaggle.com/uciml/sms-spam-collection-dataset)에서 `spam.csv` 파일 다운로드
- 해당 데이터셋은 스팸 메일 분류하기 챕터에서 재사용된다.

In [2]:
from google.colab import files
uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

Saving spam.csv to spam (1).csv
User uploaded file "spam.csv" with length 503663 bytes


In [3]:
!ls

 sample_data  'spam (1).csv'   spam.csv


In [4]:
!pip install pandas_profiling==2.4.0



In [None]:
import pandas as pd
import pandas_profiling

data = pd.read_csv('spam.csv', encoding='latin1')

In [6]:
data[:4]

Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,ham,"Go until jurong point, crazy.. Available only ...",,,
1,ham,Ok lar... Joking wif u oni...,,,
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,,,
3,ham,U dun say so early hor... U c already then say...,,,


- 이 데이터에는 총 5개의 열이 있다.
- 그 중 `Unnamed`라는 이름의 3개의 열은 5개의 행만 출력했음에도 벌써 Null 값이 보인다.
- `v1` 열은 해당 메일이 스팸인지 아닌지를 나타내는 레이블에 해당되는 열이다.
  - `ham` : 정상 메일을 의미
  - `spam` : 스팸 메일을 의미
- `v2` 열은 메일의 본문을 담고있다.

<br>

## 5.2 리포트 생성하기

In [7]:
pr = data.profile_report()

(using `df.profile_report(correlations={"cramers": {"calculate": False}})`
If this is problematic for your use case, please report this as an issue:
https://github.com/pandas-profiling/pandas-profiling/issues
(include the error message: 'The internally computed table of expected frequencies has a zero element at (0, 1).')
  correlation_name=correlation_name, error=error


- 데이터프레임에 `.profile_report()`를 사용하여 데이터를 프로파일링한 리포트를 생성할 수 있다.

In [None]:
pr.to_file('./pr_report.html')

- 위 명령을 통해 HTML 파일로 저장하는 것도 가능하다

In [None]:
from google.colab import files
files.download('pr_report.html') # 생성된 html 파일 다운로드

<br>

## 5.3 리포트 살펴보기

In [12]:
pr

Tab(children=(HTML(value='<div id="overview-content" class="row variable spacing">\n    <div class="row">\n   …



### 5.3.1 개요 (Overview)

- 데이터의 전체적인 개요를 보여줌
- 데이터의 크기, 변수의 수, 결측값(missing value) 비율, 데이터의 종류는 어떤 것이 있는 지 볼 수 있다.

<br>

#### 5.3.1.1 Dataset info

- Number of observations
  - 총 5,572개의 샘플(행)을 가지고 있음
- Number of variables
  - 5개의 열을 가지고 있음
- 하나의 값을 셀이라고 했을 때, 총 5,572 x 5개의 셀이 존재한다.
- Missing cells
  - 전체 셀 중 16,648개(59.8%)의 결측값(missing values)으로 확인됨

<br>

#### 5.3.1.2 Warnings

- 결측값들은 `Unnamed`라는 3개의 열에 존재한다.
- 3개의 열 모두는 99% 이상이 결측값을 갖고 있어 데이터에서 별다른 의미를 갖지 못한다.
- 메일의 본문을 의미하는 `v2`열은 총 5,169개의 중복되지 않은 값(distinct value)을 갖고 있다.  
(총 샘플의 개수가 5,572개이므로 403개의 메일은 중복이 존재한다는 의미이다.)

<br>

### 5.3.2 변수 (Variables)

- 데이터에 존재하는 모든 특성 변수들에 대한 결측값, 중복을 제외한 유일한 값(unique values)의 개수 등의 통계치를 보여준다.
- 또한 상위 5개의 값에 대해서는 우측에 바 그래프로 시각화한 결과를 제공한다.

<br>

#### 5.3.2.1 `Unnamed`

- 3개의 열 모두 99% 이상의 값이 결측값이다.

<br>

#### 5.3.2.2 `v1`

- 해당 메일이 정상 메일(`ham`)인지, 스팸 메일(`spam`)인지 유무가 기재되어 있음
- `v1`의 유일한 값의 개수(distinct count) : 2개
- 우측의 바 그래프를 통해 4,825개가 `ham`이고, 747개가 `spam`인 것을 알 수 있다.
  - 이는 데이터에서 정상 메일 샘플이 훨씬 많다는 것을 보여준다.

<br>

#### 5.3.2.3 `v2`

- 5,572개의 메일 본문 중에서 중복을 제외하면 5,169개의 유일한 내용의 메일 본문을 갖고 있다.
- 중복이 가장 많은 메일
  - "Sorry, I'll call later" 라는 내용의 메일
  - 총 30개의 메일이 존재한다.

<br>

#### 5.3.2.4 `v1`, `v2`의 결측값

- `v1`, `v2` 모두 결측값이 존재하지 않음
- 이는 결과적으로 데이터 전처리를 수행할 때, `Unnamed`라는 3개의 열을 제거하고 나서는 별도의 결측값 전처리는 필요 없음을 의미한다.

<br>

### 5.3.3 상세사항 확인하기 (Toggle details)

- 변수 (Variables) 페이지의 바 그래프 우측 하단에 있는 **상세사항 확인하기(Toggle details)** 버튼 클릭
- 상세사항 확인하기에는 총 2개의 탭이 존재
  1. 빈도값 (common values)
    - 바 그래프로 확인했던 각 값의 분포를 좀 더 상세하게 보여준다.
  2. 구성 (composition)
    - 전체 값의 최대 길이, 최소 길이, 평균 길이와 값의 구성에 대해서 볼 수 있다.
    - 여기에서 길이는 문자열 길이로 표시된다. (spam -> 4)
    - Contain chars
      - 숫자, 공백, 특수 문자 등이 없이 알파벳만으로 구성되면 `True`로 표시됨

<br>

## 5.4 판다스 프로파일링의 활용

- 위에서 열거한 기능들 외에도 다음과 같은 다양한 기능을 지원한다.
  - 수치형 데이터를 위한 상관계수(correlations)
  - 결측값에 대한 히트맵(heatmap)
  - 수지도(dendrogram)