## 데이터 핸들링 및 전처리 

## 01. 데이터 탐색하기

<img src = "https://images.unsplash.com/photo-1528911104572-560677f3996b?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=1770&q=80" width=80% align="center"/>

<div align="right">사진: <a href="https://unsplash.com/ko/%EC%82%AC%EC%A7%84/-TX0ufDSCV4?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>의<a href="https://unsplash.com/@forest_ms?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Forest Simon</a>
</div>
  
  

- 데이터 설명
#### MovieLens
무비렌즈 데이터셋은 사용자가 영화에 대해 남긴 평점 정보와 영화에 대한 상세 정보를 포함하고 있습니다.<br>
이 데이터셋은 추천 시스템 분야뿐만 아니라, 기계 학습, 데이터 마이닝 등 다양한 분야에서도 활용됩니다. <br>
예를 들어, 이 데이터셋을 사용하여 사용자 취향 예측 모델을 만들어 개인화된 추천을 제공하거나, <br>
각 영화의 특징을 분석하여 유사한 영화 추천 등에 활용할 수 있습니다.<br>

1. ratings.csv : 고객이 평가한 영화 평점 정보
> - userId : (int) 유저 아이디 <br>
> - movieId : (int) 영화 아이디 <br>
> - rating : (float) 평점 
> - timestamp : (object) 평점 등록 시간 정보 

2. users.csv : 무비렌즈 가입고객 정보
> - userId : (int) 유저 아이디 <br>
> - gender : (str) 성별, M/F <br>
> - age : (int) 나이<br>
> - occupation : (object) 직업<br>
> - zipcode : (object) 우편코드 

### 0. 데이터 불러오기

In [1]:
# 라이브러리 불러오기
import pandas as pd

# import warnings
# warnings.filterwarnings(action='ignore')

In [2]:
df = pd.read_csv("./data/ratings.csv")

In [3]:
df.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,2000-07-30 18:45:03
1,1,3,4.0,2000-07-30 18:20:47
2,1,6,4.0,2000-07-30 18:37:04
3,1,47,5.0,2000-07-30 19:03:35
4,1,50,5.0,2000-07-30 18:48:51


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   userId     100836 non-null  int64  
 1   movieId    100836 non-null  int64  
 2   rating     100836 non-null  float64
 3   timestamp  100836 non-null  object 
dtypes: float64(1), int64(2), object(1)
memory usage: 3.1+ MB


In [5]:
df['rating'].astype('str')

0         4.0
1         4.0
2         4.0
3         5.0
4         5.0
         ... 
100831    4.0
100832    5.0
100833    5.0
100834    5.0
100835    3.0
Name: rating, Length: 100836, dtype: object

### 1. Sample 데이터 확인하기
.head()와 .tail() 메소드를 사용하면, Sample 데이터를 열어 데이터의 구성과 필요 유무에 대해서 간략하게 확인할 수 있습니다.

In [3]:
# 앞에서 부터 데이터 검색
df.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,2000-07-30 18:45:03
1,1,3,4.0,2000-07-30 18:20:47
2,1,6,4.0,2000-07-30 18:37:04
3,1,47,5.0,2000-07-30 19:03:35
4,1,50,5.0,2000-07-30 18:48:51


In [4]:
# 뒤에서 부터 데이터 검색
df.tail()

Unnamed: 0,userId,movieId,rating,timestamp
100831,610,166534,4.0,2017-05-03 21:53:22
100832,610,168248,5.0,2017-05-03 22:21:31
100833,610,168250,5.0,2017-05-08 19:50:47
100834,610,168252,5.0,2017-05-03 21:19:12
100835,610,170875,3.0,2017-05-03 21:20:15


In [5]:
# 괄호 안에 숫자를 입력하면 앞에서 또는 뒤에서 부터 원하는 개수만큼 검색이 가능합니다.
df.head(10)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,2000-07-30 18:45:03
1,1,3,4.0,2000-07-30 18:20:47
2,1,6,4.0,2000-07-30 18:37:04
3,1,47,5.0,2000-07-30 19:03:35
4,1,50,5.0,2000-07-30 18:48:51
5,1,70,3.0,2000-07-30 18:40:00
6,1,101,5.0,2000-07-30 18:14:28
7,1,110,4.0,2000-07-30 18:36:16
8,1,151,5.0,2000-07-30 19:07:21
9,1,157,5.0,2000-07-30 19:08:20


---

### 2. 데이터프레임 정보 확인하기
.info() 메소드를 사용하면 컬럼 수, 데이터 타입 등 데이터프레임의 정보를 파악할 수 있습니다.

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   userId     100836 non-null  int64  
 1   movieId    100836 non-null  int64  
 2   rating     100836 non-null  float64
 3   timestamp  100836 non-null  object 
dtypes: float64(1), int64(2), object(1)
memory usage: 3.1+ MB


---

### 3. 통계적 특성확인하기
수치형 데이터는 .descibe() 메소드를 사용하면 통계적 특성을 확인할 수 있습니다.

In [7]:
df.describe()

Unnamed: 0,userId,movieId,rating
count,100836.0,100836.0,100836.0
mean,326.127564,19435.295718,3.501557
std,182.618491,35530.987199,1.042529
min,1.0,1.0,0.5
25%,177.0,1199.0,3.0
50%,325.0,2991.0,3.5
75%,477.0,8122.0,4.0
max,610.0,193609.0,5.0


### 4. Pandas 프로파일링 활용하기
방대한 양의 데이터를 가진 데이터프레임을 .profile_report()라는 단 한 줄의 명령으로 탐색하는 패키지인 판다스 프로파일링(pandas-profiling)이 있습니다. <br>
레포트는 HTML 형태로 저장할 수 있습니다.

__사내 PC 실습 안내__ 
- 본 실습은 외부 라이브러리를 설치하는 내용이 포함되어 있습니다.
- 사내 PC에서 외부 라이브러리 설치 시, SSL 인증 오류가 발생할 수 있습니다.
- 아래 코드와 같이, pypi 서버 신뢰 옵션을 추가하여 SSL 인증을 생략합니다.
- 따라서, 내용은 영상 강의와 다를 수 있습니다.

```cmd
pip install --trusted-host pypi.python.org --trusted-host files.pythonhosted.org --trusted-host pypi.org -U [설치할 패키지 명]
```


In [8]:
# 패키지 설치하기
# !pip install pandas-profiling
!pip install --trusted-host pypi.python.org --trusted-host files.pythonhosted.org --trusted-host pypi.org -U pandas-profiling

Collecting pandas-profiling
  Downloading pandas_profiling-3.2.0-py2.py3-none-any.whl (262 kB)
                                              0.0/262.6 kB ? eta -:--:--
     -------------------------------------  256.0/262.6 kB 7.9 MB/s eta 0:00:01
     -------------------------------------- 262.6/262.6 kB 5.4 MB/s eta 0:00:00
Collecting joblib~=1.1.0 (from pandas-profiling)
  Downloading joblib-1.1.1-py2.py3-none-any.whl (309 kB)
                                              0.0/309.8 kB ? eta -:--:--
     -------------------------------------- 309.8/309.8 kB 9.4 MB/s eta 0:00:00
Collecting pydantic>=1.8.1 (from pandas-profiling)
  Downloading pydantic-1.10.9-cp311-cp311-win_amd64.whl (2.1 MB)
                                              0.0/2.1 MB ? eta -:--:--
     ---------                                0.5/2.1 MB 15.4 MB/s eta 0:00:01
     --------------------                     1.1/2.1 MB 13.9 MB/s eta 0:00:01
     -------------------------------          1.7/2.1 MB 13.3 MB/s e

In [26]:
# 설치한 라이브러리 불러오기
import pandas_profiling

In [27]:
# 불러온 데이터프레임에 대한 레포트 생성하기
report = df.profile_report()

In [28]:
# 레포트를 실행하여 확인하기
report

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



In [29]:
# 레포트 파일로 저장하기
report.to_file('./ratings_report.html') 

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

---

## 실습문제

#### Q1. 'users.csv' 파일을 불러와서 변수 'df_users'에 데이터프레임 형태로 저장하세요. 

In [2]:
import pandas as pd
import ydata_profiling

In [4]:
# 여기에 작성하세요.
df_users = pd.read_csv('./data/users.csv')

#### Q2. 데이터프레임 'df_users'의 sample 데이터(앞에서 부터 5개, 뒤에서 부터 10개)를 확인해 보세요. 

In [7]:
# 여기에 작성하세요.
df_users.head()

Unnamed: 0,userId,gender,age,occupation,zipcode
0,1,F,2,K-12 student,48067
1,2,M,110,self-employed,70072
2,3,M,27,scientist,55117
3,4,M,45,executive/managerial,2460
4,5,M,30,writer,55455


In [6]:
df_users.tail()

Unnamed: 0,userId,gender,age,occupation,zipcode
6035,6036,F,30,scientist,32603
6036,6037,F,46,academic/educator,76006
6037,6038,F,79,academic/educator,14706
6038,6039,F,48,other,1060
6039,6040,M,28,doctor/health care,11106


#### Q3. 데이터프레임 'df_users'의 각 컬럼의 데이터 타입을 확인해 보세요.

In [8]:
# 여기에 작성하세요.
df_users.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6040 entries, 0 to 6039
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   userId      6040 non-null   int64 
 1   gender      6040 non-null   object
 2   age         6040 non-null   int64 
 3   occupation  6040 non-null   object
 4   zipcode     6040 non-null   object
dtypes: int64(2), object(3)
memory usage: 1.2 MB


#### Q4. 데이터프레임 'df_users' 의 나이 분포를 확인하세요.

In [9]:
# 여기에 작성하세요.
df_users.describe()

Unnamed: 0,userId,age
count,6040.0,6040.0
mean,3020.5,35.917219
std,1743.742145,16.557879
min,1.0,1.0
25%,1510.75,25.0
50%,3020.5,33.0
75%,4530.25,44.0
max,6040.0,110.0


#### Q4. Pandas 프로파일링 활용하여 데이터프레임 'df_users' 의 EDA 레포트를 출력해 보세요.

In [11]:
# 여기에 작성하세요.
report = df_users.profile_report()

---

In [12]:
report

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



In [14]:
report.to_file('./users_report.html')

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]