In [1]:
import pandas as pd

In [2]:
pd.__version__

'1.5.3'

# Save Data

In [3]:
# 저장양식: movies.to_csv('복사한 저장 위치/저장할 파일 명')
# 파일포맷: to_csv, to_excel, to_pickle 등
# movies.to_csv('/content/drive/MyDrive/Colab Notebooks/data/ml-latest-small/movies.csv')

# Read Data

In [4]:
movies = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/data/ml-latest-small/movies.csv', index_col='movieId')
movies

Unnamed: 0_level_0,title,genres
movieId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama|Romance
5,Father of the Bride Part II (1995),Comedy
...,...,...
193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
193585,Flint (2017),Drama
193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


In [5]:
movies.shape

(9742, 2)

In [None]:
# movies.head(10)
# movies.tail(10)
movies.sample(10)

In [None]:
movies.columns

### 개봉연도 데이터 정제하기 (데이터 전처리, Preprocessing)

In [None]:
# '(연도)' 추출
# str.extract는 문자열을 정규식을 사용하여 추출하는 메서드
# \(: '특수 문자 ('를 '이스케이프 \'하여 일반 문자로 인식
# \d\d\d\d: 네 자리 숫자
movies['year'] = movies['title'].str.extract('(\(\d\d\d\d\))')
movies['year'].unique()

In [None]:
# '연도' 추출
# nan 결측값 발견
movies['year'] = movies['title'].str.extract('(\d\d\d\d)')
movies['year'].unique()

### 결측값 핸들링 하기

In [None]:
movies.head(5)

In [None]:
# True/False 모두 출력
# movies['year'].isnull()

# NaN (Not a Number), 결측치
movies[movies['year'].isnull()]

In [None]:
# 결측치 채워넣기
movies['year'] = movies['year'].fillna('2050')

# 결측치 다시 확인
movies['year'].unique()
# movies[movies['year'].isnull()]

### 데이터에 가장 많이 출현하는 개봉연도 찾기

In [None]:
movies['year'].value_counts()

In [None]:
# Matplotlib 그림이 셀 아래에 나타남
%matplotlib inline

import seaborn as sns
import matplotlib.pyplot as plt  # seaborn의 figure 크기 조절

In [None]:
plt.figure(figsize=(50,10))
# sns.countplot(data=movies, x='year')
sns.countplot(data=movies, x='year', order=sorted(movies['year'].unique())) # 위 처럼 자동정렬이 안된 경우

### genre 분석

In [None]:
movies['genres']

In [None]:
sample_genre = movies['genres'][1]
sample_genre

In [None]:
# split 해보기
sample_genre.split("|")

In [None]:
# split > lambda 함수 적용
movies['genres'].apply(lambda x: x.split("|"))

In [None]:
genres_list = list(movies['genres'].apply(lambda x: x.split("|")))
genres_list[:5]

In [None]:
# 구글링: python flatten list of list
flat_list = []
for sublist in genres_list:
    for item in sublist:
        flat_list.append(item)

In [None]:
# 중복제거
genres_unique = set(flat_list)
genres_unique

In [None]:
len(genres_unique) # 장르는 19개 (no genres listed 제외)

### 장르 데이터 숫자형으로 변환하기

In [None]:
message = 'Hello'
message

In [None]:
'H' in message

In [None]:
'IMAX' in sample_genre

In [None]:
# 방법1 (복잡)
movies['Action'] = movies['genres'].apply(lambda x: 'AActiondventure' in x)
movies['IMAX'] = movies['genres'].apply(lambda x: 'IMAX' in x)

movies

In [None]:
# 방법2 (간단)
genres_dummies = movies['genres'].str.get_dummies(sep='|')
genres_dummies

In [None]:
# csv 파일 vs pickle 파일
# csv 는 comma로 데이터를 구분하고 pickledms index로 구분해서 판다스 사용시 더 유리하다.
# googling: "differenct between csv and pickle when saving pandas dataframe"
# https://stackoverflow.com/questions/48770542/what-is-the-difference-between-save-a-pandas-dataframe-to-pickle-and-to-csv

genres_dummies.to_pickle('/content/drive/MyDrive/Colab Notebooks/data/ml-latest-small/genres.p')

In [None]:
# 장르간 상관관계
# 상관계수: -1~1 음or양의 상관관계
genres_dummies.corr()

In [None]:
plt.figure(figsize=(30,15))
sns.heatmap(genres_dummies.corr(), annot=True)  # annot: 각 셀에 숫자로 된 값을 표시