# EDA

In [1]:
# 모듈 불러오기
import pandas as pd
import numpy as np
import re
import ast

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

from collections import Counter

In [2]:
# 한국어 설정
from matplotlib import font_manager, rc
rc('font', family='Malgun Gothic')

In [None]:
# 데이터 불러오기
final = pd.read_excel('./imdb_final_6.xlsx', index_col=0)
final.head()

## 01. 개요

In [None]:
# info
final.info()

In [None]:
# describe
final.describe()

In [None]:
# insull()
final.isnull().sum()

## 02. 시즌 개수

In [None]:
# total_season_num
final['total_season_num'].value_counts().sort_index()

In [None]:
# total_season_num
value_counts = final['total_season_num'].value_counts().sort_index()

# 막대 그래프 시각화
colors = ['red' if season == 1 else 'skyblue' for season in value_counts.index]

plt.figure(figsize=(10, 6))
value_counts.plot(kind='bar', color=colors)
plt.title('시즌 개수')
plt.xticks(rotation=0)
plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.show()

In [None]:
# 시즌 2 이상 드라마 개수 및 비율
len(final[final['total_season_num'] >= 2]), round(len(final[final['total_season_num'] >= 2]) / len(final['total_season_num']), 2)

In [None]:
# 시즌이 8 이상인 드라마
final[final['total_season_num'] >= 8]

## 03. 연도

In [None]:
# 2018 이후에 방영된 드라마 개수
len(final[final['year'] >= 2018]), round(len(final[final['year'] >= 2018]) / len(final['year']), 2)

In [None]:
# 연도별 드라마 개수
plt.figure(figsize=(10, 6))
sns.countplot(data=final, x='year')
plt.title('연도별 드라마 개수')
plt.xticks(rotation=45)
plt.show()

## 04. 장르

In [None]:
# 장르
genre = []
for idx, row in final.iterrows():
    tmp_list= row['genre'].split(', ')
    for x in tmp_list:
        genre.append(x)

counts = Counter(genre)
counts = sorted(counts.items(), key=lambda x: x[1], reverse=True)
for element, count in counts[1:]:
    print(f'{element}: {count}')

In [None]:
# 튜플의 각 요소를 분리
counts = counts[1:]
counts = counts[:9]
genre, cnt = zip(*counts)

# 국가별 드라마 개수 시각화
cmap = plt.get_cmap('viridis')
plt.figure(figsize=(12, 6))
bars = plt.bar(genre, cnt)

for bar, height in zip(bars, cnt):
    bar.set_color(cmap(height / max(cnt)))

plt.title('장르 별 드라마 개수')
plt.show()

## 05. 연령 등급

In [None]:
# 연령 등급 개수
plt.figure(figsize=(10, 6))
sns.countplot(data=final, x='age_rating')
plt.title('연령 등급 개수')
plt.show()

In [None]:
# 연령 등급에 따른 재생 시간 분포
plt.figure(figsize=(8, 6))
sns.boxplot(x='age_rating', y='runtime', data=final, palette='Set3')
plt.title('연령 등급에 따른 재생 시간 분포')
plt.show()

## 06. 제작 국가

In [None]:
# 제작 국가 상위 20개
country = []
for idx, row in final.iterrows():
    tmp_list= row['production_country'].split(', ')
    for x in tmp_list:
        country.append(x)

counts = Counter(country)
counts = sorted(counts.items(), key=lambda x: x[1], reverse=True)
for element, count in counts[:20]:
    print(f'{element}: {count}')

In [None]:
# 튜플의 각 요소를 분리
counts = counts[:12]
country, cnt = zip(*counts)

# 국가별 드라마 개수 시각화
cmap = plt.get_cmap('viridis')
plt.figure(figsize=(12, 6))
bars = plt.bar(country, cnt)

for bar, height in zip(bars, cnt):
    bar.set_color(cmap(height / max(cnt)))

plt.xlabel('count')
plt.ylabel('country')
plt.title('제작 국가 별 드라마 개수')
plt.show()