# EDA

In [1]:
# 모듈 불러오기
import pandas as pd
import numpy as np
import re
import ast

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

from collections import Counter

In [2]:
# 한국어 설정
from matplotlib import font_manager, rc
rc('font', family='Malgun Gothic')

In [None]:
# 데이터 불러오기
final = pd.read_excel('./imdb_final_6.xlsx', index_col=0)
final.head()

## 01. 개요

In [None]:
# info
final.info()

In [None]:
# describe
final.describe()

In [None]:
# insull()
final.isnull().sum()

## 02. 시즌 개수

In [None]:
# total_season_num
final['total_season_num'].value_counts().sort_index()

In [None]:
# total_season_num
value_counts = final['total_season_num'].value_counts().sort_index()

# 막대 그래프 시각화
colors = ['red' if season == 1 else 'skyblue' for season in value_counts.index]

plt.figure(figsize=(10, 6))
value_counts.plot(kind='bar', color=colors)
plt.title('시즌 개수')
plt.xticks(rotation=0)
plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.show()

In [None]:
# 시즌 2 이상 드라마 개수 및 비율
len(final[final['total_season_num'] >= 2]), round(len(final[final['total_season_num'] >= 2]) / len(final['total_season_num']), 2)

In [None]:
# 시즌이 8 이상인 드라마
final[final['total_season_num'] >= 8]

## 03. 연도

In [None]:
# 2018 이후에 방영된 드라마 개수
len(final[final['year'] >= 2018]), round(len(final[final['year'] >= 2018]) / len(final['year']), 2)

In [None]:
# 연도별 드라마 개수
plt.figure(figsize=(10, 6))
sns.countplot(data=final, x='year')
plt.title('연도별 드라마 개수')
plt.xticks(rotation=45)
plt.show()

## 04. 장르

In [None]:
# 장르
genre = []
for idx, row in final.iterrows():
    tmp_list= row['genre'].split(', ')
    for x in tmp_list:
        genre.append(x)

counts = Counter(genre)
counts = sorted(counts.items(), key=lambda x: x[1], reverse=True)
for element, count in counts[1:]:
    print(f'{element}: {count}')

In [None]:
# 튜플의 각 요소를 분리
counts = counts[1:]
counts = counts[:9]
genre, cnt = zip(*counts)

# 국가별 드라마 개수 시각화
cmap = plt.get_cmap('viridis')
plt.figure(figsize=(12, 6))
bars = plt.bar(genre, cnt)

for bar, height in zip(bars, cnt):
    bar.set_color(cmap(height / max(cnt)))

plt.title('장르 별 드라마 개수')
plt.show()

## 05. 연령 등급

In [None]:
# 연령 등급 개수
plt.figure(figsize=(10, 6))
sns.countplot(data=final, x='age_rating')
plt.title('연령 등급 개수')
plt.show()

In [None]:
# 연령 등급에 따른 재생 시간 분포
plt.figure(figsize=(8, 6))
sns.boxplot(x='age_rating', y='runtime', data=final, palette='Set3')
plt.title('연령 등급에 따른 재생 시간 분포')
plt.show()

## 06. 제작 국가

In [None]:
# 제작 국가 상위 20개
country = []
for idx, row in final.iterrows():
    tmp_list= row['production_country'].split(', ')
    for x in tmp_list:
        country.append(x)

counts = Counter(country)
counts = sorted(counts.items(), key=lambda x: x[1], reverse=True)
for element, count in counts[:20]:
    print(f'{element}: {count}')

In [None]:
# 튜플의 각 요소를 분리
counts = counts[:12]
country, cnt = zip(*counts)

# 국가별 드라마 개수 시각화
cmap = plt.get_cmap('viridis')
plt.figure(figsize=(12, 6))
bars = plt.bar(country, cnt)

for bar, height in zip(bars, cnt):
    bar.set_color(cmap(height / max(cnt)))

plt.xlabel('count')
plt.ylabel('country')
plt.title('제작 국가 별 드라마 개수')
plt.show()

## 07. 나라 별 TOP 감독

In [None]:
# 결측치 처리
final['production_country'] = final['production_country'].fillna('')
final['director'] = final['director'].fillna('[]').apply(eval)

# 나라와 감독 데이터프레임 생성
country_directors = []

for index, row in df.iterrows():
    countries = row['production_country'].split(',')
    directors = row['director']
    for country in countries:
        for director in directors:
            country_directors.append({'country': country.strip(), 'director': director.strip()})

country_directors_df = pd.DataFrame(country_directors)

# 각 나라별 상위 10명의 감독 추출
top_directors_per_country = {}

for country, group in country_directors_df.groupby('country'):
    director_counts = Counter(group['director'])
    top_directors = director_counts.most_common(10)
    top_directors_per_country[country] = top_directors

# 결과 출력
for country, directors in top_directors_per_country.items():
    print(f"Country: {country}")
    for director, count in directors:
        print(f"  {director}: {count} 작품")
    print()

### 시각화

In [None]:
# subplot 생성
num_countries = len(top_directors_per_country)
num_rows = (num_countries // 4) + 1
plt.figure(figsize=(20, 5 * num_rows))

for idx, (country, directors) in enumerate(top_directors_per_country.items()):
    directors_df = pd.DataFrame(directors, columns=['Director', 'Count'])
    
    plt.subplot(num_rows, 4, idx + 1)
    sns.barplot(x='Count', y='Director', data=directors_df, palette='viridis')
    plt.title(country)
    plt.tight_layout()

plt.show()

### 나라 TOP5, 감독 TOP5

In [None]:
# subplot 생성
num_countries = len(top_directors_per_country)
num_rows = (num_countries // 4) + 1
plt.figure(figsize=(20, 5 * num_rows))

for idx, (country, directors) in enumerate(top_directors_per_country.items()):
    directors_df = pd.DataFrame(directors, columns=['Director', 'Count'])
    
    plt.subplot(num_rows, 4, idx + 1)
    sns.barplot(x='Count', y='Director', data=directors_df, palette='viridis')
    plt.title(country)
    plt.tight_layout()

plt.show()

## 08. 나라별 TOP 작가

In [None]:
# 결측치 처리
final['production_country'] = final['production_country'].fillna('')
final['writer'] = final['writer'].fillna('[]').apply(eval)

# 나라와 작가 데이터프레임 생성
country_writers = []

for index, row in df.iterrows():
    countries = row['production_country'].split(',')
    writers = row['writer']
    for country in countries:
        for writer in writers:
            country_writers.append({'country': country.strip(), 'writer': writer.strip()})

country_writers_df = pd.DataFrame(country_writers)

# 각 나라별 상위 10명의 감독 추출
top_writers_per_country = {}

for country, group in country_writers_df.groupby('country'):
    writer_counts = Counter(group['writer'])
    top_writers = writer_counts.most_common(10)
    top_writers_per_country[country] = top_writers

# 결과 출력
for country, writers in top_writers_per_country.items():
    print(f"Country: {country}")
    for writer, count in writers:
        print(f"  {writer}: {count} 작품")
    print()

### 시각화

In [None]:
# subplot 생성
num_countries = len(top_writers_per_country)
num_rows = (num_countries // 4) + 1
plt.figure(figsize=(20, 5 * num_rows))

for idx, (country, writers) in enumerate(top_writers_per_country.items()):
    writers_df = pd.DataFrame(writers, columns=['Writer', 'Count'])
    
    plt.subplot(num_rows, 4, idx + 1)
    sns.barplot(x='Count', y='Writer', data=writers_df, palette='viridis')
    plt.title(country)
    plt.tight_layout()

plt.show()

### 나라 TOP5, 작가 TOP5

In [None]:
# 넷플릭스 드라마를 가장 많이 제작한 국가 Top 5 추출
top_countries = df['production_country'].value_counts().head(5).index.tolist()

# 감독 정보가 있는 국가별 데이터 필터링
df_filtered = df[df['production_country'].apply(lambda x: any(country in x for country in top_countries))]

# 국가별 감독 리스트를 만들고 상위 10명 추출
top_writers_per_country = {}
for country in top_countries:
    country_df = df_filtered[df_filtered['production_country'].str.contains(country)]
    all_writers = country_df['writer'].explode().tolist()
    most_common_writers = Counter(all_writers).most_common(10)
    top_writers_per_country[country] = most_common_writers

# 결과 출력
for country, writers in top_writers_per_country.items():
    print(f"Country: {country}")
    for writer, count in writers:
        print(f"{writer}: {count}")
    print()

# 그래프 출력
plt.figure(figsize=(20, 20))
for idx, (country, writers) in enumerate(top_writers_per_country.items(), start=1):
    writers_df = pd.DataFrame(writers, columns=['Writer', 'Count'])
    plt.subplot(3, 2, idx)
    sns.barplot(x='Count', y='Writer', data=writers_df, palette='viridis')
    plt.title(country)
plt.tight_layout()
plt.show()

### 09. 시즌 갭 

# total_season_num이 2 이상인 행 필터링
filtered_final = final[final['total_season_num'] >= 2]
filtered_final

In [None]:
from datetime import datetime

# 시즌별 데이터를 담을 리스트 초기화
season_columns = [f'season_{i}' for i in range(1, 18)]  # 시즌 1부터 시즌 17까지

# 결과를 담을 리스트 초기화
season_gaps = []

# 각 행을 순회하며 시즌 간격을 계산
for idx, row in df.iterrows():
    # 시즌 데이터를 담을 리스트 초기화
    seasons = []
    
    for season_col in season_columns:
        if season_col in row and pd.notnull(row[season_col]):
            season_data = eval(row[season_col])  # 문자열을 dict 형태로 변환
            seasons.append(season_data)
    
    # 시즌이 2개 이상인 경우에만 계산
    if len(seasons) > 1:
        for i in range(len(seasons) - 1):
            try:
                # 현재 시즌의 마지막 에피소드 방영일자
                last_episode_current_season = list(seasons[i].values())[-1][2]
                if last_episode_current_season:
                    last_air_date = datetime.strptime(last_episode_current_season, "%a, %b %d, %Y")
                else:
                    continue
                
                # 다음 시즌의 첫 번째 에피소드 방영일자
                first_episode_next_season = list(seasons[i + 1].values())[0][2]
                if first_episode_next_season:
                    next_air_date = datetime.strptime(first_episode_next_season, "%a, %b %d, %Y")
                else:
                    continue
                
                # 시즌 간의 간격 계산
                gap_days = (next_air_date - last_air_date).days
                gap_years_months = f"{gap_days // 365}년 {gap_days % 365 // 30}개월"
                
                # 결과 저장
                season_gaps.append({
                    'korean_title': row['korean_title'],
                    'season': f"Season {i + 1} to Season {i + 2}",
                    'gap_days': gap_days,
                    'gap_years_months': gap_years_months
                })
            except KeyError as e:
                print(f"KeyError: {e} in row {idx} for season {i + 1} to season {i + 2}")
            except ValueError as e:
                print(f"ValueError: {e} in row {idx} for season {i + 1} to season {i + 2}")

# 결과 데이터 프레임 생성
season_gaps_df = pd.DataFrame(season_gaps)

# 결과 출력
season_gaps_df.head()

In [None]:
# 시즌 간의 gap_days 평균 계산
average_gap_days = season_gaps_df.groupby('season')['gap_days'].mean()

# 시즌 순서 정렬
sorted_season_transitions = sorted(average_gap_days.index, key=lambda x: (int(x.split()[1]), int(x.split()[4])))

# 그래프 생성
plt.figure(figsize=(12, 6))
average_gap_days = average_gap_days.reindex(sorted_season_transitions)
average_gap_days.plot(kind='bar', color='skyblue')
plt.xlabel('Season Transition')
plt.ylabel('Average Gap Days')
plt.title('Average Gap Days Between Seasons')
plt.xticks(rotation=45)
plt.grid(axis='y')

# 그래프 출력
plt.show()