In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 로드
data = pd.read_csv('netflix_titles.csv')

# 날짜 형식 변환
data['date_added'] = pd.to_datetime(data['date_added'], format='%d-%b-%y', errors='coerce')

# 연도별 TV 쇼와 영화 개수
data['release_year'] = pd.to_numeric(data['release_year'], errors='coerce')
data['type'] = data['type'].astype('category')

# 2000년대 데이터 필터링
data_2000s = data[(data['release_year'] >= 2000) & (data['release_year'] < 2010)]

# TV 쇼와 영화로 분리
tv_shows = data_2000s[data_2000s['type'] == 'TV Show']
movies = data_2000s[data_2000s['type'] == 'Movie']

# 연도별 TV 쇼와 영화 개수
tv_shows_per_year = tv_shows.groupby('release_year').size()
movies_per_year = movies.groupby('release_year').size()

# 국가별 TV 쇼와 영화 개수
tv_shows_per_country = tv_shows['country'].value_counts()
movies_per_country = movies['country'].value_counts()

# 등급별 TV 쇼와 영화 개수
rating_tv_shows = tv_shows['rating'].value_counts()
rating_movies = movies['rating'].value_counts()

# 감독별 작품 수 집계
directors = data_2000s['director'].dropna()  # 감독 열에서 NaN 값 제거
directors_list = directors.str.split(',', expand=True).stack()  # 감독 이름을 분리하고 하나의 열로 쌓기
director_counts = directors_list.value_counts()  # 각 감독별 작품 수 계산

# 시각화 설정 및 저장
plt.figure(figsize=(18, 16))

# 연도별 TV 쇼와 영화 개수
plt.subplot(4, 2, 1)
ax1 = tv_shows_per_year.plot(kind='bar', color='blue', alpha=0.7)
plt.title('연도별 TV 쇼 수')
plt.xlabel('연도')
plt.ylabel('총계')
for p in ax1.patches:
    ax1.annotate(f'{p.get_height()}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', xytext=(0, 10), textcoords='offset points')

plt.subplot(4, 2, 2)
ax2 = movies_per_year.plot(kind='bar', color='green', alpha=0.7)
plt.title('연도별 영화 수')
plt.xlabel('연도')
plt.ylabel('총계')
for p in ax2.patches:
    ax2.annotate(f'{p.get_height()}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', xytext=(0, 10), textcoords='offset points')

# 국가별 TV 쇼와 영화 개수
# TV 쇼에서 South Korea만 빨간색으로, 나머지는 다른 색상으로 표시
colors_tv_shows = ['red' if country == 'South Korea' else 'gray' for country in tv_shows_per_country.index]
plt.subplot(4, 2, 3)
ax3 = tv_shows_per_country.head(10).plot(kind='bar', color=colors_tv_shows, alpha=0.7)
plt.title('상위 10개 국가의 TV 쇼')
plt.xlabel('국가')
plt.ylabel('총계')
plt.xticks(rotation=45, ha='right')  # 레이블을 오른쪽으로 정렬
for p in ax3.patches:
    ax3.annotate(f'{p.get_height()}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', xytext=(0, 10), textcoords='offset points')

# 영화 국가별 상위 10개
plt.subplot(4, 2, 4)
ax4 = movies_per_country.head(10).plot(kind='bar', color= 'yellow', alpha=0.7)
plt.title('상위 10개 국가의 영화')
plt.xlabel('국가')
plt.ylabel('총계')
plt.xticks(rotation=45, ha='right')  # 레이블을 오른쪽으로 정렬
for p in ax4.patches:
    ax4.annotate(f'{p.get_height()}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', xytext=(0, 10), textcoords='offset points')

# 등급별 TV 쇼와 영화 개수
plt.subplot(4, 2, 5)
ax5 = rating_tv_shows.plot(kind='bar', color='cyan', alpha=0.7)
plt.title('TV 쇼 등급별 분포')
plt.xlabel('등급')
plt.ylabel('총계')
for p in ax5.patches:
    ax5.annotate(f'{p.get_height()}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', xytext=(0, 10), textcoords='offset points')

plt.subplot(4, 2, 6)
ax6 = rating_movies.plot(kind='bar', color='magenta', alpha=0.7)
plt.title('영화 등급별 분포')
plt.xlabel('등급')
plt.ylabel('총계')
for p in ax6.patches:
    ax6.annotate(f'{p.get_height()}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', xytext=(0, 10), textcoords='offset points')

# 감독별 작품 수 (상위 10개)
plt.subplot(4, 2, 7)
ax7 = director_counts.head(10).plot(kind='bar', color='brown', alpha=0.7)
plt.title('상위 10개 감독별 작품 수')
plt.xlabel('감독')
plt.ylabel('총계')
plt.xticks(rotation=45, ha='right')  # 레이블을 오른쪽으로 정렬
for p in ax7.patches:
    ax7.annotate(f'{p.get_height()}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', xytext=(0, 10), textcoords='offset points')

# 무지개 색상으로 "코토끼데이터" 추가
plt.figtext(0.5, 0.05, '코토끼데이터', ha='center', va='center', fontsize=16, color='blue', fontweight='bold', bbox=dict(facecolor='none', edgecolor='none', pad=10))

# "넷플릭스" 문구 추가
plt.figtext(0.5, 0.01, '넷플릭스', ha='center', va='center', fontsize=16, color='red', fontweight='bold', bbox=dict(facecolor='none', edgecolor='none', pad=10))

# 파일로 저장
plt.tight_layout()
plt.savefig('netflix_analysis_2000s_with_directors_and_south_korea.png', bbox_inches='tight')
plt.show()