# Netflix 데이터 분석 실습

이 노트북은 **파이썬 & pandas를 처음 접하는 사람**을 위한 실습입니다.

데이터 출처: Kaggle - Netflix Movies and TV Shows

In [None]:
#!git clone https://github.com/simsimee/HKNU_lecture.git #하지 않은 경우 #을 지우고 실행!

## 라이브러리 불러오기
pandas는 표 형태의 데이터를 다루는 데 가장 많이 사용되는 라이브러리입니다.

In [None]:
import pandas as pd

## 데이터 불러오기
CSV 파일을 pandas DataFrame으로 읽어옵니다.

In [None]:
df = pd.read_csv('/content/HKNU_lecture/데이터/netflix_titles.csv')

df.head()

## 데이터 기본 구조 확인
- 행(row): 콘텐츠 하나
- 열(column): 콘텐츠의 속성

In [None]:
df.shape

df.columns

## 결측치 확인
비어 있는 값(NaN)이 있는지 확인합니다.

In [None]:
df.isna().sum()

## 상황 1: 넷플릭스에는 영화, 드라마 중 무엇이 더 많을까?

In [None]:
type_counts = df['type'].value_counts()
print(type_counts)

In [None]:
# 2. 시각화 (막대 그래프)
import matplotlib.pyplot as plt

type_counts.plot(kind='bar', color=['skyblue', 'orange'])
plt.title('Netflix Content Type')
plt.show()

## 6. 가장 많이 콘텐츠를 보유한 국가는 어디일까?
(결측치는 제외)

In [None]:
df['country'].value_counts().head(10)

## 상황 3: 최근에 추가된 콘텐츠 확인하기

In [None]:
df['date_added'] = pd.to_datetime(df['date_added'], errors='coerce')

df.sort_values('date_added', ascending=False).head()

## 상황 4: 특정 조건으로 데이터 필터링하기
예: 한국에서 제작된 영화만 보기

In [None]:
# 1. 한국(South Korea) 데이터만 골라내기
korea_df = df[df['country'] == 'South Korea']

# 2. 한국 콘텐츠는 총 몇 개일까?
print(f"한국 콘텐츠 개수: {len(korea_df)}")

In [None]:
# 3. 한국 콘텐츠 중 영화와 TV 쇼의 비율은?
print(korea_df['type'].value_counts())

## 상황 5: "넷플릭스 영화, 보통 몇 분이나 할까?"

In [None]:
# 1. 영화 데이터만 뽑기
movies = df[df['type'] == 'Movie'].copy()

# 2. ' min' 글자 떼어내고 숫자로 변환 (전처리)
movies['duration_min'] = movies['duration'].str.replace(' min', '')

# 3. 결측치(NaN)가 생겼다면 제거하기 (정수로 바꾸기 위한 준비)
movies = movies.dropna(subset=['duration_min'])

# 4. 이제 정수로 변환 가능!
movies['duration_min'] = movies['duration_min'].astype(int)

# 5. 평균 러닝타임 계산
print(f"넷플릭스 영화 평균 시간: {movies['duration_min'].mean():.1f}분")

# 6. 시각화 (히스토그램)
import seaborn as sns
sns.histplot(movies['duration_min'], bins=30, kde=True)
plt.title('Movie Duration Distribution')
plt.show()

## 상황 6: "넷플릭스가 가장 열일(업데이트) 하는 달은 언제일까?"

In [None]:
# 1. 날짜 데이터 형식으로 변환
df['date_added'] = pd.to_datetime(df['date_added'])

# 2. '월' 정보만 뽑기
df['month'] = df['date_added'].dt.month_name()

# 3. 월별 콘텐츠 추가량 시각화
month_order = ['January', 'February', 'March', 'April', 'May', 'June', 
               'July', 'August', 'September', 'October', 'November', 'December']
df['month'].value_counts().reindex(month_order).plot(kind='line', marker='o', color='red')
plt.title('Content Added by Month')
plt.show()

## 상황 7 : "넷플릭스 공무원(?)을 찾아라! 가장 많은 작품을 만든 감독은?"

In [None]:
# 1. 감독 정보가 있는 데이터만 필터링
filtered_directors = df[df['director'] != 'Not Given']

# 2. 상위 10명 뽑기
top_directors = filtered_directors['director'].value_counts().head(10)

# 3. 시각화
top_directors.plot(kind='bar', color='purple')
plt.title('Top 10 Directors on Netflix')
plt.xticks(rotation=45)
plt.show()

## 간단한 정리
- pandas로 CSV 데이터를 불러왔다
- 기본적인 데이터 구조를 살펴봤다
- 조건 필터링과 간단한 통계를 내봤다