In [2]:
import pandas as pd # type: ignore
import numpy as np

In [3]:
df = pd.read_csv('netflix_titles.csv')
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [4]:
df.columns
df.shape

(8807, 12)

PRE-PROCESSING DATA

In [5]:
# RENAME
df = df.rename(columns={"listed_in":"genre"})
# Hoặc 
# df.rename(columns={"listed_in":"genre1"}, inplace=True)

In [6]:
df.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'genre', 'description'],
      dtype='object')

In [7]:
# DROP COLUMN
df.drop(columns={'show_id'}, inplace=True)

In [8]:
# CHECK Row duplicate
df.duplicated().sum()

np.int64(0)

In [9]:
# Kiểm tra có bao nhiêu hàng có giá trị khác nhau thuộc CỘT
df.nunique().sort_values(ascending=False)

title           8807
description     8775
cast            7692
director        4528
date_added      1766
country          748
genre            514
duration         220
release_year      74
rating            17
type               2
dtype: int64

In [10]:
# check cột có data null
df.isna()
df.isna().sum().sort_values(ascending=False)

director        2634
country          831
cast             825
date_added        10
rating             4
duration           3
type               0
title              0
release_year       0
genre              0
description        0
dtype: int64

In [11]:
# Đối với cột có số lượng hàng null thấp( % thấp) thì xóa hàng đó
df.dropna(subset=['date_added'],inplace=True) # lệnh xóa hàng
df['date_added'].isna().sum()

np.int64(0)

In [12]:
df.dropna(subset=['rating'],inplace=True)
df.dropna(subset=['duration'],inplace=True)

In [13]:
# check cột có data null
df.isna()
df.isna().sum().sort_values(ascending=False)

director        2621
country          829
cast             825
title              0
type               0
date_added         0
release_year       0
rating             0
duration           0
genre              0
description        0
dtype: int64

In [14]:
# check data type
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8790 entries, 0 to 8806
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   type          8790 non-null   object
 1   title         8790 non-null   object
 2   director      6169 non-null   object
 3   cast          7965 non-null   object
 4   country       7961 non-null   object
 5   date_added    8790 non-null   object
 6   release_year  8790 non-null   int64 
 7   rating        8790 non-null   object
 8   duration      8790 non-null   object
 9   genre         8790 non-null   object
 10  description   8790 non-null   object
dtypes: int64(1), object(10)
memory usage: 824.1+ KB


In [15]:
# Trim data để chuyển đổi kiểu dữ liệu
df["date_added"] = df["date_added"].str.strip()

In [16]:
# Chuyển đổi kiểu dữ liệu
df["date_added"] = pd.to_datetime(df["date_added"])
df["date_added"].info()

<class 'pandas.core.series.Series'>
Index: 8790 entries, 0 to 8806
Series name: date_added
Non-Null Count  Dtype         
--------------  -----         
8790 non-null   datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 137.3 KB


In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8790 entries, 0 to 8806
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   type          8790 non-null   object        
 1   title         8790 non-null   object        
 2   director      6169 non-null   object        
 3   cast          7965 non-null   object        
 4   country       7961 non-null   object        
 5   date_added    8790 non-null   datetime64[ns]
 6   release_year  8790 non-null   int64         
 7   rating        8790 non-null   object        
 8   duration      8790 non-null   object        
 9   genre         8790 non-null   object        
 10  description   8790 non-null   object        
dtypes: datetime64[ns](1), int64(1), object(9)
memory usage: 824.1+ KB


In [18]:
# Thêm cột mới biểu diễn ngày tháng từ cột "date_added" để dễ dàng phân tích
df['day'] = df['date_added'].dt.day
df['month'] = df['date_added'].dt.month
df['year'] = df['date_added'].dt.year
df['month_name'] = df['date_added'].dt.month_name()
df['weekday'] = df['date_added'].dt.day_name()
df.head(1)

Unnamed: 0,type,title,director,cast,country,date_added,release_year,rating,duration,genre,description,day,month,year,month_name,weekday
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",25,9,2021,September,Saturday


In [19]:
# Các giá trị unique trong cột rating
df['rating'].unique()

array(['PG-13', 'TV-MA', 'PG', 'TV-14', 'TV-PG', 'TV-Y', 'TV-Y7', 'R',
       'TV-G', 'G', 'NC-17', 'NR', 'TV-Y7-FV', 'UR'], dtype=object)

In [20]:
# Thay đổi data trong cột rating để giống đời thật => dễ phân tích dữ liệu
df['rating'] = df['rating'].replace(['TV-Y','TV-Y7','G','TV-G','PG','TV-PG','TV-Y7-FV'],'Kids')
df['rating'] = df['rating'].replace(['PG-13','TV-14'],'Teens')
df['rating'] = df['rating'].replace(['R','TV-MA','NC-17'],'Adults')
df['rating'] = df['rating'].replace(['NR','UR'],np.nan)

df.head(5)

Unnamed: 0,type,title,director,cast,country,date_added,release_year,rating,duration,genre,description,day,month,year,month_name,weekday
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,Teens,90 min,Documentaries,"As her father nears the end of his life, filmm...",25,9,2021,September,Saturday
1,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,Adults,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",24,9,2021,September,Friday
2,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,Adults,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,24,9,2021,September,Friday
3,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,Adults,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",24,9,2021,September,Friday
4,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,Adults,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,24,9,2021,September,Friday


In [21]:
df['rating'].unique()

array(['Teens', 'Adults', 'Kids', nan], dtype=object)

### **ANALYSIS DATA**

##### 1. Có bao nhiêu bộ phim được ra mắt vào năm 2020?


In [22]:
df_1 = df[(df['type'] == 'Movie') & (df['release_year'] == 2020)]
df_1.head(5)
df_1.shape[0]

517

##### 2. Có bao nhiêu bộ phim (type = 'Movie') và bao nhiêu chương trình truyền hình (type = 'TV Show') trong tập dữ liệu?

In [23]:
df_2 = df[(df['type'] == 'Movie')]
df_2.shape[0]

6126

##### 3. Top 5 quốc gia sản xuất nhiều nội dung nhất trên Netflix là gì?

In [24]:

df.columns

Index(['type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'genre', 'description', 'day',
       'month', 'year', 'month_name', 'weekday'],
      dtype='object')

In [25]:
df['country'].value_counts().head(5)

country
United States     2809
India              972
United Kingdom     418
Japan              243
South Korea        199
Name: count, dtype: int64

##### 4. Năm nào có nhiều nội dung được thêm vào Netflix nhất?

In [26]:
# df_4 = df.groupby(df['date_added'].dt.year)['date_added'].count().sort_values(ascending=False).head(1)
# df['date_added'].dt.year.value_counts().idxmax()
df['date_added'].dt.year.mode()[0]
df['year'].mode()

0    2019
Name: year, dtype: int32

##### 5. Có bao nhiêu nội dung có sự tham gia của một diễn viên cụ thể (ví dụ: Leonardo DiCaprio)?

In [27]:
df[df['cast'].str.contains('Leonardo DiCaprio',case=False, na=False)].shape[0]

9

##### 6. Bộ phim có thời lượng dài nhất trên Netflix là gì?

In [28]:
df_6 = df[df['duration'].str.contains('season',case=False, na=False)] 
max = df_6['duration'].str.split(' ').str[0].max()
df_6[df_6['duration'].str.contains(max,case=False, na=False)]['title']


8       The Great British Baking Show
67                  Saved by the Bell
1480                       Still Game
1701            American Horror Story
1998                 Call the Midwife
3541                           Naruto
5803                   Forensic Files
6504         Club Friday The Series 6
8442                The Office (U.S.)
Name: title, dtype: object

##### 7. Thể loại (genre) nào phổ biến nhất trên Netflix?

##### 8. Có bao nhiêu nội dung không có thông tin về đạo diễn?

In [29]:
df.head(5)

Unnamed: 0,type,title,director,cast,country,date_added,release_year,rating,duration,genre,description,day,month,year,month_name,weekday
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,Teens,90 min,Documentaries,"As her father nears the end of his life, filmm...",25,9,2021,September,Saturday
1,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,Adults,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",24,9,2021,September,Friday
2,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,Adults,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,24,9,2021,September,Friday
3,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,Adults,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",24,9,2021,September,Friday
4,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,Adults,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,24,9,2021,September,Friday


In [36]:
df[df['director'].isna()].shape[0]
df['director'].isna().sum()

np.int64(2621)

##### 9. Tỷ lệ phần trăm các phim có xếp hạng "TV-MA" so với tổng số phim trên Netflix?

##### 10. Ngày nào trong tuần có nhiều nội dung được thêm vào Netflix nhất?

In [41]:
df['weekday'].value_counts().head(1)

weekday
Friday    2497
Name: count, dtype: int64

##### 11. Những đạo diễn nào có nhiều phim nhất trên Netflix?

In [56]:
df_11 = df[df['director'].notna()]
max = df_11['director'].value_counts().max()
df_11['director'].value_counts()[df_11['director'].value_counts() == max]


director
Rajiv Chilaka    19
Name: count, dtype: int64

### **Data visualization**

1. Biểu đồ tần suất loại nội dung (Movie vs. TV Show)

2. Top 10 quốc gia có nhiều nội dung nhất

3. Xu hướng nội dung theo năm

4. Phân phối thời lượng phim

5. Biểu đồ thể loại phim phổ biến

6. Số lượng nội dung được thêm vào theo tháng

7. Biểu đồ số lượng phim theo ngày trong tuần

8. Biểu đồ tỷ lệ rating của phim trên Netflix

9. Số lượng nội dung theo từng đạo diễn

10. So sánh số lượng phim và TV Show qua các năm