# Netflix Dataset EDA - Starter Notebook

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter

In [2]:
# Configure plot style
sns.set(style="whitegrid")

In [4]:
# Load the dataset
df = pd.read_csv('netflix_titles.csv')

## 1) Visão geral do conjunto de dados

In [12]:
# Visualizando o dataset.
df.head(10)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...
5,s6,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H...",,"September 24, 2021",2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries",The arrival of a charismatic young priest brin...
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,"September 24, 2021",2021,PG,91 min,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...","September 24, 2021",1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s..."
8,s9,TV Show,The Great British Baking Show,Andy Devonshire,"Mel Giedroyc, Sue Perkins, Mary Berry, Paul Ho...",United Kingdom,"September 24, 2021",2021,TV-14,9 Seasons,"British TV Shows, Reality TV",A talented batch of amateur bakers face off in...
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,"September 24, 2021",2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...


In [7]:
# Visualizando qual o tipo de dado cada coluna apresenta além da informação de valores não nulos.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB


In [15]:
# Visualizando a quantidade de valores únicos em cada coluna do meu dataset.

unique_values = []

for i in df.columns[0:12].tolist():
    print(i, ':', len(df[i].astype(str).value_counts()))
    unique_values.append(len(df[i].astype(str).value_counts()))

show_id : 8807
type : 2
title : 8807
director : 4529
cast : 7693
country : 749
date_added : 1768
release_year : 74
rating : 18
duration : 221
listed_in : 514
description : 8775


In [8]:
# Como a única coluna com valor númerico é a 'release_year', poucas informações podem ser tiradas.
df.describe()

Unnamed: 0,release_year
count,8807.0
mean,2014.180198
std,8.819312
min,1925.0
25%,2013.0
50%,2017.0
75%,2019.0
max,2021.0


In [11]:
df.shape

(8807, 12)

As primeiras 10 linhas mostram um pouco da estrutura do dataset, que apresenta 12 colunas e 8807 linhas, sendo a grande maioria descritiva, sobrando apenas a coluna com o ano de lançamento com valores númericos. Além disso, é possível destacar a grande variedade de informações, onde se destacam países de produção, diretores, gêneros, elenco, etc., em comparação com o tipo de conteúdo, onde há apenas 2 tipos, podendo ser assim caracterizada como categórica. É possível destacar também a presença de valores nulos já nas primeiras linhas, o que deve ser investigado e tratado mais tarde.  

## 2) Tratando os valores nulos

In [10]:
# Encontrando o número de valores nulos por coluna.
df.isnull().sum()

show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in          0
description        0
dtype: int64

In [22]:
# Substituindo os valores nulos por 'Desconhecidos'.
df['director'].fillna('Unknown', inplace=True)
df['cast'].fillna('Unknown', inplace=True)
df['country'].fillna('Unknown', inplace=True)
df['duration'].fillna('Unknown', inplace=True)
df['rating'].fillna('Not rated', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['duration'].fillna('Unknown', inplace=True)


In [26]:
# Excluindo os valores da data para garantir uma análise temporal mais precisa.
df = df.dropna(subset=['date_added'])

In [28]:
# Verificando se todos os valores foram tratados corretamente
df.isnull().sum()

show_id         0
type            0
title           0
director        0
cast            0
country         0
date_added      0
release_year    0
rating          0
duration        0
listed_in       0
description     0
dtype: int64

É clara a grande quantidade de valores nulos presentes nas colunas de diretor, elenco e país de produção, com destaque maior para a primeira citada. Porém, mesmo sendo úteis para uma análise de nomes mais aprofundada, esses valores não são essenciais para uma análise inicial, sendo preenchidas como desconhecidas para evitar problemas de agrupamento e gráficos posteriormente. Mesmo tendo poucos valores, as colunas de duração e rating também foram preenchidas com a mesma justificativa. Em contrapartida, como a coluna de datas de adição apresenta poucos valores nulos e grande importância para uma análise temporal mais detalhada, estes foram excluídos para garantir apenas dados válidos na análise. 