## 0.0. Instalando e Importando Bibliotecas Necessárias

In [27]:
import pandas as pd
import plotly.express as px

### 0.1. Carregando os dados

In [28]:
df = pd.read_csv('netflix_titles.csv')
df.head()


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


## 1.0. Tratamento e Limpeza de Dados

### 1.2. Verificando a forma do dataset

In [29]:
print("Número de linhas:", df.shape[0])
print("Número de colunas:", df.shape[1])

Número de linhas: 8807
Número de colunas: 12


### 1.3. Verificando os tipos de dados

In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB


### 1.4. Verificando valores nulos

In [31]:
print(df.isnull().sum())

show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in          0
description        0
dtype: int64


### 1.5. Convertendo a coluna 'date_added' para datetime

In [32]:
df['date_added'] = pd.to_datetime(df['date_added'], errors='coerce')

print("Verificando os tipos de dados após a conversão:")
display(df.info())

Verificando os tipos de dados após a conversão:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   show_id       8807 non-null   object        
 1   type          8807 non-null   object        
 2   title         8807 non-null   object        
 3   director      6173 non-null   object        
 4   cast          7982 non-null   object        
 5   country       7976 non-null   object        
 6   date_added    8709 non-null   datetime64[ns]
 7   release_year  8807 non-null   int64         
 8   rating        8803 non-null   object        
 9   duration      8804 non-null   object        
 10  listed_in     8807 non-null   object        
 11  description   8807 non-null   object        
dtypes: datetime64[ns](1), int64(1), object(10)
memory usage: 825.8+ KB


None

### 1.6. Tratando Valores Nulos

In [33]:
# Preenchendo valores nulos em colunas categóricas com 'Não Informado'
for col in ['director', 'cast', 'country', 'rating', 'duration']:
    df[col] = df[col].fillna('Não Informado')

print("Verificando valores nulos após o tratamento:")
display(df.isnull().sum())

Verificando valores nulos após o tratamento:


Unnamed: 0,0
show_id,0
type,0
title,0
director,0
cast,0
country,0
date_added,98
release_year,0
rating,0
duration,0


### 1.7. Removendo linhas com valores nulos na coluna 'date_added'

In [36]:
df.dropna(subset=['date_added'], inplace=True)

print("Verificando valores nulos após remover as linhas:")
display(df.isnull().sum())
print("\nNúmero de linhas após a remoção:", df.shape[0])

Verificando valores nulos após remover as linhas:


Unnamed: 0,0
show_id,0
type,0
title,0
director,0
cast,0
country,0
date_added,0
release_year,0
rating,0
duration,0



Número de linhas após a remoção: 8709


## 2.0. Estatísticas descritivas

### 2.1. Estatísticas Descritivas para Colunas Numéricas

In [34]:
print(df.describe())

                          date_added  release_year
count                           8709   8807.000000
mean   2019-05-23 01:45:29.452290816   2014.180198
min              2008-01-01 00:00:00   1925.000000
25%              2018-04-20 00:00:00   2013.000000
50%              2019-07-12 00:00:00   2017.000000
75%              2020-08-26 00:00:00   2019.000000
max              2021-09-25 00:00:00   2021.000000
std                              NaN      8.819312


### 2.2. Estatísticas Descritivas para Colunas Categóricas

In [35]:
display(df.describe(include='object'))

Unnamed: 0,show_id,type,title,director,cast,country,rating,duration,listed_in,description
count,8807,8807,8807,8807,8807,8807,8807,8807,8807,8807
unique,8807,2,8807,4529,7693,749,18,221,514,8775
top,s8807,Movie,Zubaan,Não Informado,Não Informado,United States,TV-MA,1 Season,"Dramas, International Movies","Paranormal activity at a lush, abandoned prope..."
freq,1,6131,1,2634,825,2818,3207,1793,362,4


## 3.0. Visualização de Dados

### 3.1. Distribuição de Filmes e Séries

In [39]:
contagem_tipo = df['type'].value_counts().reset_index()
contagem_tipo.columns = ['Tipo', 'Quantidade']

figura = px.bar(contagem_tipo, x='Tipo', y='Quantidade', title='Distribuição de Filmes e Séries na Netflix')
figura.show()


### 3.2. Adição de Conteúdo ao Longo do Tempo

In [41]:
# Extrair o ano da coluna 'date_added'
df['year_added'] = df['date_added'].dt.year

# Contar o número de títulos adicionados por ano
yearly_adds = df.groupby('year_added').size().reset_index(name='count')

# Criar o gráfico de linha
fig = px.line(yearly_adds, x='year_added', y='count',
              title='Número de Filmes e Séries Adicionados por Ano ao Longo do Tempo',
              labels={'year_added': 'Ano', 'count': 'Número de Adições'})
fig.show()

### 3.3. Conteúdo por País de Produção

In [51]:
# A coluna 'country' pode ter múltiplos países. Vamos dividir os países e contar cada um.
countries = df['country'].str.split(', ', expand=True).stack()

# Contar a frequência de cada país
country_counts = countries.value_counts().reset_index(name='count')
country_counts.columns = ['Country', 'Count']

# Excluir a categoria 'Não Informado' se ela for significativa, pois não representa um país específico
country_counts = country_counts[country_counts['Country'] != 'Não Informado']

# Selecionar os top N países (vamos escolher os top 10 por exemplo)
top_countries = country_counts.head(10)

# Criar o gráfico de barras para os top 10 países
fig = px.bar(top_countries, x='Country', y='Count',
             title='Top 10 Países com Mais Conteúdo na Netflix',
             labels={'Country': 'País', 'Count': 'Número de Títulos'})
fig.show()

### 3.4. Distribuição por Gênero

In [54]:
# A coluna 'listed_in' pode ter múltiplos gêneros. Vamos dividir os gêneros e contar cada um.
genres = df['listed_in'].str.split(', ', expand=True).stack()

# Contar a frequência de cada gênero
genre_counts = genres.value_counts().reset_index(name='count')
genre_counts.columns = ['Genre', 'Count']

# Selecionar os top N gêneros
top_genres = genre_counts.head(15) # Ajuste o número conforme necessário

# Criar o gráfico de barras para os top gêneros
fig = px.bar(top_genres, x='Genre', y='Count',
             title='Top Gêneros na Netflix',
             labels={'Genre': 'Gênero', 'Count': 'Número de Títulos'})
fig.update_xaxes(categoryorder='total descending') # Ordenar as barras por contagem descendente
fig.show()

### 3.5. Top Diretores na Netflix

In [55]:
# A coluna 'director' pode ter múltiplos diretores. Vamos dividir e contar cada um.
directors = df['director'].str.split(', ', expand=True).stack()

# Contar a frequência de cada diretor
director_counts = directors.value_counts().reset_index(name='count')
director_counts.columns = ['Director', 'Count']

# Excluir a categoria 'Não Informado'
director_counts = director_counts[director_counts['Director'] != 'Não Informado']

# Selecionar os top N diretores
top_directors = director_counts.head(10) # Ajuste o número conforme necessário

# Criar o gráfico de barras para os top diretores
fig = px.bar(top_directors, x='Director', y='Count',
             title='Top 10 Diretores com Mais Conteúdo na Netflix',
             labels={'Director': 'Diretor', 'Count': 'Número de Títulos'})
fig.update_xaxes(categoryorder='total descending') # Ordenar as barras por contagem descendente
fig.show()

### 3.6. Top Membros do Elenco na Netflix

In [56]:
# A coluna 'cast' pode ter múltiplos membros do elenco. Vamos dividir e contar cada um.
cast_members = df['cast'].str.split(', ', expand=True).stack()

# Contar a frequência de cada membro do elenco
cast_counts = cast_members.value_counts().reset_index(name='count')
cast_counts.columns = ['Cast Member', 'Count']

# Excluir a categoria 'Não Informado'
cast_counts = cast_counts[cast_counts['Cast Member'] != 'Não Informado']

# Selecionar os top N membros do elenco
top_cast = cast_counts.head(10) # Ajuste o número conforme necessário

# Criar o gráfico de barras para os top membros do elenco
fig = px.bar(top_cast, x='Cast Member', y='Count',
             title='Top 10 Membros do Elenco com Mais Conteúdo na Netflix',
             labels={'Cast Member': 'Membro do Elenco', 'Count': 'Número de Títulos'})
fig.update_xaxes(categoryorder='total descending') # Ordenar as barras por contagem descendente
fig.show()

### 3.7. Distribuição de Filmes e Séries (Gráfico de Pizza)

In [58]:
# Contar a quantidade de filmes e séries
type_counts = df['type'].value_counts().reset_index()
type_counts.columns = ['Tipo', 'Quantidade']

# Criar o gráfico de pizza
fig = px.pie(type_counts, values='Quantidade', names='Tipo',
             title='Proporção de Filmes e Séries na Netflix',
             hole=0.3) # Opcional: cria um gráfico de rosca
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()