In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### 1. Visão Geral do Dataset

Objetivo: Entender a estrutura e composição básica dos dados.




In [None]:
df = pd.read_csv('netflix_titles.csv')
df

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.dtypes

In [None]:
df.isnull().sum()

### 2. Limpeza Básica e Qualidade dos Dados

Objetivo: Avaliar a qualidade dos dados e decidir sobre tratamento de valores ausentes.


In [None]:
# convertendo datas para datatime
df['date_added'] = pd.to_datetime(df['date_added'],
                                  format=None,
                                  errors='coerce')



In [None]:
# Convertendo para Int
df['release_year'] = df['release_year'].astype('Int64')


In [None]:
# Tratando dados NAN, substituindo NAN para desconhecido
df['director'] = df['director'].fillna('desconecido')
df['cast'] = df['cast'].fillna('desconhecido')
df['country'] = df['country'].fillna('desconhecido')


In [None]:
#Dropando dados NAN das colunas
df = df.dropna(subset = ['rating'])
df = df.dropna(subset = ['date_added'])
df = df.dropna(subset = ['duration'])



In [None]:
df.head(10)

### 3. Filmes vs Séries

Objetivo: Entender a proporção de conteúdo disponível na Netflix.

In [None]:
# numero de séries e filmes
type_counts = df['type'].value_counts()
type_counts

In [103]:
# Porcentagem de séries e filmes no Dataset
type_counts_per = df['type'].value_counts(normalize=True)*100
type_counts_per

Unnamed: 0_level_0,proportion
type,Unnamed: 1_level_1
Movie,72.797613
TV Show,27.202387


In [None]:
# gráfico de barras
plt.figure(figsize=(6, 4))
ax = type_counts_per.plot(kind='bar',
                       color=['steelblue', 'orange'],
                       title='Percentual de Filmes e Séries')

ax.set_ylabel('Porcentagem (%)')

# mostrar o valor em cima de cada barra
for i, v in enumerate(type_counts_per):
    ax.text(i, v + 1, f'{v:.1f}%', ha='center')

plt.show()


### 4. Análise por Ano de Lançamento
Objetivo: Identificar tendências históricas de produção de conteúdo

In [105]:
# valores de contagem por ano
release_year_counts = df['release_year'].value_counts()
release_year_counts


Unnamed: 0_level_0,count
release_year,Unnamed: 1_level_1
2018,1381
2017,1258
2019,1208
2016,1128
2020,1054
...,...
1969,2
1925,1
1959,1
1966,1


In [None]:
# Separando por decadas
df['decade'] = (df['release_year'] // 10) * 10
decade_counts = df['decade'].value_counts().sort_index()
decade_counts


### 5. Países com Mais Títulos
Objetivo: Descobrir a distribuição geográfica do conteúdo.


In [None]:
# DIvidindo os nomes dos paises pois estavam separados por virgulas.

# 1) split na mesma coluna (ou em uma nova, se preferir)
df['country'] = df['country'].str.split(', ')

# 2) explode em cima do próprio df
df = df.explode('country')

top_countries= df['country'].value_counts().head(10)
top_countries



In [None]:
# porcentagem de publicação por pais.
country_pct = df['country'].value_counts(normalize=True) * 100
country_pct

In [None]:
#gráfico de quantidade publicação por pais
colors = np.random.rand(len(top_countries), 3)  # valores RGB entre 0 e 1

plt.figure(figsize=(8, 5))
ax = top_countries.plot(kind='barh', color=colors)
ax.set_xlabel('Quantidade de títulos')
ax.set_ylabel('País')
ax.set_title('Top 10 países com mais títulos na Netflix')

plt.gca().invert_yaxis()  # deixa o país com mais títulos no topo
plt.show()

### 6. Análise de Duração: Filmes e Séries
Objetivo: Compreender características de duração/temporadas do conteúdo.