In [None]:
mport pandas as pd                # Para manipulação de dados
import matplotlib.pyplot as plt    # Para criação de gráficos
import seaborn as sns              # Para gráficos estatísticos mais elaborados

# Carregando a base de dados
df = pd.read_csv('netflix_titles.csv')

# Exibindo as primeiras 5 linhas do DataFrame para entender a estrutura dos dados
print("Visualização inicial dos dados:")
print(df.head())

# Informações gerais sobre o DataFrame (tipos de dados, valores nulos, etc.)
print("\nInformações do DataFrame:")
print(df.info())

# Estatísticas descritivas das colunas numéricas
print("\nEstatísticas descritivas:")
print(df.describe())

# Verificando valores ausentes (nulos) por coluna
print("\nValores nulos por coluna:")
print(df.isnull().sum())

# Histograma com curva de densidade (KDE)
sns.histplot(df['release_year'], kde=True)
plt.title("Distribuição da Coluna de Interesse")
plt.xlabel("Ano de Lançamento")
plt.ylabel("Frequência")
plt.show()

# Mapa de calor para correlação entre variáveis numéricas
numericas = df.select_dtypes(include='number')

if numericas.shape[1] > 1:
    plt.figure(figsize=(10, 8))
    sns.heatmap(numericas.corr(), annot=True, cmap='Blues')
    plt.title("Correlação entre variáveis numéricas")
    plt.show()
else:
    print("Não há colunas numéricas suficientes para gerar uma matriz de correlação.\n")

# Gráfico de distribuição de filmes e séries
sns.countplot(x='type', data=df)
plt.title("Distribuição entre Filmes e Séries")
plt.show()

contagem = df['type'].value_counts()
print("Quantidade de cada tipo de conteúdo:")
print(contagem)

# Gráfico dos top 10 Países de origem
df['country'].value_counts().head(10).plot(kind='barh')
plt.title("Top 10 Países de Origem")
plt.xlabel("Número de títulos")
plt.show()

# Cria uma nova coluna apenas para filmes com duração em minutos
df_filmes = df[df['type'] == 'Movie'].copy()
df_filmes['duration_min'] = df_filmes['duration'].str.extract(r'(\d+)').astype(float)

# Histograma da duração dos filmes em minutos
sns.histplot(df_filmes['duration_min'].dropna(), kde=True)
plt.title("Distribuição da Duração dos Filmes (em minutos)")
plt.xlabel("Duração")
plt.ylabel("Quantidade")
plt.show()