In [None]:
# --- Importação de bibliotecas ---
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# --- Configurações de exibição ---
pd.set_option('display.max_columns', None)
sns.set(style='whitegrid')

# --- Carregando o dataset ---
df = pd.read_csv('youtube_views.csv')
df.head()


In [None]:
# --- Visão geral do dataset ---

# Exibe informações gerais: número de entradas, tipos de dados e valores nulos
df.info()

# Exibe o número total de linhas e colunas (dimensão do dataset)
print("\nDimensão do dataset (linhas, colunas):", df.shape)

# Exibe estatísticas descritivas das colunas numéricas
df.describe()


In [None]:
#analise de valores faltantes 
missing_percent = (df.isnull().mean() * 100).sort_values(ascending=False)

plt.figure(figsize=(10,5))
sns.barplot(x=missing_percent.index, y=missing_percent.values, color='salmon')
plt.title('Percentual de Valores Faltantes por Coluna')
plt.ylabel('% de Valores Faltantes')
plt.xticks(rotation=90)
plt.show()

In [None]:
# Distribuição das visualizações
plt.figure(figsize=(8,5))
sns.histplot(df['total_views'], bins=30, kde=True, color='skyblue')
plt.title('Distribuição de Visualizações dos Vídeos no YouTube')
plt.xlabel('Número de Visualizações')
plt.ylabel('Quantidade de Vídeos')
plt.show()


In [None]:
#analise de variavel alvo
df['total_views'].describe()

#verificar distribuição da variavel alvo
sns.histplot(df['total_views'], bins=30, kde=True, color='salmon')
plt.title('Distribuição das Visualizações (total_views)')
plt.show()


In [None]:
#analise univariada - variavel numerica
Q1 = df['likes_count'].quantile(0.25)
Q3 = df['likes_count'].quantile(0.75)
IQR = Q3 - Q1
outliers = df[(df['likes_count'] < Q1 - 1.5*IQR) | (df['likes_count'] > Q3 + 1.5*IQR)]
print(len(outliers))

In [None]:
#analise univariada - variaveis categoricas
df['language'].value_counts(normalize=True) * 100
sns.countplot(x='language', data=df, palette='viridis')
plt.xticks(rotation=45)
plt.show()

In [None]:
#analise de correlações
corr = df.corr(numeric_only=True)
plt.figure(figsize=(10,8))
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlação')
plt.show()


In [None]:
#analise bivariada

sns.boxplot(x='category', y='total_views', data=df)
plt.xticks(rotation=45)
plt.title('Visualizações por Categoria')
plt.show()
