In [None]:
# --- Importação de bibliotecas ---
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# --- Configurações de exibição ---
pd.set_option('display.max_columns', None)
sns.set(style='whitegrid')

# --- Carregando o dataset ---
df = pd.read_csv('youtube_views.csv')
df.head()


In [None]:
# --- Visão geral do dataset ---

# Exibe informações gerais: número de entradas, tipos de dados e valores nulos
df.info()

# Exibe o número total de linhas e colunas (dimensão do dataset)
print("\nDimensão do dataset (linhas, colunas):", df.shape)

# Exibe estatísticas descritivas das colunas numéricas
df.describe()


In [None]:
# Listar colunas
print("\nColunas disponíveis:")
print(df.columns.tolist())

1-Análise de Valores Faltantes

In [None]:
#analise de valores faltantes

# Contagem de valores nulos
df.isnull().sum()


# Percentual de valores nulos
missing_percent = (df.isnull().mean() * 100).sort_values(ascending=False)

# Visualização dos valores faltantes
plt.figure(figsize=(10,5))
sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
plt.title('Mapa de Valores Faltantes no Dataset')
plt.show()

In [None]:
# Distribuição das visualizações
plt.figure(figsize=(8,5))
sns.histplot(df['total_views'], bins=30, kde=True, color='skyblue')
plt.title('Distribuição de Visualizações dos Vídeos no YouTube')
plt.xlabel('Número de Visualizações')
plt.ylabel('Quantidade de Vídeos')
plt.show()


2-Análise da Variável Alvo (total_views)

In [None]:
#analise de variavel alvo
df['total_views'].describe()

#verificar distribuição da variavel alvo
sns.histplot(df['total_views'], bins=30, kde=True, color='salmon')
plt.title('Distribuição das Visualizações (total_views)')
plt.show()


In [None]:
# Boxplot
plt.figure(figsize=(6,4))
sns.boxplot(x=df['total_views'], color='lightblue')
plt.title('Boxplot - Visualizações dos Vídeos')
plt.xlabel('Número de Visualizações')
plt.show()


In [None]:
# Estatísticas descritivas
print("Estatísticas descritivas:")
print(df['total_views'].describe())

In [None]:
# Assimetria e curtose
print("\nSkewness:", df['total_views'].skew())
print("Kurtosis:", df['total_views'].kurt())

3-Análise Univariada - Variáveis Numéricas

In [None]:
# Define a variável alvo
target = 'total_views'

# Análise univariada - variáveis numéricas
for col in num_vars:
    if col != target:
        plt.figure(figsize=(8,5))
        sns.histplot(df[col], kde=True, color='steelblue')
        plt.title(f'Distribuição da variável {col}')
        plt.xlabel(col)
        plt.ylabel('Frequência')
        plt.show()
        
        print(f"\n {col} - Estatísticas:")
        print(df[col].describe())
        print(f"Skewness: {df[col].skew():.2f}")
        print("-" * 50)


4-nálise Univariada - Variáveis Categóricas

In [None]:
#analise univariada - variaveis categoricas
df['language'].value_counts(normalize=True) * 100
sns.countplot(x='language', data=df, palette='viridis')
plt.xticks(rotation=45)
plt.show()

In [None]:
#analise univariada - variaveis categóricas
df['language'].value_counts(normalize=True) * 100
sns.countplot(x='language', data=df, palette='viridis')
plt.xticks(rotation=45)
plt.show()

In [None]:
# Separar variáveis numéricas e categóricas
num_vars = df.select_dtypes(include=['int64', 'float64']).columns
cat_vars = df.select_dtypes(include=['object', 'bool']).columns

print("\nVariáveis numéricas:", num_vars.tolist())
print("\nVariáveis categóricas:", cat_vars.tolist())

5-Análise de Correlações

In [None]:
#analise de correlações
corr = df[num_vars].corr()

plt.figure(figsize=(10,8))
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de Correlação - Variáveis Numéricas')
plt.show()


6-Análise Bivariada (Features vs Target)


In [None]:
#analise bivariada

# Exemplo com variáveis numéricas
for col in ['likes_count', 'comments_count', 'shares_count']:
    plt.figure(figsize=(7,4))
    sns.scatterplot(x=df[col], y=df[target])
    plt.title(f'Relação entre {col} e {target}')
    plt.xlabel(col)
    plt.ylabel('Visualizações')
    plt.show()


In [None]:
# Exemplo com categóricas
plt.figure(figsize=(8,5))
sns.boxplot(x='promoted', y=target, data=df, palette='Set2')
plt.title('Visualizações x Promoção')
plt.xlabel('Promovido')
plt.ylabel('Total de Visualizações')
plt.show()

7-Identificação de Outliers

In [None]:
#indentificar os outliers
for col in num_vars:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    outliers = df[(df[col] < lower) | (df[col] > upper)]
    perc = (len(outliers) / len(df)) * 100
    print(f"{col}: {len(outliers)} outliers ({perc:.2f}%)")