In [None]:
# --- Importação de bibliotecas ---
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# --- Configurações de exibição ---
pd.set_option('display.max_columns', None)
sns.set(style='whitegrid')

# --- Carregando o dataset ---
df = pd.read_csv('youtube_views.csv')
df.head()


In [None]:
# --- Visão geral do dataset ---

# Exibe informações gerais: número de entradas, tipos de dados e valores nulos
df.info()

# Exibe o número total de linhas e colunas (dimensão do dataset)
print("\nDimensão do dataset (linhas, colunas):", df.shape)

# Exibe estatísticas descritivas das colunas numéricas
df.describe()


In [None]:
# Listar colunas
print("\nColunas disponíveis:")
print(df.columns.tolist())

1-Análise de Valores Faltantes

In [None]:
#analise de valores faltantes

# Contagem de valores nulos
df.isnull().sum()


# Percentual de valores nulos
missing_percent = (df.isnull().mean() * 100).sort_values(ascending=False)

# Visualização dos valores faltantes
plt.figure(figsize=(10,5))
sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
plt.title('Mapa de Valores Faltantes no Dataset')
plt.show()

In [None]:
# Distribuição das visualizações
plt.figure(figsize=(8,5))
sns.histplot(df['total_views'], bins=30, kde=True, color='skyblue')
plt.title('Distribuição de Visualizações dos Vídeos no YouTube')
plt.xlabel('Número de Visualizações')
plt.ylabel('Quantidade de Vídeos')
plt.show()


2-Análise da Variável Alvo (total_views)

In [None]:
#analise de variavel alvo
df['total_views'].describe()

#verificar distribuição da variavel alvo
sns.histplot(df['total_views'], bins=30, kde=True, color='salmon')
plt.title('Distribuição das Visualizações (total_views)')
plt.show()


In [None]:
# Boxplot
plt.figure(figsize=(6,4))
sns.boxplot(x=df['total_views'], color='lightblue')
plt.title('Boxplot - Visualizações dos Vídeos')
plt.xlabel('Número de Visualizações')
plt.show()


In [None]:
# Estatísticas descritivas
print("Estatísticas descritivas:")
print(df['total_views'].describe())

In [None]:
# Assimetria e curtose
print("\nSkewness:", df['total_views'].skew())
print("Kurtosis:", df['total_views'].kurt())


3-Análise Univariada - Variáveis Numéricas

In [None]:
# Define a variável alvo
target = 'total_views'

# Seleciona apenas as colunas numéricas
num_vars = df.select_dtypes(include=['int64', 'float64']).columns.tolist()

# Análise univariada - variáveis numéricas

for col in num_vars:
    if col != target:
        plt.figure(figsize=(8,5))
        sns.histplot(df[col], kde=True, color='steelblue')
        plt.title(f'Distribuição da variável {col}')
        plt.xlabel(col)
        plt.ylabel('Frequência')
        plt.show()
        
        print(f"\n {col} - Estatísticas:")
        print(df[col].describe())
        print(f"Skewness: {df[col].skew():.2f}")
        print("-" * 50)


4-análise Univariada - Variáveis Categóricas

In [None]:
#analise univariada - variaveis categoricas
df['language'].value_counts(normalize=True) * 100
sns.countplot(x='language', data=df, palette='viridis')
plt.xticks(rotation=45)
plt.show()

In [None]:
#analise univariada - variaveis categóricas
df['language'].value_counts(normalize=True) * 100
sns.countplot(x='language', data=df, palette='viridis')
plt.xticks(rotation=45)
plt.show()

In [None]:
# Separar variáveis numéricas e categóricas
num_vars = df.select_dtypes(include=['int64', 'float64']).columns
cat_vars = df.select_dtypes(include=['object', 'bool']).columns

print("\nVariáveis numéricas:", num_vars.tolist())
print("\nVariáveis categóricas:", cat_vars.tolist())

5-Análise de Correlações

In [None]:
#analise de correlações
corr = df[num_vars].corr()

plt.figure(figsize=(10,8))
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de Correlação - Variáveis Numéricas')
plt.show()


6-Análise Bivariada (Features vs Target)


In [None]:
#analise bivariada

# Exemplo com variáveis numéricas
for col in ['likes_count', 'comments_count', 'shares_count']:
    plt.figure(figsize=(7,4))
    sns.scatterplot(x=df[col], y=df[target])
    plt.title(f'Relação entre {col} e {target}')
    plt.xlabel(col)
    plt.ylabel('Visualizações')
    plt.show()


In [None]:
# Exemplo com categóricas
plt.figure(figsize=(8,5))
sns.boxplot(x='promoted', y=target, data=df, palette='Set2')
plt.title('Visualizações x Promoção')
plt.xlabel('Promovido')
plt.ylabel('Total de Visualizações')
plt.show()

7-Identificação de Outliers

In [None]:
#indentificar os outliers
for col in num_vars:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    outliers = df[(df[col] < lower) | (df[col] > upper)]
    perc = (len(outliers) / len(df)) * 100
    print(f"{col}: {len(outliers)} outliers ({perc:.2f}%)")

#Etapa 2: Pré-processamento de Dados

In [None]:
# Importando as bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurações de exibição
pd.set_option('display.max_columns', None)
plt.style.use('seaborn-v0_8')


In [None]:
df = pd.read_csv('youtube_views.csv')
df.head()

1: Verificação Inicial dos Dados


In [None]:
# --- Estrutura e informações básicas ---
df.info()

# --- Estatísticas descritivas ---
df.describe(include='all')


2: Análise de Valores Ausentes (Missing Values)

In [None]:
# --- Contagem de valores ausentes ---
missing = df.isnull().sum()
missing_percent = (missing / len(df)) * 100
missing_data = pd.DataFrame({'Valores Ausentes': missing, 'Porcentagem (%)': missing_percent})
missing_data[missing_data['Valores Ausentes'] > 0]


In [None]:
# --- Visualização dos valores ausentes ---
plt.figure(figsize=(8, 4))
sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
plt.title('Mapa de Valores Ausentes no Dataset')
plt.show()
#Cada linha representa um vídeo.
#Os espaços amarelos indicam valores ausentes nas respectivas colunas.

 O gráfico acima mostra um mapa de calor (heatmap) indicando os valores ausentes no dataset.
 Cada linha representa um registro (vídeo) e cada coluna representa uma variável.
 As áreas brancas representam valores presentes, enquanto as áreas vermelhas indicam dados ausentes (NaN).


3: Tratamento de Valores Ausentes

In [None]:
#Etapa 2.3 – Tratamento de valores ausentes (corrigido para evitar FutureWarning)

# Preenche valores nulos em colunas numéricas com a mediana
df['description_length'] = df['description_length'].fillna(df['description_length'].median())
df['tags_count'] = df['tags_count'].fillna(df['tags_count'].median())

# Preenche valores nulos em colunas categóricas com o valor mais frequente (moda)
categorical_cols = ['category', 'video_quality', 'has_thumbnail_custom']
for col in categorical_cols:
    df[col] = df[col].fillna(df[col].mode()[0])

# Verifica novamente se ainda há valores nulos
df.isnull().sum()


4: Remoção de Duplicatas

In [None]:
# --- Verificando duplicatas ---
print(f"Duplicatas encontradas: {df.duplicated().sum()}")

# --- Removendo duplicatas ---
df.drop_duplicates(inplace=True)
print(f"Após remoção: {df.duplicated().sum()}")


5: Detecção e Tratamento de Outliers

In [None]:
# --- Função para remover outliers numéricos ---
def remove_outliers_iqr(df, col):
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower, upper = Q1 - 1.5 * IQR, Q3 + 1.5 * IQR
    df = df[(df[col] >= lower) & (df[col] <= upper)]
    return df

# --- Visualizando antes ---
plt.figure(figsize=(6,4))
sns.boxplot(data=df, x='duration_minutes')
plt.title('Boxplot Antes da Remoção de Outliers - Duração (min)')
plt.show()

# --- Removendo ---
df = remove_outliers_iqr(df, 'duration_minutes')

# --- Visualizando depois ---
plt.figure(figsize=(6,4))
sns.boxplot(data=df, x='duration_minutes')
plt.title('Boxplot Após a Remoção de Outliers - Duração (min)')
plt.show()
#O boxplot mostra a distribuição da duração dos vídeos.
#Pontos fora da caixa (antes) são outliers que foram removidos (depois).

(Antes da Remoção)

O boxplot acima mostra a distribuição original da duração dos vídeos.
 Observa-se a presença de vários pontos isolados acima do limite superior do boxplot,
 representando vídeos com duração muito maior que o padrão (outliers).



(Depois da Remoção)

 Após remover os outliers com base no método IQR, observa-se que o boxplot está mais "compacto",
 sem pontos extremos fora do limite superior.


6: Correção de Distribuições Assimétricas (Skewness)

In [None]:
# --- Medindo assimetria ---
skewness = df[['duration_minutes', 'title_length', 'description_length', 'tags_count']].skew()
print(skewness)

# --- Transformação log ---
df['duration_minutes_log'] = np.log1p(df['duration_minutes'])
df['tags_count_log'] = np.log1p(df['tags_count'])

# --- Comparando distribuições antes e depois ---
fig, ax = plt.subplots(1, 2, figsize=(10, 4))
sns.histplot(df['duration_minutes'], ax=ax[0], bins=20, kde=True)
sns.histplot(df['duration_minutes_log'], ax=ax[1], bins=20, kde=True)
ax[0].set_title('Antes da Transformação')
ax[1].set_title('Após Transformação Log')
plt.show()
#A transformação logarítmica reduz a assimetria, aproximando a distribuição da normal.

(Antes da Transformação)

As distribuições apresentadas acima são fortemente assimétricas à direita.
Isso significa que a maioria dos vídeos tem duração ou quantidade de tags baixa,
mas há alguns casos extremos com valores muito altos (cauda longa à direita).


(Depois da Transformação Log)

Após aplicar a transformação logarítmica (np.log1p), observamos que as distribuições
 se tornaram mais equilibradas e próximas da forma normal.
 A cauda longa foi reduzida, e os valores passaram a se concentrar em torno da média.

7: Codificação de Variáveis Categóricas

In [None]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
for col in ['has_thumbnail_custom', 'video_quality']:
    df[col] = le.fit_transform(df[col])

df.head()


8: Normalização de Variáveis Numéricas

In [None]:
# --- Tratando valores infinitos e ausentes antes da normalização ---
df.replace([np.inf, -np.inf], np.nan, inplace=True)
df.dropna(subset=['duration_minutes_log', 'title_length', 'description_length', 'tags_count_log'], inplace=True)

# --- Importando StandardScaler ---
from sklearn.preprocessing import StandardScaler

# --- Normalização dos Dados Numéricos ---
scaler = StandardScaler()

numeric_cols = ['duration_minutes_log', 'title_length', 'description_length', 'tags_count_log']
df[numeric_cols] = scaler.fit_transform(df[numeric_cols])

df[numeric_cols].head()


9: Salvando Dataset Limpo

In [None]:
# --- Criando pasta 'data' caso não exista ---
import os

os.makedirs('../data', exist_ok=True)

# --- Salvando dataset limpo ---
df.to_csv('../data/students_clean.csv', index=False)
print(" Dataset limpo salvo em: data/students_clean.csv")
