In [None]:
# --- Importa√ß√£o de bibliotecas ---
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# --- Configura√ß√µes de exibi√ß√£o ---
pd.set_option('display.max_columns', None)
sns.set(style='whitegrid')

# --- Carregando o dataset ---
df = pd.read_csv('youtube_views.csv')
df.head()


In [None]:
# --- Vis√£o geral do dataset ---

# Exibe informa√ß√µes gerais: n√∫mero de entradas, tipos de dados e valores nulos
df.info()

# Exibe o n√∫mero total de linhas e colunas (dimens√£o do dataset)
print("\nDimens√£o do dataset (linhas, colunas):", df.shape)

# Exibe estat√≠sticas descritivas das colunas num√©ricas
df.describe()


In [None]:
# Listar colunas
print("\nColunas dispon√≠veis:")
print(df.columns.tolist())

1-An√°lise de Valores Faltantes

In [None]:
#analise de valores faltantes

# Contagem de valores nulos
df.isnull().sum()


# Percentual de valores nulos
missing_percent = (df.isnull().mean() * 100).sort_values(ascending=False)

# Visualiza√ß√£o dos valores faltantes
plt.figure(figsize=(10,5))
sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
plt.title('Mapa de Valores Faltantes no Dataset')
plt.show()

In [None]:
# Distribui√ß√£o das visualiza√ß√µes
plt.figure(figsize=(8,5))
sns.histplot(df['total_views'], bins=30, kde=True, color='skyblue')
plt.title('Distribui√ß√£o de Visualiza√ß√µes dos V√≠deos no YouTube')
plt.xlabel('N√∫mero de Visualiza√ß√µes')
plt.ylabel('Quantidade de V√≠deos')
plt.show()


2-An√°lise da Vari√°vel Alvo (total_views)

In [None]:
#analise de variavel alvo
df['total_views'].describe()

#verificar distribui√ß√£o da variavel alvo
sns.histplot(df['total_views'], bins=30, kde=True, color='salmon')
plt.title('Distribui√ß√£o das Visualiza√ß√µes (total_views)')
plt.show()


In [None]:
# Boxplot
plt.figure(figsize=(6,4))
sns.boxplot(x=df['total_views'], color='lightblue')
plt.title('Boxplot - Visualiza√ß√µes dos V√≠deos')
plt.xlabel('N√∫mero de Visualiza√ß√µes')
plt.show()


In [None]:
# Estat√≠sticas descritivas
print("Estat√≠sticas descritivas:")
print(df['total_views'].describe())

In [None]:
# Assimetria e curtose
print("\nSkewness:", df['total_views'].skew())
print("Kurtosis:", df['total_views'].kurt())


3-An√°lise Univariada - Vari√°veis Num√©ricas

In [None]:
# Define a vari√°vel alvo
target = 'total_views'

# Seleciona apenas as colunas num√©ricas
num_vars = df.select_dtypes(include=['int64', 'float64']).columns.tolist()

# An√°lise univariada - vari√°veis num√©ricas

for col in num_vars:
    if col != target:
        plt.figure(figsize=(8,5))
        sns.histplot(df[col], kde=True, color='steelblue')
        plt.title(f'Distribui√ß√£o da vari√°vel {col}')
        plt.xlabel(col)
        plt.ylabel('Frequ√™ncia')
        plt.show()
        
        print(f"\n {col} - Estat√≠sticas:")
        print(df[col].describe())
        print(f"Skewness: {df[col].skew():.2f}")
        print("-" * 50)


4-an√°lise Univariada - Vari√°veis Categ√≥ricas

In [None]:
#analise univariada - variaveis categoricas
df['language'].value_counts(normalize=True) * 100
sns.countplot(x='language', data=df, palette='viridis')
plt.xticks(rotation=45)
plt.show()

In [None]:
#analise univariada - variaveis categ√≥ricas
df['language'].value_counts(normalize=True) * 100
sns.countplot(x='language', data=df, palette='viridis')
plt.xticks(rotation=45)
plt.show()

In [None]:
# Separar vari√°veis num√©ricas e categ√≥ricas
num_vars = df.select_dtypes(include=['int64', 'float64']).columns
cat_vars = df.select_dtypes(include=['object', 'bool']).columns

print("\nVari√°veis num√©ricas:", num_vars.tolist())
print("\nVari√°veis categ√≥ricas:", cat_vars.tolist())

5-An√°lise de Correla√ß√µes

In [None]:
#analise de correla√ß√µes
corr = df[num_vars].corr()

plt.figure(figsize=(10,8))
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de Correla√ß√£o - Vari√°veis Num√©ricas')
plt.show()


6-An√°lise Bivariada (Features vs Target)


In [None]:
#analise bivariada

# Exemplo com vari√°veis num√©ricas
for col in ['likes_count', 'comments_count', 'shares_count']:
    plt.figure(figsize=(7,4))
    sns.scatterplot(x=df[col], y=df[target])
    plt.title(f'Rela√ß√£o entre {col} e {target}')
    plt.xlabel(col)
    plt.ylabel('Visualiza√ß√µes')
    plt.show()


In [None]:
# Exemplo com categ√≥ricas
plt.figure(figsize=(8,5))
sns.boxplot(x='promoted', y=target, data=df, palette='Set2')
plt.title('Visualiza√ß√µes x Promo√ß√£o')
plt.xlabel('Promovido')
plt.ylabel('Total de Visualiza√ß√µes')
plt.show()

7-Identifica√ß√£o de Outliers

In [None]:
#indentificar os outliers
for col in num_vars:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    outliers = df[(df[col] < lower) | (df[col] > upper)]
    perc = (len(outliers) / len(df)) * 100
    print(f"{col}: {len(outliers)} outliers ({perc:.2f}%)")

#Etapa 2: Pr√©-processamento de Dados

In [None]:
# Importando as bibliotecas necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configura√ß√µes de exibi√ß√£o
pd.set_option('display.max_columns', None)
plt.style.use('seaborn-v0_8')


In [None]:
df = pd.read_csv('youtube_views.csv')
df.head()

1: Verifica√ß√£o Inicial dos Dados


In [None]:
# --- Estrutura e informa√ß√µes b√°sicas ---
df.info()

# --- Estat√≠sticas descritivas ---
df.describe(include='all')


2: An√°lise de Valores Ausentes (Missing Values)

In [None]:
# --- Contagem de valores ausentes ---
missing = df.isnull().sum()
missing_percent = (missing / len(df)) * 100
missing_data = pd.DataFrame({'Valores Ausentes': missing, 'Porcentagem (%)': missing_percent})
missing_data[missing_data['Valores Ausentes'] > 0]


In [None]:
# --- Visualiza√ß√£o dos valores ausentes ---
plt.figure(figsize=(8, 4))
sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
plt.title('Mapa de Valores Ausentes no Dataset')
plt.show()
#Cada linha representa um v√≠deo.
#Os espa√ßos amarelos indicam valores ausentes nas respectivas colunas.

 O gr√°fico acima mostra um mapa de calor (heatmap) indicando os valores ausentes no dataset.
 Cada linha representa um registro (v√≠deo) e cada coluna representa uma vari√°vel.
 As √°reas brancas representam valores presentes, enquanto as √°reas vermelhas indicam dados ausentes (NaN).


3: Tratamento de Valores Ausentes

In [None]:
# üü© Etapa 2.3 ‚Äì Tratamento de valores ausentes (corrigido para evitar FutureWarning)

# Preenche valores nulos em colunas num√©ricas com a mediana
df['description_length'] = df['description_length'].fillna(df['description_length'].median())
df['tags_count'] = df['tags_count'].fillna(df['tags_count'].median())

# Preenche valores nulos em colunas categ√≥ricas com o valor mais frequente (moda)
categorical_cols = ['category', 'video_quality', 'has_thumbnail_custom']
for col in categorical_cols:
    df[col] = df[col].fillna(df[col].mode()[0])

# Verifica novamente se ainda h√° valores nulos
df.isnull().sum()


4: Remo√ß√£o de Duplicatas

In [None]:
# --- Verificando duplicatas ---
print(f"Duplicatas encontradas: {df.duplicated().sum()}")

# --- Removendo duplicatas ---
df.drop_duplicates(inplace=True)
print(f"Ap√≥s remo√ß√£o: {df.duplicated().sum()}")


5: Detec√ß√£o e Tratamento de Outliers

In [None]:
# --- Fun√ß√£o para remover outliers num√©ricos ---
def remove_outliers_iqr(df, col):
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower, upper = Q1 - 1.5 * IQR, Q3 + 1.5 * IQR
    df = df[(df[col] >= lower) & (df[col] <= upper)]
    return df

# --- Visualizando antes ---
plt.figure(figsize=(6,4))
sns.boxplot(data=df, x='duration_minutes')
plt.title('Boxplot Antes da Remo√ß√£o de Outliers - Dura√ß√£o (min)')
plt.show()

# --- Removendo ---
df = remove_outliers_iqr(df, 'duration_minutes')

# --- Visualizando depois ---
plt.figure(figsize=(6,4))
sns.boxplot(data=df, x='duration_minutes')
plt.title('Boxplot Ap√≥s a Remo√ß√£o de Outliers - Dura√ß√£o (min)')
plt.show()
#O boxplot mostra a distribui√ß√£o da dura√ß√£o dos v√≠deos.
#Pontos fora da caixa (antes) s√£o outliers que foram removidos (depois).

(Antes da Remo√ß√£o)

O boxplot acima mostra a distribui√ß√£o original da dura√ß√£o dos v√≠deos.
 Observa-se a presen√ßa de v√°rios pontos isolados acima do limite superior do boxplot,
 representando v√≠deos com dura√ß√£o muito maior que o padr√£o (outliers).



(Depois da Remo√ß√£o)

 Ap√≥s remover os outliers com base no m√©todo IQR, observa-se que o boxplot est√° mais "compacto",
 sem pontos extremos fora do limite superior.


6: Corre√ß√£o de Distribui√ß√µes Assim√©tricas (Skewness)

In [None]:
# --- Medindo assimetria ---
skewness = df[['duration_minutes', 'title_length', 'description_length', 'tags_count']].skew()
print(skewness)

# --- Transforma√ß√£o log ---
df['duration_minutes_log'] = np.log1p(df['duration_minutes'])
df['tags_count_log'] = np.log1p(df['tags_count'])

# --- Comparando distribui√ß√µes antes e depois ---
fig, ax = plt.subplots(1, 2, figsize=(10, 4))
sns.histplot(df['duration_minutes'], ax=ax[0], bins=20, kde=True)
sns.histplot(df['duration_minutes_log'], ax=ax[1], bins=20, kde=True)
ax[0].set_title('Antes da Transforma√ß√£o')
ax[1].set_title('Ap√≥s Transforma√ß√£o Log')
plt.show()
#A transforma√ß√£o logar√≠tmica reduz a assimetria, aproximando a distribui√ß√£o da normal.

(Antes da Transforma√ß√£o)

As distribui√ß√µes apresentadas acima s√£o fortemente assim√©tricas √† direita.
Isso significa que a maioria dos v√≠deos tem dura√ß√£o ou quantidade de tags baixa,
mas h√° alguns casos extremos com valores muito altos (cauda longa √† direita).


(Depois da Transforma√ß√£o Log)

Ap√≥s aplicar a transforma√ß√£o logar√≠tmica (np.log1p), observamos que as distribui√ß√µes
 se tornaram mais equilibradas e pr√≥ximas da forma normal.
 A cauda longa foi reduzida, e os valores passaram a se concentrar em torno da m√©dia.

7: Codifica√ß√£o de Vari√°veis Categ√≥ricas

In [None]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
for col in ['has_thumbnail_custom', 'video_quality']:
    df[col] = le.fit_transform(df[col])

df.head()


8: Normaliza√ß√£o de Vari√°veis Num√©ricas

In [None]:
# --- Tratando valores infinitos e ausentes antes da normaliza√ß√£o ---
df.replace([np.inf, -np.inf], np.nan, inplace=True)
df.dropna(subset=['duration_minutes_log', 'title_length', 'description_length', 'tags_count_log'], inplace=True)

# --- Importando StandardScaler ---
from sklearn.preprocessing import StandardScaler

# --- Normaliza√ß√£o dos Dados Num√©ricos ---
scaler = StandardScaler()

numeric_cols = ['duration_minutes_log', 'title_length', 'description_length', 'tags_count_log']
df[numeric_cols] = scaler.fit_transform(df[numeric_cols])

df[numeric_cols].head()


9: Salvando Dataset Limpo

In [None]:
# --- Criando pasta 'data' caso n√£o exista ---
import os

os.makedirs('../data', exist_ok=True)

# --- Salvando dataset limpo ---
df.to_csv('../data/students_clean.csv', index=False)
print("‚úÖ Dataset limpo salvo em: data/students_clean.csv")
