# Aula 1: Exploração e Limpeza de Dados

Nesta aula vamos explorar o dataset, analisar e preparar para a próxima etapa.

In [None]:
import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")


In [None]:
# Passo 1: Carregue o dataset
caminho = "../data/tweets.csv"
if not os.path.exists(caminho):
    raise FileNotFoundError(f"Arquivo não encontrado: {caminho}")

df = pd.read_csv(caminho)
display(df.head())


In [None]:
# Passo 2: Verifique informações básicas
print(df.info())
print(df.isnull().sum())

if "label" not in df.columns or "text" not in df.columns:
    raise ValueError("Colunas 'label' e 'text' devem estar presentes no dataset")


In [None]:
# Passo 3: Análise exploratória
print(df["label"].value_counts())
df["text_length"] = df["text"].astype(str).apply(len)
print(df[["label", "text_length"]].groupby("label").mean())

plt.figure(figsize=(10,6))
sns.histplot(data=df, x="text_length", hue="label", bins=20, kde=True)
plt.title("Distribuição do tamanho dos textos por rótulo")
plt.xlabel("Tamanho do texto")
plt.ylabel("Contagem")
plt.tight_layout()
plt.show()


In [None]:
# Passo 4: Salve o dataset limpo
df.to_csv("../data/tweets_limpo.csv", index=False)
print("Arquivo salvo em ../data/tweets_limpo.csv")
