In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import re

df = pd.read_csv("data/train.csv")

print("Liczba rekordów:", len(df))
print("\n Podgląd danych:")
print(df.head())

print("\n Brakujące dane:")
print(df.isnull().sum())

duplikaty = df.duplicated().sum()
print(f"\n Liczba duplikatów: {duplikaty}")

df["text_length"] = df["text"].apply(lambda x: len(str(x).split()))
print("\n Statystyki długości tekstów (liczba słów):")
print(df["text_length"].describe())


plt.figure(figsize=(8, 4))
sns.histplot(df["text_length"], bins=50, kde=True)
plt.title("Rozkład długości tekstów (w słowach)")
plt.xlabel("Liczba słów w tekście")
plt.ylabel("Liczba wiadomości")
plt.tight_layout()
plt.show()

print("\n Rozkład kategorii:")
print(df["Category"].value_counts())

plt.figure(figsize=(8, 4))
sns.countplot(data=df, x="Category", order=df["Category"].value_counts().index)
plt.title("Liczba wiadomości w każdej kategorii")
plt.xlabel("Kategoria")
plt.ylabel("Liczba wiadomości")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


def zawiera_link(text):
    return bool(re.search(r"http[s]?://", str(text)))

df["has_link"] = df["text"].apply(zawiera_link)
print("\n Liczba tekstów zawierających linki:", df["has_link"].sum())

#usuniecie brakow i duplikatow
df = df.dropna(subset=["text"])
df = df.drop_duplicates()


def clean_text(text):
    if not isinstance(text, str):
        return ""
    text = text.lower()

    text = re.sub(r"http\S+|www.\S+", "", text)

    text = re.sub(r"[^a-z\s]", "", text)
    text = re.sub(r"\s+", " ", text).strip()

    return text

df["clean_text"] = df["text"].apply(clean_text)
print(df[["text", "clean_text"]].head())