### Zadanie: Automatyczne wykrywanie cyberprzemocy (Binary Classification)

&#x20;

#### 1. Cel i kontekst zadania

W dobie dynamicznego rozwoju mediów społecznościowych problem cyberprzemocy nabiera szczególnego znaczenia. Cyberprzemoc, czyli nękanie i szkalowanie osób poprzez internet, wpływa negatywnie na zdrowie psychiczne użytkowników, zwłaszcza młodzieży. Celem tego zadania jest opracowanie systemu, który automatycznie rozróżnia tweety zawierające przekazy cyberprzemocy od tych nieszkodliwych. 

* **Pozytywna klasa:** Tweet zawiera elementy cyberprzemocy (szkodliwe).
* **Negatywna klasa:** Tweet nie zawiera elementów cyberprzemocy (nieszkodliwe).

#### 2. Opis danych

* **Źródło:** Tweety pobrane z publicznych dyskusji na Twitterze.
* **Przetwarzanie wstępne:** Dane są dostarczone z minimalnym przetwarzaniem – zachowano oryginalną formę tweetów z wyjątkiem niezbędnego usunięcia danych umożliwiających identyfikację osób.
* **Cel:** Klasyfikacja każdego tweeta jako zawierający cyberprzemoc lub nie.

#### 3. Wymagania techniczne i zadania do wykonania

1. **Analiza eksploracyjna danych (EDA):**

   * Zapoznaj się ze strukturą danych, sprawdź rozkład klas oraz podstawowe statystyki.
   * Przeprowadź wizualizacje, które pozwolą zidentyfikować ewentualne problemy, takie jak nierównomierny rozkład klas.
2. **Przetwarzanie tekstu:**

   * Wykonaj dodatkowe czyszczenie tekstu, jeśli to konieczne (np. tokenizacja, usuwanie stop-słów, lematyzacja).
   * Upewnij się, że wszelkie dane osobowe są odpowiednio zamaskowane lub usunięte.
3. **Inżynieria cech:**

   * Przetestuj różne metody reprezentacji tekstu, np. TF-IDF, word embeddings lub modele językowe typu BERT.
   * Zadbaj o właściwą selekcję cech, aby poprawić jakość klasyfikacji.
4. **Budowa modelu klasyfikacyjnego:**

   * Utwórz pipeline, który obejmuje wszystkie etapy: przetwarzanie danych, ekstrakcję cech i klasyfikator.
   * Wypróbuj różne algorytmy klasyfikacji (np. regresję logistyczną, SVM, drzewa decyzyjne, modele ensemble lub sieci neuronowe).
   * Zoptymalizuj parametry modelu przy użyciu walidacji krzyżowej lub zbioru walidacyjnego.
5. **Ewaluacja modelu:**

   * Oceniaj model, stosując miary: Precision, Recall, F-score oraz Accuracy.
   * Przeanalizuj błędy klasyfikacji i zidentyfikuj obszary do ewentualnych usprawnień.
6. **Prezentacja wyników:**

   * Przygotuj raport (np. w formie notebooka lub prezentacji), w którym przedstawisz cały proces – od analizy danych, przez etapy przetwarzania tekstu, aż po wyniki modelowania i wnioski.
   * W raporcie omów, jakie metody i techniki sprawdziły się najlepiej oraz jakie napotkano wyzwania podczas realizacji zadania.


In [None]:
import pandas as pd
from pathlib import Path

# Definicja ścieżek do plików
text_file = Path('datasets/nlp_training_set_clean_only_text.txt')
tags_file = Path('datasets/nlp_training_set_clean_only_tags.txt')


# Wczytywanie danych tekstowych
with text_file.open('r', encoding='utf-8') as file:
    text_data = file.read().splitlines()

# Wczytywanie etykiet
with tags_file.open('r', encoding='utf-8') as file:
    labels = file.read().splitlines()

# Sprawdzenie, czy liczba rekordów jest zgodna
if len(text_data) != len(labels):
    raise ValueError("Liczba wierszy w pliku tekstowym nie zgadza się z liczbą etykiet.")

# Konwersja etykiet na typ całkowity
labels = [int(label) for label in labels]

# Tworzenie DataFrame
df = pd.DataFrame({
    'text': text_data,
    'label': labels
})

print(df.head())
