# 🧙‍♂️ Bartez i Zemsta Brudnych Danych

Znacie już Bajtazara – maga danych, który potrafi ogarnąć każdy wykres i wyczyścić najgorszy plik Excela. Ale dziś to nie on jest w centrum uwagi.

Do waszego zespołu analitycznego napisał jego brat bliźniak – Bartosz, znany też jako „Bartez”. Nie jest może zły, ale na pewno... trochę leniwy i uzależniony od Clasha. Właśnie miał wysłać raport z cenami mieszkań we Wrocławiu, ale zamiast tego spędził ostatnie 6 godzin na clan warze z ⚜️無与伦比⚜️.

I teraz ma problem:

---

## 📱 Wiadomość od Barteza:

> "Ej, serio, mam ten plik z danymi o mieszkaniach we Wrocławiu, co miałem oddać szefowi... ale coś się tam rozwaliło. W sensie dane są, ale trochę brudne, bo w tym czasie był clan war i nie ogarnąłem.  
>
> Możesz to ogarnąć za mnie? 🙏"

## 🎯 Twoja misja:

Pomóż Bartezowi, zanim jego team wyleci z ligi i szef się zorientuje, że nie oddał raportu!

### Krok po kroku:
1. **Zidentyfikuj i napraw błędy w danych**
   - brakujące wartości,
   - duplikaty,
   - dziwne formaty ("??", "200k"),
   - nielogiczne liczby (np. -30 m²).

2. **Wybierz metodę czyszczenia danych**
   - Wypełnianie braków,
   - Usuwanie błędów,
   - Porównanie efektów.

3. **Zbuduj model regresji liniowej**
   - Przewiduj cenę mieszkania na podstawie cech (powierzchnia, liczba pokoi).

4. **Oceń skuteczność modelu**
   - Sprawdź metryki: MSE, R²,
   - Porównaj jakość modeli po różnych metodach czyszczenia danych.

---

## 🧠 Uwaga:
Jeśli dobrze wykonasz zadanie – Bartez obiecał, że powie o tobie miłe słówko clan leaderowi :D

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

np.random.seed(42)
n = 200

# Generowanie danych: ceny mieszkań i powierzchnia
powierzchnia = np.random.normal(loc=60, scale=15, size=n).round(1)
cena = (powierzchnia * np.random.normal(loc=7, scale=1.5, size=n) + np.random.normal(loc=30, scale=20, size=n)).round(1)

cena = cena.astype(object)

# ile popsutych danych
ile_znakow_zapytania = int(0.05 * n)
indeksy_znakow = np.random.choice(n, ile_znakow_zapytania, replace=False)
for idx in indeksy_znakow:
    cena[idx] = "??"

# ile ujemnych danych
ile_ujemnych = int(0.01 * n)
indeksy_ujemnych = np.random.choice(n, ile_ujemnych, replace=False)
for idx in indeksy_ujemnych:
    powierzchnia[idx] = -abs(powierzchnia[idx])

# ile outlierów
ile_outlierow = int(0.02 * n)
indeksy_outlierow = np.random.choice(n, ile_outlierow, replace=False)
for idx in indeksy_outlierow:
    cena[idx] = cena[idx] * 100

# Tworzymy DataFrame
df = pd.DataFrame({
    "powierzchnia_m2": powierzchnia,
    "cena_w_tys": cena
})

# Dodajemy duplikaty
ile_duplikatow = int(0.03 * n)
duplikaty = df.sample(ile_duplikatow, random_state=1)
df = pd.concat([df, duplikaty], ignore_index=True)

# Tasujemy dane
df = df.sample(frac=1).reset_index(drop=True)

df.head(15)

Unnamed: 0,powierzchnia_m2,cena_w_tys
0,57.6,418.4
1,65.0,517.2
2,42.9,417.5
3,46.2,407.9
4,49.8,466.0
5,58.3,440.9
6,56.3,394.9
7,63.8,508.1
8,68.1,910.5
9,72.2,505.8


In [3]:
# 2. Czyszczenie danych

# poniżej wskazówka na co warto zwrócić uwagę


- Usuwamy duplikaty
- Ustalamy jeden typ danych
- Zastępujemy brakujące wartości (albo je usuwamy), warto możliwie sprawdzić obie ścieżki
- Korekta nielogicznych wartości: np. ujemna powierzchnia, przesadzone wartości

In [4]:
# 3. Model regresji

# możliwie trzeba coś doimportować :DD

X = df[['powierzchnia_m2']]
y = df['cena_w_tys']

# Przygotowanie modelu z regresji liniowej

model = ...
y_pred = ...

# Trening modelu + predykcja na X_test

In [5]:
# 4. Ocena modelu

# możliwie trzeba coś doimportować :DD
def ocena_modelu(y_test, y_pred):

    # użyj poznanych metod z wykładu do oceniania czy model daje sobie radę :D
    pass

In [None]:
# 5. W y k r e s i k i

ocena_modelu(y, y_pred)

sns.scatterplot(x="powierzchnia_m2", y="cena_w_tys", data=df)
plt.plot(df["powierzchnia_m2"], model.predict(X), color='red')
plt.title("Regresja liniowa po czyszczeniu danych")
plt.xlabel("Powierzchnia mieszkania (m²)")
plt.ylabel("Cena (w tys.)")
plt.show()