# WSTĘP
Projekt na przedmiot Rachunek prawdopodobieństwa i statystyka 2024/2025.
Obejmuje on analizę statystyczną ceny mieszkań i ich danych w wybranych miastach w Polsce.
Źródło opracowanych danych *https://www.kaggle.com/datasets/krzysztofjamroz/apartment-prices-in-poland/data*

# Początek
Importuję potrzebne mi biblioteki

In [1]:
import pandas as pd
import sqlite3
import glob
import os

Zgrywamy teraz dane z plików .csv do bazy SQLite i je czyścimy

In [2]:
data_directory = './data'
conn = sqlite3.connect('apartments.db')
    
# Wczytanie plików ze sprzedażą mieszkań
sale_files = glob.glob(os.path.join(data_directory, 'apartments_pl_*.csv'))
  
for file in sale_files:
    # Wczytanie danych
    df = pd.read_csv(file)
    
    # CZYSZCZENIE DANYCH
    # Puste miejsca w bazie wypełniamy gdzie ma to sens
    df['type'] = df['type'].fillna('unknown')
    df['buildingMaterial'] = df['buildingMaterial'].fillna('other')
    df['hasElevator'] = df['hasElevator'].fillna('no')

    # Zamieniamy dane z 'no' i 'yes' na 0 i 1
    columns_to_change = ['hasParkingSpace', 'hasBalcony', 'hasSecurity','hasStorageRoom','hasElevator']
    maping = {'yes': 1, 'no': 0}
    df[columns_to_change] = df[columns_to_change].map(lambda x: maping.get(x, x))


    # Usuwanie niepotrzebnych kolumn / kolumn z dużą ilością nulli
    rare_columns = ['clinicDistance','kindergartenDistance','condition','longitude', 'latitude',
                    'restaurantDistance','pharmacyDistance','postOfficeDistance','ownership']
    df = df.drop(columns=rare_columns)
    
    # Dodanie kolumny z datą (z nazwy pliku)
    filename = os.path.basename(file)
    date = filename.split('_')[2:4]  # Wyciąga YYYY_MM z nazwy
    df['date'] = f"{date[0]}-{date[1].split('.')[0]}"
        
    # Zapis do bazy
    df.to_sql('apartments_sale', conn, if_exists='append', index=False)

Tworzymy jeszcze indeksy i zamykamy connection

In [3]:
cursor = conn.cursor()
    

cursor.execute(f"""
    CREATE INDEX IF NOT EXISTS idx_apartments_sale_city 
    ON apartments_sale(city)
""")
cursor.execute(f"""
    CREATE INDEX IF NOT EXISTS idx_apartments_sale_date 
    ON apartments_sale(date)
""")

conn.commit()
conn.close()

# Analiza eksploracyjna
Na początek dodam DataFrame, na którym będziemy pracować

In [4]:
conn = sqlite3.connect('apartments.db')
query = "SELECT * FROM apartments_sale"
data_frame = pd.read_sql_query(query, conn)

### Analiza statystyki opisowej dla wybranych kolumny
W tej części kodu wybrałem sześć kolumn, które uznałem za istotne do dalszej analizy:
- `price` (cena)
- `squareMeters` (powierzchnia mieszkania)
- `rooms` (liczba pokoi)
- `buildYear` (rok budowy)
- `floor` (piętro)
- `floorCount` (liczba pięter w budynku)

Następnie wykonałem analizę statystyczną dla tych kolumn, używając funkcji `describe()`, która generuje miary położenia (takie jak średnia), miary rozproszenia (takie jak odchylenie standardowe) oraz inne istotne informacje, np. minimum, maksimum, mediana.

Na koniec, dla czytelności, zaokrąglam wyniki do dwóch miejsc po przecinku.

In [5]:
important_columns = ['price', 'squareMeters', 'rooms', 'buildYear', 'floor', 'floorCount']
stats = df[important_columns].describe().round(2)
print(stats)

            price  squareMeters     rooms  buildYear     floor  floorCount
count    21501.00      21501.00  21501.00   18121.00  17928.00    21292.00
mean    823867.94         56.97      2.62    1986.77      3.40        5.47
std     431126.67         20.62      0.89      32.80      2.61        3.41
min     191000.00         25.00      1.00    1850.00      1.00        1.00
25%     549000.00         42.69      2.00    1969.00      2.00        3.00
50%     721824.00         52.81      3.00    1993.00      3.00        4.00
75%     965000.00         66.30      3.00    2016.00      4.00        7.00
max    3000000.00        150.00      6.00    2024.00     29.00       29.00
