In [1]:
import pandas as pd
import numpy as np

# 1) Beállítások
pd.set_option('display.max_columns', 200)

# 2) Fájlok beolvasása
df = pd.read_csv('train.csv', low_memory=False)
addr = pd.read_csv('addresses.csv')
latlon = pd.read_csv('latlons.csv')

# 3) Címek és koordináták összekapcsolása
# addresses.csv elvárt oszlopai: ticket_id, address
# latlons.csv elvárt oszlopai: address, lat, lon (vagy latitude, longitude)
# Robusztus oszlopnév kezelés
latlon_cols = {c.lower(): c for c in latlon.columns}
lat_col = latlon_cols.get('lat') or latlon_cols.get('latitude')
lon_col = latlon_cols.get('lon') or latlon_cols.get('longitude')

# Lowercase-os tisztítás a címekre a jobb merge érdekében
def _clean_addr(s):
    if pd.isna(s):
        return np.nan
    return ' '.join(str(s).strip().lower().split())

addr['address_norm'] = addr['address'].apply(_clean_addr)
latlon['address_norm'] = latlon['address'].apply(_clean_addr)

addr_geo = addr.merge(
    latlon[['address_norm', lat_col, lon_col]],
    on='address_norm', how='left'
).drop(columns=['address_norm'])

# 4) Alap merge a ticket_id szerint
df = df.merge(addr_geo, on='ticket_id', how='left')

# 5) Célváltozó tisztítása
# A Kaggle-feladat szerint compliance: 1/0 vagy True/False; a null = nem felelős, kizárjuk tréningből
# Megtartjuk az excluded keretben dokumentáció célból
df['compliance'] = df['compliance'].astype('float')  # egységesítés
df_excluded = df[df['compliance'].isna()].copy()
df_clean = df[df['compliance'].isin([0.0, 1.0])].copy()
df_clean['compliance'] = df_clean['compliance'].astype(int)

# 6) Dátumok parse-olása (robosztusan)
date_cols = ['ticket_issued_date', 'hearing_date', 'payment_date']
for c in date_cols:
    if c in df_clean.columns:
        df_clean[c] = pd.to_datetime(df_clean[c], errors='coerce')

# 7) Nyilvánvaló szivárgó mezők listázása (később feature-dobásra)
leak_like_cols = [c for c in [
    'payment_amount','payment_date','payment_status','balance_due',
    'collection_status','payment_plan','payment_plan_start_date',
    'payment_plan_end_date'
] if c in df_clean.columns]

# 8) Triviális whitespace/üres string normalizálás néhány jellemzőn
text_like_cols = [c for c in [
    'agency_name','inspector_name','violator_name','violation_street_name',
    'violation_description','violation_code','disposition','city','state',
    'zip_code'
] if c in df_clean.columns]

for c in text_like_cols:
    df_clean[c] = df_clean[c].astype(str).apply(lambda s: np.nan if s.strip()=='' or s.strip().lower()=='nan' else s.strip())

# 9) Deduplikálás ticket_id szerint (ha előfordulna)
if 'ticket_id' in df_clean.columns:
    before = len(df_clean)
    df_clean = df_clean.sort_values(by=['ticket_id']).drop_duplicates(subset=['ticket_id'], keep='last')
    after = len(df_clean)
    print(f"Duplikátumok eltávolítva ticket_id alapján: {before - after}")

# 10) Gyors hiány-összegzés (diagnosztika)
missing_summary = df_clean.isna().mean().sort_values(ascending=False).head(25)
print("Hiányarány top 25 oszlop:\n", missing_summary)

# 11) A tisztított keretek mentése igény esetén
# df_clean.to_csv('train_clean.csv', index=False)
# df_excluded.to_csv('train_excluded_not_responsible.csv', index=False)

# 12) Visszaadandó objektumok például:
print("Tisztított rekordok:", df_clean.shape, " | Kizárt (nem felelős):", df_excluded.shape)
print("Lehetséges szivárgó mezők (később eldobandók a tanításhoz):", leak_like_cols)


ROC AUC: 0.8260
PR AUC:  0.4972
