# Data Preprocessing Notebook - Commit Division

**Team Members:** Endrita, Gent, Milot

---


# Para-procesimi i të Dhënave për Analizë
## Data Preprocessing for Flight Data Analysis

Ky notebook përfshin:
1. Mbledhja e të dhënave, definimi i tipeve të dhënave, kualiteti i të dhënave
2. Integrimi, agregimi, mostrimi, pastrimi, identifikimi dhe strategjia e trajtimit për vlerat e zbrazëta
3. Reduktimi i dimensionit, zgjedhja e nën bashkësisë së vetive, krijimi i vetive, diskretizimi dhe binarizimi, transformimi

**Dataset Source:** `flights_sample_3m.csv`(https://www.kaggle.com/datasets/patrickzel/flight-delay-and-cancellation-dataset-2019-2023/data) - Sample of 3 million flight records for analysis

---


In [None]:
# Informacioni bazë për dataset
print("📋 INFORMACIONI PËR DATASET:\n")
print(df.info())
print("\n" + "="*70 + "\n")

# Tregoni tipet e të dhënave
print("📊 TIPET E TË DHËNAVE:")
print(df.dtypes)
print("\n" + "="*70 + "\n")

# Statistika përshkruese
print("📈 STATISTIKA PËRSHKRUESE:")
df.describe(include='all').T

In [None]:
# Kontrollimi i dublikateve
print("🔍 DUBLIKATET:\n")
duplicates = df.duplicated().sum()
print(f"Numri i rreshtave dublikat: {duplicates:,}")
print(f"Përqindja e dublikateve: {(duplicates/len(df)*100):.2f}%")

## 4.5 Reduktimi Inteligjent i Kolonave / Intelligent Column Reduction

Reduktimi i numrit të kolonave duke hequr:
- Kolonat me variancë të ulët (low variance)
- Kolonat me korrelacion të lartë (high correlation)

In [None]:
# HAPI 4: Përmbledhje e Reduktimit
print("\n" + "="*70)
print("📊 PËRMBLEDHJA E REDUKTIMIT TË KOLONAVE")
print("="*70)

final_count = len(df_reduced.columns)
removed_count = original_count - final_count
reduction_percent = (removed_count / original_count) * 100

print(f"\n✅ Kolonat fillestare:  {original_count}")
print(f"❌ Kolonat e hequra:    {removed_count}")
print(f"✅ Kolonat e mbetura:   {final_count}")
print(f"📉 Reduktim:            {reduction_percent:.1f}%")

print(f"\n📋 Lista e kolonave të mbetura:")
for i, col in enumerate(df_reduced.columns, 1):
    print(f"   {i}. {col}")

print(f"\n✅ Dataset i optimizuar: {len(df_reduced):,} rreshta × {final_count} kolona")
print("\n💡 Tani do të punojmë me këtë dataset të reduktuar për analizat e tjera!")

In [None]:
# Vizualizimi i reduktimit
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

# Grafiku 1: Krahasimi para/pas
categories = ['Fillestare', 'Pas Reduktimit']
counts = [original_count, final_count]
colors = ['#ff6b6b', '#51cf66']

ax1.bar(categories, counts, color=colors, alpha=0.7, edgecolor='black')
ax1.set_ylabel('Numri i Kolonave')
ax1.set_title('Krahasimi: Para dhe Pas Reduktimit', fontsize=12, fontweight='bold')
ax1.set_ylim(0, original_count + 5)

# Shto vlerat mbi shtylla
for i, (cat, count) in enumerate(zip(categories, counts)):
    ax1.text(i, count + 0.5, str(count), ha='center', fontweight='bold', fontsize=12)

# Grafiku 2: Pie chart e reduktimit
sizes = [final_count, removed_count]
labels = [f'Të mbetur\n({final_count} kolona)', f'Të hequra\n({removed_count} kolona)']
colors_pie = ['#51cf66', '#ff6b6b']
explode = (0.05, 0.05)

ax2.pie(sizes, explode=explode, labels=labels, colors=colors_pie, autopct='%1.1f%%',
        shadow=True, startangle=90, textprops={'fontsize': 11, 'fontweight': 'bold'})
ax2.set_title('Përqindja e Reduktimit', fontsize=12, fontweight='bold')

plt.tight_layout()
plt.show()

print(f"\n🎯 Dataset i optimizuar është gati për analizë!")

## 5. Mostrimi i të Dhënave / Data Sampling

Për të punuar më shpejt me një dataset të madh, do të krijojmë mostra.

## Phase 2 – Missing Value Treatment

### 7. Identifikimi dhe Trajtimi i Vlerave të Zbrazëta / Missing Values Treatment

In [None]:
# Identifikimi i kolonave numerike dhe kategorike
numeric_cols = df_work.select_dtypes(include=['int64', 'float64']).columns.tolist()
categorical_cols = df_work.select_dtypes(include=['object']).columns.tolist()

print("📊 KATEGORIZIMI I KOLONAVE:")
print(f"\nKolona numerike ({len(numeric_cols)}): {numeric_cols[:10]}...")  # Shfaq vetëm 10 të parat
print(f"\nKolona kategorike ({len(categorical_cols)}): {categorical_cols[:10]}...")

# Krijimi i një kopje për trajtimin e vlerave të zbrazëta
df_imputed = df_work.copy()

## 10. Diskretizimi / Discretization

Transformimi i vlerave të vazhdueshme në kategori diskrete (binning).

In [None]:
# Diskretizimi i vlerave të vazhdueshme
print("📦 DISKRETIZIMI (Binning)")
print("="*70)

df_discretized = df_engineered.copy()

if len(numeric_cols) > 0:
    # Mer kolonën e parë numerike për shembull
    num_col = numeric_cols[0]

    # Metodë 1: Equal-width binning (intervale të barabarta)
    df_discretized[f'{num_col}_equal_width'] = pd.cut(
        df_discretized[num_col],
        bins=5,
        labels=['Very Low', 'Low', 'Medium', 'High', 'Very High']  # English labels
    )
    print(f"✅ Equal-width binning për '{num_col}':")
    print(df_discretized[f'{num_col}_equal_width'].value_counts())

    # Metodë 2: Equal-frequency binning (kuantile)
    df_discretized[f'{num_col}_equal_freq'] = pd.qcut(
        df_discretized[num_col],
        q=5,
        labels=['Q1', 'Q2', 'Q3', 'Q4', 'Q5'],
        duplicates='drop'
    )
    print(f"\n✅ Equal-frequency binning për '{num_col}':")
    print(df_discretized[f'{num_col}_equal_freq'].value_counts())

    # Metodë 3: Custom binning
    bins = [df_discretized[num_col].min(),
            df_discretized[num_col].quantile(0.33),
            df_discretized[num_col].quantile(0.67),
            df_discretized[num_col].max()]
    df_discretized[f'{num_col}_custom'] = pd.cut(
        df_discretized[num_col],
        bins=bins,
        labels=['Low', 'Medium', 'High'],  # English labels
        include_lowest=True
    )
    print(f"\n✅ Custom binning për '{num_col}':")
    print(df_discretized[f'{num_col}_custom'].value_counts())

## 12. Transformimi i të Dhënave / Data Transformation

Aplikimi i transformimeve të ndryshme për normalizim dhe standardizim.

In [None]:
# Transformimi i të dhënave
print("🔄 TRANSFORMIMI I TË DHËNAVE")
print("="*70)

if len(numeric_cols) > 0:
    # Mer kolonat numerike që nuk kanë vlera të zbrazëta
    numeric_data = df_binary[numeric_cols].select_dtypes(include=[np.number]).dropna(axis=1)
    
    if numeric_data.shape[1] > 0:
        # Mer disa kolona për shembull (max 3)
        sample_cols = numeric_data.columns[:min(3, len(numeric_data.columns))]
        sample_data = numeric_data[sample_cols]
        
        # 1. Min-Max Normalization (0-1)
        scaler_minmax = MinMaxScaler()
        normalized_data = scaler_minmax.fit_transform(sample_data)
        df_normalized = pd.DataFrame(
            normalized_data, 
            columns=[f'{col}_normalized' for col in sample_cols],
            index=sample_data.index
        )
        
        print("✅ Min-Max Normalization (0-1):")
        print(df_normalized.describe())
        
        # 2. Standardization (Z-score)
        scaler_standard = StandardScaler()
        standardized_data = scaler_standard.fit_transform(sample_data)
        df_standardized = pd.DataFrame(
            standardized_data,
            columns=[f'{col}_standardized' for col in sample_cols],
            index=sample_data.index
        )
        
        print("\n✅ Standardization (Z-score, mean=0, std=1):")
        print(df_standardized.describe())
        
        # 3. Log Transformation (për të dhënat që janë > 0)
        df_log = pd.DataFrame(index=sample_data.index)
        for col in sample_cols:
            if (sample_data[col] > 0).all():
                df_log[f'{col}_log'] = np.log1p(sample_data[col])
        
        if len(df_log.columns) > 0:
            print("\n✅ Log Transformation:")
            print(df_log.describe())
    else:
        print("⚠️ Nuk ka kolona numerike të përshtatshme për transformim")