# Data Preprocessing Notebook - Commit Division

**Team Members:** Endrita, Gent, Milot

---


# Para-procesimi i të Dhënave për Analizë
## Data Preprocessing for Flight Data Analysis

Ky notebook përfshin:
1. Mbledhja e të dhënave, definimi i tipeve të dhënave, kualiteti i të dhënave
2. Integrimi, agregimi, mostrimi, pastrimi, identifikimi dhe strategjia e trajtimit për vlerat e zbrazëta
3. Reduktimi i dimensionit, zgjedhja e nën bashkësisë së vetive, krijimi i vetive, diskretizimi dhe binarizimi, transformimi

**Dataset Source:** `flights_sample_3m.csv`(https://www.kaggle.com/datasets/patrickzel/flight-delay-and-cancellation-dataset-2019-2023/data) - Sample of 3 million flight records for analysis

---


## 2. Mbledhja e të Dhënave / Data Collection
Ngarkimi i të dhënave nga skedari CSV.

In [None]:
# Ngarkimi i të dhënave
print("📥 Duke ngarkuar të dhënat...")
df = pd.read_csv('flights_sample_3m.csv')

print(f"✅ Të dhënat janë ngarkuar me sukses!")
print(f"📊 Madhësia e dataset: {df.shape[0]:,} rreshta dhe {df.shape[1]} kolona")

In [None]:
# Informacioni bazë për dataset
print("📋 INFORMACIONI PËR DATASET:\n")
print(df.info())
print("\n" + "="*70 + "\n")

# Tregoni tipet e të dhënave
print("📊 TIPET E TË DHËNAVE:")
print(df.dtypes)
print("\n" + "="*70 + "\n")

# Statistika përshkruese
print("📈 STATISTIKA PËRSHKRUESE:")
df.describe(include='all').T

In [None]:
# Kontrollimi i vlerave të zbrazëta (missing values)
print("🔍 VLERAT E ZBRAZËTA (Missing Values):\n")
missing_values = df.isnull().sum()
missing_percent = (df.isnull().sum() / len(df)) * 100

missing_df = pd.DataFrame({
    'Kolona': missing_values.index,
    'Nr. i vlerave të zbrazëta': missing_values.values,
    'Përqindja (%)': missing_percent.values
})
missing_df = missing_df[missing_df['Nr. i vlerave të zbrazëta'] > 0].sort_values('Nr. i vlerave të zbrazëta', ascending=False)

if len(missing_df) > 0:
    print(missing_df.to_string(index=False))
else:
    print("✅ Nuk ka vlera të zbrazëta në dataset!")

In [None]:
# Vizualizimi i vlerave të zbrazëta
plt.figure(figsize=(12, 6))
missing_data = df.isnull().sum()
missing_data = missing_data[missing_data > 0].sort_values(ascending=False)

if len(missing_data) > 0:
    plt.bar(range(len(missing_data)), missing_data.values)
    plt.xticks(range(len(missing_data)), missing_data.index, rotation=45, ha='right')
    plt.xlabel('Kolonat')
    plt.ylabel('Numri i vlerave të zbrazëta')
    plt.title('Vlerat e Zbrazëta sipas Kolonave')
    plt.tight_layout()
    plt.show()
else:
    print("✅ Nuk ka vlera të zbrazëta për tu vizualizuar!")

In [None]:
# Kontrollimi i dublikateve
print("🔍 DUBLIKATET:\n")
duplicates = df.duplicated().sum()
print(f"Numri i rreshtave dublikat: {duplicates:,}")
print(f"Përqindja e dublikateve: {(duplicates/len(df)*100):.2f}%")

## 4.5 Reduktimi Inteligjent i Kolonave / Intelligent Column Reduction

Reduktimi i numrit të kolonave duke hequr:
- Kolonat me variancë të ulët (low variance)
- Kolonat me korrelacion të lartë (high correlation)

In [None]:
# HAPI 1: Ruajtja e gjendjes fillestare
print("🔧 REDUKTIMI INTELIGJENT I KOLONAVE")
print("="*70)

original_columns = df.columns.tolist()
original_count = len(original_columns)

print(f"📊 Numri fillestare i kolonave: {original_count}")
print(f"📊 Numri fillestare i rreshtave: {len(df):,}\n")

# Krijimi i një kopje për të punuar
df_reduced = df.copy()

In [None]:
# HAPI 2: Heqja e kolonave me variancë të ulët (Low Variance Removal)
print("🔍 HAPI 2: Heqja e kolonave me variancë shumë të ulët")
print("-"*70)

# Identifikimi i kolonave numerike
numeric_cols = df_reduced.select_dtypes(include=['int64', 'float64']).columns.tolist()
categorical_cols = df_reduced.select_dtypes(include=['object']).columns.tolist()

low_variance_cols = []

# Kontrollimi i kolonave numerike
for col in numeric_cols:
    variance = df_reduced[col].var()
    # Nëse varianca është shumë e vogël (afër 0), kolona ka pothuajse të njëjtat vlera
    if variance < 0.01 or df_reduced[col].nunique() == 1:
        low_variance_cols.append(col)

# Kontrollimi i kolonave kategorike (nëse kanë vetëm 1 vlerë unike)
for col in categorical_cols:
    if df_reduced[col].nunique() == 1:
        low_variance_cols.append(col)

if low_variance_cols:
    print(f"✅ U gjetën {len(low_variance_cols)} kolona me variancë të ulët:")
    for col in low_variance_cols:
        unique_count = df_reduced[col].nunique()
        print(f"   - {col} (vlera unike: {unique_count})")
    
    # Heqja e këtyre kolonave
    df_reduced = df_reduced.drop(columns=low_variance_cols)
    print(f"\n✅ {len(low_variance_cols)} kolona u hoqën")
else:
    print("✅ Nuk u gjetën kolona me variancë shumë të ulët")

print(f"📊 Kolonat e mbetura: {len(df_reduced.columns)}")

In [None]:
# HAPI 4: Përmbledhje e Reduktimit
print("\n" + "="*70)
print("📊 PËRMBLEDHJA E REDUKTIMIT TË KOLONAVE")
print("="*70)

final_count = len(df_reduced.columns)
removed_count = original_count - final_count
reduction_percent = (removed_count / original_count) * 100

print(f"\n✅ Kolonat fillestare:  {original_count}")
print(f"❌ Kolonat e hequra:    {removed_count}")
print(f"✅ Kolonat e mbetura:   {final_count}")
print(f"📉 Reduktim:            {reduction_percent:.1f}%")

print(f"\n📋 Lista e kolonave të mbetura:")
for i, col in enumerate(df_reduced.columns, 1):
    print(f"   {i}. {col}")

print(f"\n✅ Dataset i optimizuar: {len(df_reduced):,} rreshta × {final_count} kolona")
print("\n💡 Tani do të punojmë me këtë dataset të reduktuar për analizat e tjera!")

In [None]:
# Vizualizimi i reduktimit
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

# Grafiku 1: Krahasimi para/pas
categories = ['Fillestare', 'Pas Reduktimit']
counts = [original_count, final_count]
colors = ['#ff6b6b', '#51cf66']

ax1.bar(categories, counts, color=colors, alpha=0.7, edgecolor='black')
ax1.set_ylabel('Numri i Kolonave')
ax1.set_title('Krahasimi: Para dhe Pas Reduktimit', fontsize=12, fontweight='bold')
ax1.set_ylim(0, original_count + 5)

# Shto vlerat mbi shtylla
for i, (cat, count) in enumerate(zip(categories, counts)):
    ax1.text(i, count + 0.5, str(count), ha='center', fontweight='bold', fontsize=12)

# Grafiku 2: Pie chart e reduktimit
sizes = [final_count, removed_count]
labels = [f'Të mbetur\n({final_count} kolona)', f'Të hequra\n({removed_count} kolona)']
colors_pie = ['#51cf66', '#ff6b6b']
explode = (0.05, 0.05)

ax2.pie(sizes, explode=explode, labels=labels, colors=colors_pie, autopct='%1.1f%%',
        shadow=True, startangle=90, textprops={'fontsize': 11, 'fontweight': 'bold'})
ax2.set_title('Përqindja e Reduktimit', fontsize=12, fontweight='bold')

plt.tight_layout()
plt.show()

print(f"\n🎯 Dataset i optimizuar është gati për analizë!")

## 5. Mostrimi i të Dhënave / Data Sampling

Për të punuar më shpejt me një dataset të madh, do të krijojmë mostra.

In [None]:
# Fshirja e dublikateve
print("🧹 PASTRIMI I TË DHËNAVE")
print("="*70)
original_size = len(df_work)
df_work = df_work.drop_duplicates()
removed_duplicates = original_size - len(df_work)

print(f"✅ Janë fshirë {removed_duplicates:,} rreshta dublikat")
print(f"📊 Madhësia e re: {len(df_work):,} rreshta")

## Phase 2 – Missing Value Treatment

### 7. Identifikimi dhe Trajtimi i Vlerave të Zbrazëta / Missing Values Treatment

In [None]:
# Identifikimi i kolonave numerike dhe kategorike
numeric_cols = df_work.select_dtypes(include=['int64', 'float64']).columns.tolist()
categorical_cols = df_work.select_dtypes(include=['object']).columns.tolist()

print("📊 KATEGORIZIMI I KOLONAVE:")
print(f"\nKolona numerike ({len(numeric_cols)}): {numeric_cols[:10]}...")  # Shfaq vetëm 10 të parat
print(f"\nKolona kategorike ({len(categorical_cols)}): {categorical_cols[:10]}...")

# Krijimi i një kopje për trajtimin e vlerave të zbrazëta
df_imputed = df_work.copy()

In [None]:
## Phase 3 – Feature Engineering

### 8. Agregimi i të Dhënave / Data Aggregation

In [None]:
# Shembull i agregimit (do të adaptohet sipas kolonave aktuale)
print("📊 AGREGIMI I TË DHËNAVE")
print("="*70)

# Shfaq kolonat e disponueshme
print("\nKolonat e disponueshme për agregim:")
print(df_imputed.columns.tolist())

# Shembull generik i agregimit nëse ka kolona të përshtatshme
# Ky kod do të adaptohet bazuar në kolonat aktuale të datasetit
if len(categorical_cols) > 0 and len(numeric_cols) > 0:
    # Mer kolonën e parë kategorike dhe numerike për shembull
    cat_col = categorical_cols[0]
    num_col = numeric_cols[0]
    
    print(f"\n📈 Agregimi sipas '{cat_col}':")
    agg_result = df_imputed.groupby(cat_col)[num_col].agg(['count', 'mean', 'min', 'max'])
    print(agg_result.head(10))

## 10. Diskretizimi / Discretization

Transformimi i vlerave të vazhdueshme në kategori diskrete (binning).

In [None]:
# Diskretizimi i vlerave të vazhdueshme
print("📦 DISKRETIZIMI (Binning)")
print("="*70)

df_discretized = df_engineered.copy()

if len(numeric_cols) > 0:
    # Mer kolonën e parë numerike për shembull
    num_col = numeric_cols[0]

    # Metodë 1: Equal-width binning (intervale të barabarta)
    df_discretized[f'{num_col}_equal_width'] = pd.cut(
        df_discretized[num_col],
        bins=5,
        labels=['Very Low', 'Low', 'Medium', 'High', 'Very High']  # English labels
    )
    print(f"✅ Equal-width binning për '{num_col}':")
    print(df_discretized[f'{num_col}_equal_width'].value_counts())

    # Metodë 2: Equal-frequency binning (kuantile)
    df_discretized[f'{num_col}_equal_freq'] = pd.qcut(
        df_discretized[num_col],
        q=5,
        labels=['Q1', 'Q2', 'Q3', 'Q4', 'Q5'],
        duplicates='drop'
    )
    print(f"\n✅ Equal-frequency binning për '{num_col}':")
    print(df_discretized[f'{num_col}_equal_freq'].value_counts())

    # Metodë 3: Custom binning
    bins = [df_discretized[num_col].min(),
            df_discretized[num_col].quantile(0.33),
            df_discretized[num_col].quantile(0.67),
            df_discretized[num_col].max()]
    df_discretized[f'{num_col}_custom'] = pd.cut(
        df_discretized[num_col],
        bins=bins,
        labels=['Low', 'Medium', 'High'],  # English labels
        include_lowest=True
    )
    print(f"\n✅ Custom binning për '{num_col}':")
    print(df_discretized[f'{num_col}_custom'].value_counts())

## 11. Binarizimi / Binarization

Transformimi i vlerave në 0 dhe 1.

In [None]:
# Binarizimi
print("🔢 BINARIZIMI")
print("="*70)

df_binary = df_discretized.copy()

if len(numeric_cols) > 0:
    num_col = numeric_cols[0]
    
    # Metodë 1: Binarizim me threshold (mesatare)
    threshold = df_binary[num_col].mean()
    df_binary[f'{num_col}_binary'] = (df_binary[num_col] > threshold).astype(int)
    
    print(f"✅ Binarizimi i '{num_col}' (threshold = {threshold:.2f}):")
    print(df_binary[f'{num_col}_binary'].value_counts())
    print(f"   0 (≤ threshold): {(df_binary[f'{num_col}_binary'] == 0).sum():,} rreshta")
    print(f"   1 (> threshold): {(df_binary[f'{num_col}_binary'] == 1).sum():,} rreshta")

# Metodë 2: One-Hot Encoding për variablat kategorike
if len(categorical_cols) > 0:
    cat_col = categorical_cols[0]
    
    # Mer vetëm top 5 kategoritë për shembull
    top_5_categories = df_binary[cat_col].value_counts().head(5).index
    df_temp = df_binary[df_binary[cat_col].isin(top_5_categories)]
    
    # One-hot encoding
    one_hot = pd.get_dummies(df_temp[cat_col], prefix=cat_col)
    
    print(f"\n✅ One-Hot Encoding për '{cat_col}' (top 5 kategoritë):")
    print(one_hot.head())
    print(f"\n📊 U krijuan {len(one_hot.columns)} kolona binare")

## 12. Transformimi i të Dhënave / Data Transformation

Aplikimi i transformimeve të ndryshme për normalizim dhe standardizim.

In [None]:
# Transformimi i të dhënave
print("🔄 TRANSFORMIMI I TË DHËNAVE")
print("="*70)

if len(numeric_cols) > 0:
    # Mer kolonat numerike që nuk kanë vlera të zbrazëta
    numeric_data = df_binary[numeric_cols].select_dtypes(include=[np.number]).dropna(axis=1)
    
    if numeric_data.shape[1] > 0:
        # Mer disa kolona për shembull (max 3)
        sample_cols = numeric_data.columns[:min(3, len(numeric_data.columns))]
        sample_data = numeric_data[sample_cols]
        
        # 1. Min-Max Normalization (0-1)
        scaler_minmax = MinMaxScaler()
        normalized_data = scaler_minmax.fit_transform(sample_data)
        df_normalized = pd.DataFrame(
            normalized_data, 
            columns=[f'{col}_normalized' for col in sample_cols],
            index=sample_data.index
        )
        
        print("✅ Min-Max Normalization (0-1):")
        print(df_normalized.describe())
        
        # 2. Standardization (Z-score)
        scaler_standard = StandardScaler()
        standardized_data = scaler_standard.fit_transform(sample_data)
        df_standardized = pd.DataFrame(
            standardized_data,
            columns=[f'{col}_standardized' for col in sample_cols],
            index=sample_data.index
        )
        
        print("\n✅ Standardization (Z-score, mean=0, std=1):")
        print(df_standardized.describe())
        
        # 3. Log Transformation (për të dhënat që janë > 0)
        df_log = pd.DataFrame(index=sample_data.index)
        for col in sample_cols:
            if (sample_data[col] > 0).all():
                df_log[f'{col}_log'] = np.log1p(sample_data[col])
        
        if len(df_log.columns) > 0:
            print("\n✅ Log Transformation:")
            print(df_log.describe())
    else:
        print("⚠️ Nuk ka kolona numerike të përshtatshme për transformim")

In [None]:
# Reduktimi i dimensionit me PCA
print("📉 REDUKTIMI I DIMENSIONIT (PCA)")
print("="*70)

if len(numeric_cols) > 0:
    # Përgatitja e të dhënave për PCA
    numeric_df = df_binary[numeric_cols].select_dtypes(include=[np.number])
    numeric_df = numeric_df.dropna(axis=1)
    
    if numeric_df.shape[1] >= 3:
        # Standardizimi i të dhënave (i nevojshëm për PCA)
        scaler = StandardScaler()
        scaled_data = scaler.fit_transform(numeric_df)
        
        # Aplikimi i PCA
        n_components = min(5, numeric_df.shape[1])  # Mer max 5 komponente
        pca = PCA(n_components=n_components)
        pca_data = pca.fit_transform(scaled_data)
        
        # Krijimi i DataFrame për komponentët
        pca_df = pd.DataFrame(
            pca_data,
            columns=[f'PC{i+1}' for i in range(n_components)]
        )
        
        print(f"✅ PCA u aplikua me {n_components} komponente")
        print(f"\n📊 Varianca e shpjeguar nga çdo komponent:")
        for i, var in enumerate(pca.explained_variance_ratio_):
            print(f"   PC{i+1}: {var*100:.2f}%")
        
        print(f"\n📊 Varianca kumulative:")
        cumsum = np.cumsum(pca.explained_variance_ratio_)
        for i, var in enumerate(cumsum):
            print(f"   PC1-PC{i+1}: {var*100:.2f}%")
        
        # Vizualizimi i variancës
        plt.figure(figsize=(12, 5))
        
        plt.subplot(1, 2, 1)
        plt.bar(range(1, n_components+1), pca.explained_variance_ratio_)
        plt.xlabel('Komponenti Kryesor')
        plt.ylabel('Varianca e Shpjeguar')
        plt.title('Varianca e Shpjeguar nga çdo Komponent')
        plt.xticks(range(1, n_components+1))
        
        plt.subplot(1, 2, 2)
        plt.plot(range(1, n_components+1), cumsum, marker='o')
        plt.xlabel('Numri i Komponentëve')
        plt.ylabel('Varianca Kumulative')
        plt.title('Varianca Kumulative')
        plt.grid(True)
        plt.xticks(range(1, n_components+1))
        
        plt.tight_layout()
        plt.show()
        
        print(f"\n✅ Dataset i reduktuar nga {numeric_df.shape[1]} në {n_components} dimensione")
        print(pca_df.head())
    else:
        print("⚠️ Nevojiten të paktën 3 kolona numerike për PCA")

In [None]:
# Përmbledhje finale
print("📋 PËRMBLEDHJA E PARA-PROCESIMIT")
print("="*70)
print("\n✅ HAPAT E PËRFUNDUAR:")
print("   1. ✓ Mbledhja e të dhënave nga CSV")
print("   2. ✓ Definimi i tipeve të dhënave")
print("   3. ✓ Vlerësimi i kualitetit të të dhënave")
print("   4. ✓ Identifikimi i vlerave të zbrazëta dhe dublikateve")
print("   5. ✓ Mostrimi i të dhënave")
print("   6. ✓ Pastrimi i të dhënave")
print("   7. ✓ Trajtimi i vlerave të zbrazëta (Imputation)")
print("   8. ✓ Agregimi i të dhënave")
print("   9. ✓ Krijimi i vetive të reja (Feature Engineering)")
print("   10. ✓ Diskretizimi (Binning)")
print("   11. ✓ Binarizimi dhe One-Hot Encoding")
print("   12. ✓ Transformimi (Normalization, Standardization, Log)")
print("   13. ✓ Zgjedhja e vetive (Feature Selection)")
print("   14. ✓ Reduktimi i dimensionit (PCA)")

print(f"\n📊 STATISTIKA:")
print(f"   • Dataset origjinal: {len(df):,} rreshta × {len(df.columns)} kolona")
print(f"   • Mostra e punës: {len(df_work):,} rreshta")
print(f"   • Kolona numerike: {len(numeric_cols)}")
print(f"   • Kolona kategorike: {len(categorical_cols)}")

print("\n✅ Para-procesimi është kryer me sukses!")
print("📌 Të dhënat janë gati për analizë dhe modelim.")