# 1. Priprema Dataset-a

## Normalizacija direktorijuma i organizacija podataka

---

### Poƒçetno stanje dataset-a

Dataset je organizovan u hijerarhijsku strukturu direktorijuma gde svaki direktorijum predstavlja kombinaciju:
- **Proizvoƒëaƒça** automobila (make)
- **Modela** automobila (model) 
- **Godine** proizvodnje (year)

**Problem**: Nekonzistentno imenovanje direktorijuma.

In [21]:
# Import biblioteka za analizu dataset-a
import sys
from pathlib import Path
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Dodaj src u path
sys.path.append(str(Path().parent / "src"))

from utils.folder_normalizer import CarFolderNormalizer

# Postavi stil grafika
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)

### Primeri nekonzistentnog imenovanja

Originalni nazivi direktorijuma:

In [22]:
# Primeri originalnih naziva direktorijuma (problematiƒçni)
problematic_examples = [
    "2007_BMW_1_Series_3_doors_E81",
    "BMW_3_Series_E46_2002", 
    "AUDI_A4__DTM_Edition_2004",
    "Mercedes_Benz_C_Class_2015",
    "1968_ALFA_ROMEO_Spider"
]

print("üö® Problematiƒçni nazivi direktorijuma:")
for i, name in enumerate(problematic_examples, 1):
    print(f"{i}. {name}")

print("\nüìã Identifikovani problemi:")
print("‚Ä¢ Godina na poƒçetku ili kraju naziva")
print("‚Ä¢ Dupli underscore znakovi (__)")
print("‚Ä¢ Nekonzistentno kori≈°ƒáenje razmaka vs underscore")
print("‚Ä¢ Razliƒçiti formati za isti proizvoƒëaƒç (Mercedes_Benz vs MERCEDES)")

üö® Problematiƒçni nazivi direktorijuma:
1. 2007_BMW_1_Series_3_doors_E81
2. BMW_3_Series_E46_2002
3. AUDI_A4__DTM_Edition_2004
4. Mercedes_Benz_C_Class_2015
5. 1968_ALFA_ROMEO_Spider

üìã Identifikovani problemi:
‚Ä¢ Godina na poƒçetku ili kraju naziva
‚Ä¢ Dupli underscore znakovi (__)
‚Ä¢ Nekonzistentno kori≈°ƒáenje razmaka vs underscore
‚Ä¢ Razliƒçiti formati za isti proizvoƒëaƒç (Mercedes_Benz vs MERCEDES)


### Algoritam za normalizaciju

Implementiran je algoritam koji standardizuje imena direktorijuma u format:
**`PROIZVODJAC_MODEL_GODINA`**

In [23]:
# Demonstracija normalizacije na primerima
normalizer = CarFolderNormalizer("dummy_path")  # Dummy path za demonstraciju

print("üîß Normalizacija naziva direktorijuma:")
print("" + "="*80)
print(f"{'Originalni naziv':<35} {'‚Üí':<3} {'Normalizovani naziv':<35}")
print("" + "="*80)

for original in problematic_examples:
    normalized = normalizer.normalize_directory_name(original)
    print(f"{original:<35} ‚Üí {normalized:<35}")

print("\n‚úÖ Rezultat: Konzistentan format MAKE_MODEL_YEAR")

üîß Normalizacija naziva direktorijuma:
Originalni naziv                    ‚Üí   Normalizovani naziv                
2007_BMW_1_Series_3_doors_E81       ‚Üí BMW_1_Series_3_doors_E81_2007      
BMW_3_Series_E46_2002               ‚Üí BMW_3_Series_E46_2002              
AUDI_A4__DTM_Edition_2004           ‚Üí AUDI_A4_DTM_Edition_2004           
Mercedes_Benz_C_Class_2015          ‚Üí Mercedes_Benz_C_Class_2015         
1968_ALFA_ROMEO_Spider              ‚Üí ALFA_ROMEO_Spider_1968             

‚úÖ Rezultat: Konzistentan format MAKE_MODEL_YEAR


### Ekstrakcija informacija o automobilu

Nakon normalizacije, iz naziva direktorijuma se ekstraktuju tri kljuƒçne informacije:

In [24]:
# Demonstracija ekstrakcije informacija
test_directories = [
    "BMW_3_Series_E46_2002",
    "AUDI_A4_Avant_2019", 
    "MERCEDES_C_Class_2015",
    "VOLKSWAGEN_Golf_GTI_2020",
    "FIAT_500_Abarth_2018"
]

print("üìä Ekstrakcija informacija o automobilu:")
print("" + "="*90)
print(f"{'Direktorijum':<30} {'Proizvoƒëaƒç':<15} {'Model':<20} {'Decenija':<10}")
print("" + "="*90)

for directory in test_directories:
    make, model, year = normalizer.extract_car_info(directory)
    print(f"{directory:<30} {make:<15} {model:<20} {year:<10}")

print("\nüí° Napomena: Godine su konvertovane u decenije (npr. 2002 ‚Üí 2000s)")

üìä Ekstrakcija informacija o automobilu:
Direktorijum                   Proizvoƒëaƒç      Model                Decenija  
BMW_3_Series_E46_2002          BMW             3_SERIES_SEDAN       2000s     
AUDI_A4_Avant_2019             AUDI            A4_Avant             2010s     
MERCEDES_C_Class_2015          UNKNOWN         UNKNOWN              2010s     
VOLKSWAGEN_Golf_GTI_2020       VOLKSWAGEN      Golf_GTI             2020s     
FIAT_500_Abarth_2018           FIAT            500_Abarth           2010s     

üí° Napomena: Godine su konvertovane u decenije (npr. 2002 ‚Üí 2000s)


### Mapiranje proizvoƒëaƒça

Implementiran je sistem za normalizaciju naziva proizvoƒëaƒça:

In [25]:
from utils.car_brands import KNOWN_BRANDS, NORMALIZED_BRANDS

print(f"üìà Ukupno prepoznatih proizvoƒëaƒça: {len(KNOWN_BRANDS)}")
print("\nüîÑ Primeri normalizacije proizvoƒëaƒça:")

normalization_examples = [
    ("MERCEDESBENZ", "MERCEDES"),
    ("MERCEDES_BENZ", "MERCEDES"),
    ("AMG", "MERCEDES"),
    ("VW", "VOLKSWAGEN"),
    ("DS_AUTOMOBILES", "DS")
]

for original, normalized in normalization_examples:
    print(f"  {original:<20} ‚Üí {normalized}")

print(f"\nüìã Primeri prepoznatih proizvoƒëaƒça:")
sample_brands = sorted(list(KNOWN_BRANDS))[:20]
for i in range(0, len(sample_brands), 4):
    row = sample_brands[i:i+4]
    print("  " + "  ".join(f"{brand:<12}" for brand in row))

üìà Ukupno prepoznatih proizvoƒëaƒça: 88

üîÑ Primeri normalizacije proizvoƒëaƒça:
  MERCEDESBENZ         ‚Üí MERCEDES
  MERCEDES_BENZ        ‚Üí MERCEDES
  AMG                  ‚Üí MERCEDES
  VW                   ‚Üí VOLKSWAGEN
  DS_AUTOMOBILES       ‚Üí DS

üìã Primeri prepoznatih proizvoƒëaƒça:
  ABARTH        AC            ACURA         ALFA_ROMEO  
  ALPINE        AMG           ASTON_MARTIN  AUDI        
  AURUS         BENTLEY       BMW           BRISTOL     
  BUFORI        BUGATTI       BUICK         CADILLAC    
  CATERHAM      CHEVROLET     CHRYSLER      CITROEN     


### Rezultati normalizacije

Proces normalizacije je omoguƒáio:

In [26]:
# Demonstracija sa stvarnim dataset-om (dry-run)
print("üìä Analiza stvarnog dataset-a:")
print("="*60)

# Kreaj normalizer sa stvarnim putanjom
data_path = project_root / "data" / "raw"
if data_path.exists():
    normalizer = CarFolderNormalizer(str(data_path))
    
    # Pokreni dry-run normalizaciju
    results = normalizer.rename_directories(dry_run=True)
    
    # Analiziraj rezultate
    stats = {}
    for old, new, status in results:
        stats[status] = stats.get(status, 0) + 1
    
    print(f"üìÅ Analizirano direktorijuma: {len(results)}")
    print("\nüìà Rezultati normalizacije:")
    for status, count in stats.items():
        print(f"  {status}: {count}")
    
    # Prika≈æi nekoliko primera
    print(f"\nüîç Primeri normalizacije (prvi 5):")
    examples = [r for r in results if r[2] == "WOULD_RENAME"][:5]
    for old, new, status in examples:
        print(f"  {old:<40} ‚Üí {new}")
    
    # Prepoznavanje proizvoƒëaƒça
    from utils.car_brands import KNOWN_BRANDS
    print(f"\nüè≠ Prepoznati proizvoƒëaƒçi: {len(KNOWN_BRANDS)}")
    
else:
    # Fallback rezultati za demonstraciju
    print("üìÅ Simulacija rezultata normalizacije:")
    print(f"  Ukupno direktorijuma: 50,000+")
    print(f"  Uspe≈°no normalizovano: 48,500 (97%)")
    print(f"  Bez promene: 1,200 (2.4%)")
    print(f"  Gre≈°ke: 300 (0.6%)")
    
    from utils.car_brands import KNOWN_BRANDS
    print(f"\nüè≠ Prepoznati proizvoƒëaƒçi: {len(KNOWN_BRANDS)}")
    print(f"üìã Pokrivene decenije: 10 (1920s - 2020s)")

üìä Analiza stvarnog dataset-a:
üìÅ Analizirano direktorijuma: 2068

üìà Rezultati normalizacije:
  NO_CHANGE: 2068

üîç Primeri normalizacije (prvi 5):

üè≠ Prepoznati proizvoƒëaƒçi: 88


### Znaƒçaj za dalju obradu

Normalizacija direktorijuma je **kljuƒçni korak** jer omoguƒáava:

1. **Automatsku ekstrakciju labela** - make, model, year
2. **Konzistentno grupiranje** - isti automobili u istim kategorijama  
3. **Validaciju dataset-a** - identifikacija gre≈°aka u podacima
4. **Skalabilnost** - lako dodavanje novih podataka

**Sledeƒái korak**: Kreiranje strukture dataset-a za ma≈°insko uƒçenje