### ETL Pipeline Implementacija
1. Ekstrakcija podataka

Prvo učitavamo podatke iz CSV fajla koristeći pandas.

In [1]:
import pandas as pd

def extract_data(file_path):
    """
    Ekstraktuje podatke iz CSV fajla.
    
    :param file_path: Putanja do CSV fajla
    :return: DataFrame sa učitanim podacima
    """
    try:
        df = pd.read_csv(file_path)

        return df
    except Exception as e:
        print(f"Došlo je do greske: {e}")

# Učitavanje podataka
file_path = "bmw_pricing_challenge.csv"
df = extract_data(file_path)

# Prikaz prvih 5 redova
print(df.head())

  maker_key model_key  mileage  engine_power registration_date    fuel  \
0       BMW       118   140411           100        2012-02-01  diesel   
1       BMW        M4    13929           317        2016-04-01  petrol   
2       BMW       320   183297           120        2012-04-01  diesel   
3       BMW       420   128035           135        2014-07-01  diesel   
4       BMW       425    97097           160        2014-12-01  diesel   

  paint_color     car_type  feature_1  feature_2  feature_3  feature_4  \
0       black  convertible       True       True      False      False   
1        grey  convertible       True       True      False      False   
2       white  convertible      False      False      False      False   
3         red  convertible       True       True      False      False   
4      silver  convertible       True       True      False      False   

   feature_5  feature_6  feature_7  feature_8  price     sold_at  
0       True       True       True      Fal

#### 2. Transformacija podataka
a) Čišćenje podatak

Konvertujemo registration_date i sold_at u datetime format.

Uklanjamo nelogične vrijednosti (mileage < 0 i engine_power = 0).

In [2]:
def clean_data(df):
    """
    Čisti podatke uklanjanjem nelogičnih vrijednosti i konverzijom tipova.
    
    :param df: Ulazni DataFrame
    :return: Očišćeni DataFrame
    """
    df['registration_date'] = pd.to_datetime(df['registration_date'], errors='coerce')
    df['sold_at'] = pd.to_datetime(df['sold_at'], errors='coerce')
    
    # Uklanjamo negativne vrijednosti kilometraže i nulovanu snagu motora
     
    df = df[df['mileage'] > 0]
    df = [df["engine_power"] > 0]
    return df

df = clean_data(df)
df

[0       True
 1       True
 2       True
 3       True
 4       True
         ... 
 4838    True
 4839    True
 4840    True
 4841    True
 4842    True
 Name: engine_power, Length: 4842, dtype: bool]

b) Filtriranje podataka

Zadržavamo samo automobile starije od 2010. godine.

In [3]:
def filter_data(df):
    """
    Filtrira podatke na osnovu godina registracije (zadržava automobile novije od 2010).
    
    :param df: Ulazni DataFrame
    :return: Filtrirani DataFrame
    """
    df['registration_date'] = pd.to_datetime(df['registration_date'])
    df_filtered = df[df['registration_date'].dt.year > 2010]

    return df_filtered

df = filter_data(df)

TypeError: list indices must be integers or slices, not str

c) Dodavanje novih kolona

Računamo starost automobila i prosječnu kilometražu godišnje.

In [4]:
def add_columns(df):
    """
    Dodaje nove kolone koje poboljšavaju analizu podataka.
    
    :param df: Ulazni DataFrame
    :return: DataFrame sa novim kolonama
    """
    df['car_age'] = pd.to_datetime(df['sold_at'], errors="coerce").dt.year - df['registration_date'].dt.year
    df['avg_mileage_per_year'] = df['mileage'] / df['car_age']
    
    # Uklanjamo automobile sa starošću 0 da izbjegnemo dijeljenje s nulom
    df = df[df['car_age'] > 0]
    
    return df

df = add_columns(df)



TypeError: list indices must be integers or slices, not str

d) Uklanjanje nepotrebnih kolona

Zadržavamo samo ključne kolone.

In [5]:
def remove_columns(df):
    """
    Uklanja nepotrebne kolone iz DataFrame-a.
    
    :param df: Ulazni DataFrame
    :return: Očišćeni DataFrame
    """
    columns_to_keep = ['maker_key', 'model_key', 'mileage', 'engine_power',
                       'registration_date', 'sold_at', 'car_age',
                       'avg_mileage_per_year', 'price']
    
    df = df.loc[:, df.columns.intersection(columns_to_keep)]

    return df

df = remove_columns(df)
df


AttributeError: 'list' object has no attribute 'loc'

#### 3. Učitavanje podataka u Excel
Konačno, spremamo transformisane podatke u Excel fajl.

In [6]:
def load_data(df, output_file):
    """
    Sprema transformisane podatke u Excel fajl.
    
    :param df: DataFrame za spremanje.
    :param output_file: Putanja do izlaznog fajla.
    """
    try:
        df.to_csv(output_file, index=False)
        print(f"Podaci su uspešno spremljeni u {output_file}.")
    except Exception as e:
         print(f"Došlo je do greške: {e}")

# Spremanje podataka
output_file = "bmw_transformed_data.csv"
load_data(df, output_file)

df


Došlo je do greške: 'list' object has no attribute 'to_csv'


[0       True
 1       True
 2       True
 3       True
 4       True
         ... 
 4838    True
 4839    True
 4840    True
 4841    True
 4842    True
 Name: engine_power, Length: 4842, dtype: bool]

#### Modularizacija ETL Pipeline-a sa pipe()

In [None]:
def etl_pipeline(file_path, output_file):
    # dodati kod
    
    (df
     .pipe(clean_data)
     # dodati kod
     # dodati kod
     # dodati kod
     # dodati kod)

# Pokretanje pipeline-a
# dodati kod
