In [None]:
import pandas as pd

'''
Descriptions of variables: https://www.fueleconomy.gov/feg/ws/index.shtml#vehicle
Download the data: https://www.fueleconomy.gov/feg/download.shtml
'''

# Import the Google Drive library for Colab and mount the drive to access files
from google.colab import drive
drive.mount('/content/drive')

# Load the dataset
main_path = '/content/drive/MyDrive/Master Paper/Data/'
file_path=f"{main_path}/vehicles.csv",
df = pd.read_csv(file_path)

# Function to convert MPG to L/100km
def mpg_to_l100km(mpg):
    if mpg == 0 or pd.isnull(mpg):
        return None
    return 235.214 / mpg

# Function to convert engine displacement from liters to cm³
def liters_to_cm3(liters):
    if liters == 0 or pd.isnull(liters):
        return None
    return liters * 1000  # Convert liters to cm³

# Rename relevant columns to lowercase and remove Lithuanian letters
df.rename(columns={
    'comb08': 'bendras_mpg',
    'highway08': 'greicio_kelio_mpg',
    'city08': 'miesto_mpg',
    'comb08U': 'neprisitaikytas_bendras_mpg',
    'highway08U': 'neprisitaikytas_greicio_kelio_mpg',
    'city08U': 'neprisitaikytas_miesto_mpg',
    'UCity': 'neprisitaikytas_miesto_mpg_laboratorija',
    'UHighway': 'neprisitaikytas_greicio_kelio_mpg_laboratorija',
    'phevCity': 'phev_miesto_mpge',
    'phevHwy': 'phev_greicio_kelio_mpge',
    'phevComb': 'phev_bendras_mpge',
    'fuelType1': 'degalai',
    'fuelType2': 'papildomi_degalai_1',
    'cylinders': 'cilindru_skaicius',
    'displ': 'variklio_turis',
    'drive': 'pavaros_tipas',
    'trany': 'pavaru_dezes_tipas',
    'make': 'marke',
    'model': 'modelis',
    'year': 'metai'
}, inplace=True)

# Convert MPG to L/100km
df['bendras_l_100km'] = df['bendras_mpg'].apply(mpg_to_l100km)
df['greicio_kelio_l_100km'] = df['greicio_kelio_mpg'].apply(mpg_to_l100km)
df['miesto_l_100km'] = df['miesto_mpg'].apply(mpg_to_l100km)
df['neprisitaikytas_bendras_l_100km'] = df['neprisitaikytas_bendras_mpg'].apply(mpg_to_l100km)
df['neprisitaikytas_greicio_kelio_l_100km'] = df['neprisitaikytas_greicio_kelio_mpg'].apply(mpg_to_l100km)
df['neprisitaikytas_miesto_l_100km'] = df['neprisitaikytas_miesto_mpg'].apply(mpg_to_l100km)
df['neprisitaikytas_miesto_l_100km_laboratorija'] = df['neprisitaikytas_miesto_mpg_laboratorija'].apply(mpg_to_l100km)
df['neprisitaikytas_greicio_kelio_l_100km_laboratorija'] = df['neprisitaikytas_greicio_kelio_mpg_laboratorija'].apply(mpg_to_l100km)

# Convert engine displacement from liters to cm³ (if the 'variklio_turis' column exists)
if 'variklio_turis' in df.columns:
    df['variklio_turis_cm3'] = df['variklio_turis'].apply(liters_to_cm3)

print(df.degalai.unique())
print(df.papildomi_degalai_1.unique())

# Define the mapping from English fuel types to Lithuanian
fuel_type_mapping = {
    'Regular Gasoline': 'Benzinas',
    'Premium Gasoline': 'Benzinas (aukštesnė kokybė)',
    'Diesel': 'Dyzelinas',
    'Natural Gas': 'Gamtinės dujos',
    'Electricity': 'Elektra',
    'Midgrade Gasoline': 'Benzinas (vidutinė kokybė)',
    'Hydrogen': 'Vandenilis',
    'E85': 'Etanolis (E85)',
    'Propane': 'Propanas'
}

# Apply the mapping to both 'degalai' and 'papildomi_degalai_1' columns
df['degalai'] = df['degalai'].replace(fuel_type_mapping)
df['papildomi_degalai_1'] = df['papildomi_degalai_1'].replace(fuel_type_mapping)

# Define the mapping from English drive types to Lithuanian
drive_type_mapping = {
    'Front-Wheel Drive': 'Priekiniai varomieji ratai',
    'Rear-Wheel Drive': 'Galiniai varomieji ratai',
    '4-Wheel or All-Wheel Drive': 'Visų varančiųjų ratų pavara arba keturių ratų pavara',
    'All-Wheel Drive': 'Visų varančiųjų ratų pavara',
    '4-Wheel Drive': 'Keturių ratų pavara',
    'Part-time 4-Wheel Drive': 'Dalinė keturių ratų pavara',
    '2-Wheel Drive': 'Dviejų ratų pavara'
}

# Apply the mapping to the 'Pavaros_tipas' column
df['pavaros_tipas'] = df['pavaros_tipas'].replace(drive_type_mapping)

# Show the updated value counts for the 'Pavaros_tipas' column
print(df['pavaros_tipas'].value_counts())

import pandas as pd

# Define the mapping from English transmission types to Lithuanian
transmission_mapping = {
    'Automatic 4-spd': 'Automatinė 4-pav.',
    'Manual 5-spd': 'Mechaninė 5-pav.',
    'Automatic (S6)': 'Automatinė (S6)',
    'Automatic (S8)': 'Automatinė (S8)',
    'Automatic 3-spd': 'Automatinė 3-pav.',
    'Manual 6-spd': 'Mechaninė 6-pav.',
    'Automatic 5-spd': 'Automatinė 5-pav.',
    'Automatic 6-spd': 'Automatinė 6-pav.',
    'Manual 4-spd': 'Mechaninė 4-pav.',
    'Automatic (variable gear ratios)': 'Automatinė (kintami pavarų santykiai)',
    'Automatic 8-spd': 'Automatinė 8-pav.',
    'Automatic (A1)': 'Automatinė (A1)',
    'Automatic (S5)': 'Automatinė (S5)',
    'Automatic 9-spd': 'Automatinė 9-pav.',
    'Automatic (AM-S7)': 'Automatinė (AM-S7)',
    'Automatic 7-spd': 'Automatinė 7-pav.',
    'Automatic (S10)': 'Automatinė (S10)',
    'Automatic 10-spd': 'Automatinė 10-pav.',
    'Automatic (S7)': 'Automatinė (S7)',
    'Automatic (AV-S6)': 'Automatinė (AV-S6)',
    'Automatic (AM7)': 'Automatinė (AM7)',
    'Automatic (AM-S8)': 'Automatinė (AM-S8)',
    'Automatic (S9)': 'Automatinė (S9)',
    'Automatic (S4)': 'Automatinė (S4)',
    'Automatic (AV-S7)': 'Automatinė (AV-S7)',
    'Automatic (AM-S6)': 'Automatinė (AM-S6)',
    'Automatic (AV-S8)': 'Automatinė (AV-S8)',
    'Manual 7-spd': 'Mechaninė 7-pav.',
    'Automatic (AM6)': 'Automatinė (AM6)',
    'Manual 3-spd': 'Mechaninė 3-pav.',
    'Automatic (AM8)': 'Automatinė (AM8)',
    'Automatic (A2)': 'Automatinė (A2)',
    'Automatic (AV-S10)': 'Automatinė (AV-S10)',
    'Automatic (AV-S1)': 'Automatinė (AV-S1)',
    'Manual 4-spd Doubled': 'Mechaninė 4-pav. dviguba',
    'Automatic (AM5)': 'Automatinė (AM5)',
    'Automatic (AM-S9)': 'Automatinė (AM-S9)',
    'Automatic (L3)': 'Automatinė (L3)',
    'Automatic (L4)': 'Automatinė (L4)',
    'Automatic (AM-S10)': 'Automatinė (AM-S10)'
}

# Replace the English values with Lithuanian ones
df['pavaru_dezes_tipas'] = df['pavaru_dezes_tipas'].replace(transmission_mapping)

# Create a new column 'Transmission_Type' that classifies as 'Automatinė' or 'Mechaninė'
df['pavaru_tipas'] = df['pavaru_dezes_tipas'].apply(
    lambda x: 'Automatinė' if isinstance(x, str) and 'Automatinė' in x else ('Mechaninė' if isinstance(x, str) and 'Mechaninė' in x else None)
)

# Show the updated value counts for 'Pavarų_dežės_tipas' and 'Transmission_Type'
print(df['pavaru_dezes_tipas'].value_counts())
print(df['pavaru_tipas'].value_counts())
print(df.VClass.value_counts())

# Select only relevant columns
df_filtered = df[['marke', 'modelis', 'metai', 'degalai', 'papildomi_degalai_1', 'cilindru_skaicius', 'variklio_turis_cm3',
                  'nuosava_mase_est', 'sedim_vietu_sk_est', 'pavaros_tipas', 'pavaru_dezes_tipas',
                  'bendras_l_100km', 'greicio_kelio_l_100km', 'miesto_l_100km',
                  'neprisitaikytas_bendras_l_100km', 'neprisitaikytas_greicio_kelio_l_100km', 'neprisitaikytas_miesto_l_100km',
                  'neprisitaikytas_miesto_l_100km_laboratorija', 'neprisitaikytas_greicio_kelio_l_100km_laboratorija',
                  'phev_miesto_mpge', 'phev_greicio_kelio_mpge', 'phev_bendras_mpge']]

# Save the filtered and cleaned dataset
output_path = f"{main_path}fuel_economy_data_cleaned.csv"
df_filtered.to_csv(output_path, index=False)

print(f"Filtered dataset saved to: {output_path}")

  df = pd.read_csv(file_path)
