In [None]:
#Comenzamos importando nuestras librerias con las que vamos a trabajar
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

In [None]:
#Creamos nuestro Dataframe cargando nuestro CSV
df = pd.read_csv('./datasource/ML_cars.csv')

In [None]:
#Visualizamos información de nuestro dataframe previo a su limpieza
df.info()

#De lo cual podemos obtener que contamos con 26 columnas (0 a 25) y con 205 filas ( 0 a 204) por lo tanto contamos con 5330 datos

In [None]:
#Visualizamos más información de nuestro dataset
df.head()

In [None]:
#Solo por estetica transformamos las columnas que contengan texto a todo en mayusculas
df = df.applymap(lambda x: x.upper() if isinstance(x, str) else x)

In [None]:
#Nuevamente visualizamos nuestro DF ya con todos los textos en mayúsculas
df.head()

In [None]:
sns.pairplot(data= df)

In [None]:
df.columns

In [None]:
df['doornumber'].unique()

In [None]:
df['cylindernumber'].unique()

In [None]:
# convertimos las columnas doornumber y cylindernumber en numéricas

df['doornumber'] = df['doornumber'].apply(lambda x: 2 if x == 'TWO' else 4)

num_cilindros = {'FOUR': 4, 'SIX': 6, 'FIVE': 5, 'THREE': 3, 'TWELVE': 12, 'TWO': 2, 'EIGHT': 8}

df['cylindernumber'] = df['cylindernumber'].apply(lambda x: num_cilindros[x])


In [None]:
#Para otra visulización en HeatMap obtenemos las columnas númericas para ver como se relacionan las mismas
columnas_numericas = ['doornumber', 'cylindernumber', 'symboling','wheelbase','carlength','carwidth','carheight','curbweight','enginesize','boreratio','stroke','compressionratio','horsepower','peakrpm','citympg','highwaympg','price']

#Obtenemos el coeficiente de correlación de dichas columnas obteniendo sus valores y su transpuesta
corr_coef = np.corrcoef(df[columnas_numericas].values.T)

#Finalmente creamos un HeatMap para ver dicha correlación más gráficamente
plt.figure(figsize=(20, 10))
sns.set(font_scale=1)
sns.heatmap(
    corr_coef,
    annot=True,
    yticklabels=columnas_numericas,
    xticklabels=columnas_numericas
)

In [None]:
# Obtenemos la marca de la columna 'CarName' y la pegamos en la columna 'brand_name'
df['brand_name'] = df['CarName'].str.split().str[0]
df['brand_name'].unique()

In [None]:
# Recorremos toda la columna 'brand_name' para dejar bien escritas las marcas
for i in range(len(df)):
    brand = df.loc[i, 'brand_name']
    if brand == "MAXDA": df.loc[i, "brand_name"] = "MAZDA"
    if brand == "PORCSHE" or brand == "PORCSHCE": df.loc[i, "brand_name"] = "PORSCHE"
    if brand == "TOYOUTA": df.loc[i, "brand_name"] = "TOYOTA"
    if brand == "VOKSWAGEN" or brand == "VW": df.loc[i, "brand_name"] = "VOLKSWAGEN"

In [None]:
#Antes de preparar nuestro dataset para un modelo de regresión/clasificación exportamos a un CSV nuevo nuestros datos para su analisis en PowerBi
df.to_csv('DataTidy.csv')

In [None]:
df['brand_name'].value_counts()

In [None]:
# Quitemos columnas que no usaremos como variables independientes para nuestro modelo
df.drop(columns= ['car_ID', 'CarName'], inplace=True)

In [None]:
#A todas las demás variables que no son númericas tenemos que asignarles una variables dummie, por lo tanto...
columnas_categoricas = ['brand_name', 'fueltype', 'aspiration', 'carbody', 'drivewheel', 'enginelocation', 'enginetype', 'fuelsystem', ]
df = pd.get_dummies(df, columns= columnas_categoricas, drop_first= True, dtype= int)

In [None]:
# generamos la variable target para la clasificación: 0 = Barato  1 = Caro
df['price_category'] = df['price'].apply(lambda x: 1 if x > np.median(df['price']) else 0)

In [None]:
df['price_category'].value_counts()

In [None]:
df.info()

In [None]:
# Visualizamos nuestro dataset completamente modificado
df.head()

In [None]:
#Importamos nuestro Dataset modificado para un modelo de regresion/clasificación 
df.to_csv('DatasetForML.csv', index=False)