**Proyecto Final** 🚗

**Integrantes:** Sebastián Rodríguez, Juan José Rodríguez y Luisa Tapiero

La idea de este proyecto es predecir la calificación de riesgo del seguro de un coche, así como caracterizar los diferentes segmentos de la población.

Los campos de dataset son los siguientes:

1. symboling: -3, -2, -1, 0, 1, 2, 3.
2. normalized-losses: continuous from 65 to 256.
3. make: alfa-romero, audi, bmw, chevrolet, dodge, honda, isuzu, jaguar, mazda, mercedes-benz, mercury, mitsubishi, nissan, peugot, plymouth, porsche, renault, saab, subaru, toyota, volkswagen, volvo
4. fuel-type: diesel, gas.
5. aspiration: std, turbo.
6. num-of-doors: four, two.
7. body-style: hardtop, wagon, sedan, hatchback, convertible.
8. drive-wheels: 4wd, fwd, rwd.
9. engine-location: front, rear.
10. wheel-base: continuous from 86.6 120.9.
11. length: continuous from 141.1 to 208.1.
12. width: continuous from 60.3 to 72.3.
13. height: continuous from 47.8 to 59.8.
14. curb-weight: continuous from 1488 to 4066.
15. engine-type: dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
16. num-of-cylinders: eight, five, four, six, three, twelve, two.
17. engine-size: continuous from 61 to 326.
18. fuel-system: 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.
19. bore: continuous from 2.54 to 3.94.
20. stroke: continuous from 2.07 to 4.17.
21. compression-ratio: continuous from 7 to 23.
22. horsepower: continuous from 48 to 288.
23. peak-rpm: continuous from 4150 to 6600.
24. city-mpg: continuous from 13 to 49.
25. highway-mpg: continuous from 16 to 54.
26. price: continuous from 5118 to 45400.

**Limpieza y EDA**

Cargamos los datos y librerías necesarias. Asimismo, visualizamos los datos iniciales y resumidos.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt #gráficos
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')


ruta_archivo = '/imports-85.data'
separador = ','
df = pd.read_csv(ruta_archivo,sep=",",header=None)
df.head()

FileNotFoundError: [Errno 2] No such file or directory: '/imports-85.data'

Como el dataframe no tiene los nombres de las columnas, entonces procedemos a asignarles a cada una

In [None]:
colnames = ["symboling", "normalized-losses", "make", "fuel-type", "aspiration", "num-of-doors", "body-style", "drive-wheels", "engine-location", "wheel-base",
         "length", "width", "height", "curb-weight", "engine-type", "num-of-cylinders", "engine-size","fuel-system","bore", "stroke", "compression-ratio", "horsepower", "peak-rpm", "city-mpg", "highway-mpg", "price"]
df.columns=colnames
df.head()

Revisamos la información del dataframe para observar el tipo de cada variable (dependiente e independientes). Además, obtenemos la información acerca de datos no nulos para cada variable y conocemos la cantidad de datos faltantes por columna.

- Hay variables con tipos que no corresponden (symboling, normalized-losses, wheel-base, length, width, height,curb-weight, engine-size, bore, stroke, compression-ratio, horsepower, peak-rpm, city-mpg, highway-mpg, price)
- No hay datos nulos ni faltantes

In [None]:
df.info()

Con esta tabla confirmamos los tipos de variables que no corresponden para bastantes de las columnas.
- Encontramos que hay variables con valores "?", este problema podría aparecer en otras variables categóricas.
- El número de valores posibles no corresponde para las variables:
num-of-doors (3 en vez de 2)

In [None]:
df.describe(include='all')

###Limpieza: valores inválidos y tipos de columnas
Varias de los atributos del dataset fueron leidos con el tipo de datos que no correspondía:

"symboling" es una variable categórica codificada con valores "-3", "-2","-1", "0", "1", "2" y "3"

'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-size', 'bore', 'stroke', 'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price' son variables numéricas que aparece como categórica

Empezamos por convertir la variable numérica incorrecta (symboling) a categórica

In [None]:
cols = ['symboling']
for col in cols:
    df[col] = df[col].astype(str)

Verificamos cuáles son las variables categóricas que tienen valores de ?

- Encontramos que la variable "normalized-losses" tiene muchos valores "?"
- Los demás variables no tienen muchos valores "?", lo que permite que puedan ser reemplazadas por media o moda, dependiendo de su tipo.

In [None]:
for var in df.select_dtypes(include=['object']).columns:
    cantidad = df[df[var] == '?'][var].count()
    print(f"Existen {cantidad} valores en {var} con el valor ?")



Teniendo en cuenta la cantidad de valores "?" que se encuentran en la variable normalized-losses, tomamos la decisión de eliminarla, puesto que consideramos que una imputación de valores faltantes es poco fiable y resultaría en una variable poco relevante y con sesgos.

In [None]:
df.drop('normalized-losses', axis=1, inplace=True)

Procedemos a convertir los valores "?" a NaN, ya que si no lo hacemos, las variables numericas que han sido asignadas como categorícas, no podrán ser convertidas a número

In [None]:
df.replace('?',np.nan, inplace=True)
df.dropna(axis=0, inplace=True)

In [None]:
#se procede a cambiar las variables númericas que se ha identificado como object

columnas_numericas = ['wheel-base', 'length', 'width', 'height',
    'curb-weight', 'engine-size', 'bore', 'stroke', 'compression-ratio',
    'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price']

df[columnas_numericas] = df[columnas_numericas].astype(float)

Ahora para cubrir esos valores "?" que aparecen en algunas variables númericas, procedemos a calcular el promedio de cada variable y así asignarlo a esos valores "?"

In [None]:
#Se calcula el promedio de los datos faltantes de price para también adherirlos como valor de estos datos

promedio_price_faltantes = df['price'].mean()
promedio_stroke_faltantes = df['stroke'].mean()
promedio_bore_faltantes = df['bore'].mean()
promedio_horsepower_faltantes = df['horsepower'].mean()
promedio_peakrpm_faltantes = df['peak-rpm'].mean()

df['price'].fillna(promedio_price_faltantes, inplace=True)
df['stroke'].fillna(promedio_stroke_faltantes, inplace=True)
df['bore'].fillna(promedio_bore_faltantes, inplace=True)
df['horsepower'].fillna(promedio_horsepower_faltantes, inplace=True)
df['peak-rpm'].fillna(promedio_peakrpm_faltantes, inplace=True)


print("El promedio de la columna 'price' es:", promedio_price_faltantes)
print("El promedio de la columna 'stroke' es:", promedio_stroke_faltantes)
print("El promedio de la columna 'bore' es:", promedio_bore_faltantes)
print("El promedio de la columna 'peak-rpm' es:", promedio_horsepower_faltantes)
print("El promedio de la columna 'horsepower' es:", promedio_peakrpm_faltantes)

Para cubrir los valores "?" de la variable categorica num-of-doors, decidimos calcular la moda de la variable y asignarla a esos valores "?"

In [None]:
# Calcula la moda de la columna "num-of-doors"
moda = df['num-of-doors'].mode()[0]

# Reemplaza los valores faltantes con la moda
df['num-of-doors'].fillna(moda, inplace=True)

Aquí confirmamos que ya no hay valores "?" en ninguna variable categoríca

In [None]:
for var in df.select_dtypes(include=['object']).columns:
    cantidad = df[df[var] == '?'][var].count()
    print(f"Existen {cantidad} valores en {var} con el valor ?")


Con esta gráfica confirmamos que no hay valores nulos en ninguna de las variables

In [None]:
# Datos faltantes y su ubicación dibujados en la gráfica

plt.figure(figsize=(10,6))
sns.heatmap(df.isnull(), yticklabels = False, cbar = False, cmap="Blues")
plt.show()

###Limpieza Búsqueda de excepciones

**Mapa de calor**

Según los datos proporcionados en la matriz de correlación o mapa de calor que se muestra a continuación, podemos observar algunas tendencias importantes. En primer lugar, en la diagonal principal, encontramos una serie de unos, lo que indica que la correlación de cada variable consigo misma es perfecta. Además, podemos notar que la mayoría de las variables tienen correlaciones considerablemente altas, excepto en los casos de "stroke," "horsepower," y "city-mpg," donde las correlaciones son mucho más cercanas a cero. Esto sugiere que estas variables podrían no aportar significativamente al modelo, ya que no explican adecuadamente la variable dependiente. Esta consideración podría convertirse en un factor crucial al decidir si incluir o no estas variables en el modelo.

In [None]:
# Matriz de correlación entre cada par de variables

plt.figure(figsize = (26,26))
corr_matrix = df.corr()
sns.heatmap(corr_matrix, annot = True)
plt.show()

**Boxplots**

En estos boxplots que representan la variable dependiente en función de las variables independientes, podemos observar, además de los valores atípicos, la relación que existe entre estas variables. Por ejemplo, en el primer gráfico, tenemos las variables "symboling" y "Wheel-base", las cuales parecen indicar una relación entre ellas. Esta relación se puede explicar de la siguiente manera: a medida que aumenta la distancia entre los centros de las llantas delanteras y traseras (mayor "Wheel-base"), el índice de riesgo del automóvil disminuye (menor "symboling").

En este contexto, los boxplots nos ayudan a visualizar cómo la variable "symboling" cambia en relación con las diferentes variables, lo que puede ser útil para comprender mejor la relación entre estas en el contexto de la seguridad de los automóviles.

In [None]:
cols = ['wheel-base', 'length', 'width', 'height',
    'curb-weight', 'engine-size', 'bore', 'stroke', 'compression-ratio',
    'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price']

# Ajusta el tamaño de la figura según la cantidad de subplots
plt.figure(figsize=(18, 20))

# Configura la cuadrícula 5x3
num_rows = 5
num_cols = 3

for i, col in enumerate(cols, start=1):
    plt.subplot(num_rows, num_cols, i)
    sns.boxplot(x='symboling', y=col, data=df)

plt.tight_layout()  # Ajusta automáticamente los espacios entre subplots
plt.show()


Revisamos el dataframe para hacer una comparación de antes y después de aniquilar los datos atipicos, este es el dataframe antes de borrar los datos atípicos.

In [None]:
df.info()

Para borrar los valores atipicos fue necesario realizar un filtro para indagar en los datos atipicos para luego eliminarlos

In [None]:
# Importamos las bibliotecas necesarias para la detección de valores atípicos
from scipy import stats

# Definimos una función para eliminar valores atípicos utilizando el método de Z-score
def remove_outliers_zscore(df, columns, threshold=3):
    z_scores = np.abs(stats.zscore(df[columns]))
    df_no_outliers = df[(z_scores < threshold).all(axis=1)]
    return df_no_outliers

# Aplicamos la función para eliminar completamente los valores atípicos en las columnas numéricas
threshold = 3  # Decidimos que el umbral es 3, el cual es un estándar en estadística
df = remove_outliers_zscore(df, columnas_numericas, threshold)

# Verificamos la forma del DataFrame resultante
print("Forma del DataFrame sin valores atípicos:", df.shape)


Confirmamos que si se borraron los datos y a la vez contar cuantos fueron por filas

In [None]:
filas_anterior = df.shape[0]
filas_despues = df_no_outliers.shape[0]

filas_eliminadas = filas_anterior - filas_despues

print(f"Se eliminaron {filas_eliminadas} filas debido a valores atípicos.")


Confirmamos en el dataframe el cambio en la cantidad total de datos donde antes teniamos 193 datos, ahora con el cambio en los datos atipicos contamos con 171 datos

In [None]:
df.info()