## Ejercicio 7

El archivo **automobile_simple.csv** contiene 11 atributos de automóviles de un total de 205 registros. Es una versión modificada y simplificada del dataset disponible en el repositorio UCI https://archive.ics.uci.edu/ml/datasets/Automobile. La siguiente tabla contiene una breve descripción de los
atributos que contiene el archivo y caracterizan a cada vehículo.

<table style="border-collapse: collapse; width: 100%;">
  <thead>
    <tr style="background-color: #4da6d8; color: white; text-align: left;">
      <th style="padding: 8px;">Atributo</th>
      <th style="padding: 8px;">Descripción</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td style="padding: 8px;"><b>make</b></td>
      <td style="padding: 8px;">Marca: alfa-romero, audi, bmw, chevrolet…</td>
    </tr>
    <tr>
      <td style="padding: 8px;"><b>fuel-type</b></td>
      <td style="padding: 8px;">Tipo de combustible: diesel, gasolina.</td>
    </tr>
    <tr>
      <td style="padding: 8px;"><b>num-of-doors</b></td>
      <td style="padding: 8px;">Número de puertas: cuatro, dos.</td>
    </tr>
    <tr>
      <td style="padding: 8px;"><b>body-style</b></td>
      <td style="padding: 8px;">Tipo de carrocería: techo duro, wagon, sedán, hatchback, descapotable.</td>
    </tr>
    <tr>
      <td style="padding: 8px;"><b>curb-weight</b></td>
      <td style="padding: 8px;">Peso en vacío: numérico de 1488 a 4066.</td>
    </tr>
    <tr>
      <td style="padding: 8px;"><b>engine-size</b></td>
      <td style="padding: 8px;">Tamaño del motor: numérico de 61 a 326.</td>
    </tr>
    <tr>
      <td style="padding: 8px;"><b>horsepower</b></td>
      <td style="padding: 8px;">Potencia: numérico de 48 a 288.</td>
    </tr>
    <tr>
      <td style="padding: 8px;"><b>city-mpg</b></td>
      <td style="padding: 8px;">Rendimiento en ciudad (en millas por galón): numérico de 13 a 49.</td>
    </tr>
    <tr>
      <td style="padding: 8px;"><b>highway-mpg</b></td>
      <td style="padding: 8px;">Rendimiento en ruta (en millas por galón): numérico de 16 a 54.</td>
    </tr>
    <tr>
      <td style="padding: 8px;"><b>price</b></td>
      <td style="padding: 8px;">Precio en USD: numérico de 5118 a 45400.</td>
    </tr>
    <tr>
      <td style="padding: 8px;"><b>volume</b></td>
      <td style="padding: 8px;">Volumen del vehículo (alto x ancho x alto).</td>
    </tr>
    <tr>
      <td style="padding: 8px;"><b>eco-rating</b></td>
      <td style="padding: 8px;">Evaluación de la sostenibilidad ambiental del vehículo basado en su volumen, peso, consumo de combustible y tipo de combustible utilizado.</td>
    </tr>
  </tbody>
</table>



### a) 

Para cada atributo indique si es Discreto, Continuo, Nominal u Ordinal.

- **make:** nominal.
- **fuel-type:** nominal.
- **num-of-doors:** ordinal.
- **body-style:** nominal.
- **curb-weight:** discreto.
- **engine-size:** discreto.
- **horsepower:** continuo.
- **city-mpg:** discreto.
- **highway-mpg:** discreto.
- **price:** continuo.
- **volume:** continuo.
- **eco-rating:** continuo.

In [28]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from Fuentes.ClassPerceptron import Perceptron

DATOS_DIR   = '../../Datos/p2/'
data = pd.read_csv(DATOS_DIR + 'automobile-simple.csv')
data.dtypes

make             object
fuel-type        object
num-of-doors     object
body-style       object
curb-weight       int64
engine-size       int64
horsepower      float64
city-mpg          int64
highway-mpg       int64
price           float64
volume          float64
eco-rating      float64
dtype: object


### b) 

Elimine los registros que presenten valores faltantes.


In [29]:
data = data.dropna()

### c) 
Calcule la matriz de correlación usando los atributos numéricos.


In [30]:
ppn = Perceptron(alpha=0.5, n_iter=100, random_state=1)

numeric_cols = ["curb-weight", "engine-size", "horsepower", 
                "city-mpg", "highway-mpg", "price", 
                "volume"]

df_num = data[numeric_cols]
corr_matrix = df_num.corr()

print(corr_matrix)


             curb-weight  engine-size  horsepower  city-mpg  highway-mpg  \
curb-weight     1.000000     0.848932    0.759925 -0.755559    -0.800113   
engine-size     0.848932     1.000000    0.825286 -0.655737    -0.684662   
horsepower      0.759925     0.825286    1.000000 -0.821960    -0.803658   
city-mpg       -0.755559    -0.655737   -0.821960  1.000000     0.972407   
highway-mpg    -0.800113    -0.684662   -0.803658  0.972407     1.000000   
price           0.834732     0.873708    0.811953 -0.692948    -0.708659   
volume          0.822823     0.592571    0.449278 -0.554978    -0.608072   

                price    volume  
curb-weight  0.834732  0.822823  
engine-size  0.873708  0.592571  
horsepower   0.811953  0.449278  
city-mpg    -0.692948 -0.554978  
highway-mpg -0.708659 -0.608072  
price        1.000000  0.631578  
volume       0.631578  1.000000  



### d) 

Realice el entrenamiento de un perceptrón para que aprenda a clasificar si un auto es ecológico. Tenga
en cuenta los siguientes pasos:

#### I.

Utilice el atributo eco-rating para generar un nuevo atributo binario que determine si un auto es ecológico o no. Un auto es considerado ecológico si el valor de eco-rating supera la media de dicho atributo.

In [31]:
T = (data["eco-rating"] > data["eco-rating"].mean()).astype(int)
X = data.drop(columns=["make", "fuel-type", "num-of-doors", "body-style", "eco-rating"]) # Elimino las no numéricas y la target

#### II. 

Genere y compare 3 modelos utilizando diferentes normalizaciones (Sin normalizar, normalización lineal, normalización estándar).



In [32]:
def evaluar_perceptron(X, T, alpha=0.05, max_iter=10, random_state=1):
    resultados = {}

    # Caso 1: Sin normalización
    ppn = Perceptron(alpha=alpha, n_iter=max_iter, random_state=random_state)
    ppn.fit(X.values, T.values)
    Y = ppn.predict(X.values)
    resultados["sin_normalizacion"] = sum(Y == T)

    # Caso 2: Normalización lineal (0 a 1)
    X_lin = (X - X.min()) / (X.max() - X.min())
    ppn = Perceptron(alpha=alpha, n_iter=max_iter, random_state=random_state)
    ppn.fit(X_lin.values, T.values)
    Y = ppn.predict(X_lin.values)
    resultados["normalizacion_lineal"] = sum(Y == T)

    # Caso 3: Normalización estándar (z-score)
    X_std = (X - X.mean()) / X.std()
    ppn = Perceptron(alpha=alpha, n_iter=max_iter, random_state=random_state)
    ppn.fit(X_std.values, T.values)
    Y = ppn.predict(X_std.values)
    resultados["normalizacion_estandar"] = sum(Y == T)

    # Mostrar resultados
    for caso, aciertos in resultados.items():
        print(f"Aciertos {caso.replace('_', ' ')}: {aciertos} de {len(T)}")

    return resultados

resultados = evaluar_perceptron(X, T)


Aciertos sin normalizacion: 104 de 197
Aciertos normalizacion lineal: 188 de 197
Aciertos normalizacion estandar: 195 de 197


#### III. 

Teniendo en cuenta la matriz de correlación del punto c) repita el punto II) eliminando dos atributos fuertemente correlacionados (uno negativo y otro positivo). Compare y reflexione sobre los resultados obtenidos.

In [33]:
corr_pairs = corr_matrix.unstack()
corr_pairs = corr_pairs.drop(labels=[(col, col) for col in corr_matrix.columns])
corr_sorted = corr_pairs.sort_values(ascending=False)
corr_sorted = corr_pairs.loc[corr_sorted.index]

print(corr_sorted.head(1), "\n", corr_sorted.tail(1)) 
# Tengo que eliminar  eco-rating  highway-mpg  0.984258
# y 				  eco-rating  curb-weight -0.842957


X = X.drop(columns=["city-mpg"])
resultados_sin_corr = evaluar_perceptron(X, T)


highway-mpg  city-mpg    0.972407
dtype: float64 
 horsepower  city-mpg   -0.82196
dtype: float64
Aciertos sin normalizacion: 104 de 197
Aciertos normalizacion lineal: 188 de 197
Aciertos normalizacion estandar: 191 de 197


> **Conclusión:** ni idea.