# Maestría en Ciencia de Datos e Inteligencia Artificial
## Módulo: 09: Minería de Datos
### 2025

### *Msc Renzo Claure*
---

### 2. Transformacion de variables

Info del set de datos a tratar  
Variables Principales:  

- symboling: Esta variable representa el nivel de riesgo del automóvil.  
- normalized-losses: Pérdidas normalizadas en uso por año relativo al tamaño del automóvil.  
- make: La marca del automóvil (por ejemplo, "Toyota", "BMW", "Honda").  
- fuel-type: El tipo de combustible que utiliza el automóvil (por ejemplo, "gas", "diesel").  
- aspiration: El método de aspiración del motor (por ejemplo, "std" para estándar, "turbo" para turbo).  
- num-of-doors: El número de puertas del automóvil (por ejemplo, "dos", "cuatro").  
- body-style: El estilo de carrocería del automóvil (por ejemplo, "sedán", "hatchback", "convertible").  
- drive-wheels: Las ruedas motrices del automóvil (por ejemplo, "rwd" para tracción trasera, "fwd" para tracción  delantera, "4wd" para tracción en las cuatro ruedas).  
- engine-location: La ubicación del motor del automóvil (por ejemplo, "delantero", "trasero").  
- wheel-base: La distancia entre los ejes delantero y trasero del automóvil.  
- length: La longitud del automóvil.  
- width: El ancho del automóvil.  
- height: La altura del automóvil.  
- curb-weight: El peso del automóvil sin pasajeros ni carga.  
- engine-type: El tipo de motor del automóvil (por ejemplo, "dohc", "ohcv").  
- num-of-cylinders: El número de cilindros del motor del automóvil.  
- engine-size: El tamaño del motor del automóvil.  
- fuel-system: El sistema de combustible del automóvil (por ejemplo, "mpfi", "2bbl").  
- bore: El diámetro del cilindro del motor.  
- stroke: La carrera del pistón del motor.  
- compression-ratio: La relación de compresión del motor.  
- horsepower: La potencia del motor del automóvil.  
- peak-rpm: Las revoluciones por minuto máximas del motor.  
- city-mpg: El consumo de combustible del automóvil en ciudad (millas por galón).  
- highway-mpg: El consumo de combustible del automóvil en carretera (millas por galón).  
- price: El precio del automóvil.  

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
import os
os.getcwd()

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data'
base = pd.read_csv(url)

In [None]:
encabezados = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]
base.columns = encabezados

In [None]:
base.replace("?", np.nan, inplace = True)

In [None]:
cols = ['symboling',  'normalized-losses',  'wheel-base',
 'length',  'width', 'height', 'curb-weight', 'engine-size', 'bore',
 'stroke', 'compression-ratio', 'horsepower', 'peak-rpm',
 'city-mpg', 'highway-mpg', 'price']

for i in cols:
    base[i] = pd.to_numeric(base[i], errors='coerce')
    base[i] = base[i].fillna(base[i].mean())

In [None]:
cols = base.select_dtypes(exclude=['number']).columns.tolist()
for i in cols:
    mode_value = base[i].mode()[0]
    base[i] = base[i].fillna(mode_value)
    base[i] = base[i].astype(type(mode_value))

#### *Normalizacion*

In [None]:
# Normalización por Rango
base['length_N_R'] = base['length']/(base['length'].max() - base['length'].min() )

In [None]:
base['length_N_R'].mean()

In [None]:
base['length'].mean()

In [None]:
#Con respecto al minimo MinMaxScaler
base['length_N_M'] = (base['length']-base['length'].min())/(base['length'].max() - base['length'].min() )

In [None]:
base['length_N_M'].mean()

#### *Estandarizacion*

In [None]:
# Normalización por distribución normal, StandradScaler
base['length_N_S'] = (base['length']-base['length'].mean()) / base['length'].std()

In [None]:
base['length_N_S'].mean()

In [None]:
base['length_N_S'].std()

In [None]:
def grafico_cajas_comparativo(df):
    plt.figure(figsize=(12, 4))
    sns.boxplot(data=df, orient='h')
    plt.xticks(rotation=90)  # Rotar las etiquetas del eje x para mejor legibilidad
    plt.title('Gráfico de Cajas Comparativo de Todas las Variables')
    plt.show()

In [None]:
grafico_cajas_comparativo(base[['length', 'length_N_R', 'length_N_M', 'length_N_S']])

In [None]:
# En procedimientos de ML es mas conveniente usar MinMaxScaler y StandardScaler, ya que se pueden reutilizar sus parametros
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler, Normalizer, QuantileTransformer, PowerTransformer

scaler = MinMaxScaler()
scaler.fit(base[['length']])
base['length_N_R3'] = scaler.transform(base[['length']])

**Ejercicio**  
**Normalice por RANGO la variable width y precio, (creelas como nuevas variables), compruebe la media y la desv. estandard**

#### *Canonizacion, convertir una variable en booleana*

In [None]:
base['num-of-doors'].value_counts()

In [None]:
base['num-of-doors_B'] = base['num-of-doors'].map({'four': True, 'two': False}) 

In [None]:
base[['num-of-doors', 'num-of-doors_B']].head(5)

In [None]:
base['num-of-doors_B2'] = np.where(base['num-of-doors']=='four', 1, 0)

In [None]:
base[['num-of-doors', 'num-of-doors_B2']]

#### *BInning o conversion de númerico a categórico*

In [None]:
base.dtypes

In [None]:
base['horsepower'] = base['horsepower'].astype(int, copy=True)

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.plot()
plt.hist(base["horsepower"])
plt.xlabel("horsepower")
plt.ylabel("cantidad")
plt.title("horsepower bins")

In [None]:
bins = np.linspace(min(base["horsepower"]), max(base["horsepower"]), 6)
bins

In [None]:
print(base["horsepower"].min())
print(base["horsepower"].max())

In [None]:
nom_grupos = ['muy bajo', 'bajo', 'medio', 'alto', 'muy alto']
base['horsepower-binned'] = pd.cut(base['horsepower'], bins, labels=nom_grupos, include_lowest=True )
base['horsepower-binned'].value_counts(normalize=True)

In [None]:
#%matplotlib notebook
plt.plot()
plt.bar(nom_grupos, base["horsepower-binned"].value_counts(), color='red')
plt.xlabel("horsepower")
plt.ylabel("cantidad")
plt.title("horsepower bins")
plt.show()

In [None]:
%matplotlib inline
plt.plot()
plt.hist(base['horsepower'], bins=3)
plt.xlabel('horsepower')
plt.ylabel('cantidad')
plt.title('horsepower bins')
plt.show()

#### *Creacion de variables Dummy (OneHotEncoding)*

In [None]:
base["fuel-type"].value_counts()

In [None]:
comb_bdummy = pd.get_dummies(base["fuel-type"])

In [None]:
comb_bdummy

In [None]:
base = pd.concat([base, comb_bdummy ], axis=1)

In [None]:
base[['fuel-type', 'diesel', 'gas'  ]].tail()

In [None]:
#Con una sola linea
pd.get_dummies(base, prefix='dummie', columns=['fuel-type']).head()#.iloc[:,30:]

In [None]:
#borrar los campos creados con dummie
cols = base.columns.tolist()
cols = [ palabra for palabra in cols if 'dummie' in palabra ]
base.drop(columns=cols, inplace=True)

In [None]:
from sklearn.preprocessing import OneHotEncoder

enc = OneHotEncoder(handle_unknown='ignore')
encoded = enc.fit_transform(base[['fuel-type', 'num-of-doors']])
nombres = enc.get_feature_names_out(['fuel-type', 'num-of-doors'])
df_encoded = pd.DataFrame(encoded.toarray(), columns=nombres)
base = pd.concat([base, df_encoded], axis=1)
base.head()

#### *Label Encoding*

In [None]:
from sklearn.preprocessing import LabelEncoder

enc = LabelEncoder()
base['body_encoded'] = enc.fit_transform(base['body-style'])
base[['body-style', 'body_encoded']].head()

In [None]:
base[['body-style', 'body_encoded']].head()

In [None]:
enc.classes_

**Ejercicio**  
**Crear una variable dummy a partir de la variable "drive-wheels" e introduzcala a la base**  
**Transforma la variable fuel-system con Label Encoder**

In [None]:
pd.crosstab(index='body-style', columns='body_encoded' )