<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>


# Laboratorio de Gestión de Outliers

AutoRenew, la empresa líder en la venta de coches de segunda mano, sigue adelante con el desarrollo del modelo predictivo que ayudará a estimar el precio de los vehículos usados. Este modelo es clave para mejorar las estrategias de ventas, marketing y optimización del inventario de la empresa. Ya has realizado un análisis exploratorio inicial y gestionado los valores nulos en el conjunto de datos. Ahora, es el momento de abordar otro aspecto crucial del preprocesamiento: la **gestión de outliers**.

En este laboratorio, te enfocarás en identificar y gestionar los outliers (valores atípicos) presentes en el conjunto de datos. Los outliers pueden distorsionar los resultados de un análisis y afectar negativamente el rendimiento de los modelos predictivos, por lo que es fundamental tratarlos adecuadamente antes de proceder con las siguientes fases del proyecto.


**Instrucciones:**

1. **Identificación de Outliers:** Explora las columnas clave del conjunto de datos (como `price`, `powerCV`, `kilometer`, etc.) para identificar posibles outliers. Utiliza gráficos como diagramas de caja (boxplots) y análisis estadísticos para detectar valores que se desvíen significativamente del resto de los datos.

2. **Análisis de Outliers:** Una vez identificados, analiza los outliers para determinar si son errores de datos, valores extremos válidos o resultados de condiciones específicas que deben ser tenidos en cuenta. Considera el contexto de cada columna al evaluar la relevancia de estos valores atípicos.

3. **Gestión de Outliers:** Decide la estrategia más adecuada para manejar los outliers. Esto podría incluir la eliminación de los outliers, la transformación de los datos, o la aplicación de técnicas de imputación. Justifica tu elección basándote en cómo los outliers podrían afectar el modelo predictivo.

**Nota:** Recuerda que este laboratorio es parte de una serie de actividades en las que utilizarás el mismo conjunto de datos a lo largo de la semana. Documenta cuidadosamente los pasos que sigas para que puedas referirte a ellos en las próximas etapas del proyecto.


In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd

# Importación de las clases creadas en nuestro archivo de soporte
# -----------------------------------------------------------------------
import sys
sys.path.append("../")
from src import soporte_outliers as so


In [2]:
df = pd.read_csv("../data/autorenew_clean_estandar.csv", index_col=0)

In [3]:
df.head()

Unnamed: 0,name,seller,offerType,abtest,vehicleType,gearbox,model,fuelType,brand,notRepairedDamage,...,yearOfRegistration_Ratesrobust,powerCV_min_max,kilometer_min_max,yearOfRegistration_min_max,powerCV_norm,kilometer_norm,yearOfRegistration_norm,powerCV_estandar,kilometer_estandar,yearOfRegistration_estandar
0,Golf_3_1.6,private,offer,test,Unknown,manually,golf,petrol,volkswagen,Unknown,...,-1.111111,0.0,1.0,0.110346,0.0,0.999912,0.013285,-0.60134,0.607813,-0.124672
1,A5_Sportback_2.7_Tdi,private,offer,test,coupe,manually,Unknown,diesel,audi,yes,...,0.888889,0.00948,0.827586,0.112346,0.001496,0.999869,0.016086,0.385348,-0.015437,0.069147
2,"Jeep_Grand_Cherokee_""Overland""",private,offer,test,suv,automatic,grand,diesel,jeep,Unknown,...,0.111111,0.008162,0.827586,0.111568,0.001288,0.999871,0.01603,0.248162,-0.015437,-0.006227
3,GOLF_4_1_4__3TÜRER,private,offer,test,small car,manually,golf,petrol,volkswagen,no,...,-0.222222,0.003751,1.0,0.111235,0.000493,0.999911,0.013339,-0.210886,0.607813,-0.03853
4,Skoda_Fabia_1.4_TDI_PD_Classic,private,offer,test,small car,manually,fabia,diesel,skoda,no,...,0.555556,0.003447,0.586207,0.112012,0.000755,0.999751,0.022306,-0.242544,-0.887987,0.036844


In [5]:
df.columns

Index(['name', 'seller', 'offerType', 'abtest', 'vehicleType', 'gearbox',
       'model', 'fuelType', 'brand', 'notRepairedDamage', 'dateCreated',
       'lastSeen', 'price_knn', 'yearOfRegistration_knn', 'powerCV_knn',
       'kilometer_knn', 'monthOfRegistration_knn', 'nrOfPictures_knn',
       'postalCode_knn', 'powerCV_robust', 'kilometer_Ratesrobust',
       'yearOfRegistration_Ratesrobust', 'powerCV_min_max',
       'kilometer_min_max', 'yearOfRegistration_min_max', 'powerCV_norm',
       'kilometer_norm', 'yearOfRegistration_norm', 'powerCV_estandar',
       'kilometer_estandar', 'yearOfRegistration_estandar'],
      dtype='object')

In [6]:
df_out = df[['name', 'seller', 'offerType', 'abtest', 'vehicleType', 'gearbox',
       'model', 'fuelType', 'brand', 'notRepairedDamage', 'dateCreated',
       'lastSeen', 'price_knn', 'powerCV_estandar',
       'kilometer_estandar', 'yearOfRegistration_estandar']]

In [7]:
df_out.head()

Unnamed: 0,name,seller,offerType,abtest,vehicleType,gearbox,model,fuelType,brand,notRepairedDamage,dateCreated,lastSeen,price_knn,powerCV_estandar,kilometer_estandar,yearOfRegistration_estandar
0,Golf_3_1.6,private,offer,test,Unknown,manually,golf,petrol,volkswagen,Unknown,2016-03-24 00:00:00,2016-04-07 03:16:57,480.0,-0.60134,0.607813,-0.124672
1,A5_Sportback_2.7_Tdi,private,offer,test,coupe,manually,Unknown,diesel,audi,yes,2016-03-24 00:00:00,2016-04-07 01:46:50,18300.0,0.385348,-0.015437,0.069147
2,"Jeep_Grand_Cherokee_""Overland""",private,offer,test,suv,automatic,grand,diesel,jeep,Unknown,2016-03-14 00:00:00,2016-04-05 12:47:46,9800.0,0.248162,-0.015437,-0.006227
3,GOLF_4_1_4__3TÜRER,private,offer,test,small car,manually,golf,petrol,volkswagen,no,2016-03-17 00:00:00,2016-03-17 17:40:17,1500.0,-0.210886,0.607813,-0.03853
4,Skoda_Fabia_1.4_TDI_PD_Classic,private,offer,test,small car,manually,fabia,diesel,skoda,no,2016-03-31 00:00:00,2016-04-06 10:17:21,3600.0,-0.242544,-0.887987,0.036844
