<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>


# Laboratorio EDA y Gestión de Nulos

AutoRenew, una empresa líder en la venta de coches de segunda mano, te ha contratado para desarrollar un modelo predictivo que estime el precio de los vehículos usados. Este modelo ayudará a la empresa a mejorar sus estrategias de ventas, marketing y optimización del inventario. Para ello, cuentas con un conjunto de datos que contiene información detallada sobre diversas características de los coches usados. Sin embargo, como es común en conjuntos de datos reales, encontrarás valores nulos y necesitarás realizar un análisis exploratorio para identificar patrones, correlaciones y posibles anomalías.

 En este laboratorio, tu tarea es realizar un análisis exploratorio de los datos (EDA) y gestionar los valores nulos que encuentres. Este es solo el primer paso de un proyecto que se desarrollará durante toda la semana, en el que usarás este mismo conjunto de datos para practicar diferentes fases del preprocesamiento.

**Columnas del conjunto de datos:**

- **dateCrawled**: Fecha y hora en que se recolectaron los datos del coche.

- **name**: Nombre del anuncio, generalmente incluye la marca y el modelo del coche.

- **seller**: Tipo de vendedor (particular o concesionario).

- **offerType**: Tipo de oferta (venta o subasta).

- **price**: Precio del coche en la moneda local.

- **abtest**: Campo utilizado para pruebas A/B, indicando diferentes versiones del sitio web o anuncio.

- **vehicleType**: Tipo de vehículo (sedán, SUV, hatchback, etc.).

- **yearOfRegistration**: Año de registro del coche.

- **gearbox**: Tipo de caja de cambios (manual o automática).

- **powerCV**: Potencia del coche en caballos de vapor (CV).

- **model**: Modelo específico del coche.

- **kilometer**: Kilometraje total del coche.

- **monthOfRegistration**: Mes de registro del coche.

- **fuelType**: Tipo de combustible (gasolina, diésel, eléctrico, etc.).

- **brand**: Marca del coche.

- **notRepairedDamage**: Indica si el coche tiene daños no reparados.

- **dateCreated**: Fecha de creación del anuncio.

- **nrOfPictures**: Número de fotos en el anuncio.

- **postalCode**: Código postal de la ubicación del coche.

- **lastSeen**: Última fecha y hora en que el anuncio fue visto.

**Instrucciones:**

1. **Análisis Exploratorio de Datos (EDA):** Explora el conjunto de datos para familiarizarte con las diferentes características de los coches. Utiliza gráficos y estadísticas descriptivas para identificar patrones, tendencias y posibles anomalías.
   
2. **Gestión de Valores Nulos:** Identifica las columnas que contienen valores nulos y aplica las técnicas adecuadas para manejarlos. Esto podría incluir la imputación de valores, eliminación de filas o columnas, o cualquier otra estrategia que consideres apropiada.

**Nota:** Este laboratorio es el primer paso de una serie de actividades que realizarás esta semana utilizando el mismo conjunto de datos. Asegúrate de documentar bien tu trabajo, ya que lo utilizarás como base para los siguientes ejercicios.


In [2]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import numpy as np
import pandas as pd

# Otros objetivos
# -----------------------------------------------------------------------
import math
import numpy as np
import sys
sys.path.append('src')  # Agrega la carpeta 'src' al PATH

from src import support as sp  # Importa la función desde el archivo

# Gráficos
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt

# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer
from sklearn.ensemble import RandomForestRegressor


In [3]:
df=pd.read_csv("data/autorenew.csv", index_col=0)

In [4]:
df.sample(5)

Unnamed: 0_level_0,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerCV,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
dateCrawled,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
2016-03-20 18:38:20,Vw_golf_1_cabrio,private,offer,0,test,convertible,1993,manually,97.0,golf,125000,0,,volkswagen,,2016-03-20 00:00:00,0,88299,2016-04-07 01:45:08
2016-04-03 18:40:34,Ford_Fiesta_1.4_TDCI_Fun,private,offer,2900,control,small car,2006,,67.0,fiesta,150000,12,diesel,ford,no,2016-04-03 00:00:00,0,55232,2016-04-03 18:40:34
2016-03-27 22:53:44,Opel_Signum_3.2_V6_Cosmo,private,offer,2250,test,combi,2003,manually,208.0,signum,150000,4,petrol,opel,no,2016-03-27 00:00:00,0,73540,2016-04-06 01:15:28
2016-03-12 07:55:15,Astrabf_cabrio__fahrbereit__6/16tuv,private,offer,300,control,convertible,1996,manually,70.0,astra,150000,0,,opel,no,2016-03-12 00:00:00,0,34132,2016-03-25 02:47:10
2016-03-16 21:47:16,Opel_Vectra_B_Kombi,private,offer,400,control,combi,1998,manually,89.0,vectra,150000,0,petrol,opel,no,2016-03-16 00:00:00,0,26219,2016-04-07 09:45:45


In [5]:
df.describe()

Unnamed: 0,price,yearOfRegistration,powerCV,kilometer,monthOfRegistration,nrOfPictures,postalCode
count,371528.0,371528.0,371528.0,371528.0,371528.0,371528.0,371528.0
mean,17295.14,2004.577997,113.967833,125618.688228,5.734445,0.0,50820.66764
std,3587954.0,92.866598,189.516594,40112.337051,3.712412,0.0,25799.08247
min,0.0,1000.0,0.0,5000.0,0.0,0.0,1067.0
25%,1150.0,1999.0,69.0,125000.0,3.0,0.0,30459.0
50%,2950.0,2003.0,104.0,150000.0,6.0,0.0,49610.0
75%,7200.0,2008.0,148.0,150000.0,9.0,0.0,71546.0
max,2147484000.0,9999.0,19726.0,150000.0,12.0,0.0,99998.0


In [6]:
df.shape

(371528, 19)

In [7]:
df.nunique()

name                   233531
seller                      2
offerType                   2
price                    5597
abtest                      2
vehicleType                 7
yearOfRegistration        155
gearbox                     2
powerCV                   788
model                     251
kilometer                  13
monthOfRegistration        13
fuelType                    7
brand                      40
notRepairedDamage           2
dateCreated               114
nrOfPictures                1
postalCode               8150
lastSeen               182806
dtype: int64

In [8]:
df.isnull().sum()

name                        0
seller                      0
offerType                   0
price                       0
abtest                      0
vehicleType            133763
yearOfRegistration          0
gearbox                 20209
powerCV                     0
model                   20484
kilometer                   0
monthOfRegistration         0
fuelType                33386
brand                       0
notRepairedDamage       72060
dateCreated                 0
nrOfPictures                0
postalCode                  0
lastSeen                    0
dtype: int64

In [9]:
sp.exploracion_basica_dataframe(df)

El número de datos es 371528 y el de columnas es 19

 ------------------------------- 

Los duplicados que tenemos en el conjunto de datos son: 29

 ------------------------------- 

Los nulos que tenemos en el conjunto de datos son:


Unnamed: 0,%_nulos
vehicleType,36.003478
gearbox,5.439429
model,5.513447
fuelType,8.986133
notRepairedDamage,19.395577



 ------------------------------- 

Los tipos de las columnas son:


Unnamed: 0,tipo_dato
name,object
seller,object
offerType,object
price,int64
abtest,object
vehicleType,object
yearOfRegistration,int64
gearbox,object
powerCV,float64
model,object



 ------------------------------- 

Los valores que tenemos para las columnas categóricas son: 
Index(['name', 'seller', 'offerType', 'abtest', 'vehicleType', 'gearbox',
       'model', 'fuelType', 'brand', 'notRepairedDamage', 'dateCreated',
       'lastSeen'],
      dtype='object')
La columna NAME tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
name,Unnamed: 1_level_1
Ford_Fiesta,657
BMW_318i,627
Opel_Corsa,622
Volkswagen_Golf_1.4,603
BMW_316i,523
...,...
Subaru_Justy_1.3,1
OPEL_CORSA_B__ECO_SWING__TÜV_1/17_8fach_Bereifung/Schiebedach/CD,1
Ford_C___Max_Titanium_1_0_L_EcoBoost,1
VW_Derby_Bj_80__Scheunenfund,1



 ------------------------------- 

La columna SELLER tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
seller,Unnamed: 1_level_1
private,371525
commercial,3



 ------------------------------- 

La columna OFFERTYPE tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
offerType,Unnamed: 1_level_1
offer,371516
request,12



 ------------------------------- 

La columna ABTEST tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
abtest,Unnamed: 1_level_1
test,192585
control,178943



 ------------------------------- 

La columna VEHICLETYPE tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
vehicleType,Unnamed: 1_level_1
small car,80023
combi,67564
bus,30201
convertible,22898
coupe,19015
suv,14707
other,3357


La columna VEHICLETYPE tiene 133763 valores nulos

 ------------------------------- 

La columna GEARBOX tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
gearbox,Unnamed: 1_level_1
manually,274214
automatic,77105


La columna GEARBOX tiene 20209 valores nulos

 ------------------------------- 

La columna MODEL tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
model,Unnamed: 1_level_1
golf,30070
andere,26400
3er,20567
polo,13092
corsa,12573
...,...
serie_2,8
rangerover,6
serie_3,4
serie_1,2


La columna MODEL tiene 20484 valores nulos

 ------------------------------- 

La columna FUELTYPE tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
fuelType,Unnamed: 1_level_1
petrol,223857
diesel,107746
lpg,5378
cng,571
hybrid,278
other,208
electro,104


La columna FUELTYPE tiene 33386 valores nulos

 ------------------------------- 

La columna BRAND tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
brand,Unnamed: 1_level_1
volkswagen,79640
bmw,40274
opel,40136
mercedes_benz,35309
audi,32873
ford,25573
renault,17969
peugeot,11027
fiat,9676
seat,7022



 ------------------------------- 

La columna NOTREPAIREDDAMAGE tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
notRepairedDamage,Unnamed: 1_level_1
no,263182
yes,36286


La columna NOTREPAIREDDAMAGE tiene 72060 valores nulos

 ------------------------------- 

La columna DATECREATED tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
dateCreated,Unnamed: 1_level_1
2016-04-03 00:00:00,14450
2016-04-04 00:00:00,14022
2016-03-20 00:00:00,13547
2016-03-12 00:00:00,13379
2016-03-21 00:00:00,13305
...,...
2015-12-17 00:00:00,1
2015-11-10 00:00:00,1
2016-01-06 00:00:00,1
2015-09-09 00:00:00,1



 ------------------------------- 

La columna LASTSEEN tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
lastSeen,Unnamed: 1_level_1
2016-04-06 13:45:54,17
2016-04-07 06:45:59,17
2016-04-07 08:16:54,16
2016-04-06 09:46:00,16
2016-04-06 04:17:20,16
...,...
2016-03-26 09:44:53,1
2016-03-16 09:16:46,1
2016-04-05 05:45:56,1
2016-03-31 10:46:21,1



 ------------------------------- 

Los valores que tenemos para las columnas numericas son: 
La columna PRICE tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
price,Unnamed: 1_level_1
0,10778
500,5670
1500,5394
1000,4649
1200,4594
...,...
11333,1
1898,1
378,1
21856,1


La columna YEAROFREGISTRATION tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
yearOfRegistration,Unnamed: 1_level_1
2000,24551
1999,22767
2005,22316
2006,20230
2001,20218
...,...
1602,1
9229,1
7100,1
8200,1


La columna POWERCV tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
powerCV,Unnamed: 1_level_1
0.0,40820
74.0,24035
59.0,15907
148.0,15442
138.0,13585
...,...
1666.0,1
984.0,1
1085.0,1
17085.0,1


La columna KILOMETER tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
kilometer,Unnamed: 1_level_1
150000,240797
125000,38067
100000,15920
90000,12523
80000,11053
70000,9773
60000,8669
50000,7615
5000,7069
40000,6376


La columna MONTHOFREGISTRATION tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
monthOfRegistration,Unnamed: 1_level_1
0,37675
3,36170
6,33167
4,30918
5,30631
7,28958
10,27337
11,25489
12,25380
9,25074


La columna NROFPICTURES tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
nrOfPictures,Unnamed: 1_level_1
0,371528


La columna POSTALCODE tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
postalCode,Unnamed: 1_level_1
10115,828
65428,637
66333,349
38518,326
44145,323
...,...
94167,1
25599,1
79697,1
29361,1


In [None]:
# Ver valores atipicos de "yearOfRegistration"
limite_inferior = 1885
limite_superior = 2024
valores_fuera_rango = df[(df['yearOfRegistration'] < limite_inferior) | (df['yearOfRegistration'] > limite_superior)]
valores_fuera_rango.shape

(182, 19)