## 1. Introduccción

En este proyecto usaremos con un conjunto de datos de autos usados de **eBay** *Kleinanzeigen*, una sección de clasificados del sitio web alemán de **eBay**.

Las columnas:

-   `dateCrawled`: cuándo se rastreó este anuncio por primera vez. Todos los valores de campo se toman a partir de esta fecha.
-   `name`: nombre del automóvil.
-   `seller`: si el vendedor es privado o un comerciante.
-   `offerType`: el tipo de listado.
-   `price`: el precio del anuncio para vender el automóvil.
-   `abtest`: si la lista está incluida en una prueba A/B.
-   `vehicleType`: el tipo de vehículo.
-   `yearOfRegistration`: el año en el que se registró por primera vez el automóvil.
-   `gearbox`: el tipo de transmisión.
-   `powerPS`: la potencia del auto en PS.
-   `model`: el nombre del modelo de automóvil.
-   `kilometer`: cuántos kilómetros ha recorrido el automóvil.
-   `monthOfRegistration`: el mes en el que se registró el automóvil por primera vez.
-   `fuelType`: qué tipo de combustible usa el automóvil.
-   `brand`: la marca del automóvil.
-   `notRepairedDamage`: si el automóvil tiene un daño que aún no se ha reparado.
-   `dateCreated`: la fecha en la que se creó el anuncio de eBay.
-   `nrOfPictures`: el número de imágenes del anuncio.
-   `postalCode`: el código postal para la ubicación del vehículo.
-   `lastSeenOnline`: cuándo el rastreador vio este anuncio por última vez en línea.

Comencemos importando las bibliotecas que necesitamos y leyendo el conjunto de datos en `Pandas`.

## Instrucciones

1.  Importar las bibliotecas `Pandas` y `NumPy`.

    -   Lea el archivo `autos.csv`en `Pandas` y asígnelo al nombre de variable `autos`.
    -   Pruebe sin especificar ninguna codificación (que será `UTF-8` por defecto)
    -   Si obtiene un error de codificación, pruebe las siguientes dos codificaciones más populares (`Latin-1` y `Windows-1252`) hasta que pueda leer el archivo sin errores.

In [37]:
import pandas as pd
import numpy as np

In [47]:
csv_file = 'autos.csv'
# Lectura sin codificación
#autos = pd.read_csv(csv_file)

# Codificación Latin-1 funcionó correcta
#autos = pd.read_csv(csv_file, encoding='Latin-1')

# Codificación Windows-1252 funcionó correcta
autos = pd.read_csv(csv_file, encoding='Windows-1252')

#Codificación utf-8 no funcionó arrojó UnicodeDecodeError
#autos = pd.read_csv(csv_file,sep=',',encoding='utf8')
autos

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3TÜRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
371523,2016-03-14 17:48:27,Suche_t4___vito_ab_6_sitze,privat,Angebot,2200,test,,2005,,0,,20000,1,,sonstige_autos,,2016-03-14 00:00:00,0,39576,2016-04-06 00:46:52
371524,2016-03-05 19:56:21,Smart_smart_leistungssteigerung_100ps,privat,Angebot,1199,test,cabrio,2000,automatik,101,fortwo,125000,3,benzin,smart,nein,2016-03-05 00:00:00,0,26135,2016-03-11 18:17:12
371525,2016-03-19 18:57:12,Volkswagen_Multivan_T4_TDI_7DC_UY2,privat,Angebot,9200,test,bus,1996,manuell,102,transporter,150000,3,diesel,volkswagen,nein,2016-03-19 00:00:00,0,87439,2016-04-07 07:15:26
371526,2016-03-20 19:41:08,VW_Golf_Kombi_1_9l_TDI,privat,Angebot,3400,test,kombi,2002,manuell,100,golf,150000,6,diesel,volkswagen,,2016-03-20 00:00:00,0,40764,2016-03-24 12:45:21


In [21]:
# ahora crearemos una función utilizando chardet para detectar la codificación del archivo csv

import chardet

def return_enc(raw_data):
    raw_data=open(raw_data,"rb").read()
    return chardet.detect(raw_data)

return_enc(csv_file)

{'encoding': 'Windows-1252', 'confidence': 0.73, 'language': ''}

2.  Utilice los métodos `DataFrame.info()` y `DataFrame.head()` para imprimir información sobre el dataframe `autos`, así como las primeras filas.

In [39]:
autos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 371528 entries, 0 to 371527
Data columns (total 20 columns):
 #   Column               Non-Null Count   Dtype 
---  ------               --------------   ----- 
 0   dateCrawled          371528 non-null  object
 1   name                 371528 non-null  object
 2   seller               371528 non-null  object
 3   offerType            371528 non-null  object
 4   price                371528 non-null  int64 
 5   abtest               371528 non-null  object
 6   vehicleType          333659 non-null  object
 7   yearOfRegistration   371528 non-null  int64 
 8   gearbox              351319 non-null  object
 9   powerPS              371528 non-null  int64 
 10  model                351044 non-null  object
 11  kilometer            371528 non-null  int64 
 12  monthOfRegistration  371528 non-null  int64 
 13  fuelType             338142 non-null  object
 14  brand                371528 non-null  object
 15  notRepairedDamage    299468 non-nu

In [40]:
autos.head()

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3TÜRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21


3.  Describa brevemente sus observaciones.

## 2. Limpieza de nombres de columnas

De los resultados anteeriores, podemos hacer las siguientes observaciones:

-   El conjunto de datos contiene 20 columnas, la mayoría de las cuales son cadenas de texto.
-   Algunas columnas tienen valores nulos, pero ninguna tiene más de \~20% de valores nulos.
-   Los nombres de las columnas usan *camelcase* en lugar del estilo *snakecase*, preferido de `Python`, lo que significa que no podemos simplemente reemplazar los espacios con guiones bajos.

Convierta los nombres de las columnas de *camelcase* a *snakecase* y reformule algunos de los nombres de las columnas en función del diccionario de datos para que sean más descriptivos.

## Instrucciones

1.  Utilice el atributo `DataFrame.columns` para imprimir una matriz de los nombres de columna existentes.

In [41]:
autos.columns

Index(['dateCrawled', 'name', 'seller', 'offerType', 'price', 'abtest',
       'vehicleType', 'yearOfRegistration', 'gearbox', 'powerPS', 'model',
       'kilometer', 'monthOfRegistration', 'fuelType', 'brand',
       'notRepairedDamage', 'dateCreated', 'nrOfPictures', 'postalCode',
       'lastSeen'],
      dtype='object')

2.  Copie esa matriz y realice las siguientes modificaciones en los nombres de las columnas:

    -   `yearOfRegistration` a `registration_year`
    -   `monthOfRegistration` a `registration_month`
    -   `notRepairedDamage` a `unrepaired_damage`
    -   `dateCreated` a `ad_created`
    -   El resto de los nombres de las columnas, desde *camelcase* a *snakecase*.

In [42]:
columns_aux = autos.columns
columns_aux = []
for c in autos.columns:
    if c == 'yearOfRegistration':
        columns_aux.append('registration_year')
    elif c == 'monthOfRegistration':
        columns_aux.append('registration_month')
    elif c == 'notRepairedDamage':
        columns_aux.append('unrepaired_damage')
    else:
        columns_aux.append(c)
columns_aux

['dateCrawled',
 'name',
 'seller',
 'offerType',
 'price',
 'abtest',
 'vehicleType',
 'registration_year',
 'gearbox',
 'powerPS',
 'model',
 'kilometer',
 'registration_month',
 'fuelType',
 'brand',
 'unrepaired_damage',
 'dateCreated',
 'nrOfPictures',
 'postalCode',
 'lastSeen']

3.  Asigne los nombres de las columnas modificadas al atributo `DataFrame.columns`.

In [48]:
autos.rename(columns={'yearOfRegistration': 'registration_year','monthOfRegistration': 'registration_month','notRepairedDamage': 'unrepaired_damage','dateCreated': 'ad_created'}, inplace=True)
autos

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,registration_year,gearbox,powerPS,model,kilometer,registration_month,fuelType,brand,unrepaired_damage,ad_created,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3TÜRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
371523,2016-03-14 17:48:27,Suche_t4___vito_ab_6_sitze,privat,Angebot,2200,test,,2005,,0,,20000,1,,sonstige_autos,,2016-03-14 00:00:00,0,39576,2016-04-06 00:46:52
371524,2016-03-05 19:56:21,Smart_smart_leistungssteigerung_100ps,privat,Angebot,1199,test,cabrio,2000,automatik,101,fortwo,125000,3,benzin,smart,nein,2016-03-05 00:00:00,0,26135,2016-03-11 18:17:12
371525,2016-03-19 18:57:12,Volkswagen_Multivan_T4_TDI_7DC_UY2,privat,Angebot,9200,test,bus,1996,manuell,102,transporter,150000,3,diesel,volkswagen,nein,2016-03-19 00:00:00,0,87439,2016-04-07 07:15:26
371526,2016-03-20 19:41:08,VW_Golf_Kombi_1_9l_TDI,privat,Angebot,3400,test,kombi,2002,manuell,100,golf,150000,6,diesel,volkswagen,,2016-03-20 00:00:00,0,40764,2016-03-24 12:45:21


4.  Use `DataFrame.head()` para ver el estado actual del dataframe autos.

In [44]:
autos.head()

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3TÜRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21


5.  Describa y explique los cambios que hizo y por qué los hizo.

## 3. Exploración y limpieza inicial.

Ahora hagamos una exploración básica de datos para determinar qué otras tareas de limpieza deben realizarse. Inicialmente buscaremos:

-   Columnas de texto donde todos o casi todos los valores son iguales. Estos a menudo se pueden descartar ya que no tienen información útil para el análisis.
-   Ejemplos de datos numéricos almacenados como texto que se pueden limpiar y convertir.

Los siguientes métodos son útiles para explorar los datos:

-   `DataFrame.describe()` (con `include = 'all'` para obtener columnas categóricas y numéricas)
-   `Series.value_counts()` y `Series.head()` si alguna columna necesita una revisión más detallada.

## Instrucciones

1.  Utilice `DataFrame.describe()` para ver las estadísticas descriptivas de todas las columnas.

In [22]:
autos.describe()

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer,monthOfRegistration,nrOfPictures,postalCode
count,371528.0,371528.0,371528.0,371528.0,371528.0,371528.0,371528.0
mean,17295.14,2004.577997,115.549477,125618.688228,5.734445,0.0,50820.66764
std,3587954.0,92.866598,192.139578,40112.337051,3.712412,0.0,25799.08247
min,0.0,1000.0,0.0,5000.0,0.0,0.0,1067.0
25%,1150.0,1999.0,70.0,125000.0,3.0,0.0,30459.0
50%,2950.0,2003.0,105.0,150000.0,6.0,0.0,49610.0
75%,7200.0,2008.0,150.0,150000.0,9.0,0.0,71546.0
max,2147484000.0,9999.0,20000.0,150000.0,12.0,0.0,99998.0


2.  Escriba señalando:

    -   Cualquier columna que tenga principalmente un valor que sea candidato a descartarse
    -   Cualquier columna que necesite más investigación.
    -   Cualquier ejemplo de datos numéricos almacenados como texto que deba limpiarse.

3.  Si necesita investigar más alguna columna, hágalo y anote cualquier cosa adicional que encuentre.

4.  Probablemente descubrió que las columnas de precio y odómetro son valores numéricos almacenados como texto. Para cada columna:

    -   Elimine cualquier carácter no numérico.
    -   Convierta la columna a tipo numérico.
    -   Utilice `DataFrame.rename()` para cambiar el nombre de la columna a `odometer_km`.

Las preguntas 2,3 y 4 ya están desarrolladas, por que el set de datos venía con las transformaciones solicitadas d eacuerdo con respuesta del profesor.

In [49]:
autos.rename(columns={'kilometer': 'odometer_km'}, inplace=True)
autos

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,registration_year,gearbox,powerPS,model,odometer_km,registration_month,fuelType,brand,unrepaired_damage,ad_created,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3TÜRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
371523,2016-03-14 17:48:27,Suche_t4___vito_ab_6_sitze,privat,Angebot,2200,test,,2005,,0,,20000,1,,sonstige_autos,,2016-03-14 00:00:00,0,39576,2016-04-06 00:46:52
371524,2016-03-05 19:56:21,Smart_smart_leistungssteigerung_100ps,privat,Angebot,1199,test,cabrio,2000,automatik,101,fortwo,125000,3,benzin,smart,nein,2016-03-05 00:00:00,0,26135,2016-03-11 18:17:12
371525,2016-03-19 18:57:12,Volkswagen_Multivan_T4_TDI_7DC_UY2,privat,Angebot,9200,test,bus,1996,manuell,102,transporter,150000,3,diesel,volkswagen,nein,2016-03-19 00:00:00,0,87439,2016-04-07 07:15:26
371526,2016-03-20 19:41:08,VW_Golf_Kombi_1_9l_TDI,privat,Angebot,3400,test,kombi,2002,manuell,100,golf,150000,6,diesel,volkswagen,,2016-03-20 00:00:00,0,40764,2016-03-24 12:45:21


## 4. Exploración de las columnas odómetro y precio

En el paso anterior, encontró de que hay varias columnas de texto en las que casi todos los valores son iguales (`seller` y `offer_type`). También convirtió las columnas `price` y `odometer` a tipos numéricos y cambió el nombre de odometer a `odometer_km`.

Continuemos explorando los datos, específicamente buscando datos que no se vean bien. Comenzaremos analizando las columnas `odometer_km` y `price`. Estos son los pasos que seguiremos:

-   Analice las columnas utilizando valores mínimos y máximos y busque cualquier valor que parezca demasiado alto o bajo (valores atípicos) que podríamos querer eliminar.

-   Usaremos:

    -   `Series.unique()`. Forma para ver cuántos valores únicos.

    -   `Series.describe()` para ver mínimo/máximo/mediana/media, etc.

    -   `Series.value_counts()`, con algunas variaciones:

        -   encadenado a `.head()` si hay muchos valores.
        -   Debido a que `Series.value_counts()` devuelve una serie, podemos usa `Series.sort_index()` con `ascennding = True` o `False` para ver los valores más altos y más bajos con sus conteos (también puede encadenar a `head()`).

    -   Para eliminar valores atípicos, puede utilizar `df[(df["col"]> x) & (df["col"] < y)]`, pero es más legible usar `df[df["col"].between(x, y)]`.

## Instrucciones

1.  Para cada una de las columnas `odometer_km` y `price`:

    -   Utilice las técnicas anteriores para explorar los datos.
    -   Si encuentra que hay valores atípicos, elimínelos y escriba un párrafo explicando su decisión.
    -   Una vez que haya eliminado los valores atípicos, haga algunas observaciones sobre los valores restantes.