## Coches de Segunda Mano - Limpieza y Análisis 

Para este ejercicio vamos a usar el archivo llamado _**coches_segunda_mano.csv**_, usaremos **pandas** para leer el archivo en Python y tenerlo como **pd.DataFrame**:

El **Dataframe** está compuesto por las siguiente columnas y tipos de datos:

|Columna                 |Descripción                                         |dtype     |Procesar|
|------------------------|----------------------------------------------------|----------|--------|
|**fecha_matriculacion** |Fecha de matriculación del coche.                   |**string**|_Si_    |
|**tipo_combustible**    |Tipo de combustible.                                |**string**|No      |
|**kilometros**          |Kilometraje del coche.                              |**string**|_Si_    |
|**tipo_carroceria**     |Tipo de carroceria del coche.                       |**string**|No      |
|**tipo_cambio**         |Tipo de cambio del coche.                           |**string**|No      |
|**potencia_cv**         |Potencia del coche en caballos de vapor.            |**float** |No      |
|**garantia**            |Duración de la garantía del coche en meses.         |**string**|_Si_    |
|**distintivo_ambiental**|Etiqueta de Distintivo Ambiental.                   |**string**|No      |
|**precio**              |Precio del coche.                                   |**string**|_Si_    |
|**peso_masa_kg**        |Peso del coche en kilogramos.                       |**float** |No      |
|**puertas**             |Número de puertas.                                  |**float** |No      |
|**plazas**              |Número de plazas/asientos del coche.                |**float** |No      |
|**cilindros**           |Número de cilindros del coche.                      |**float** |No      |
|**co2**                 |Emisiones de CO2 en g/km.                           |**string**|_Si_    |
|**deposito**            |Tamaño del deposito de gasolina del coche el litros.|**string**|_Si_    |


El ejercicio será dividido en dos partes: **Limpieza** y **Análisis**.

### 01. Limpieza

En esta parte nos enfocaremos en limpiar y transformar algunas columnas que tienen tipo de datos incorrecto o tienen valores erroneos:

0. Lee el archivo con **pandas**, usaremos **df** como nombre para la variable del **DataFrame**.
---
1. Transforma la columna de _**kilometros**_ a tipo **float**:
    - _Ejemplo_: '2.500 km' $\longrightarrow$ 2500.0
    - Si existe algun elemento que no se pueda transformar a número reemplazalo por **np.nan**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.
---
2. Transforma la columna de _**precio**_ a tipo **float**:
    - _Ejemplo_: '33.400 €' $\longrightarrow$ 33400.0
    - Si existe algun elemento que no se pueda transformar a número reemplazalo por **np.nan**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.
---
3. Transforma la columna de _**deposito**_ a tipo **float**:
    - _Ejemplo_: '35,00' $\longrightarrow$ 35.0
    - Si existe algun elemento que no se pueda transformar a número reemplazalo por **np.nan**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.
---
4. Transforma la columna de _**co2**_ a tipo **float**:
    - _Ejemplo_: '139' $\longrightarrow$ 139.0
    - Si existe algun elemento que no se pueda transformar a número reemplazalo por **np.nan**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.
---
5. Separa la columna de _**fecha_matriculacion**_ en 2 columnas: _**month**_ y _**year**_
    - Columna _**month**_ a tipo _**int**_:
        - _Ejemplo_: '05/2023' $\longrightarrow$ 5
    - Columna _**year**_ a tipo _**int**_:
        - _Ejemplo_: '05/2023' $\longrightarrow$ 2023
    - Elimina la columna _**fecha_matriculacion**_ del **DataFrame**.
---
6. Columna _**garantia**_:
    - Elimina la palabra "meses" de todos los elementos que contengan esa cadena. Transforma esos elementos a tipo **float**.
    - Reemplaza a **0** los elementos que sean igual a **"No"**.
    - Reemplaza a **np.nan** los elementos que sean igual a **"Sí"**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.
---
7. Guarda el **DataFrame** en un archivo **.csv** usando la siguiente linea de código:
```python
df.to_csv("coches_segunda_mano_limpio.csv", index = False)
```

**El resultado final debe ser un pd.DataFrame con 71218 filas y 16 columnas.**

**RESOLUCIÓN:**

Empezamos, como siempre, importando las librerías con las que vamos a trabajar en este ejercicio:

In [1]:
import numpy as np
import pandas as pd

0. Lee el archivo con **pandas**, usaremos **df** como nombre para la variable del **DataFrame**.

In [290]:
df = pd.read_csv("coches_segunda_mano.csv")

df.head(3)

Unnamed: 0,fecha_matriculacion,tipo_combustible,kilometros,tipo_carroceria,tipo_cambio,potencia_cv,garantia,distintivo_ambiental,precio,peso_masa_kg,puertas,plazas,cilindros,co2,deposito
0,05/2023,Gasolina,10 km,Berlina,Manual,140.0,36 meses,C,33.400 €,1425.0,3.0,4.0,4.0,139,3500
1,06/2023,Gasolina,10 km,Berlina,Manual,140.0,36 meses,C,33.900 €,1425.0,3.0,4.0,4.0,139,3500
2,12/2023,Gasolina,15 km,Berlina,Manual,165.0,36 meses,C,27.200 €,1425.0,3.0,4.0,4.0,-,3500


1. Transforma la columna de _**kilometros**_ a tipo **float**:
    - _Ejemplo_: '2.500 km' $\longrightarrow$ 2500.0
    - Si existe algun elemento que no se pueda transformar a número reemplazalo por **np.nan**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.

Para poder buscar y reemplazar un determinado string en nuestra columna tenemos el atributo *.str.replace()*, el cual toma como primer parámetro los caracteres que buscamos y como segundo parámetro por lo que lo queremos sustituir. En este caso, como quiero sólo eliminarlos simplemente pongo un string vacío como segundo parámetro.

A continuación, recasteo mi columna entera a tipo float con el atributo *.astype()*.

Para guardar estos cambios en mi dataframe es necesario asignarle a cada línea de código la serie donde quiero que se produzcan los cambios, que en mi caso es la columna df["kilometros"].

In [291]:
df["kilometros"] = df["kilometros"].str.replace('.', '')

df["kilometros"] = df["kilometros"].str.replace(' km', '')

df["kilometros"] = df["kilometros"].astype(float)

df["kilometros"]

0           10.0
1           10.0
2           15.0
3           50.0
4         2500.0
          ...   
71213    99000.0
71214    26761.0
71215    66070.0
71216    31800.0
71217    39700.0
Name: kilometros, Length: 71218, dtype: float64

Esta columna de nuestro data frame no posee ningún NaN, por lo que no hizo falta remplazar ningún valor.

2. Transforma la columna de _**precio**_ a tipo **float**:
    - _Ejemplo_: '33.400 €' $\longrightarrow$ 33400.0
    - Si existe algun elemento que no se pueda transformar a número reemplazalo por **np.nan**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.

Para este ejercicio realizaremos el mismo proceddemiento que en el ejercicio anterior:

In [292]:
df["precio"] = df["precio"].str.replace('.', '')

df["precio"] = df["precio"].str.replace(' €', '')

df["precio"] = df["precio"].astype(float)

df["precio"]

0        33400.0
1        33900.0
2        27200.0
3        38900.0
4        29850.0
          ...   
71213    51490.0
71214    68900.0
71215    67900.0
71216    61500.0
71217    59890.0
Name: precio, Length: 71218, dtype: float64

Esta columna de nuestro data frame no posee ningún NaN, por lo que no hizo falta remplazar ningún valor.

3. Transforma la columna de _**deposito**_ a tipo **float**:
    - _Ejemplo_: '35,00' $\longrightarrow$ 35.0
    - Si existe algun elemento que no se pueda transformar a número reemplazalo por **np.nan**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.

De nuevo, realizamos el mismo procedimiento que en el ejercicio anterior:

In [293]:
df["deposito"] = df["deposito"].str.replace(',', '.')

df["deposito"] = df["deposito"].astype(float)

df["deposito"]

0        35.0
1        35.0
2        35.0
3        35.0
4        35.0
         ... 
71213    70.0
71214    70.0
71215    70.0
71216    70.0
71217    70.0
Name: deposito, Length: 71218, dtype: float64

Esta columna de nuestro data frame no posee ningún NaN, por lo que no hizo falta remplazar ningún valor.

4. Transforma la columna de _**co2**_ a tipo **float**:
    - _Ejemplo_: '139' $\longrightarrow$ 139.0
    - Si existe algun elemento que no se pueda transformar a número reemplazalo por **np.nan**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.

Como podemos observar, esta columna sí que posee NaNs, aunque Python de momento no los considera como tal porque lo toma como otro de los valores string de los que está compuesta nuestra columna de co2:

In [224]:
df.head(5)

Unnamed: 0,fecha_matriculacion,tipo_combustible,kilometros,tipo_carroceria,tipo_cambio,potencia_cv,garantia,distintivo_ambiental,precio,peso_masa_kg,puertas,plazas,cilindros,co2,deposito
0,05/2023,Gasolina,10.0,Berlina,Manual,140.0,36 meses,C,33400.0,1425.0,3.0,4.0,4.0,139,35.0
1,06/2023,Gasolina,10.0,Berlina,Manual,140.0,36 meses,C,33900.0,1425.0,3.0,4.0,4.0,139,35.0
2,12/2023,Gasolina,15.0,Berlina,Manual,165.0,36 meses,C,27200.0,1425.0,3.0,4.0,4.0,-,35.0
3,01/2024,Gasolina,50.0,Berlina,Manual,180.0,12 meses,C,38900.0,1545.0,3.0,4.0,4.0,-,35.0
4,05/2023,Gasolina,2500.0,Berlina,Automático,180.0,36 meses,C,29850.0,1545.0,3.0,4.0,4.0,-,35.0


Como tenemos elementos que no se pueden transformar en números, en este caso se trata de strings "-", procederemos a tranformarlos en np.nan mediante el atributo *.replace()*, que  es similar al *.str.replace()* sólo que este sí que permite como parámetros varios tipos de valores aparte del string.

In [294]:
df["co2"] = df["co2"].replace("-", np.nan)

In [226]:
df.head(5)

Unnamed: 0,fecha_matriculacion,tipo_combustible,kilometros,tipo_carroceria,tipo_cambio,potencia_cv,garantia,distintivo_ambiental,precio,peso_masa_kg,puertas,plazas,cilindros,co2,deposito
0,05/2023,Gasolina,10.0,Berlina,Manual,140.0,36 meses,C,33400.0,1425.0,3.0,4.0,4.0,139.0,35.0
1,06/2023,Gasolina,10.0,Berlina,Manual,140.0,36 meses,C,33900.0,1425.0,3.0,4.0,4.0,139.0,35.0
2,12/2023,Gasolina,15.0,Berlina,Manual,165.0,36 meses,C,27200.0,1425.0,3.0,4.0,4.0,,35.0
3,01/2024,Gasolina,50.0,Berlina,Manual,180.0,12 meses,C,38900.0,1545.0,3.0,4.0,4.0,,35.0
4,05/2023,Gasolina,2500.0,Berlina,Automático,180.0,36 meses,C,29850.0,1545.0,3.0,4.0,4.0,,35.0


Ahora que Python ya reconoce estos valores como tipo NaN, podemos hacer una suma de estos:

In [295]:
df.isna().sum()

fecha_matriculacion         0
tipo_combustible            0
kilometros                  0
tipo_carroceria             0
tipo_cambio                 0
potencia_cv                 0
garantia                    0
distintivo_ambiental        0
precio                      0
peso_masa_kg                0
puertas                     0
plazas                      0
cilindros                   0
co2                     15630
deposito                    0
dtype: int64

Como podemos ver, ahora nuestra columna de *co2* contiene 15630 NaNs, por lo que debemos asignarle un valor a cada uno de ellos, el cual será el promedio de toda la columna. Pero primero recastearemos nuestra columna a tipo float:

In [296]:
df["co2"] = df["co2"].astype(float)

df["co2"]

0        139.0
1        139.0
2          NaN
3          NaN
4          NaN
         ...  
71213     48.0
71214     48.0
71215     48.0
71216     48.0
71217     48.0
Name: co2, Length: 71218, dtype: float64

In [297]:
df["co2"] = df["co2"].fillna(df["co2"].mean())

df["co2"]

0        139.000000
1        139.000000
2        129.957545
3        129.957545
4        129.957545
            ...    
71213     48.000000
71214     48.000000
71215     48.000000
71216     48.000000
71217     48.000000
Name: co2, Length: 71218, dtype: float64

In [230]:
df.head(5)

Unnamed: 0,fecha_matriculacion,tipo_combustible,kilometros,tipo_carroceria,tipo_cambio,potencia_cv,garantia,distintivo_ambiental,precio,peso_masa_kg,puertas,plazas,cilindros,co2,deposito
0,05/2023,Gasolina,10.0,Berlina,Manual,140.0,36 meses,C,33400.0,1425.0,3.0,4.0,4.0,139.0,35.0
1,06/2023,Gasolina,10.0,Berlina,Manual,140.0,36 meses,C,33900.0,1425.0,3.0,4.0,4.0,139.0,35.0
2,12/2023,Gasolina,15.0,Berlina,Manual,165.0,36 meses,C,27200.0,1425.0,3.0,4.0,4.0,129.957545,35.0
3,01/2024,Gasolina,50.0,Berlina,Manual,180.0,12 meses,C,38900.0,1545.0,3.0,4.0,4.0,129.957545,35.0
4,05/2023,Gasolina,2500.0,Berlina,Automático,180.0,36 meses,C,29850.0,1545.0,3.0,4.0,4.0,129.957545,35.0


Finalmente, todos esos NaNs que hemos reemplazado son ahora un float con el valor del promedio de la columna, que es 129.

5. Separa la columna de _**fecha_matriculacion**_ en 2 columnas: _**month**_ y _**year**_
    - Columna _**month**_ a tipo _**int**_:
        - _Ejemplo_: '05/2023' $\longrightarrow$ 5
    - Columna _**year**_ a tipo _**int**_:
        - _Ejemplo_: '05/2023' $\longrightarrow$ 2023
    - Elimina la columna _**fecha_matriculacion**_ del **DataFrame**.

Para esta tarea nos ayudaremos del atributo *.map()*, recorrerá toda nuestra columna y le aplicará la operación/comando que queramos a cada fila. En este caso, utilizo *.split()* para separar cada string por el caracter "/". El resultado lo guardo en la varirable *fecha*:

In [298]:
fecha = df["fecha_matriculacion"].map(lambda x : x.split("/"))

fecha


0        [05, 2023]
1        [06, 2023]
2        [12, 2023]
3        [01, 2024]
4        [05, 2023]
            ...    
71213    [11, 2020]
71214    [05, 2022]
71215    [02, 2021]
71216    [12, 2020]
71217    [01, 2021]
Name: fecha_matriculacion, Length: 71218, dtype: object

A continuación, generamos un bucle que me devuelve una lista con todos los primeros elementos de la variable *fecha*. Esta lista contendrá nuestra sucesión de meses:

In [299]:
meses = []

for i in fecha:
    meses.append(i[0])

meses

['05',
 '06',
 '12',
 '01',
 '05',
 '06',
 '06',
 '10',
 '11',
 '10',
 '11',
 '02',
 '09',
 '02',
 '02',
 '02',
 '09',
 '09',
 '03',
 '09',
 '11',
 '11',
 '08',
 '01',
 '03',
 '03',
 '06',
 '10',
 '10',
 '10',
 '06',
 '10',
 '08',
 '10',
 '11',
 '08',
 '07',
 '06',
 '06',
 '07',
 '06',
 '06',
 '12',
 '02',
 '02',
 '02',
 '02',
 '02',
 '04',
 '10',
 '01',
 '01',
 '05',
 '05',
 '05',
 '05',
 '08',
 '02',
 '06',
 '11',
 '10',
 '06',
 '05',
 '06',
 '06',
 '07',
 '08',
 '05',
 '05',
 '05',
 '04',
 '05',
 '04',
 '04',
 '04',
 '08',
 '11',
 '11',
 '11',
 '10',
 '10',
 '04',
 '05',
 '12',
 '10',
 '02',
 '05',
 '05',
 '02',
 '10',
 '08',
 '03',
 '10',
 '01',
 '01',
 '10',
 '12',
 '06',
 '11',
 '09',
 '03',
 '07',
 '02',
 '06',
 '08',
 '11',
 '11',
 '01',
 '02',
 '10',
 '09',
 '02',
 '03',
 '02',
 '04',
 '11',
 '03',
 '08',
 '03',
 '01',
 '07',
 '10',
 '11',
 '11',
 '01',
 '08',
 '08',
 '02',
 '02',
 '03',
 '03',
 '07',
 '04',
 '03',
 '07',
 '02',
 '06',
 '09',
 '11',
 '01',
 '09',
 '06',
 '09',

Y hago lo mismo para los años:

In [300]:
años = []

for i in fecha:
    años.append(i[1])

años

['2023',
 '2023',
 '2023',
 '2024',
 '2023',
 '2023',
 '2022',
 '2022',
 '2022',
 '2022',
 '2022',
 '2023',
 '2023',
 '2024',
 '2024',
 '2024',
 '2022',
 '2022',
 '2023',
 '2022',
 '2022',
 '2022',
 '2022',
 '2023',
 '2023',
 '2023',
 '2023',
 '2023',
 '2023',
 '2023',
 '2023',
 '2022',
 '2023',
 '2022',
 '2022',
 '2022',
 '2023',
 '2023',
 '2023',
 '2023',
 '2023',
 '2023',
 '2023',
 '2024',
 '2024',
 '2024',
 '2024',
 '2024',
 '2023',
 '2023',
 '2023',
 '2023',
 '2022',
 '2022',
 '2022',
 '2022',
 '2023',
 '2023',
 '2022',
 '2022',
 '2022',
 '2023',
 '2023',
 '2022',
 '2022',
 '2022',
 '2022',
 '2023',
 '2023',
 '2023',
 '2023',
 '2023',
 '2023',
 '2023',
 '2023',
 '2022',
 '2023',
 '2023',
 '2023',
 '2023',
 '2023',
 '2022',
 '2023',
 '2023',
 '2021',
 '2023',
 '2022',
 '2023',
 '2022',
 '2022',
 '2023',
 '2022',
 '2022',
 '2022',
 '2023',
 '2022',
 '2022',
 '2022',
 '2022',
 '2022',
 '2023',
 '2022',
 '2022',
 '2023',
 '2023',
 '2023',
 '2023',
 '2024',
 '2022',
 '2022',
 '2022',
 

Y para que estos datos se me guarden en mi dataframe, sólo debo crear sus respectivas series:

In [301]:
df["month"] = meses
df["year"] = años

De esta manera, vemos que se nos han agregado estas dos columnas al final de nuestro dataframe:

In [278]:
df.head(5)

Unnamed: 0,fecha_matriculacion,tipo_combustible,kilometros,tipo_carroceria,tipo_cambio,potencia_cv,garantia,distintivo_ambiental,precio,peso_masa_kg,puertas,plazas,cilindros,co2,deposito,month,year
0,05/2023,Gasolina,10 km,Berlina,Manual,140.0,36 meses,C,33.400 €,1425.0,3.0,4.0,4.0,139,3500,5,2023
1,06/2023,Gasolina,10 km,Berlina,Manual,140.0,36 meses,C,33.900 €,1425.0,3.0,4.0,4.0,139,3500,6,2023
2,12/2023,Gasolina,15 km,Berlina,Manual,165.0,36 meses,C,27.200 €,1425.0,3.0,4.0,4.0,-,3500,12,2023
3,01/2024,Gasolina,50 km,Berlina,Manual,180.0,12 meses,C,38.900 €,1545.0,3.0,4.0,4.0,-,3500,1,2024
4,05/2023,Gasolina,2.500 km,Berlina,Automático,180.0,36 meses,C,29.850 €,1545.0,3.0,4.0,4.0,-,3500,5,2023


También recasteamos estos valores a tipo int:

In [302]:
df["month"] = df["month"].astype(int)
df["year"] = df["year"].astype(int)

Y eliminamos la columna "fecha_matriculacion", que ya no nos aporta nada:

In [303]:
df = df.drop("fecha_matriculacion", axis=1)

df.head(3)

Unnamed: 0,tipo_combustible,kilometros,tipo_carroceria,tipo_cambio,potencia_cv,garantia,distintivo_ambiental,precio,peso_masa_kg,puertas,plazas,cilindros,co2,deposito,month,year
0,Gasolina,10.0,Berlina,Manual,140.0,36 meses,C,33400.0,1425.0,3.0,4.0,4.0,139.0,35.0,5,2023
1,Gasolina,10.0,Berlina,Manual,140.0,36 meses,C,33900.0,1425.0,3.0,4.0,4.0,139.0,35.0,6,2023
2,Gasolina,15.0,Berlina,Manual,165.0,36 meses,C,27200.0,1425.0,3.0,4.0,4.0,129.957545,35.0,12,2023


6. Columna _**garantia**_:
    - Elimina la palabra "meses" de todos los elementos que contengan esa cadena. Transforma esos elementos a tipo **float**.
    - Reemplaza a **0** los elementos que sean igual a **"No"**.
    - Reemplaza a **np.nan** los elementos que sean igual a **"Sí"**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.

In [304]:
df["garantia"] = df["garantia"].str.replace('meses', '')
df["garantia"] = df["garantia"].str.replace('No', '0')
df["garantia"] = df["garantia"].replace("Sí", np.nan)

df["garantia"] = df["garantia"].astype(float)

df["garantia"] = df["garantia"].fillna(df["garantia"].mean())

df["garantia"]

0        36.0
1        36.0
2        36.0
3        12.0
4        36.0
         ... 
71213    12.0
71214    12.0
71215    12.0
71216    12.0
71217    12.0
Name: garantia, Length: 71218, dtype: float64

In [284]:
df.head(3)

Unnamed: 0,tipo_combustible,kilometros,tipo_carroceria,tipo_cambio,potencia_cv,garantia,distintivo_ambiental,precio,peso_masa_kg,puertas,plazas,cilindros,co2,deposito,month,year
0,Gasolina,10 km,Berlina,Manual,140.0,36.0,C,33.400 €,1425.0,3.0,4.0,4.0,139,3500,5,2023
1,Gasolina,10 km,Berlina,Manual,140.0,36.0,C,33.900 €,1425.0,3.0,4.0,4.0,139,3500,6,2023
2,Gasolina,15 km,Berlina,Manual,165.0,36.0,C,27.200 €,1425.0,3.0,4.0,4.0,-,3500,12,2023


7. Guarda el **DataFrame** en un archivo **.csv** usando la siguiente linea de código:
```python
df.to_csv("coches_segunda_mano_limpio.csv", index = False)
```

**El resultado final debe ser un pd.DataFrame con 71218 filas y 16 columnas.**

Nos aseguramos de que nuestro dataframe tenga el número exacto de filas y columnas que nos piden mediante el atributo *.shape()*:

In [305]:
df.shape

(71218, 16)

Y lo gardamos:

In [306]:
df.to_csv("coches_segunda_mano_limpio.csv", index = False)

### 02. Análisis

Responde a las siguientes preguntas usando el **DataFrame** de la parte anterior:

1. Muestra los estadísticos descriptivos (media, mediana, mínimo, máximo, ...) de todas las columnas del **DataFrame**.

In [307]:
df_limpio = pd.read_csv("coches_segunda_mano_limpio.csv")

df_limpio.head(3)

Unnamed: 0,tipo_combustible,kilometros,tipo_carroceria,tipo_cambio,potencia_cv,garantia,distintivo_ambiental,precio,peso_masa_kg,puertas,plazas,cilindros,co2,deposito,month,year
0,Gasolina,10.0,Berlina,Manual,140.0,36.0,C,33400.0,1425.0,3.0,4.0,4.0,139.0,35.0,5,2023
1,Gasolina,10.0,Berlina,Manual,140.0,36.0,C,33900.0,1425.0,3.0,4.0,4.0,139.0,35.0,6,2023
2,Gasolina,15.0,Berlina,Manual,165.0,36.0,C,27200.0,1425.0,3.0,4.0,4.0,129.957545,35.0,12,2023


Una forma rápida de obtener los principales descriptivos de mi dataframe es mediante el atributo *.describe()*:

In [308]:
df_limpio.describe()

Unnamed: 0,kilometros,potencia_cv,garantia,precio,peso_masa_kg,puertas,plazas,cilindros,co2,deposito,month,year
count,71218.0,71218.0,71218.0,71218.0,71218.0,71218.0,71218.0,71218.0,71218.0,71218.0,71218.0,71218.0
mean,73434.44,164.535693,17.23763,31737.0,1973.483586,4.704766,4.929821,4.039751,129.957545,52.866878,5.920764,2018.523365
std,60600.11,107.269527,470.721874,57223.51,379.079845,0.774109,0.612382,1.151842,38.605896,13.586073,3.377524,3.965661
min,0.0,1.0,0.0,1.0,0.0,2.0,2.0,2.0,13.0,0.0,1.0,2000.0
25%,26301.0,110.0,12.0,14599.0,1740.0,5.0,5.0,3.0,109.0,45.0,3.0,2017.0
50%,63000.0,130.0,12.0,20000.0,1920.0,5.0,5.0,4.0,127.0,50.0,6.0,2019.0
75%,105031.0,170.0,12.0,28990.0,2140.0,5.0,5.0,4.0,131.0,60.0,9.0,2021.0
max,1965000.0,887.0,122412.0,2650000.0,3500.0,5.0,9.0,16.0,596.0,121.0,12.0,2024.0


2. ¿En que año se matricularon más coches? Muestra el resultado en porcentaje, ordenado de mayor a menor.

Para ello emplearemos *.value_counts(normalize=True)*, que me da la proporción de cada valor en nuestra columna de interés. Sin embargo, como queremos el porcentaje, multiplicamos el resultado anterior por 100:

In [None]:
proporciones_año = df_limpio["year"].value_counts(normalize=True)
proporciones_año*100

year
2019    15.807801
2022    12.508074
2023    11.139038
2018    10.627931
2021    10.436968
2020     9.465304
2017     7.038951
2016     5.226207
2015     3.958269
2014     2.676290
2013     1.731304
2012     1.558595
2011     1.265130
2010     1.133140
2024     1.076975
2007     0.901457
2008     0.886012
2009     0.860737
2006     0.681008
2005     0.273807
2004     0.221854
2002     0.181134
2003     0.151647
2000     0.098290
2001     0.094077
Name: proportion, dtype: float64

El año con mayor porcentaje de coches matriculados fue el 2019, con un 15,8%.

3. ¿Que cantidad (en porcentaje) de coches tienen el valor de _**potencia_cv**_ mayor que la media?

Para obtener el resultado básicamente divido la cantidad de coches con potencia por encima de la media entre la cantidad total de coches y lo multiplico por 100:

In [326]:
(len(df_limpio[df_limpio["potencia_cv"] > df_limpio["potencia_cv"].mean()])/len(df_limpio["potencia_cv"]))*100

26.352888314751887

Solo el 26,35% de los coches tienen un valor de potencia por encima de la media.

4. ¿Cuales son las 3 categorias de la columna _**tipo_combustible**_ que menos se repiten?

Volvemos a utilizar *.value_count()* pero esta vez con el parámetro *ascending=True*, que devuelve los valores ordenados de menor a mayor:

In [332]:
df_limpio["tipo_combustible"].value_counts(ascending=True).head(3)

tipo_combustible
Corriente eléctrica              2
Mixto Gasolina/Etanol            5
Diesel y corriente eléctrica    28
Name: count, dtype: int64

Las categorías que menos se repiten son, en orden ascendente: corriente elétrica, mixto gasolina/etanol y diesel.

5. Agrupando los datos por la columna _**distintivo_ambiental**_, ¿Cual categoria tiene de media el _**precio**_ más alto?

Agrupamos nuestros valores por "distintivo_ambiental" y pedimos la media de precio para cada clase de "distintivo_ambiental". Como queremos el valor más alto, ordenamos los valores de mayor a menor.

In [353]:
df_limpio.groupby("distintivo_ambiental", as_index = False)["precio"].mean().sort_values(by = "precio", ascending = False).head(1)

Unnamed: 0,distintivo_ambiental,precio
0,0 EMISIONES,75550.708129


La categoría con el precio más alto son los coches 0 emisiones, con una media de 75550 €.

6. Agrupando los datos por la columna _**year**_, ¿Que año tiene de media el _**co2**_ más bajo?

Agrupamos nuestros valores por "year" y pedimos la media de co2 por cada clase de "year" (por cada año). Como queremos el valor más bajo, ordenamos los valores de menor a mayor.

In [356]:
df_limpio.groupby("year", as_index = False)["co2"].mean().sort_values(by = "co2", ascending = True).head(1)

Unnamed: 0,year,co2
20,2020,123.427461


El año con las emisiones más bajas de CO2 fue el 2020, con una media de 123 g/km.

In [None]:
##############################################################################################################################