## Coches de Segunda Mano - Limpieza y Análisis 

Para este ejercicio vamos a usar el archivo llamado _**coches_segunda_mano.csv**_, usaremos **pandas** para leer el archivo en Python y tenerlo como **pd.DataFrame**:

El **Dataframe** está compuesto por las siguiente columnas y tipos de datos:

|Columna                 |Descripción                                         |dtype     |Procesar|
|------------------------|----------------------------------------------------|----------|--------|
|**fecha_matriculacion** |Fecha de matriculación del coche.                   |**string**|_Si_    |
|**tipo_combustible**    |Tipo de combustible.                                |**string**|No      |
|**kilometros**          |Kilometraje del coche.                              |**string**|_Si_    |
|**tipo_carroceria**     |Tipo de carroceria del coche.                       |**string**|No      |
|**tipo_cambio**         |Tipo de cambio del coche.                           |**string**|No      |
|**potencia_cv**         |Potencia del coche en caballos de vapor.            |**float** |No      |
|**garantia**            |Duración de la garantía del coche en meses.         |**string**|_Si_    |
|**distintivo_ambiental**|Etiqueta de Distintivo Ambiental.                   |**string**|No      |
|**precio**              |Precio del coche.                                   |**string**|_Si_    |
|**peso_masa_kg**        |Peso del coche en kilogramos.                       |**float** |No      |
|**puertas**             |Número de puertas.                                  |**float** |No      |
|**plazas**              |Número de plazas/asientos del coche.                |**float** |No      |
|**cilindros**           |Número de cilindros del coche.                      |**float** |No      |
|**co2**                 |Emisiones de CO2 en g/km.                           |**string**|_Si_    |
|**deposito**            |Tamaño del deposito de gasolina del coche el litros.|**string**|_Si_    |


El ejercicio será dividido en dos partes: **Limpieza** y **Análisis**.

### 01. Limpieza

En esta parte nos enfocaremos en limpiar y transformar algunas columnas que tienen tipo de datos incorrecto o tienen valores erroneos:

0. Lee el archivo con **pandas**, usaremos **df** como nombre para la variable del **DataFrame**.
---
1. Transforma la columna de _**kilometros**_ a tipo **float**:
    - _Ejemplo_: '2.500 km' $\longrightarrow$ 2500.0
    - Si existe algun elemento que no se pueda transformar a número reemplazalo por **np.nan**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.
---
2. Transforma la columna de _**precio**_ a tipo **float**:
    - _Ejemplo_: '33.400 €' $\longrightarrow$ 33400.0
    - Si existe algun elemento que no se pueda transformar a número reemplazalo por **np.nan**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.
---
3. Transforma la columna de _**deposito**_ a tipo **float**:
    - _Ejemplo_: '35,00' $\longrightarrow$ 35.0
    - Si existe algun elemento que no se pueda transformar a número reemplazalo por **np.nan**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.
---
4. Transforma la columna de _**co2**_ a tipo **float**:
    - _Ejemplo_: '139' $\longrightarrow$ 139.0
    - Si existe algun elemento que no se pueda transformar a número reemplazalo por **np.nan**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.
---
5. Separa la columna de _**fecha_matriculacion**_ en 2 columnas: _**month**_ y _**year**_
    - Columna _**month**_ a tipo _**int**_:
        - _Ejemplo_: '05/2023' $\longrightarrow$ 5
    - Columna _**year**_ a tipo _**int**_:
        - _Ejemplo_: '05/2023' $\longrightarrow$ 2023
    - Elimina la columna _**fecha_matriculacion**_ del **DataFrame**.
---
6. Columna _**garantia**_:
    - Elimina la palabra "meses" de todos los elementos que contengan esa cadena. Transforma esos elementos a tipo **float**.
    - Reemplaza a **0** los elementos que sean igual a **"No"**.
    - Reemplaza a **np.nan** los elementos que sean igual a **"Sí"**.
    - Reemplaza los **np.nan** por la media de todos los valores de esta columna.
---
7. Guarda el **DataFrame** en un archivo **.csv** usando la siguiente linea de código:
```python
df.to_csv("coches_segunda_mano_limpio.csv", index = False)
```

**El resultado final debe ser un pd.DataFrame con 71218 filas y 16 columnas.**

In [1]:
import numpy as np
import pandas as pd
from datetime import datetime as dt

In [2]:
def clean_data(df: pd.DataFrame) -> pd.DataFrame:

    # Clean 'kilometros'
    df['kilometros'] = df['kilometros'].str.replace(' km', '').str.replace('.', '', regex=False).astype(float)
    
    # Clean 'precio'
    df['precio'] = df['precio'].str.replace(' €', '').str.replace('.', '', regex=False).astype(float)                                    
    
    # Clean 'deposito'
    df['deposito'] = df['deposito'].str.replace(',', '', regex=False).astype(float)

    # Clean 'co2'
    df['co2'] = df['co2'].replace('-', '0').astype(float)
    
    # Clean 'garantia'
    df.replace({'garantia': {'Sí': np.nan, 'No': '0'}}, inplace=True)
    df['garantia'] = df['garantia'].str.replace(' meses', '', regex=False).astype(float)
    df['garantia'] = df['garantia'].replace(np.nan, df['garantia'].mean())

    # Split 'fecha_matriculacion' into 'month' and 'year'
    df[['month', 'year']] = df['fecha_matriculacion'].str.split('/', expand=True).astype(int)
    df.drop(columns=['fecha_matriculacion'], inplace=True)

    # Convert columns to int
    df['puertas'] = df['puertas'].astype(int)
    df['plazas'] = df['plazas'].astype(int)
    df['cilindros'] = df['cilindros'].astype(int)
    df['potencia_cv'] = df['potencia_cv'].astype(int)

    # Convert columns to category
    df['tipo_combustible'] = df['tipo_combustible'].astype('category')
    df['tipo_carroceria'] = df['tipo_carroceria'].astype('category')
    df['tipo_cambio'] = df['tipo_cambio'].astype('category')
    df['distintivo_ambiental'] = df['distintivo_ambiental'].astype('category')   

    return df

In [3]:
df = pd.read_csv('coches_segunda_mano.csv')
df = clean_data(df)
df

Unnamed: 0,tipo_combustible,kilometros,tipo_carroceria,tipo_cambio,potencia_cv,garantia,distintivo_ambiental,precio,peso_masa_kg,puertas,plazas,cilindros,co2,deposito,month,year
0,Gasolina,10.0,Berlina,Manual,140,36.0,C,33400.0,1425.0,3,4,4,139.0,3500.0,5,2023
1,Gasolina,10.0,Berlina,Manual,140,36.0,C,33900.0,1425.0,3,4,4,139.0,3500.0,6,2023
2,Gasolina,15.0,Berlina,Manual,165,36.0,C,27200.0,1425.0,3,4,4,0.0,3500.0,12,2023
3,Gasolina,50.0,Berlina,Manual,180,12.0,C,38900.0,1545.0,3,4,4,0.0,3500.0,1,2024
4,Gasolina,2500.0,Berlina,Automático,180,36.0,C,29850.0,1545.0,3,4,4,0.0,3500.0,5,2023
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
71213,Híbrido Enchufable,99000.0,Todo Terreno,Automático,390,12.0,0 EMISIONES,51490.0,2980.0,5,7,4,48.0,7000.0,11,2020
71214,Híbrido Enchufable,26761.0,Todo Terreno,Automático,390,12.0,0 EMISIONES,68900.0,2980.0,5,7,4,48.0,7000.0,5,2022
71215,Híbrido Enchufable,66070.0,Todo Terreno,Automático,390,12.0,0 EMISIONES,67900.0,2980.0,5,7,4,48.0,7000.0,2,2021
71216,Híbrido Enchufable,31800.0,Todo Terreno,Automático,390,12.0,0 EMISIONES,61500.0,2980.0,5,7,4,48.0,7000.0,12,2020


### 02. Análisis

Responde a las siguientes preguntas usando el **DataFrame** de la parte anterior:

1. Muestra los estadísticos descriptivos (media, mediana, mínimo, máximo, ...) de todas las columnas del **DataFrame**.

2. ¿En que año se matricularon más coches? Muestra el resultado en porcentaje, ordenado de mayor a menor.

3. ¿Que cantidad (en porcentaje) de coches tienen el valor de _**potencia_cv**_ mayor que la media?

4. ¿Cuales son las 3 categorias de la columna _**tipo_combustible**_ que menos se repiten?

5. Agrupando los datos por la columna _**distintivo_ambiental**_, ¿Cual categoria tiene de media el _**precio**_ más alto?

6. Agrupando los datos por la columna _**year**_, ¿Que año tiene de media el _**co2**_ más bajo?

In [4]:
means = df.select_dtypes(include=('int', 'float')).mean()
medians = df.select_dtypes(include=('int', 'float')).median()
modes = df.select_dtypes(include=('int', 'float')).mode().iloc[0]
ranges = df.select_dtypes(include=('int', 'float')).max() - df.select_dtypes(include=('int', 'float')).min()

combined_stats = pd.DataFrame({
    'Mean': means,
    'Median': medians,
    'Mode': modes,
    'Range': ranges
})

combined_stats

Unnamed: 0,Mean,Median,Mode,Range
kilometros,73434.436856,63000.0,1.0,1965000.0
potencia_cv,164.535693,130.0,150.0,886.0
garantia,17.23763,12.0,12.0,122412.0
precio,31737.004521,20000.0,17900.0,2649999.0
peso_masa_kg,1973.483586,1920.0,1900.0,3500.0
puertas,4.704766,5.0,5.0,3.0
plazas,4.929821,5.0,5.0,7.0
cilindros,4.039751,4.0,4.0,14.0
co2,101.436154,111.0,0.0,596.0
deposito,5286.687776,5000.0,5000.0,12100.0


In [5]:
year_percentage = df['year'].value_counts(normalize=True) * 100
year_count = df['year'].value_counts()

year_summary_df = pd.DataFrame({
    'Count': year_count,
    'Percentage': year_percentage.apply(lambda x: f"{x:.2f}%")
})

year_summary_df

Unnamed: 0_level_0,Count,Percentage
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2019,11258,15.81%
2022,8908,12.51%
2023,7933,11.14%
2018,7569,10.63%
2021,7433,10.44%
2020,6741,9.47%
2017,5013,7.04%
2016,3722,5.23%
2015,2819,3.96%
2014,1906,2.68%


In [6]:
count_above_mean = (df['potencia_cv'] > means['potencia_cv']).sum()
total_elements = len(df)
percentage_above_mean = (count_above_mean / total_elements) * 100
print(f"{percentage_above_mean:.2f}%")

26.35%


In [7]:
df['tipo_combustible'].value_counts().nsmallest(3).reset_index()

Unnamed: 0,tipo_combustible,count
0,Corriente eléctrica,2
1,Mixto Gasolina/Etanol,5
2,Diesel y corriente eléctrica,28


In [8]:
df.groupby('distintivo_ambiental', observed=False)['precio'].max().reset_index(name='max_price')

Unnamed: 0,distintivo_ambiental,max_price
0,0 EMISIONES,1760000.0
1,B,1850000.0
2,C,2650000.0
3,ECO,559900.0


In [9]:
df.groupby('year')['co2'].mean().reset_index(name='co2_mean').nsmallest(3, 'co2_mean')

Unnamed: 0,year,co2_mean
0,2000,5.071429
24,2024,18.453716
1,2001,18.58209


In [10]:
##############################################################################################################################