## Importamos las librerías necesarias para hacer el análisis

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Cargamos el dataset

In [None]:
df = pd.read_excel('listado_coches.xlsx')

## Exploración inicial

In [None]:
# Podemos empezar por ejemplo viendo las primeras filas del dataframe
df.head()

In [None]:
# Una vez que vemos el tipo de dataset que tenemos podemos hacer un análisis un poco más en profundidad para por ejemplo
# ver la información sobre el tipo de datos, cantidad de valores nulos etc
df.info()

# Comprobamos cuantas filas y columnas tenemos en el dataset y ver la volumetría que tiene
df.shape

En este caso por ejemplo podemos ver que de los 50.000 coches de segunda mano que tenemos en el dataset existen algunos
Registros que tienen valores nulos en columnas como Tipo de combustible o Año.

In [None]:
# Relizamos un análisis descriptivo de las columnas numéricas
df.describe()

## Limpieza del dataset

Lo último que quedaría por hacer con un dataset es la fase de limpieza de los datos. En el análisis inicial hemos visto como existen valores null.

In [None]:
# Para eliminar valores null podemos ver que columnas tienen valores null y eliminar las filas que contengan esos valores

# Identificar las columnas con valores nulos
columnas_con_nulos = df.columns[df.isnull().any()].tolist()
print(columnas_con_nulos)

# Eliminar los valores nulos en esas columnas
df_sin_nulos = df.dropna(subset=columnas_con_nulos)

# Podemos comparar los dataframe y veremos como hemos eliminado algunas filas con valores nulos
print("\nDataframe completo: ", df.shape)
print("\nDataframe con los null filtrados: ", df_sin_nulos.shape)

In [None]:
# Podemos primero aplicar el filtro con todas las condiciones
filtro = (df['Tipo de combustible'] == 'Diésel') & (df['Tipo de cambio'] == 'Manual') & (df['Año'] > 2015)

# Filtramos y obtenemos el resultado
resultado = df.loc[filtro]
print(f"Existen {resultado.shape[0]} coches que cumplen con los requisitos")

## Exploración gráfica

Una imagen vale más que mil palabras por lo que a la hora de analizar un dataset, un análisis gráfico resulta muy beneficioso
Podemos realizar tanto gráficas de columnas numéricas como de columnas categóricas

#### Columnas numéricas

In [None]:
df['Año'].hist()
plt.xlabel('Año de matriculación')
plt.ylabel('Número de coches')
plt.title('Histograma de la distribución de años de matriculación')
plt.show()

#### Ejercicio 1: Crea un diagrama de dispersión que muestre la relación entre el año de un vehículo y su precio 

#### Solución

In [None]:
# Crear el diagrama de dispersión
plt.scatter(df['Año'], df['Precio'], alpha=0.5)

# Personalizar el gráfico
plt.title('Relación entre el Año de Matriculación y el Precio del Vehículo')
plt.xlabel('Año de Matriculación')
plt.ylabel('Precio del Vehículo')

# Mostrar el gráfico
plt.show()

In [None]:
# Columnas categóricas
df['Tipo de combustible'].value_counts().plot(kind='bar')
plt.xlabel('Tipo de combustible')
plt.ylabel('Número de coches')
plt.title('Histograma de la distribución de Tipos de combustible')
plt.show()

#### Ejercicio 2: Crea un treemap de la columna Tipo de combustible.


#### Solución

In [None]:
import matplotlib.pyplot as plt
import squarify
import pandas as pd

# Supongamos que tienes un DataFrame llamado df con la columna "tipo"
# Asegúrate de que el nombre de la columna coincida con tu dataset

# Agrupar los datos por la columna "tipo" y contar la cantidad de elementos en cada categoría
data = df['tipo'].value_counts()

# Crear el treemap
plt.figure(figsize=(10, 6))  # Ajusta el tamaño del gráfico
squarify.plot(sizes=data.values, label=data.index, alpha=0.7)
plt.title('Treemap de la columna "tipo"')
plt.axis('off')  # Desactiva los ejes
plt.show()

#### matriz de correlación

Este termino es muy importante a la hora de realizar un análisis de un dataset ya que indica los coeficientes de correlación de distintas variables. La matriz muestra cómo se relacionan entre sí todos los posibles pares de valores de una tabla

In [None]:
# Matriz de correlaciones
corr_matrix = df.corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()

Analizando esta matriz podemos sacar varias conclusiones clave como por ejemplo que el valor correlado entre las columnas de Precio y de Kilómetros es negativo por lo que quiere decir que a mayor númer de kilómetros, menor será el precio. Otra conclusión puede ser que cuanto mayor sea el año de matriculación menos kilómetros se habrán hecho. 

Este es un ejemplo sencillo que simplemente con el sentido común podríamos realizar esta matriz pero en proyectos de decenas de variables es muy importante saber cuales están correladas entre si.

Como podemos observar se han eliminado 183 filas que tenían valores nulos. También podemos ver las columnas que tenían valores nulos.

Otra forma de filtrar datos no tiene que ser necesariamente para eliminar valores nulos puede ser por ejemplo una concatenación de condiciones para sacar los datos que necesites.

Un ejemplo podría ser sacar todos los coches de tipo Diésel que son manuales y que tienen un año de matriculación superior al 2015. 
