# An√°lisis Exploratorio de Datos (EDA)

## Autos usados en Lima ‚Äì NeoAuto

Este cuaderno realiza un An√°lisis Exploratorio de Datos (EDA) sobre el dataset limpio `Datos_autos_limpios.csv`.

El objetivo del EDA es:

- Verificar la calidad y coherencia de los datos.

- Detectar valores at√≠picos o inconsistencias relevantes.

- Entender la estructura general del dataset antes de la visualizaci√≥n.

> üìå Nota: Este EDA es intencionalmente ligero, ya que el an√°lisis principal ser√° presentado mediante un dashboard, que es el artefacto final orientado a stakeholders.


### 1. Carga de datos

In [8]:
import pandas as pd
import numpy as np

# Carga del dataset limpio
df = pd.read_csv("Datos_autos_limpios.csv")
df.head()


Unnamed: 0,Marca_Modelo,Precio,Km,Transmision,Combustible,URL,Anio,Marca,Modelo
0,Mitsubishi L200 2023,24000,11200,Mec√°nica,Diesel,https://neoauto.com/auto/usado/mitsubishi-l200...,2023,Mitsubishi,L200
1,Nissan Qashqai 2015,15500,83000,Autom√°tica,Gasolina,https://neoauto.com/auto/usado/nissan-qashqai-...,2015,Nissan,Qashqai
2,Hyundai Grand I10 2016,10500,55000,Autom√°tica,Gasolina,https://neoauto.com/auto/usado/hyundai-grand-i...,2016,Hyundai,Grand I10
3,Bmw X3 30i 2024,52990,12800,Autom√°tica - Secuencial,Gasolina,https://neoauto.com/auto/usado/bmw-x3-30i-2024...,2024,Bmw,X3 30i
4,Ford Ecosport 2014,12900,87781,Mec√°nica,Gasolina,https://neoauto.com/auto/usado/ford-ecosport-2...,2014,Ford,Ecosport


### 2. Visi√≥n general del dataset
Se revisa la dimensi√≥n del dataset y los tipos de datos para confirmar que el proceso de limpieza fue correcto.

In [9]:
df.shape
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 550 entries, 0 to 549
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Marca_Modelo  550 non-null    object
 1   Precio        550 non-null    int64 
 2   Km            550 non-null    int64 
 3   Transmision   550 non-null    object
 4   Combustible   550 non-null    object
 5   URL           550 non-null    object
 6   Anio          550 non-null    int64 
 7   Marca         550 non-null    object
 8   Modelo        550 non-null    object
dtypes: int64(3), object(6)
memory usage: 38.8+ KB


**Observaciones:**

- El dataset contiene 550 registros y 9 variables.

- No existen valores nulos.

- Las variables num√©ricas y categ√≥ricas est√°n correctamente tipadas.

### 3. Estad√≠sticas descriptivas 
Se analizan las principales m√©tricas estad√≠sticas de las variables num√©ricas.

In [10]:
df[["Precio", "Km", "Anio"]].describe()


Unnamed: 0,Precio,Km,Anio
count,550.0,550.0,550.0
mean,24489.461818,66444.009091,2017.732727
std,18801.128167,49723.778614,6.191202
min,3800.0,0.0,1967.0
25%,14812.5,34250.0,2015.0
50%,19500.0,59000.0,2018.0
75%,28375.0,86786.25,2022.0
max,198000.0,350000.0,2026.0


**Observaciones clave:**

- El precio presenta una alta dispersi√≥n, coherente con la variedad de marcas y a√±os.

- El kilometraje muestra valores elevados en algunos casos, esperable en autos usados.

- Se identifican valores at√≠picos en la variable Anio, que ser√°n interpretados a nivel descriptivo y no corregidos en esta etapa.

### 4. Variables categ√≥ricas principales

**4.1 Marcas m√°s frecuentes**

In [11]:
df["Marca"].value_counts().head(10)



Marca
Bmw           76
Toyota        38
Volkswagen    37
Audi          33
Mercedes      31
Mazda         29
Jeep          27
Subaru        26
Honda         25
Nissan        21
Name: count, dtype: int64

Este conteo permite identificar las marcas con mayor presencia en el mercado de autos usados en Lima.

**4.2 Tipo de transmisi√≥n**

In [12]:
df["Transmision"].value_counts()

Transmision
Autom√°tica - Secuencial    301
Autom√°tica                 145
Mec√°nica                   104
Name: count, dtype: int64

**4.3 Tipo de combustible**

In [13]:
df["Combustible"].value_counts()

Combustible
Gasolina     459
Diesel        35
Dual          35
Gas GLP        9
Gas GNV        6
El√©ctrico      5
Gas            1
Name: count, dtype: int64

**Observaciones:**

- La gasolina es claramente el combustible predominante.

- Las categor√≠as Gas GLP, Gas GNV y Gas aparecen con baja frecuencia.

- La categor√≠a "Gas" con un solo registro probablemente corresponde a un error de clasificaci√≥n del anunciante.

### 5. An√°lisis de correlaci√≥n
Se analiza la relaci√≥n lineal entre las variables num√©ricas.

In [14]:
df[["Precio", "Km", "Anio"]].corr()


Unnamed: 0,Precio,Km,Anio
Precio,1.0,-0.360574,0.310632
Km,-0.360574,1.0,-0.530796
Anio,0.310632,-0.530796,1.0


**Interpretaci√≥n:**

- Existe una correlaci√≥n negativa moderada entre Precio y Km, lo cual es consistente con el comportamiento del mercado.

- No se observan correlaciones fuertes entre el a√±o del veh√≠culo y el precio dentro de este dataset.

### 6. Conclusiones del EDA

- El dataset es consistente, limpio y usable para an√°lisis.

- No presenta valores nulos ni errores cr√≠ticos que impidan su uso.

- Las variables categ√≥ricas reflejan correctamente la estructura del mercado.

- Los datos est√°n listos para su visualizaci√≥n y an√°lisis exploratorio avanzado mediante dashboards.

üìä El an√°lisis final y las respuestas a las preguntas de negocio se abordar√°n principalmente a trav√©s de visualizaciones interactivas.
