## üìò An√°lisis Estad√≠stico Descriptivo de Autos Usados en India

### üìå Contexto

El dataset utilizado proviene del portal **CarDekho**, una plataforma india de venta de autos nuevos y usados. Contiene informaci√≥n de miles de autos listados en India con variables como:

* Marca del auto
* A√±o de fabricaci√≥n
* Precio de venta
* Tipo de combustible
* N√∫mero de propietarios
* Transmisi√≥n
* Kilometraje recorrido

El objetivo de esta notebook es aplicar t√©cnicas de estad√≠stica descriptiva y visualizaci√≥n de datos para entender mejor la distribuci√≥n de precios, el estado general de los autos y sus caracter√≠sticas clave.

### üîß 1. Carga de librer√≠as y datos

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n est√©tica
plt.style.use('ggplot')
sns.set(font_scale=1.1)

# Cargar el dataset
df = pd.read_csv("CAR DETAILS FROM CAR DEKHO.csv")

# Mostrar las primeras filas
df.head()


### üîç 2. Exploraci√≥n inicial del dataset

In [None]:
# Dimensiones
print("Filas y columnas:", df.shape)

# Nombres de columnas
print("Columnas:", df.columns)

# Tipos de datos
df.info()

# Estad√≠sticas b√°sicas
df.describe()


### üìä 3. Medidas de tendencia central

Vamos a calcular la media, mediana y moda del precio de venta (selling_price) y los kil√≥metros recorridos (km_driven).

In [None]:
# Precio de venta
print("Media precio:", df['selling_price'].mean())
print("Mediana precio:", df['selling_price'].median())
print("Moda precio:", df['selling_price'].mode()[0])

# Kilometraje
print("Media km:", df['km_driven'].mean())
print("Mediana km:", df['km_driven'].median())
print("Moda km:", df['km_driven'].mode()[0])


### üìà 4. Medidas de dispersi√≥n
Calculamos el rango, la varianza y la desviaci√≥n est√°ndar.

In [None]:
# Rango
print("Rango precio:", df['selling_price'].max() - df['selling_price'].min())

# Varianza y desviaci√≥n est√°ndar
print("Varianza precio:", df['selling_price'].var())
print("Desviaci√≥n est√°ndar precio:", df['selling_price'].std())

print("Varianza km:", df['km_driven'].var())
print("Desviaci√≥n est√°ndar km:", df['km_driven'].std())


### üìâ 5. Visualizaci√≥n de variables num√©ricas

In [None]:
# Histograma de precios
plt.figure(figsize=(8,5))
sns.histplot(df['selling_price'], bins=30, kde=True)
plt.title('Distribuci√≥n del Precio de Venta')
plt.xlabel('Precio (INR)')
plt.ylabel('Cantidad de autos')
plt.show()

# Boxplot para detectar outliers
plt.figure(figsize=(8,5))
sns.boxplot(x=df['selling_price'])
plt.title('Boxplot del Precio de Venta')
plt.show()

# Histograma del kilometraje
plt.figure(figsize=(8,5))
sns.histplot(df['km_driven'], bins=30, kde=True)
plt.title('Distribuci√≥n del Kilometraje')
plt.xlabel('Km recorridos')
plt.show()


### üîó 6. Relaci√≥n entre variables

In [None]:
# Precio vs A√±o
plt.figure(figsize=(8,6))
sns.scatterplot(data=df, x='year', y='selling_price', hue='fuel')
plt.title('Precio vs A√±o del Veh√≠culo')
plt.show()

# Correlaci√≥n num√©rica
df[['selling_price', 'year', 'km_driven']].corr()


## ‚úÖ Actividades Pr√°cticas

1. ¬øCu√°l es el promedio de autos listados por a√±o? Grafic√° la cantidad de autos por a√±o.
2. Calcul√° la media, mediana y moda del `year` (a√±o del veh√≠culo).
3. Realiz√° un boxplot del kilometraje recorrido (`km_driven`) para detectar outliers.
4. Calcul√° el rango, varianza y desviaci√≥n est√°ndar del `year`.
5. Hac√© un histograma del `selling_price` para autos que usan combustible "Diesel".
6. Grafic√° la distribuci√≥n de autos por tipo de transmisi√≥n (`manual` vs `automatic`).
7. ¬øCu√°l es la relaci√≥n entre el tipo de combustible (`fuel`) y el precio promedio de venta?
8. Usando un `groupby`, obten√© el precio medio por a√±o de fabricaci√≥n.
9. Mostr√° en un gr√°fico de barras cu√°ntos autos pertenecen a cada n√∫mero de due√±os (`owner`).
10. Calcul√° las medidas de dispersi√≥n para el precio de autos autom√°ticos √∫nicamente.