# **PROYECTO FINAL. INTRODUCCIÓN A LA CIENCIA DE DATOS.**
# **Modelo Predictivo de Alta Precisión para el Sector Automotriz.**

* **Autor:** Daniel Carvajal Garcia.
* **Matrícula:** 202502492
* **Profesor:** Jaime Alejandro Romero Sierra.
* **Semestre:** 1er Semestre. 
* **Institución:** Benemérita Universidad Autónoma de Puebla.
* **Licenciatura:** Ingenieria en Ciencia de Datos.

### **Descripción de la base de datos**

* **Fuente de la base de datos original:** https://www.kaggle.com/datasets/msnbehdani/mock-dataset-of-second-hand-car-sales

* **Descripción general del contenido:** Este conjunto de datos contiene información detallada sobre la venta de automóviles, abarcando múltiples fabricantes y modelos. Es idóneo para el análisis de datos, la predicción de precios, el análisis de tendencias del mercado, el aprendizaje automático y el análisis exploratorio de datos (EDA).
El conjunto de datos incluye información sobre fabricantes, modelos de automóviles, especificaciones del motor, tipo de combustible, año de fabricación, kilometraje y precio final de venta.


### **Seguimiento en el Proceso de limpieza**
Se continua con el DataFrame que se dejo aparentemente limpio, sin embargo, se debe continuar con la limpieza porque todavía no esta limpia al 100%.

In [1]:
#Extraemos el DataFrame aparentemente limpio,para seguir con la impieza correctamente para hacer un análisis de la mejor manera 

import pandas as pd
df = pd.read_csv("Base_limpiaDaniel.csv")
df

Unnamed: 0.1,Unnamed: 0,Manufacturer,Model,Engine size,Fuel type,Year of manufacture,Mileage,Price
0,0,ford,fiesta,1.0,petrol,2002.0,127300.0,3074.0
1,1,porsche,718 cayman,4.0,petrol,2016.0,57850.0,49704.0
2,2,ford,mondeo,0.0,diesel,2014.0,39190.0,24072.0
3,3,toyota,rav4,1.8,hybrid,1988.0,210814.0,1705.0
4,4,vw,polo,1.0,petrol,2006.0,127869.0,4101.0
...,...,...,...,...,...,...,...,...
54645,59899,porsche,718 cayman,2.0,petrol,2012.0,87055.0,22114.0
54646,59900,porsche,718 cayman,0.0,petrol,2018.0,20634.0,70913.0
54647,59901,vw,polo,0.0,petrol,2011.0,89765.0,7610.0
54648,59902,ford,mondeo,1.6,diesel,2010.0,67468.0,15428.0


In [2]:
#2 Eliminar columna 'Unnamed: 0', para no arrastrar basura

if 'Unnamed: 0' in df.columns:
    df = df.drop(columns=['Unnamed: 0'])

df.head(10)


Unnamed: 0,Manufacturer,Model,Engine size,Fuel type,Year of manufacture,Mileage,Price
0,ford,fiesta,1.0,petrol,2002.0,127300.0,3074.0
1,porsche,718 cayman,4.0,petrol,2016.0,57850.0,49704.0
2,ford,mondeo,0.0,diesel,2014.0,39190.0,24072.0
3,toyota,rav4,1.8,hybrid,1988.0,210814.0,1705.0
4,vw,polo,1.0,petrol,2006.0,127869.0,4101.0
5,ford,focus,1.4,petrol,2018.0,33603.0,29204.0
6,ford,mondeo,1.8,diesel,2010.0,86686.0,14350.0
7,toyota,prius,1.4,hybrid,2015.0,0.0,30297.0
8,desconocido,polo,1.2,petrol,2012.0,73470.0,9977.0
9,ford,focus,2.0,desconocido,1992.0,262514.0,1049.0


In [3]:
# 3. Estandarización de Texto (Vital para evitar duplicados)

cols_texto = ['Manufacturer', 'Model', 'Fuel type']
for col in cols_texto:
    # Convertir a minúsculas y quitar espacios al inicio/final
    df[col] = df[col].astype(str).str.lower().str.strip()

In [4]:
# 4. Renombramos las columnas para un mejor manejo del análisis

df = df.rename(columns={'Manufacturer': 'Fabricante'}) 
df = df.rename(columns={'Model': 'Modelo'}) 
df=df.rename(columns= {'Engine size': 'Tamaño del motor'})
df=df.rename(columns={ 'Fuel type': 'Tipo de combustible' })
df=df.rename(columns={'Year of manufacture': 'Año de fabricacion'})
df=df.rename(columns={  'Mileage': 'Kilometraje'})
df = df.rename(columns={'Price': 'Precio'}) 
df

Unnamed: 0,Fabricante,Modelo,Tamaño del motor,Tipo de combustible,Año de fabricacion,Kilometraje,Precio
0,ford,fiesta,1.0,petrol,2002.0,127300.0,3074.0
1,porsche,718 cayman,4.0,petrol,2016.0,57850.0,49704.0
2,ford,mondeo,0.0,diesel,2014.0,39190.0,24072.0
3,toyota,rav4,1.8,hybrid,1988.0,210814.0,1705.0
4,vw,polo,1.0,petrol,2006.0,127869.0,4101.0
...,...,...,...,...,...,...,...
54645,porsche,718 cayman,2.0,petrol,2012.0,87055.0,22114.0
54646,porsche,718 cayman,0.0,petrol,2018.0,20634.0,70913.0
54647,vw,polo,0.0,petrol,2011.0,89765.0,7610.0
54648,ford,mondeo,1.6,diesel,2010.0,67468.0,15428.0


In [5]:
# 5. Limpieza de Caracteres en Precio y Kilometraje

for col in ['Precio', 'Kilometraje']:
    df[col] = df[col].astype(str).str.replace(r'[$,USDusd]', '', regex=True)
    df[col] = df[col].str.replace(',', '', regex=False)
    df[col] = pd.to_numeric(df[col], errors='coerce') # Convierte a número, lo que falle se vuelve NaN

In [6]:
# 6. Así analizamos outliers en Pesos

tasa_cambio = 24.29

# 7. Solo convertimos lo que no sea nulo para evitar errores
df['Precio'] = (df['Precio'] * tasa_cambio).round(0)

print("Datos convertidos a Pesos Mexicanos.")

Datos convertidos a Pesos Mexicanos.


In [7]:
# 8. Rellenar huecos vacíos (NaN) con la mediana general

df['Año de fabricacion'] = df['Año de fabricacion'].fillna(df['Año de fabricacion'].median())
df['Kilometraje'] = df['Kilometraje'].fillna(df['Kilometraje'].median())

# 9. Calculamos la mediana solo de los autos que SÍ tienen kilometraje (ignorando los ceros)

median_km = df[df['Kilometraje'] > 0]['Kilometraje'].median()

# Reemplazamos los 0.0 por esa mediana realista

df['Kilometraje'] = df['Kilometraje'].replace(0.0, median_km)

# 10. CORRECCIÓN DE TAMAÑO DE MOTOR EN 0.0

median_engine = df[df['Tamaño del motor'] > 0]['Tamaño del motor'].median()
df['Tamaño del motor'] = df['Tamaño del motor'].replace(0.0, median_engine)

# 11. Borramos filas donde el Precio sea Nulo (NaN) 

nulos_precio = df['Precio'].isna().sum()
df = df.dropna(subset=['Precio'])

# 12. Borramos filas donde el Precio sea 0

conteo_precio_cero = df[df['Precio'] < 5000].shape[0]
df = df[df['Precio'] >= 5000]

In [8]:
# 13. Eliminar filas donde el año es ilógico (menor a 1988, lo que incluye el 0)

df = df[df['Año de fabricacion'] >= 1988]

In [9]:
# 14. Eliminar registros "desconocido"

filtro_desconocido = (df['Fabricante'] != 'desconocido') & \
                     (df['Modelo'] != 'desconocido') & \
                     (df['Tipo de combustible'] != 'desconocido')
df = df[filtro_desconocido]

In [10]:
# 15. Eliminar Duplicados
df = df.drop_duplicates()

In [11]:
# 16. Esto protege a los autos de gama alta (Porsches, BMW, etc.)

def quitar_outliers_por_grupo(df, col_precio, col_grupo):
    df_out = pd.DataFrame()
    for grupo in df[col_grupo].unique():
        bloque = df[df[col_grupo] == grupo]
        
        if len(bloque) < 10:
            df_out = pd.concat([df_out, bloque])
            continue
            
        Q1 = bloque[col_precio].quantile(0.25)
        Q3 = bloque[col_precio].quantile(0.75)
        IQR = Q3 - Q1
        lim_inf = Q1 - 1.5 * IQR
        lim_sup = Q3 + 1.5 * IQR
        
        bloque_filtrado = bloque[(bloque[col_precio] >= lim_inf) & (bloque[col_precio] <= lim_sup)]
        df_out = pd.concat([df_out, bloque_filtrado])
    return df_out

print(f"Registros antes de limpieza de outliers: {df.shape[0]}")

# Aplicar filtro por marca al PRECIO

df = quitar_outliers_por_grupo(df, 'Precio', 'Fabricante')

# Aplicar filtro global al KILOMETRAJE (aquí sí aplica general)

Q1_km = df['Kilometraje'].quantile(0.25)
Q3_km = df['Kilometraje'].quantile(0.75)
IQR_km = Q3_km - Q1_km
df = df[(df['Kilometraje'] >= (Q1_km - 1.5*IQR_km)) & (df['Kilometraje'] <= (Q3_km + 1.5*IQR_km))]

print(f"Registros finales limpios: {df.shape[0]}")

Registros antes de limpieza de outliers: 40427


Registros finales limpios: 38319


In [12]:
# 17. Reset Index y Guardado Final
df = df.reset_index(drop=True)

In [13]:
# 18. Verificación rápida
print("Precio máximo por marca después de limpieza:")
print(df.groupby('Fabricante')['Precio'].max().sort_values(ascending=False).head(5))

Precio máximo por marca después de limpieza:
Fabricante
porsche    2446926.0
bmw        1875990.0
toyota     1163734.0
ford        877160.0
vw          833997.0
Name: Precio, dtype: float64


In [14]:
df

Unnamed: 0,Fabricante,Modelo,Tamaño del motor,Tipo de combustible,Año de fabricacion,Kilometraje,Precio
0,ford,fiesta,1.0,petrol,2002.0,127300.0,74667.0
1,ford,mondeo,1.6,diesel,2014.0,39190.0,584709.0
2,ford,focus,1.4,petrol,2018.0,33603.0,709365.0
3,ford,mondeo,1.8,diesel,2010.0,86686.0,348562.0
4,ford,mondeo,1.6,diesel,1996.0,100862.5,137651.0
...,...,...,...,...,...,...,...
38314,bmw,z4,2.0,petrol,2021.0,8366.0,1313798.0
38315,bmw,z4,1.6,petrol,2008.0,55407.0,460781.0
38316,bmw,x3,1.6,petrol,2007.0,83990.0,374017.0
38317,bmw,x3,3.0,diesel,1999.0,167781.0,134421.0


In [15]:
#Guardar los resultados en un csv
df.to_csv("Base_LimpiaparaAnálisis.csv", index=False)