# 1. Importacion de librerias y Carga del DataFrame

In [1]:
import pandas as pd
import streamlit as st
import plotly.express as px

In [2]:
# Carga de los datos
vehicles_df = pd.read_csv(r'D:\101010 Revisiones\Sprint-7-Proyecto\vehicles_us.csv')

In [3]:
#Funcion para el diagnóstico inicial de los datos
def fun_diagnóstico (df):
    print("ESTRUCTURA GENERAL")
    print(df.info())
    print()
    print("MUESTRA DE LOS DATOS")
    print(df.sample(10))

#Diagnóstico para games_df
fun_diagnóstico(vehicles_df)


ESTRUCTURA GENERAL
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB
None

MUESTRA DE LOS DATOS
       price  model_year                       model  condition  cylinders  \
17682   3900      2006.0                jeep liberty       g

## Observaciones del diagnostico inicial de vehicles_df

El dataframe consta con 51525 entradas y 13 columnas, es un conjunto de datos sobre vehiculos y sus características para su venta. En las columnas hay informacion que describe a detalle cada vechiculo por sus características.

# Plan de Trabajo

**° Columna Price:**

  - No tiene datos ausentes.
  - El tipo es adecuado, aunque no se haran operaciones aqui.

**° Columna Condition:**

  - No contiene datos ausentes.
  - El tipo de datos object es adecuado.

**° Columna Fuel:**

  - No contiene datos ausentes.
  - El tipo de datos object es adecuado.

**° Columna Transmission:**

  - No contiene datos ausentes.
  - El tipo de datos object es adecuado.

**° Columna Type:**

  - No contiene datos ausentes.
  - El tipo de datos object es adecuado.

**° Columna Date Posted:**

  - No contiene datos ausentes.
  - Indica la fecha en que fue publicado el auto

**° Columna Days Listed:**

  - No contiene datos ausentes.
  - El tipo de datos int64 es adecuado.

**° Columna Model Year:**

 - Existen 3619 datos ausentes, esto quiere decir que que faltan los años de estos vehiculos. Los años van de 1908 a 2019.
 - Se imputara con...
 - El tipo es float64, se convetira a int64 ya que no es necesario tener decimales.

**° Columna Model:**

  - No contiene datos ausentes.
  - Se creara una columna unicamente con la marca que produce el vehiculo.

**° Columna Cylinders:**

 - Contiene 5260 datos ausentes.
 - El tipo es float64, se convetira a int64 ya que no es necesario tener decimales.

**° Columna Odometer:**

  - Contiene 7892 datos ausentes.
  - El tipo de datos float64 es adecuado.

**° Columna Paint Color:**

  - Contiene 9267 datos ausentes.
  - Los valores ausentes se imputaran con "unknown"
  - El tipo de datos object es adecuado.

**°Columna Is 4WD:**

  - Contiene 25572 datos ausentes.
  - Los valores ausentes se imputaran con "0" indicando que no son 4wd
  - El tipo de datos es float64.




# 2.Limpieza y Procesamiento de Datos

##Columna 'model_year'##

In [4]:
# Valores perdidos en 'model_year'
modye_perdidos = (vehicles_df['model_year'].isna().sum())
modye_porcentage = (vehicles_df['model_year'].isna().sum()/vehicles_df.shape[0])

print(f'El número de valores perdidos en la columna año del modelo es de: {modye_perdidos}')
print(f'El porcentaje de valores perdidos equivale a: {modye_porcentage}')

El número de valores perdidos en la columna año del modelo es de: 3619
El porcentaje de valores perdidos equivale a: 0.07023774866569626


##Creacion de columna 'manifacturer' a partir de columna 'model'##


In [5]:
# Funcion para agrupar vehiculos por Compañia de Manufactura
def fun_manufacturer (x):
    if x in ['bmw x5']:
        return "BMW"
    elif x in ['buick enclave']:
        return "BUICK"
    elif x in ['ford f-150', 'ford fusion se', 'ford focus', 'ford f150 supercrew cab xlt', 'ford mustang', 'ford f-250 sd',
               'ford f250 super duty', 'ford mustang gt coupe 2d', 'ford explorer', 'ford f-350 sd', 'ford edge', 'ford f-250', 'ford f150',
               'ford expedition', 'ford taurus', 'ford f350 super duty', 'ford ranger', 'ford escape', 'ford fusion', 'ford f-250 super duty',
               'ford focus se', 'ford f250', 'ford f350', 'ford econoline']:
        return "FORD"
    elif x in ['gmc yukon', 'gmc sierra', 'gmc sierra 2500hd', 'gmc sierra 1500', 'gmc acadia']:
        return "GMC"
    elif x in ['hyundai sonata', 'hyundai elantra', 'hyundai santa fe']:
        return "HYUNDAI"
    elif x in ['chrysler 200', 'chrysler 300', 'chrysler town & country']:
        return "CHRYSLER"
    elif x in ['cadillac escalade']:
        return "CADILLAC"
    elif x in ['dodge charger', 'dodge grand caravan', 'dodge dakota']:
        return "DODGE"
    elif x in ['jeep cherokee', 'jeep wrangler', 'jeep liberty', 'jeep grand cherokee', 'jeep grand cherokee laredo', 'jeep wrangler unlimited']:
        return "JEEP"
    elif x in ['toyota camry', 'toyota rav4', 'toyota camry le', 'toyota highlander', 'toyota tacoma', 'toyota 4runner', 'toyota corolla',
               'toyota prius', 'toyota tundra', 'toyota sienna']:
        return "TOYOTA"
    elif x in ['acura tl']:
        return "ACURA"
    elif x in ['volkswagen jetta', 'volkswagen passat']:
        return "VOLKSWAGEN"
    elif x in ['chevrolet silverado 1500', 'chevrolet traverse', 'chevrolet tahoe', 'chevrolet silverado', 'chevrolet malibu', 'chevrolet impala',
               'chevrolet corvette''chevrolet equinox', 'chevrolet colorado', 'chevrolet camaro lt coupe 2d', 'chevrolet cruze',
               'chevrolet silverado 3500hd', 'chevrolet silverado 1500 crew', 'chevrolet camaro', 'chevrolet suburban', 'chevrolet silverado 2500hd', 'chevrolet trailblazer']:
        return "CHEVROLET"
    elif x in ['honda pilot', 'honda accord', 'honda cr-v', 'honda civic', 'honda civic lx', 'honda odyssey']:
        return "HONDA"
    elif x in ['nissan altima', 'nissan rogue', 'nissan frontier crew cab sv', 'nissan versa', 'nissan maxima', 'nissan sentra', 'nissan frontier', 'nissan murano']:
        return "NISSAN"
    elif x in ['mercedes-benz benze sprinter 2500']:
        return "MERCEDES-BENZ"
    elif x in ['ram 1500', 'ram 3500', 'ram 2500']:
        return "RAM"
    elif x in ['kia sorento', 'kia soul']:
        return "KIA"
    elif x in ['subaru outback', 'subaru impreza', 'subaru forester']:
        return "SUBARU"
    else:
        return "Other"


In [None]:
# Aplicando función para crear la columna 'manufacturer'
vehicles_df['manufacturer']=vehicles_df['model'].apply(fun_manufacturer)
vehicles_df.sample(5)

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed,manufacturer
11417,21900,2013.0,toyota tacoma,excellent,6.0,gas,97889.0,manual,truck,grey,1.0,2018-10-13,27,TOYOTA
36529,9995,2015.0,ford fusion,good,4.0,gas,107136.0,automatic,sedan,grey,,2018-07-06,39,FORD
32827,4995,2003.0,chevrolet silverado 1500,good,8.0,gas,,automatic,truck,green,1.0,2018-12-13,16,CHEVROLET
39818,12500,2010.0,ford f-150,excellent,8.0,gas,,automatic,truck,white,1.0,2018-09-12,14,FORD
43204,8995,2005.0,ram 1500,excellent,8.0,gas,,automatic,pickup,grey,1.0,2018-10-20,11,RAM


##Columna 'cylinder'##

In [None]:
# Valores perdidos en columna 'cylinders'
cy_perdidos = (vehicles_df['cylinders'].isna().sum())
cy_porcentage = (vehicles_df['cylinders'].isna().sum()/vehicles_df.shape[0])

print(f'El número de valores perdidos en la columna cilindros del modelo es de: {cy_perdidos}')
print(f'El porcentaje de valores perdidos equivale a: {cy_porcentage}')

El número de valores perdidos en la columna cilindros del modelo es de: 5260
El porcentaje de valores perdidos equivale a: 0.10208636584182436


In [None]:
# Conversion de columna 'cylinders' al tipo object e imputacion de valores perdidos
vehicles_df['cylinders'] = (
    vehicles_df['cylinders']
    .fillna(0)
    .astype(object)
    .replace(0, 'unknown'))

Se convirtio la colmna del tipo float64 al tipo object para imputar los valores perdidos por la cadena "unknown" esto debido a que algunos modelos pueden tener cilindrada diferente dependiendo de la versión, ya que los datos ausentes representan el 10% del dataframe imputar la media podria sesgar la información.

##Columna 'odometer'##

In [None]:
# Valores perdidos en la columna 'odometer'
odo_perdidos = (vehicles_df['odometer'].isna().sum())
odo_porcentage = (vehicles_df['odometer'].isna().sum()/vehicles_df.shape[0])

print(f'El número de valores perdidos en la columna kilometros recorridos es de: {odo_perdidos}')
print(f'El porcentaje de valores perdidos equivale a: {odo_porcentage}')

El número de valores perdidos en la columna kilometros recorridos es de: 7892
El porcentaje de valores perdidos equivale a: 0.15316836487142163


Los datos perdidos representan el 15% del dataframe y al igual que en la columna 'cylinders' imputar la media podria sesgar la información, ademas el numero de kilometros recorridos es muy variado dependiendo del uso que cada individuo le da a su vehiculo.

##Columna 'paint_color'##

In [10]:
# Valores perdidos en 'paint_color'
col_perdidos = (vehicles_df['paint_color'].isna().sum())
col_porcentage = (vehicles_df['paint_color'].isna().sum()/vehicles_df.shape[0])

print(f'El número de valores perdidos en la columna color del vehiculo es de: {col_perdidos}')
print(f'El porcentaje de valores perdidos equivale a: {col_porcentage}')

El número de valores perdidos en la columna color del vehiculo es de: 9267
El porcentaje de valores perdidos equivale a: 0.17985443959243086


In [None]:
# Remplazo de valores perdidos en la columna 'paint_color' por 'unknown'
vehicles_df['paint_color'] = (
    vehicles_df['paint_color']
    .fillna('unknown'))

El conjunto de datos ausentes representan el 17% del dataframe, en este caso se imputaron con la cadena 'unknown'.

##Columna 'is_4wd'##

In [12]:
# Valores perdidos en 'is_4wd?
wd_perdidos = (vehicles_df['is_4wd'].isna().sum())
wd_porcentage = (vehicles_df['is_4wd'].isna().sum()/vehicles_df.shape[0])

print(f'El número de valores perdidos en la columna color del vehiculo es de: {wd_perdidos}')
print(f'El porcentaje de valores perdidos equivale a: {wd_porcentage}')

El número de valores perdidos en la columna color del vehiculo es de: 25953
El porcentaje de valores perdidos equivale a: 0.5036972343522562


In [None]:
# Remplazo de valores perdidos en la columna 'is_4wd' por '0'
vehicles_df['is_4wd'] = vehicles_df['is_4wd'].fillna('0')

En esta columna los calores perdidos representan el 50% de los datos perdidos estos se imputaron con '0' (que representa que la traccion no es de 4 ruedad), '1' (representa traccion en las 4 ruedas), esto se decidio asi revisando el dataframe deduciento que los datos presentes corresponden a vehiculos con traccion 4wd.

In [14]:
vehicles_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     51525 non-null  object 
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   51525 non-null  object 
 10  is_4wd        51525 non-null  object 
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
 13  manufacturer  51525 non-null  object 
dtypes: float64(2), int64(2), object(10)
memory usage: 5.5+ MB


In [15]:
vehicles_df.sample(20)

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed,manufacturer
17569,6495,,toyota corolla,excellent,4.0,gas,84600.0,automatic,sedan,unknown,0.0,2018-11-27,55,TOYOTA
37317,12911,2011.0,gmc sierra 1500,excellent,8.0,gas,196241.0,automatic,truck,silver,1.0,2019-04-12,71,GMC
45809,8000,2002.0,nissan frontier,good,6.0,gas,113000.0,manual,pickup,blue,1.0,2018-11-17,7,NISSAN
4012,17991,2016.0,honda cr-v,excellent,4.0,gas,39605.0,automatic,SUV,silver,0.0,2018-06-20,27,HONDA
45930,9995,2014.0,nissan rogue,excellent,4.0,gas,,automatic,SUV,unknown,1.0,2018-05-30,34,NISSAN
8963,9000,2012.0,toyota camry,excellent,4.0,gas,87700.0,automatic,sedan,silver,0.0,2018-06-06,28,TOYOTA
33820,36995,2016.0,ford f350 super duty,excellent,8.0,gas,,automatic,truck,white,1.0,2018-12-03,8,FORD
45222,24200,2018.0,chevrolet camaro lt coupe 2d,good,6.0,gas,,other,coupe,unknown,0.0,2018-11-23,24,CHEVROLET
31105,500,1993.0,honda civic,good,4.0,gas,,manual,sedan,unknown,0.0,2018-05-11,30,HONDA
127,10999,2010.0,ford edge,good,6.0,gas,98193.0,automatic,SUV,blue,1.0,2018-08-11,78,FORD


## Duplicados


In [16]:
print(f' El numero de duplicados obvios es de:', (vehicles_df.duplicated().sum()))

 El numero de duplicados obvios es de: 0


## Creacion de DataFrame Limpio

In [17]:
clean_vehicles_df = vehicles_df
# Guardar el DataFrame limpio
clean_vehicles_df.to_csv(r'D:\101010 Revisiones\Sprint-7-Proyecto\clean_vehicles_df.csv', index=False)