In [36]:
import pandas as pd
import numpy as np
import os
import streamlit as st

# Obtener la ruta absoluta del archivo
ruta_archivo = os.path.abspath("vehicles_us.csv")

df = pd.read_csv(ruta_archivo, sep=',') # Leer los datos

# Exploración inicial
print(df.info())
print(df.describe())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB
None
               price    model_year     cylinders       odometer   is_4wd  \
count   51525.000000  47906.000000  46265.000000   43633.000000  25572.0   
mean    12132.464920   2009

In [37]:
# Correccion de los nombres de columnas
columnas_espanol = {
    'price': 'precio',
    'model': 'fabricante',
    'model_year': 'año_modelo',
    'condition': 'condicion',
    'cylinders': 'cilindros',
    'fuel': 'combustible',
    'odometer': 'kilometraje',
    'transmission': 'transmision',
    'type': 'tipo',
    'paint_color': 'color_pintura',
    'is_4wd': 'es_4x4',
    'date_posted': 'fecha_publicacion',
    'days_listed': 'dias_publicados'
}

# Cambiar los nombres de las columnas utilizando el diccionario
df.rename(columns=columnas_espanol, inplace=True)

# Imprimir la información del DataFrame con los nuevos nombres
print(df.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   precio             51525 non-null  int64  
 1   año_modelo         47906 non-null  float64
 2   fabricante         51525 non-null  object 
 3   condicion          51525 non-null  object 
 4   cilindros          46265 non-null  float64
 5   combustible        51525 non-null  object 
 6   kilometraje        43633 non-null  float64
 7   transmision        51525 non-null  object 
 8   tipo               51525 non-null  object 
 9   color_pintura      42258 non-null  object 
 10  es_4x4             25572 non-null  float64
 11  fecha_publicacion  51525 non-null  object 
 12  dias_publicados    51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB
None


In [47]:
df['marca'] = df['fabricante'].str.split().str[0]

print(df["marca"])


0             bmw
1            ford
2         hyundai
3            ford
4        chrysler
           ...   
51520      nissan
51521       honda
51522     hyundai
51523      toyota
51524      nissan
Name: marca, Length: 51525, dtype: object


In [None]:
# Valores nulos
print(df.isnull().sum())

In [None]:
# Rellenar valores nulos
df['model_year'] = df['model_year'].fillna(df['model_year'].mean())
df['cylinders'] = df['cylinders'].fillna(df['cylinders'].median())
df['paint_color'] = df['paint_color'].fillna('Desconocido')
df.dropna(subset=['odometer'], inplace=True)
# Crear una nueva categoría para valores nulos
df['is_4wd'] = df['is_4wd'].fillna('Desconocido')
print(df.isnull().sum())
print(df)

In [None]:
# Convertir columnas numéricas a int64
df['model_year'] = df['model_year'].astype('int64')
df['cylinders'] = df['cylinders'].astype('int64')
df['odometer'] = df['odometer'].astype('int64')  # Ajusta a float64 si necesitas decimales

# Convertir columnas categóricas a category
categorical_cols = ['model', 'condition', 'fuel', 'transmission', 'type', 'paint_color', 'is_4wd']
df[categorical_cols] = df[categorical_cols].astype('category')

# Convertir columna de fecha a datetime
df['date_posted'] = pd.to_datetime(df['date_posted'])
print(df.info())


In [None]:
import plotly.express as px

car_data = pd.read_csv('vehicles_us.csv') # leer los datos
fig = px.histogram(car_data, x="odometer") # crear un histograma
fig.show() # crear gráfico de dispersión

In [None]:
car_data = pd.read_csv('vehicles_us.csv') # leer los datos
fig = px.scatter(car_data, x="odometer", y="price") # crear un gráfico de dispersión
fig.show() # crear gráfico de dispersión

In [None]:
# Creamos un gráfico de violín para comparar la distribución del kilometraje por tipo de vehículo
fig = px.violin(df, y="odometer", x="type")

# Personalizamos el título y las etiquetas del gráfico
fig.update_layout(title_text="Distribución del Kilometraje por Tipo de Vehículo",
                  xaxis_title="Tipo de Vehículo",
                  yaxis_title="Kilometraje")

# Mostramos el gráfico
fig.show()

In [None]:
# Creamos un heatmap para visualizar el kilometraje promedio por año y tipo de transmisión
fig = px.density_heatmap(
    df,
    x="model_year",
    y="transmission",
    z="odometer",
    color_continuous_scale="Viridis"
)

# Personalizamos el título y las etiquetas del gráfico
fig.update_layout(title_text="Kilometraje Promedio por Año y Tipo de Transmisión",
                  xaxis_title="Año del Modelo",
                  yaxis_title="Tipo de Transmisión")

# Mostramos el gráfico
fig.show()