# Sprint 7

## Descripción del proyecto

El objetivo de este proyecto es proporcionarte más posibilidades de practicar las tareas habituales de la ingeniería de software. Gracias a estas tareas, podrás aumentar y complementar tus habilidades en el campo de los datos y te convertirás en un candidato más atractivo para posibles empleadores.

Las tareas incluyen la creación y gestión de entornos virtuales de Python y el desarrollo de una aplicación web.

En este proyecto, te proporcionamos un conjunto de datos de anuncios de venta de coches. Sin embargo, en este proyecto, el enfoque no se centrará en el conjunto de datos ni en el análisis, por lo que eres libre de elegir cualquier dataset que desees.

## Crear un histograma utilizando plotly.graph_objects

In [20]:
#Importar las librerías necesarias para el análisis y visualización de datos

import pandas as pd  
import streamlit as st
import plotly.graph_objects as go 

# Leer los datos del archivo CSV
car_data = pd.read_csv('../vehicles_us.csv')

# Imprimir la información general/resumida sobre el DataFrame
car_data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB


In [21]:
car_data.head(10)  # Mostrar las primeras filas del DataFrame

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28
5,14990,2014.0,chrysler 300,excellent,6.0,gas,57954.0,automatic,sedan,black,1.0,2018-06-20,15
6,12990,2015.0,toyota camry,excellent,4.0,gas,79212.0,automatic,sedan,white,,2018-12-27,73
7,15990,2013.0,honda pilot,excellent,6.0,gas,109473.0,automatic,SUV,black,1.0,2019-01-07,68
8,11500,2012.0,kia sorento,excellent,4.0,gas,104174.0,automatic,SUV,,1.0,2018-07-16,19
9,9200,2008.0,honda pilot,excellent,,gas,147191.0,automatic,SUV,blue,1.0,2019-02-15,17


Usando info podemos ver la información general y con head podemos extraer unas cuantas lineas para ver como están escritas y compuestas. 

In [22]:
#Revisión de valores ausentes
car_data.isna().sum()

price               0
model_year       3619
model               0
condition           0
cylinders        5260
fuel                0
odometer         7892
transmission        0
type                0
paint_color      9267
is_4wd          25953
date_posted         0
days_listed         0
dtype: int64

Ya se vió que tipo de datos son las columnas y cuantos valores ausentes tenemos, se va a proseguir a cambiar el tipo de datos correspondiente y se decidirá que hacer con los valores ausentes.

In [28]:
# Rellenar valores ausentes en columnas numéricas con la mediana
car_data['model_year'] = car_data['model_year'].fillna(car_data['model_year'].median())
car_data['odometer'] = car_data['odometer'].fillna(car_data['odometer'].median())

# Rellenar valores ausentes en columnas categóricas con "unknown"
car_data['paint_color'] = car_data['paint_color'].fillna('unknown')

# Convertir columna is_4wd a booleana (True/False)
car_data['is_4wd'] = car_data['is_4wd'].fillna(0).astype(bool)

# Rellenar valores ausentes en columna cylinders con la mediana
car_data['cylinders'] = car_data['cylinders'].fillna(car_data['cylinders'].median())

# Convertir 'model_year' a entero (tras rellenar valores faltantes)
car_data['model_year'] = car_data['model_year'].astype(int)

# Convertir 'is_4wd' a booleano
car_data['is_4wd'] = car_data['is_4wd'].fillna(0).astype(bool)

# Convertir 'date_posted' a formato de fecha
car_data['date_posted'] = pd.to_datetime(car_data['date_posted'])

# Verificar cambios
car_data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   price         51525 non-null  int64         
 1   model_year    51525 non-null  int64         
 2   model         51525 non-null  object        
 3   condition     51525 non-null  object        
 4   cylinders     51525 non-null  float64       
 5   fuel          51525 non-null  object        
 6   odometer      51525 non-null  float64       
 7   transmission  51525 non-null  object        
 8   type          51525 non-null  object        
 9   paint_color   51525 non-null  object        
 10  is_4wd        51525 non-null  bool          
 11  date_posted   51525 non-null  datetime64[ns]
 12  days_listed   51525 non-null  int64         
dtypes: bool(1), datetime64[ns](1), float64(2), int64(3), object(6)
memory usage: 4.8+ MB


Como podemos ver ya no tenemos valores ausentes y el tipo de cada columna es el correcto.

In [30]:
# Guardamos los cambios en un nuevo archivo CSV
car_data.to_csv('vehicles_us_cleaned.csv', index=False)

## Creación de histograma

In [29]:
# Se crea una figura vacía y luego se añade un rastro de histograma
fig = go.Figure(data=[go.Histogram(x=car_data['odometer'])])

# Opcional: Puedes añadir un título al gráfico si lo deseas
fig.update_layout(title_text='Distribución del Odómetro')

# Mostrar el gráfico Plotly
fig.show()

## Crear un scatter plot utilizando plotly.graph_objects

In [None]:
# Se crea una figura vacía y luego se añade un rastro de scatter
fig = go.Figure(data=[go.Scatter(x=car_data['odometer'], y=car_data['price'], mode='markers')])

# Opcional: Puedes añadir un título al gráfico si lo deseas
fig.update_layout(title_text='Relación entre Odómetro y Precio')

# Mostrar el gráfico Plotly
fig.show()

## Conclusión General

En general el proyecto me pareció muy interesante, porque pongo en práctica todos los conocimientos adquiridos, descubro maneras de hacer las cosas, entiendo el porqué se hace lo que se hace, aprendo a usar aplicaciones que no había usado anteriormente, aplicaciones que voy a utilizar todos los días si quiero dedicarme a esto. Me parece muy interesante la manera en como se van uniendo los diferentes conocimientos adquiridos para poder usar software diferente y mejor. 
Se hizo limpieza de datos y se creó el nuevo archivo csv que se llevó a app.py.
Considero que el proyecto está completo aunque estoy abierto a feedback o consejos.