# Proyecto Sprint 7

## ✅ Paso 1. Configuración

Crear cuenta en github, crear un nuevo repositorio, crear una cuenta de render.com, crear un ambiente llamado 'vehicles_env' con 'pandas', 'streamlit' y 'plotly-express' instalados. Instalar VS Code, y guardar un archivo requierements.txt

## ✅ Paso 2. Descarga del archivo de datos

Descargar el conjunto de datos de coches y colocarlo en el directorio del proyecto

## ✅ Paso 3. Análisis exploratorio de datos

Crear un diretorio llamado notebooks en el directorio del proyecto, crear un Jupyter notebook llamado EDA.ipynb, experimentar con 'plotly-express' en el notebook para crear visualizaciones para el analisis exploratorio del conjunto de datos.

### 3.1 Importar librerías

In [32]:
import pandas as pd
import plotly_express as px
import streamlit as st

### 3.2 Exploración inicial de los datos

In [3]:
data = pd.read_csv('../vehicles_us.csv')
data.head()

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB


In [16]:
data.describe(include='all' )

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
count,51525.0,47906.0,51525,51525,46265.0,51525,43633.0,51525,51525,42258,25572.0,51525,51525.0
unique,,,100,6,,5,,3,13,12,,,
top,,,ford f-150,excellent,,gas,,automatic,SUV,white,,,
freq,,,2796,24773,,47288,,46902,12405,10029,,,
mean,12132.46492,2009.75047,,,6.125235,,115553.461738,,,,1.0,2018-10-25 01:57:46.270742528,39.55476
min,1.0,1908.0,,,3.0,,0.0,,,,1.0,2018-05-01 00:00:00,0.0
25%,5000.0,2006.0,,,4.0,,70000.0,,,,1.0,2018-07-29 00:00:00,19.0
50%,9000.0,2011.0,,,6.0,,113000.0,,,,1.0,2018-10-25 00:00:00,33.0
75%,16839.0,2014.0,,,8.0,,155000.0,,,,1.0,2019-01-21 00:00:00,53.0
max,375000.0,2019.0,,,12.0,,990000.0,,,,1.0,2019-04-19 00:00:00,271.0


### 3.3 Visualización de datos con Plotly Express

In [45]:
# Creación de histograma de precios
price_histogram = px.histogram(data, x='price', nbins=50)
price_histogram.show()

In [46]:
# Creación de diagrama de dispersión precio vs kilometraje
scatter_plot = px.scatter(data, x='odometer', y='price', title='Precio vs Kilometraje', trendline='ols')
scatter_plot.show()

### 3.4 Exploración de datos para gráfica dinámica

In [41]:
# Explorar los datos por tipo de vehiculo
data_by_condition = data['condition'].value_counts()
data_by_condition 


condition
excellent    24773
good         20145
like new      4742
fair          1607
new            143
salvage        115
Name: count, dtype: int64

In [42]:
px.bar(data_by_condition, x=data_by_condition.index, y=data_by_condition.values, title='Cantidad de vehículos por condición').show()    

## ✅ Paso 4. Desarrollo del cuadro de mandos de la aplicación web

Crear un archivo app.py en la raiz del directorio de tu proyecto. Importar streamlit como st, pandas y plotly-express al principio del arvhio, leer el CSV del conjunto de datos en un DataFrame y crear el contenido de la aplicación basada en Streamlit. El archivo debe de incluir:
- Al menos un encabezado (se puede utilizar st.header())
- Crear un botón que al hacer clic construya un histograma 'plotly-express'. Considerar las funciones st.write() y st.plotly_chart()
- Agregar otro botón que al hacer clic en él construya un gráfico de dispersión 'plotly-express'. Consierar usar las funciones st.write y st.plotly_chart()
- OPCIONAL: Considerar reemplazar los botones por casillas de verificación, las cuales están disponibles en streamlit a través de st.checkbox()

Se debe de actualizar el archivo README al terminar. Este debe incluir una breve descripción del proyecto, donde se explique para que sirve la aplicación web y que tipo de funcionalidad proporciona.
Confirmar y empujar todos los cambiod al repositorio una vez finalizado.

Nota: Se puede ir probando el archivo app.py con el comando streamlit run app.py, para probar cada nuevo componente de streamlit.

## ✅ Paso 5. Despliegue de la versión final de la aplicación en Render

Aceder a la cuenta de render y crear un nuevo servicio web enlazado al repositorio de Github, configurar el servicio web Render, añadiendo un Build Command que isntale todo lo encesario para iniciar la app, icluyendo 'streamlit' y todos los paquetes de requierements.txt con el siguiente comando:

pip install --upgrade pip && pip install -r requirements.txt

Añadir el Start Command: streamlit run app.py

(Recomendaciones de Edwin poner streamlit run app.py --server.port $PORT --server.address 0.0.0.0

Luego desplegar en Render y esperar a que el vuild se ejecute con éxito. Finalmente comprobar que la aplicación sea accesible a través de la siguiente URL: https://<APP_NAME>.onrender.com/ 