# BONUS: MINI CURSO CREACIÓN DE UNA APLICACIÓN CON STREAMLIT

## CONTEXTO

Nuestro trabajo como data scientist ha terminado.

Ahora ingenieros de datos, y desarrolladores de aplicaciones tomarán nuestro output como su input y crearán productos de datos con ello.

No obstante hay veces que queremos hacer una demo rápida para que se visualice nuestro trabajo.

O crear un prototipo para explicar a un jefe o cliente cómo se explotarán finalmente los modelos que hemos desarrollado.

Para ello podemos usar un paquete relativamente nuevo que permite a los DS desarrollar aplicaciones sencillas sin necesidad de conocimientos de desarrollo web: Streamlit.

Hay que dejar claro que Streamlit no es un paquete solo para hacer prototipos.

Si no que se pueden hacer aplicaciones profesionales con él.

Pero para ello además del conocimiento de Streamlit sí harían falta otros conocimientos de Devops y desarrollo de software.

Por tanto nosotros lo usaremos para los prototipos.

## ¿QUÉ ES STREAMLIT?

Como decíamos es un paquete que nos va a permitir construir y compartir aplicaciones de datos de forma rápida y relativamente sencilla.

https://streamlit.io/

Es reciente y todavía está en desarrollo, pero con lo que ya hay se pueden hacer aplicaciones totalmente funcionales.

Se instala con conda install -c conda-forge streamlit

Se importa con import streamlit as st

Cada aplicación tiene que tener su propia carpeta.

Se desarrolla como cualquier script de Python, el código se puede hacer con Jupyter.

Pero para ejecutarlo hay que guardarlo en un .py y lanzarlo desde el sistema.

El código es puramente Python, no necesitamos saber html, ni css, ni javascript, ...

Por tanto podemos usar en las aplicaciones todo lo que ya conocemos: Pandas, Numpy, Seaborn, ScikitLearn, etc.

Como toda aplicación necesita correr en un servidor.

Para desarrollar podemos usar nuestro equipo local como servidor muy fácilmente.

Para ponerla en producción se hace en un servidor que la sirva en internet:

* El propio streamlit ofrece un servicio gratuito: será el que usemos nosotros y te servirá para prototipos o para mostrar tu portfolio
* Para uso profesional se puede implantar en servidores propios de la empresa o en cloud como AWS, Heroku, ...

## CREAR Y LANZAR UNA APLICACIÓN

1. Crea una nueva carpeta llamada app_prueba
2. Dentro crea un archivo de texto llamado app_prueba.py
3. Copia el código de abajo en el archivo
4. Abre una ventana de anaconda prompt o terminal
5. Activa el entorno del proyecto
6. Desplázate a la carpeta de la app con: cd ruta_carpeta
7. Ejecuta con: streamlit run app_prueba.py

In [None]:
import pandas as pd
import seaborn as sns
import streamlit as st

df = sns.load_dataset('tips')

seleccion = st.selectbox('Elige:',['Male','Female'])

df.loc[df.sex == seleccion]

## GRÁFICOS

Hay dos formas de incluir gráficos en una app de Streamlit:

* Con los elementos nativos
* Con paquetes de Python

Los elementos nativos son st.line_chart(), st.bar_chart(), st.area_chart() y st.map()

El problema es que son muy básicos y poco flexibles y tienes que pasarles un dataset muy limpio. Así que no los usaremos.

Sobre paquetes de Python podemos usar Matplotlib y Seaborn (entre otros). Usaremos esta opción.

Para hacer gráficos con Matplotlib y Seaborn tenemos que guardar el gráfico creado con ellos en una variable y después mostrarla con un objeto st.pyplot()

Ejercicio:

1. Sobreescribe el script con el código inferior
2. Haz click en rerun o pulsa r en la aplicación

In [None]:
import pandas as pd
import seaborn as sns
import streamlit as st

df = sns.load_dataset('tips')

seleccion = st.selectbox('Elige:',['Male','Female'])

g = sns.displot(data = df.loc[df.sex == seleccion], x = 'total_bill',kind= 'kde')

st.pyplot(g)

## ELEMENTOS

Ya hemos visto como funcionan un elemento de input de información y uno de output (el gráfico).

Hay muchos más y funcionan todos de forma similar.

Los elementos se oganizan en los siguientes grupos:

* Write and Magic
* Text
* Data
* Input
* Media
* Layouts
* Status
* Control Flow
* Charts
* Utilities
* Mutate charts
* State management
* Performance
* Components

Puedes ver una lista actualizada y la doc de la API aquí:

https://docs.streamlit.io/library/api-reference

Streamlit está en contínuo desarrollo.

Los elementos primero se sacan como st.experimental_ después se pasan a st.beta_ y finalmente se pasan a st.

Por tanto puede que un momento determinado tengas que usar un elemento como st.experimental_ y unos meses después lo encuentres en st.beta_ o st.

Los elementos se van situando en la aplicación en el orden en el que son creados en el código.


Ejercicio: Incorpora en la aplicación:

* Un KPI (métrica) con el ticket medio por servicio
* Un input tipo radio para seleccionar entre fumador o no
* Un slider para filtrar por el total de la cuenta
* Un histograma con la distribución de propinas de los registros filtrados

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


In [None]:
import pandas as pd
import seaborn as sns
import streamlit as st
import matplotlib.pyplot as plt

#INPUT
df = sns.load_dataset('tips')

seleccion_sexo = st.selectbox('Elige sexo:',['Male','Female'])
seleccion_fumador = st.radio(
    "Selecciona si es fumador o no",
    ["Yes", "No"])
total_cuenta = st.slider('Monto total de cuenta mayor que', df.total_bill.min(), df.total_bill.max())

#CALCULOS
temp = df.loc[(df.sex == seleccion_sexo) & (df.smoker == seleccion_fumador) & (df.total_bill > total_cuenta)].copy()

ticket_medio = temp.total_bill.mean()

#OUTPUT
st.metric(label="Ticket medio por servicio", value=ticket_medio)

fig, ax = plt.subplots()

ax = sns.histplot(data = temp, x = 'tip')
plt.title ('Distribucion de propinas')
st.pyplot(fig)

In [None]:
import pandas as pd
import seaborn as sns
import streamlit as st
import matplotlib.pyplot as plt

#INPUT

df = sns.load_dataset('tips')

seleccion_sexo = st.selectbox('Elige sexo:',['Male','Female'])

seleccion_fumador = st.radio('Elige fumador:',['Yes','No'])

slider_total_cuenta = st.slider('Cuenta mayor que: ', df.total_bill.min(), df.total_bill.max())


#CALCULOS

datos = df.loc[(df.sex == seleccion_sexo) & 
                      (df.smoker == seleccion_fumador) & 
                      (df.total_bill > slider_total_cuenta)].copy()

ticket_medio = round(datos.total_bill.mean(),2)


#OUTPUT

kpi_ticket_medio = st.metric('Ticket Medio',ticket_medio)

fig, ax = plt.subplots()

ax = sns.histplot(data = datos, x = 'total_bill')

st.pyplot(fig)

## CARGAR DATOS

Si queremos que el usuario pueda cargar sus propios datos podemos usar el elemento st.file_uploader()

Ejercicio:

* Actualiza el script con el siguiente código y ejecuta

In [None]:
import pandas as pd
import seaborn as sns
import streamlit as st
import matplotlib.pyplot as plt

archivo = st.file_uploader('Selecciona un archivo csv')

df = pd.read_csv(archivo)

variable_num = st.selectbox('Selecciona una variable numerica:',df.columns.to_list())

fig, ax = plt.subplots()

ax = sns.histplot(data = df, x = variable_num)

st.pyplot(fig)

Como ves hay un problema.

Como al arrancar la aplicación todavía no hay ningún archivo cargado da unos errores muy feos hasta que se carga un archivo.

Es por lo que decíamos de que Streamlit ejecuta los procesos por el orden del código.

Para evitarlo podemos usar st.stop() para bloquear la ejecución mientras que el valor de archivo sea None.

Ejercicio:

1. Actualiza el script con el siguiente código y ejecuta

In [None]:
import pandas as pd
import seaborn as sns
import streamlit as st
import matplotlib.pyplot as plt

archivo = st.file_uploader('Selecciona un archivo csv')

if archivo is not None:
    df = pd.read_csv(archivo)
else:
    st.stop()

variable_num = st.selectbox('Selecciona una variable numerica:',df.columns.to_list())

fig, ax = plt.subplots()

ax = sns.histplot(data = df, x = variable_num)

st.pyplot(fig)

## REACTIVIDAD Y CACHÉS

Hemos visto cómo al cambiar los inputs automáticamente streamlit recalcula todo y actualiza los resultados.

Eso, que parece obvio, y que streamlit hace tan fácil, se llama reactividad y es bastante más complicado en otros lenguajes (ej Shiny).

Pero la simplicidad viene a un coste, que como todo se recalcula con cualquier cambio, si la aplicación lleva implícitos procesos pesados (o sobre muchos datos) hace que se vuelva extremadamente lenta.

Para evitarlo podemos usar cachés.

Definir un caché es como dejar tomada una foto del objeto en la memoria, de tal forma que ese objeto no se vuelve a ejecutar hasta que exista algún cambio en lo que lo provocó.

En Streamlit se implementa metiendo el objeto en una función, y añadiendo la línea @st.cache_data() antes de ella.

De tal forma que mientras que la función sea llamada con los mismos parámetros con los que ya está en memoria devolverá ese caché y no volverá a ejecutarla.

Ejercicio:

Vamos a usar el mismo script que antes pero vamos a meterle artificialmente un bloqueo temporal en la parte de la carga de datos para simular que estamos cargando datos muy voluminosos.

1. Actualiza el script con el siguiente código y ejecuta
2. Vuelve a cargar los mismos datos y fíjate cómo tarda en responder

In [None]:
import pandas as pd
import seaborn as sns
import streamlit as st
import matplotlib.pyplot as plt
import time

archivo = st.file_uploader('Selecciona un archivo csv')

if archivo is not None:
    df = pd.read_csv(archivo)
    time.sleep(5)
    
else:
    st.stop()

variable_num = st.selectbox('Selecciona una variable numerica:',df.columns.to_list())

fig, ax = plt.subplots()

ax = sns.histplot(data = df, x = variable_num)

st.pyplot(fig)

Ahora vamos a meter el proceso de importación de datos en una función.

In [None]:
import pandas as pd
import seaborn as sns
import streamlit as st
import matplotlib.pyplot as plt
import time


archivo = st.file_uploader('Selecciona un archivo csv')

def cargar_datos(archivo):
    if archivo is not None:
        df = pd.read_csv(archivo)
        time.sleep(5)
    else:
        st.stop()
    return(df)

df = cargar_datos(archivo)

variable_num = st.selectbox('Selecciona una variable numerica:',df.columns.to_list())

fig, ax = plt.subplots()

ax = sns.histplot(data = df, x = variable_num)

st.pyplot(fig)

Por último incluímos el decorator para crear el caché delante de la función.

In [None]:
import pandas as pd
import seaborn as sns
import streamlit as st
import matplotlib.pyplot as plt
import time


archivo = st.file_uploader('Selecciona un archivo csv')

@st.cache_data()
def cargar_datos(archivo):
    if archivo is not None:
        df = pd.read_csv(archivo)
        time.sleep(5)
    else:
        st.stop()
    return(df)

df = cargar_datos(archivo)

variable_num = st.selectbox('Selecciona una variable numerica:',df.columns.to_list())

fig, ax = plt.subplots()

ax = sns.histplot(data = df, x = variable_num)

st.pyplot(fig)

## CARGAR Y USAR MODELOS

Podemos cargar modelos ya entrenados para usar en aplicaciones de Streamlit exactamente igual que lo hacíamos en Juypter.

Por ejemplo vamos a crear una app sencilla para ejecutar el código de scoring del caso 1 "Lead Scoring".

Fíjate en el código cómo hemos usado 3 elementos nuevos:

* st.write para dar una salida de mensaje usuario
* st.button para que el usuario elija cuando ejecutar el scoring
* st.dataframe para mostrar un dataframe como salida

Ejercicio:

1. Actualiza el código inferior con la ruta donde tengas ese caso en tu equipo
2. Copia todo el código y pégalo en el script
3. Recuerda al buscar el archivo que tiene que ser el de validacion.csv
4. Haz click en el botón

In [None]:
import pandas as pd
import seaborn as sns
import streamlit as st
import matplotlib.pyplot as plt
import cloudpickle


#CARGA DE DATOS

archivo = st.file_uploader('Selecciona un archivo csv')

@st.cache_data()
def cargar_datos(archivo):
    if archivo is not None:
        df = pd.read_csv(archivo,index_col='id')
    else:
        st.stop()
    return(df)

df = cargar_datos(archivo)
st.write('Archivo cargado satisfactoriamente')

#PREPROCESAMIENTO
df = df.drop_duplicates() 
df = df.loc[(df.no_llamar != 'OTROS') & (df.no_enviar_email != 'Yes') & (df.ult_actividad != 'Email Bounced')]
                     
variables_finales = ['ambito',
                   'descarga_lm',
                   'ocupacion',
                   'paginas_vistas_visita',
                   'score_actividad',
                   'score_perfil',
                   'tiempo_en_site_total',
                   'ult_actividad',
                   'visitas_total'
                  ]
                     
df = df[variables_finales]


#CARGA DEL PIPE DE EJECUCIÓN
#Recuerda actualizarlo a la ruta de tu equipo
ruta_proyecto = 'C:/Usuarios/Alfredo/DS4B/Python DS Mastery/EstructuraDirectorio/03_MACHINE_LEARNING/07_CASOS/03_RIESGOS'

nombre_pipe_ejecucion = 'pipe_ejecucion_pd.pickle'

ruta_pipe_ejecucion = ruta_proyecto + '/04_Modelos/' + nombre_pipe_ejecucion

with open(ruta_pipe_ejecucion, mode='rb') as file:
   pipe_ejecucion = cloudpickle.load(file)



#EJECUCIÓN DEL PIPE

if st.button('CLICK PARA CALCULAR EL SCORING'):
    scoring = pipe_ejecucion.predict_proba(df)[:, 1]
    st.dataframe(data=pd.DataFrame(scoring))

## ESTRUCTURA

Hasta ahora nuestra aplicación es sólo vertical.

Podemos pensar en una organización en filas sobre una zona central.

Pero Streamlit nos pone fácil dar una estructura más profesional con dos recursos: el sidebar y las columnas.

**Sidebar**

st.sidebar() crea automáticamente un área a la izquierda que normalmente se usa como menú.

Podemos meter ahí lo que queramos, pero lo normal es meter las opciones de input para el usuario, y quizá una descripción de la app, info de la versión, datos de contacto, etc.


**Columns**

También podemos dividir la parte central en columnas, para crear estructuras más complejas.

Lo hacemos con st.columns()

Como parámetro podemos pasarle 2 opciones:

* un número: con lo que creará tantas columnas como el número de igual anchura
* una tupla de números: por cada elemento de la tupla creará una columna. Y el número es la anchura proporcional con respecto al resto de columnas

Por ejemplo:

st.columns(3) creará 3 columnas de igual anchura
st.columns(2,1,1) creará 3 columnas donde la primera tiene el doble de anchura que el resto
st.columns(10,5,5) creará 3 columnas donde la primera tiene el doble de anchura que el resto


**Cómo acceder al sidebar y a las columnas**

Hay dos formas:

La primera es simplemente aplicando el método al objeto sidebar o columna. 

Esta forma se usa cuando las acciones son puntuales. Ej:

st.sidebar.write('hola)

col1,col2,col3 = st.columns(3)

col2.write('hola)


La segunda forma es usando la sintaxis with.

Esta forma se usa cuando queremos hacer varias acciones. Ej: 

with st.sidebar:
    
    s1 = st.selectbox()

    s2 = st.radio()


Ejercicio:

Retoma el código del apartado ELEMENTOS y:

* pasa los elementos de input de usuario al sidebar
* crea 2 columnas de igual anchura en la zona principal y mete el metric en la primera y el histplot en la segunda

In [None]:
import pandas as pd
import seaborn as sns
import streamlit as st
import matplotlib.pyplot as plt

#INPUT

df = sns.load_dataset('tips')

with st.sidebar:
    
    seleccion_sexo = st.selectbox('Elige sexo:',['Male','Female'])

    seleccion_fumador = st.radio('Elige fumador:',['Yes','No'])

    slider_total_cuenta = st.slider('Cuenta mayor que: ', df.total_bill.min(), df.total_bill.max())


#CALCULOS

datos = df.loc[(df.sex == seleccion_sexo) & 
                      (df.smoker == seleccion_fumador) & 
                      (df.total_bill > slider_total_cuenta)].copy()

ticket_medio = round(datos.total_bill.mean(),2)


#OUTPUT

fig, ax = plt.subplots()

ax = sns.histplot(data = datos, x = 'total_bill')

col1,col2 = st.columns(2)

col1.metric('Ticket Medio',ticket_medio)

col2.pyplot(fig)

## DAR APARIENCIA PROFESIONAL

Para finalizar vamos a ver cómo ajustar ciertos detalles para dar un toque más profesional a la aplicación.

* Incluir un título: st.title()
* Incluir imágenes: st.image()
* Cambiar el favicon, título de la página y formato ancho: 

st.set_page_config(
     page_title = 'Titulo',
     page_icon = 'logo.png',
     layout = 'wide')
     
Podemos elegir tema claro u oscuro.

Los veremos en detalle en nustra app.

## PUBLICACIÓN CON STREAMLIT SHARING

**IMPORTANTE**

No pasar a esta sección hasta haber visto y entendido las lecciones de la creación de la app del proyecto de riesgos.

Ya que la usaremos para ejemplificar el proceso de puesta en producción con Streamlit Sharing.

Para publicar con ese servicio tenemos que dar los siguientes pasos:

* Generar un archivo requirements.txt
* Crear una cuenta en Github
* Subir el proyecto a Github
* Crear una cuenta (gratuita) en Streamlit Cloud
* Crear una app en Streamlit Cloud enlazando con el proyecto de Github

Puedes ver todo el proceso con capturas de pantalla en el documento Publicar en Streamlit Sharing.pdf que habrás descargado de la plataforma.