In [1]:
%%writefile app.py
#Creamos el archivo de la APP en el interprete principal (Python)

########################################IMPLEMENTACION DE DASHBOARD########################################

#Verificamos que todas las librerias se puedan importar
#Importamos librerias
import streamlit as st
import plotly.express as px
import pandas as pd
import numpy as np
from funpymodeling.exploratory import freq_tbl
import matplotlib.pyplot as plt
import scipy.special as special
from scipy.optimize import curve_fit
import seaborn as sns
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
import statsmodels.api as sm
from statsmodels.formula.api import ols
from scipy import stats

#########################################################################################################################################################################################################

#Definimos la instancia de streamlit
@st.cache_resource

#Creamos la funcion de carga de datos para Extraccion de Datos
def load_data_EC():
    #Carga desde un archivo csv con indice
    data = pd.read_csv('boston_listings_clean.csv',encoding='utf-8',index_col=0)

     #Etapa de procesamiento de Datos#

    #Obtener Frames para extraccion de datos
    #Se crea una copia del frame original
    data_cuant = data.copy()
    
    #Se categorizan todas las variables numericas

    #Selecciono las columnas tipo categoricas del dataframe
    categoric_data = data_cuant.select_dtypes('object')  #Devuelve columnas
    categoric_cols = categoric_data.columns                         #Devuelve lista de columnas

    #Selecciono las columnas tipo numericas del dataframe
    numeric_data = data_cuant.select_dtypes(['float','int'])  #Devuelve columnas
    numeric_cols = numeric_data.columns                         #Devuelve lista de columnas

    #VAR 1
    #Obtenemos el limite superior y el limite inferior de la columna objetivo
    max1 = data['host_response_rate'].max()
    min1 = data['host_response_rate'].min()
    limites1 = [min1,max1]
    #Calculamos el rango R
    r1 = max1-min1
    #Calculamos el numero de intervalos de clase 'ni', aplicando la regla de Sturges
    ni1 = 1+3.32*np.log10(max1)
    #Calcilamos el ancho del intervao 'i'
    i1 = r1/ni1
    #Categorización de variables
    intervalos1 = np.linspace(95.0,100.0,8)
    #Creamos las categorias
    categorias1 = ['4xSlow_Rate','2xSlow_Rate','Slow_Rate','Medium_Rate','Fast_Rate','2xFast_Rate','4xFast_Rate']
    #Creamos las categorias en la columna numerica
    data_cuant['host_response_rate'] = pd.cut(x=data['host_response_rate'], bins=intervalos1, labels=categorias1)
    #En este punto se crean valores nulos, para rellenarlos se utiliza el metodo, forward fill
    data_cuant['host_response_rate'] = data_cuant['host_response_rate'].fillna(method='ffill')
    
    #VAR 2
    #Obtenemos el limite superior y el limite inferior de la columna objetivo
    max2 = data['host_acceptance_rate'].max()
    min2 = data['host_acceptance_rate'].min()
    limites2 = [min2,max2]
    #Calculamos el rango R
    r2 = max2-min2
    #Calculamos el numero de intervalos de clase 'ni', aplicando la regla de Sturges
    ni2 = 1+3.32*np.log10(max2)
    #Calcilamos el ancho del intervao 'i'
    i2 = r2/ni2
    #Categorización de variables
    intervalos2 = np.linspace(78.0,100.0,8)
    #Creamos las categorias
    categorias2 = ['4xLow_Rate','2xLow_Rate','Low_Rate','Medium_Rate','High_Rate','2xHigh_Rate','4xHigh_Rate']
    #Creamos las categorias en la columna numerica
    data_cuant['host_acceptance_rate'] = pd.cut(x=data['host_acceptance_rate'], bins=intervalos2, labels=categorias2)
    #En este punto se crean valores nulos, para rellenarlos se utiliza el metodo, forward fill
    data_cuant['host_acceptance_rate'] = data_cuant['host_acceptance_rate'].fillna(method='ffill')

    #VAR 3
    #Obtenemos el limite superior y el limite inferior de la columna objetivo
    max3 = data['host_total_listings_count'].max()
    min3 = data['host_total_listings_count'].min()
    limites3 = [min3,max3]
    #Calculamos el rango R
    r3 = max3-min3
    #Calculamos el numero de intervalos de clase 'ni', aplicando la regla de Sturges
    ni3 = 1+3.32*np.log10(max3)
    #Calcilamos el ancho del intervao 'i'
    i3 = r3/ni3
    #Categorización de variables
    intervalos3 = np.linspace(1.0,298.0,9)
    #Creamos las categorias
    categorias3 = ['[1-40]','[40-75]','[75-110]','[110-150]','[150-190]','[190-220]','[220-260]','[260-300]']
    #Creamos las categorias en la columna numerica
    data_cuant['host_total_listings_count'] = pd.cut(x=data['host_total_listings_count'], bins=intervalos3, labels=categorias3)
    #En este punto se crean valores nulos, para rellenarlos se utiliza el metodo, forward fill
    data_cuant['host_total_listings_count'] = data_cuant['host_total_listings_count'].fillna(method='ffill')

    #VAR 4
    #Obtenemos el limite superior y el limite inferior de la columna objetivo
    max4 = data['accommodates'].max()
    min4 = data['accommodates'].min()
    limites4 = [min4,max4]
    #Calculamos el rango R
    r4 = max4-min4
    #Calculamos el numero de intervalos de clase 'ni', aplicando la regla de Sturges
    ni4 = 1+3.32*np.log10(max4)
    #Calcilamos el ancho del intervao 'i'
    i4 = r4/ni4
    #Categorización de variables
    intervalos4 = np.linspace(1.0,7.0,4)
    #Creamos las categorias
    categorias4 = ['Few_Quantity','Medium_Quantity','Lots_Quantity']
    #Creamos las categorias en la columna numerica
    data_cuant['accommodates'] = pd.cut(x=data['accommodates'], bins=intervalos4, labels=categorias4)
    #En este punto se crean valores nulos, para rellenarlos se utiliza el metodo, forward fill
    data_cuant['accommodates'] = data_cuant['accommodates'].fillna(method='ffill')

    #VAR 6
    #Obtenemos el limite superior y el limite inferior de la columna objetivo
    max6 = data['beds'].max()
    min6 = data['beds'].min()
    limites6 = [min6,max6]
    #Calculamos el rango R
    r6 = max6-min6
    #Calculamos el numero de intervalos de clase 'ni', aplicando la regla de Sturges
    ni6 = 1+3.32*np.log10(max6)
    #Calcilamos el ancho del intervao 'i'
    i6 = r6/ni6
    #Categorización de variables
    intervalos6 = np.linspace(0.0,3.0,3)
    #Creamos las categorias
    categorias6 = ['Average_Number','Great_Amount']
    #Creamos las categorias en la columna numerica
    data_cuant['beds'] = pd.cut(x=data['beds'], bins=intervalos6, labels=categorias6)
    #En este punto se crean valores nulos, para rellenarlos se utiliza el metodo, forward fill
    data_cuant['beds'] = data_cuant['beds'].fillna(method='ffill')

    #VAR 7
    #Obtenemos el limite superior y el limite inferior de la columna objetivo
    max7 = data['price'].max()
    min7 = data['price'].min()
    limites7 = [min7,max7]
    #Calculamos el rango R
    r7 = max7-min7
    #Calculamos el numero de intervalos de clase 'ni', aplicando la regla de Sturges
    ni7 = 1+3.32*np.log10(max7)
    #Calcilamos el ancho del intervao 'i'
    i7 = r7/ni7
    #Categorización de variables
    intervalos7 = np.linspace(25.0,445.0,10)
    #Creamos las categorias
    categorias7 = ['[$25-$70]','[$70-$120]','[$120-$160]','[$160-$210]','[$210-$260]','[$260-$305]','[$305-$350]','[$350-$400]','[$400-$450]']
    #Creamos las categorias en la columna numerica
    data_cuant['price'] = pd.cut(x=data['price'], bins=intervalos7, labels=categorias7)
    #En este punto se crean valores nulos, para rellenarlos se utiliza el metodo, forward fill
    data_cuant['price'] = data_cuant['price'].fillna(method='ffill')

    #VAR 8
    #Obtenemos el limite superior y el limite inferior de la columna objetivo
    max8 = data['maximum_nights_avg_ntm'].max()
    min8 = data['maximum_nights_avg_ntm'].min()
    limites8 = [min8,max8]
    #Calculamos el rango R
    r8 = max8-min8
    #Calculamos el numero de intervalos de clase 'ni', aplicando la regla de Sturges
    ni8 = 1+3.32*np.log10(max8)
    #Calcilamos el ancho del intervao 'i'
    i8 = r8/ni8
    #Categorización de variables
    intervalos8 = np.linspace(3.0,1125.0,11)
    #Creamos las categorias
    categorias8 = ['[2-115]','[115-230]','[230-340]','[340-450]','[450-570]','[570-680]','[680-790]','[790-900]','[900-1010]','[1010-1125]']
    #Creamos las categorias en la columna numerica
    data_cuant['maximum_nights_avg_ntm'] = pd.cut(x=data['maximum_nights_avg_ntm'], bins=intervalos8, labels=categorias8)
    #En este punto se crean valores nulos, para rellenarlos se utiliza el metodo, forward fill
    data_cuant['maximum_nights_avg_ntm'] = data_cuant['maximum_nights_avg_ntm'].fillna(method='ffill')

    #VAR 9
    #Obtenemos el limite superior y el limite inferior de la columna objetivo
    max9 = data['availability_365'].max()
    min9 = data['availability_365'].min()
    limites9 = [min9,max9]
    #Calculamos el rango R
    r9 = max9-min9
    #Calculamos el numero de intervalos de clase 'ni', aplicando la regla de Sturges
    ni9 = 1+3.32*np.log10(max9)
    #Calcilamos el ancho del intervao 'i'
    i9 = r9/ni9
    #Categorización de variables
    intervalos9 = np.linspace(0,365,9)
    #Creamos las categorias
    categorias9 = ['[0-50]','[50-90]','[90-140]','[140-180]','[180-230]','[230-270]','[270-320]','[320-370]']
    #Creamos las categorias en la columna numerica
    data_cuant['availability_365'] = pd.cut(x=data['availability_365'], bins=intervalos9, labels=categorias9)
    #En este punto se crean valores nulos, para rellenarlos se utiliza el metodo, forward fill
    data_cuant['availability_365'] = data_cuant['availability_365'].fillna(method='ffill')

    #VAR 10
    #Obtenemos el limite superior y el limite inferior de la columna objetivo
    max10 = data['number_of_reviews'].max()
    min10 = data['number_of_reviews'].min()
    limites10 = [min10,max10]
    #Calculamos el rango R
    r10 = max10-min10
    #Calculamos el numero de intervalos de clase 'ni', aplicando la regla de Sturges
    ni10 = 1+3.32*np.log10(max10)
    #Calcilamos el ancho del intervao 'i'
    i10 = r10/ni10
    #Categorización de variables
    intervalos10 = np.linspace(0.0,113.0,8)
    #Creamos las categorias
    categorias10 = ['[0-15]','[15-30]','[30-50]','[50-65]','[65-80]','[80-100]','[100-115]']
    #Creamos las categorias en la columna numerica
    data_cuant['number_of_reviews'] = pd.cut(x=data['number_of_reviews'], bins=intervalos10, labels=categorias10)
    #En este punto se crean valores nulos, para rellenarlos se utiliza el metodo, forward fill
    data_cuant['number_of_reviews'] = data_cuant['number_of_reviews'].fillna(method='ffill')

    #VAR 11
    #Obtenemos el limite superior y el limite inferior de la columna objetivo
    max11 = data['review_scores_value'].max()
    min11 = data['review_scores_value'].min()
    limites11 = [min11,max11]
    #Calculamos el rango R
    r11 = max11-min11
    #Calculamos el numero de intervalos de clase 'ni', aplicando la regla de Sturges
    ni11 = 1+3.32*np.log10(max11)
    #Calcilamos el ancho del intervao 'i'
    i11 = r11/ni11
    #Categorización de variables
    intervalos11 = np.linspace(4.19,5.0,3)
    #Creamos las categorias
    categorias11 = ['Negative','Positive']
    #Creamos las categorias en la columna numerica
    data_cuant['review_scores_value'] = pd.cut(x=data['review_scores_value'], bins=intervalos11, labels=categorias11)
    #En este punto se crean valores nulos, para rellenarlos se utiliza el metodo, forward fill
    data_cuant['review_scores_value'] = data_cuant['review_scores_value'].fillna(method='ffill')

    #VAR 12
    #Obtenemos el limite superior y el limite inferior de la columna objetivo
    max12 = data['reviews_per_month'].max()
    min12 = data['reviews_per_month'].min()
    limites12 = [min12,max12]
    #Calculamos el rango R
    r12 = max12-min12
    #Calculamos el numero de intervalos de clase 'ni', aplicando la regla de Sturges
    ni12 = 1+3.32*np.log10(max12)
    #Calcilamos el ancho del intervao 'i'
    i12 = r12/ni12
    #Categorización de variables
    intervalos12 = np.linspace(0.01,4.37,3)
    #Creamos las categorias
    categorias12 = ['Small_Quantity','Big_Quantity']
    #Creamos las categorias en la columna numerica
    data_cuant['reviews_per_month'] = pd.cut(x=data['reviews_per_month'], bins=intervalos12, labels=categorias12)
    #En este punto se crean valores nulos, para rellenarlos se utiliza el metodo, forward fill
    data_cuant['reviews_per_month'] = data_cuant['reviews_per_month'].fillna(method='ffill')

    return data, data_cuant, categoric_cols, numeric_cols

#Cargo los datos obtenidos de la funcion 'load_data_EC'
data_EC, data_cuant_EC, categoric_cols_EC, numeric_cols_EC = load_data_EC()

######################################################################################################################################

#Creamos l funcion de carga de datosw para la Regresion Lineal Simple
def load_data_RLS():
    #Carga desde un archivo csv con indice
    data = pd.read_csv('boston_listings_clean.csv',encoding='utf-8',index_col=0)

    #Etapa de procesamiento de Datos#
    #Se genera el SubFrame con los datos donde el tipo de habitacion sea el establecido
    data_entire = data[data['room_type'] == 'Entire home/apt']
    #Se genera el SubFrame con los datos donde el tipo de habitacion sea el establecido
    data_private = data[data['room_type'] == 'Private room']
    #Se genera el SubFrame con los datos donde el tipo de habitacion sea el establecido
    data_shared = data[data['room_type'] == 'Shared room']
    #Se genera el SubFrame con los datos donde el tipo de habitacion sea el establecido
    data_hotel = data[data['room_type'] == 'Hotel room']

    #Selecciono las columnas tipo numericas del dataframe
    numeric_data = data.select_dtypes(['float','int'])  #Devuelve columnas
    numeric_cols = numeric_data.columns                         #Devuelve lista de columnas

    return data, data_entire, data_private, data_shared, data_hotel, numeric_cols

#Cargamos los datos obtenidos de la funcion 'load_data_RLS'
data_RLS, data_entire_RLS, data_private_RLS, data_shared_RLS, data_hotel_RLS, numeric_cols_RLS = load_data_RLS()

######################################################################################################################################

#Creamos la funcion de carga de datos para Regresion Lineal Multiple
def load_data_RLM():
    #Carga desde un archivo csv con indice
    data = pd.read_csv('boston_listings_clean.csv',encoding='utf-8',index_col=0)

    #Etapa de procesamiento de Datos#

    #Se crea una copia del frame original
    data_mult = data.copy()

    #Se reemplazan los datos categoricos a numerico
    data_mult['host_is_superhost'] = data_mult['host_is_superhost'].replace('f',0)
    data_mult['host_is_superhost'] = data_mult['host_is_superhost'].replace('t',1)
    data_mult['host_is_superhost'] = data_mult['host_is_superhost'].astype(int)

    #Se reemplazan los datos categoricos a numerico
    data_mult['room_type'] = data_mult['room_type'].replace('Entire home/apt',1)
    data_mult['room_type'] = data_mult['room_type'].replace('Hotel room',2)
    data_mult['room_type'] = data_mult['room_type'].replace('Private room',3)
    data_mult['room_type'] = data_mult['room_type'].replace('Shared room',4)
    data_mult['room_type'] = data_mult['room_type'].astype(int)

    #Se reemplazan los datos categoricos a numerico
    data_mult['instant_bookable'] = data_mult['instant_bookable'].replace('f',0)
    data_mult['instant_bookable'] = data_mult['instant_bookable'].replace('t',1)
    data_mult['instant_bookable'] = data_mult['instant_bookable'].astype(int)

    #Se eliminan columnas innecesarias
    data_mult.drop(['last_scraped','source','name','description','host_name','host_since','host_location','host_response_time','host_verifications','host_has_profile_pic','host_identity_verified','neighbourhood_cleansed','property_type','bathrooms_text','amenities','has_availability','calendar_last_scraped','first_review','last_review'],axis=1,inplace=True)

    #Selecciono las columnas tipo numericas del dataframe
    numeric_data = data_mult.select_dtypes(['float','int'])  #Devuelve columnas
    numeric_cols = numeric_data.columns                         #Devuelve lista de columnas

    #Encontramos todos los coeficientes de correlacion entre las variables
    corr_f = data_mult.corr()

    #Encontramos el valor absoluto de todas las correlaciones entre las variables
    corr_factors = abs(corr_f)

    return data_mult, numeric_cols, corr_factors

#Cargamos los datos obtenidos de la funcion 'load_data_RLM'
data_mult_RLM, numeric_cols_RLM, corr_factors_RLM = load_data_RLM()

######################################################################################################################################

#Creamos la funcion de carga de datos para Regresion No Lineal
def load_data_RNL():
    #Carga desde un archivo csv con indice
    data = pd.read_csv('boston_listings_clean.csv',encoding='utf-8',index_col=0)

    #Etapa de procesamiento de Datos#

    #Obtener Frames para regresion no lineal
    #Se crea una copia del frame original
    data_cuant = data.copy()

    #Se eliminan columnas innecesarias
    data_cuant.drop(['last_scraped','source','name','description','host_name','host_since','host_location','host_response_time','host_verifications','host_has_profile_pic','host_identity_verified','neighbourhood_cleansed','property_type','bathrooms_text','amenities','has_availability','calendar_last_scraped','first_review','last_review','host_is_superhost','room_type','instant_bookable'],axis=1,inplace=True)

    #Encontramos todos los coeficientes de correlacion entre las variables
    corr_f = data_cuant.corr()

    #Encontramos el valor absoluto de todas las correlaciones entre las variables
    corr_factors = abs(corr_f)

    #Variables a analizar
    data_results = data_cuant[['host_response_rate', 'host_acceptance_rate', 'host_total_listings_count', 'accommodates', 'reviews_per_month', 'price']]

    #Selecciono las columnas tipo numericas del dataframe
    numeric_data = data_cuant.select_dtypes(['float','int'])  #Devuelve columnas
    numeric_cols = numeric_data.columns                         #Devuelve lista de columnas

    return data, data_cuant, corr_factors, data_results, numeric_data, numeric_cols

#Cargo los datos obtenidos de la funcion 'load_data_RNL'
data_RNL, data_cuant_RNL, corr_factors_RNL, data_results_RNL, numeric_data_RNL, numeric_cols_RNL = load_data_RNL()

######################################################################################################################################

#Funiones para modelos No Lineales
#y = ax^2 + bx + c   ("Función cuadrática")
def funcCuad(x,a,b,c):
  return a*x**2 + b*x + c

#y = a*np.abs(x) + b*x + c (Función Valor absoluto)
def funcAbs(x,a,b,c):
  return a*np.abs(x) + b*x + c

#y = a*exp(-bx) + c   ("Función exponencial")
def funcExp(x,a,b,c):
  return a*np.exp(-b*x) + c

#y = a*np.log(x) + b  (Función logaritmica)
def funcLog(x,a,b,c):
  return a*np.log(x) + b

######################################################################################################################################

def load_data_RL():
    #Carga desde un archivo csv con indice
    data = pd.read_csv('boston_listings_clean.csv',encoding='utf-8',index_col=0)

    #Etapa de procesamiento de Datos#

    #Obtener Frames para regresion logistica
    data_dico = data[['host_is_superhost','host_has_profile_pic','host_identity_verified','has_availability','instant_bookable']]

    dico_cols = data_dico.columns

    return data, data_dico, dico_cols

data_RL, data_dico_RL, dico_cols_RL = load_data_RL()

#########################################################################################################################################################################################################

#PAGINA PRINCIPAL - Titulo
st.title('AIRBNB - ANALISIS DE DATOS')
st.header('Boston')

#SIDEBAR - Seleccion de Pagina
st.sidebar.title('MENU')
st.sidebar.header('Seleccione una Seccion')
section = st.sidebar.selectbox(label='Seccion',options=['','Extraccion de Caracteristicas','Regresion Lineal Simple','Regresion Lineal Multiple','Regresion No Lineal','Regresion Logistica'])

######################################################################################################################################
#CONTENIDO - Extraccion de Caracteristicas
if section == 'Extraccion de Caracteristicas':
    st.subheader('Extraccion de Caracteristicas')

    st.sidebar.subheader('Tipo de Variables')
    vartype = st.sidebar.selectbox(label='Seleccione el tipo de Variable',options=['','Categorica','Numerica'])

    if vartype == 'Categorica':
        st.text('Seleccione la variable y el tipo de grafico')

        selected_var = st.selectbox(label='Variable',options=categoric_cols_EC)
        selected_graph = st.selectbox(label='Grafico',options=['','Line Plot','Bar Plot','Scatter Plot','Pie Plot'])

        if selected_graph == 'Line Plot':
            #Obtengo un analisis univariado de la variable categorica
            table = freq_tbl(data_cuant_EC[selected_var])

            #Elimino las columnas 'percentage' y 'cumulative_perc' para trabajar con las frecuencias
            table1 = table.drop(['percentage','cumulative_perc'],axis=1)

            #Filtrar el frame sobre una frecuencia especifica
            filtro = table1[table1['frequency']>1]

            #Establecemos el indice del frame al atributo del dato
            filtro_index = filtro.set_index(str(selected_var))

            #Generamos un cuadro de seleccion (Checkbox) en una barra lateral (sidebar) para mostrar dataset
            check_box = st.sidebar.checkbox(label="Mostrar Tabla de Frecuencias")

            if check_box:
                #Mostramos el dataset
                st.write(filtro_index)

            #GRAPH 1: LINEPLOT
            #Despliegue de un line plot, definiendo las variables "X categorias" y "Y numericas"
            figureEC = px.line(data_frame=filtro_index, x=filtro_index.index,
                            y='frequency', title=str('Line Plot'),
                            width=1600, height=600)
            #Mostramos el lineplot
            st.plotly_chart(figureEC)

        if selected_graph == 'Bar Plot':
            #Obtengo un analisis univariado de la variable categorica
            table = freq_tbl(data_cuant_EC[selected_var])

            #Elimino las columnas 'percentage' y 'cumulative_perc' para trabajar con las frecuencias
            table1 = table.drop(['percentage','cumulative_perc'],axis=1)

            #Filtrar el frame sobre una frecuencia especifica
            filtro = table1[table1['frequency']>1]

            #Establecemos el indice del frame al atributo del dato
            filtro_index = filtro.set_index(str(selected_var))

            #Generamos un cuadro de seleccion (Checkbox) en una barra lateral (sidebar) para mostrar dataset
            check_box = st.sidebar.checkbox(label="Mostrar Tabla de Frecuencias")

            if check_box:
                #Mostramos el dataset
                st.write(filtro_index)

            #GRAPH 2: BARPLOT
            #Despliegue de un bar plot, definiendo las variables "X categorias" y "Y numericas"
            figureEC = px.bar(data_frame=filtro_index, x=filtro_index.index,
                            y='frequency', title=str('Bar Plot'))
            figureEC.update_xaxes(automargin=True)
            figureEC.update_yaxes(automargin=True)
            #Mostramos el barplot
            st.plotly_chart(figureEC)

        if selected_graph == 'Scatter Plot':
            #Obtengo un analisis univariado de la variable categorica
            table = freq_tbl(data_cuant_EC[selected_var])

            #Elimino las columnas 'percentage' y 'cumulative_perc' para trabajar con las frecuencias
            table1 = table.drop(['percentage','cumulative_perc'],axis=1)

            #Filtrar el frame sobre una frecuencia especifica
            filtro = table1[table1['frequency']>1]

            #Establecemos el indice del frame al atributo del dato
            filtro_index = filtro.set_index(str(selected_var))

            #Generamos un cuadro de seleccion (Checkbox) en una barra lateral (sidebar) para mostrar dataset
            check_box = st.sidebar.checkbox(label="Mostrar Tabla de Frecuencias")

            if check_box:
                #Mostramos el dataset
                st.write(filtro_index)

            #GRAPH 3: SCATTERPLOT
            #Despliegue de un bar plot, definiendo las variables "X categorias" y "Y numericas"
            figureEC = px.scatter(data_frame=filtro_index, x=filtro_index.index, y='frequency',
                                title="Scatter Plot")
            st.plotly_chart(figureEC)

        if selected_graph == 'Pie Plot':
            #Obtengo un analisis univariado de la variable categorica
            table = freq_tbl(data_cuant_EC[selected_var])

            #Elimino las columnas 'percentage' y 'cumulative_perc' para trabajar con las frecuencias
            table1 = table.drop(['percentage','cumulative_perc'],axis=1)

            #Filtrar el frame sobre una frecuencia especifica
            filtro = table1[table1['frequency']>1]

            #Establecemos el indice del frame al atributo del dato
            filtro_index = filtro.set_index(str(selected_var))

            #Generamos un cuadro de seleccion (Checkbox) en una barra lateral (sidebar) para mostrar dataset
            check_box = st.sidebar.checkbox(label="Mostrar Tabla de Frecuencias")

            if check_box:
                #Mostramos el dataset
                st.write(filtro_index)

            #GRAPH 4: PIEPLOT
            #Desplegamos de un pie plot, definiendo las variables "X categorias" y "Y numericas"
            figureEC = px.pie(data_frame=filtro_index, names=filtro_index.index,
                            values='frequency', title=str('Pie Plot'),
                            width=1600, height=600)
            st.plotly_chart(figureEC)

    if vartype == 'Numerica':
        st.text('Seleccione la variable')

        selected_var = st.selectbox(label='Variable',options=['host_response_rate','host_acceptance_rate','host_total_listings_count','accommodates','beds','price','maximum_nights_avg_ntm','availability_365','number_of_reviews','review_scores_value','reviews_per_month'])

        #Obtengo un analisis univariado de una variable categorica  en especifico
        table = freq_tbl(data_cuant_EC[selected_var])
        
        #Elimino las columnas 'percentage' y 'cumulative_perc' para trabajar con las frecuencias
        table1 = table.drop(['percentage','cumulative_perc'],axis=1)

        #Se asigna el indice a la columna de la variable
        table_index = table1.set_index(str(selected_var))

        #Generamos un cuadro de seleccion (Checkbox) en una barra lateral (sidebar) para mostrar dataset
        check_box = st.sidebar.checkbox(label="Mostrar Tabla de Frecuencias")

        if check_box:
            #Mostramos el dataset
            st.write(table_index)
        
        #GRAPH 2: BARPLOT
        #Despliegue de un bar plot, definiendo las variables "X categorias" y "Y numericas"
        figureEC = px.bar(data_frame=table_index, x=table_index.index,
                        y='frequency', title=str('Bar Plot'))
        figureEC.update_xaxes(automargin=True)
        figureEC.update_yaxes(automargin=True)
        #Mostramos el barplot
        st.plotly_chart(figureEC)

######################################################################################################################################
#CONTENIDO - Regresion Lineal Simple
if section == 'Regresion Lineal Simple':
    st.subheader('Regresion Lineal Simple')

    st.sidebar.subheader('Tipo de Habitacion')
    roomtype = st.sidebar.selectbox(label='Selecciona el tipo de habitacion',options=['','Entire home/apt','Private room','Shared room','Hotel room'])

    if roomtype == 'Entire home/apt':
        st.text('ENTIRE HOME/APT')

        st.sidebar.text('Selecciona las variables X y Y')

        x_var = st.sidebar.selectbox(label='Variable X',options=numeric_cols_RLS)
        y_var = st.sidebar.selectbox(label='Variable Y',options=numeric_cols_RLS)

        #Declaramos las variables dependientes e independientes para la regresion lineal
        vars_indep = data_entire_RLS[[x_var]]
        var_dep = data_entire_RLS[y_var]

        model = LinearRegression()

        #Ajustamos el modelo con las variables antes declaradas
        model.fit(X=vars_indep, y=var_dep)

        #Predecimos los valores a partir de la variable
        y_pred = model.predict(X=data_entire_RLS[[x_var]])

        #Insertamos la columna de predicciones en el DataFrame
        data_copy = data_entire_RLS.copy()
        data_copy.insert(0,'predicciones',y_pred)

        #Corrobaremos cual es el coeficiente de Determinacion de nuestro modelo (R_Cuadrada)
        coef_deter = model.score(X=vars_indep, y=var_dep)
        
        #Corroboramos cual es el coeficiente de correlacion de nuestro modelo (R)
        coef_correl = np.sqrt(coef_deter)

        st.text('Coeficiente de Correlación:')
        st.text(coef_correl)

        #GRAPH 3: SCATTERPLOT
        #Despliegue de un bar plot, definiendo las variables "X categorias" y "Y numericas"
        figureRLS = px.scatter(data_frame=data_copy, x=x_var, y=[y_var,'predicciones'],
                            title="Regresion Lineal Simple - Entire home/apt")
        st.plotly_chart(figureRLS)
    
    if roomtype == 'Private room':
        st.text('PRIVATE ROOM')

        st.sidebar.text('Selecciona las variables X y Y')

        x_var = st.sidebar.selectbox(label='Variable X',options=numeric_cols_RLS)
        y_var = st.sidebar.selectbox(label='Variable Y',options=numeric_cols_RLS)

        #Declaramos las variables dependientes e independientes para la regresion lineal
        vars_indep = data_private_RLS[[x_var]]
        var_dep = data_private_RLS[y_var]

        model = LinearRegression()

        #Ajustamos el modelo con las variables antes declaradas
        model.fit(X=vars_indep, y=var_dep)

        #Predecimos los valores a partir de la variable
        y_pred = model.predict(X=data_private_RLS[[x_var]])

        #Insertamos la columna de predicciones en el DataFrame
        data_copy = data_private_RLS.copy()
        data_copy.insert(0,'predicciones',y_pred)

        #Corrobaremos cual es el coeficiente de Determinacion de nuestro modelo (R_Cuadrada)
        coef_deter = model.score(X=vars_indep, y=var_dep)
        
        #Corroboramos cual es el coeficiente de correlacion de nuestro modelo (R)
        coef_correl = np.sqrt(coef_deter)

        st.text('Coeficiente de Correlación:')
        st.text(coef_correl)

        #GRAPH 3: SCATTERPLOT
        #Despliegue de un bar plot, definiendo las variables "X categorias" y "Y numericas"
        figureRLS = px.scatter(data_frame=data_copy, x=x_var, y=[y_var,'predicciones'],
                            title="Regresion Lineal Simple - Private room")
        st.plotly_chart(figureRLS)

    if roomtype == 'Shared room':
        st.text('SHARED ROOM')

        st.sidebar.text('Selecciona las variables X y Y')

        x_var = st.sidebar.selectbox(label='Variable X',options=numeric_cols_RLS)
        y_var = st.sidebar.selectbox(label='Variable Y',options=numeric_cols_RLS)

        #Declaramos las variables dependientes e independientes para la regresion lineal
        vars_indep = data_shared_RLS[[x_var]]
        var_dep = data_shared_RLS[y_var]

        model = LinearRegression()

        #Ajustamos el modelo con las variables antes declaradas
        model.fit(X=vars_indep, y=var_dep)

        #Predecimos los valores a partir de la variable
        y_pred = model.predict(X=data_shared_RLS[[x_var]])

        #Insertamos la columna de predicciones en el DataFrame
        data_copy = data_shared_RLS.copy()
        data_copy.insert(0,'predicciones',y_pred)

        #Corrobaremos cual es el coeficiente de Determinacion de nuestro modelo (R_Cuadrada)
        coef_deter = model.score(X=vars_indep, y=var_dep)
        
        #Corroboramos cual es el coeficiente de correlacion de nuestro modelo (R)
        coef_correl = np.sqrt(coef_deter)

        st.text('Coeficiente de Correlación:')
        st.text(coef_correl)

        #GRAPH 3: SCATTERPLOT
        #Despliegue de un bar plot, definiendo las variables "X categorias" y "Y numericas"
        figureRLS = px.scatter(data_frame=data_copy, x=x_var, y=[y_var,'predicciones'],
                            title="Regresion Lineal Simple - Shared room")
        st.plotly_chart(figureRLS)

    if roomtype == 'Hotel room':
        st.text('HOTEL ROOM')

        st.sidebar.text('Selecciona las variables X y Y')

        x_var = st.sidebar.selectbox(label='Variable X',options=numeric_cols_RLS)
        y_var = st.sidebar.selectbox(label='Variable Y',options=numeric_cols_RLS)

        #Declaramos las variables dependientes e independientes para la regresion lineal
        vars_indep = data_hotel_RLS[[x_var]]
        var_dep = data_hotel_RLS[y_var]

        model = LinearRegression()

        #Ajustamos el modelo con las variables antes declaradas
        model.fit(X=vars_indep, y=var_dep)

        #Predecimos los valores a partir de la variable
        y_pred = model.predict(X=data_hotel_RLS[[x_var]])

        #Insertamos la columna de predicciones en el DataFrame
        data_copy = data_hotel_RLS.copy()
        data_copy.insert(0,'predicciones',y_pred)

        #Corrobaremos cual es el coeficiente de Determinacion de nuestro modelo (R_Cuadrada)
        coef_deter = model.score(X=vars_indep, y=var_dep)
        
        #Corroboramos cual es el coeficiente de correlacion de nuestro modelo (R)
        coef_correl = np.sqrt(coef_deter)

        st.text('Coeficiente de Correlación:')
        st.text(coef_correl)

        #GRAPH 3: SCATTERPLOT
        #Despliegue de un bar plot, definiendo las variables "X categorias" y "Y numericas"
        figureRLS = px.scatter(data_frame=data_copy, x=x_var, y=[y_var,'predicciones'],
                            title="Regresion Lineal Simple - Hotel room")
        st.plotly_chart(figureRLS)

######################################################################################################################################
#CONTENIDO - Regresion Lineal Multiple
if section == 'Regresion Lineal Multiple':
    st.subheader('Regresion Lineal Multiple')

    #Generamos un cuadro de seleccion (Checkbox) en una barra lateral (sidebar) para mostrar dataset
    check_box = st.sidebar.checkbox(label="Mostrar Correlaciones Lineales")

    if check_box:
        #Mostramos el dataset
        st.write(corr_factors_RLM)

    #Generamos un cuadro de seleccion (Checkbox) en una barra lateral (sidebar) para mostrar dataset
    check_map = st.sidebar.checkbox(label="Mostrar Heat Map")

    if check_map:
        #Mostramos el dataset
        heatmap = px.imshow(corr_factors_RLM)
        st.plotly_chart(heatmap)    

    st.text('Seleccione una Variable Objetivo para graficar')
    y_var = st.selectbox(label='Variables Objetivo (Y)',options=numeric_cols_RLM)

    st.sidebar.subheader('Variables X')
    x_vars = st.sidebar.multiselect(label='Seleccione las variables Independientes',options=numeric_cols_RLM)

    try:
        #Declaramos las variables dependientes e independientes para la regresión lineal
        vars_indep = data_mult_RLM[x_vars]
        var_dep = data_mult_RLM[y_var]

        model = LinearRegression()
        
        #Ajustamos el modelo con las variables antes declaradas
        model.fit(X=vars_indep, y=var_dep)

        #Predecimos los valores de total de accidentes a partir de las variables: 'alcohol', 'speeding' y 'no_previous'
        y_pred = model.predict(X=data_mult_RLM[x_vars])

        #Insertamos la columna de predicciones en el DataFrame
        data_copy = data_mult_RLM.copy()
        data_copy.insert(0,'predicciones',y_pred)

        #Corrobaremos cual es el coeficiente de Determinación de nuestro modelo
        coef_deter = model.score(X=vars_indep, y=var_dep)

        #Corrobaremos cual es el coeficiente de correlación de nuestro modelo
        coef_correl = np.sqrt(coef_deter)

        st.text('Coeficiente de Correlación:')
        st.text(coef_correl)

        #GRAPH 3: SCATTERPLOT
        #Despliegue de un bar plot, definiendo las variables "X categorias" y "Y numericas"
        figureRLM = px.scatter(data_frame=data_copy, x=x_vars, y=y_var,
                            title="Regresion Lineal Multiple - SIN PREDICCIONES")
        st.plotly_chart(figureRLM)

        #Widget 4: Button
        #Generamos un button (Button) en la barra lateral (sidebar) para mostrar la graficacion lineal
        checkbox = st.sidebar.checkbox(label="Mostrar Grafica con solo UNA variable X")
        #Condicional para que aparezca el dataframe
        if checkbox:
            st.subheader('Seleccione una variable Independiente que graficar con su prediccion')
            x_var = st.selectbox(label='Variable X',options=x_vars)

            #GRAPH 3: SCATTERPLOT
            #Despliegue de un bar plot, definiendo las variables "X categorias" y "Y numericas"
            figureRLM = px.scatter(data_frame=data_copy, x=x_var, y=[y_var,'predicciones'],
                                title="Regresion Lineal Multiple - CON PREDICCIONES")
            st.plotly_chart(figureRLM)
    except:
        st.text('Define las variables independientes')

######################################################################################################################################
#CONTENIDO - Regresion No Lineal
if section == 'Regresion No Lineal':
    st.subheader('Regresion No Lineal')

    #Generamos un cuadro de seleccion (Checkbox) en una barra lateral (sidebar) para mostrar dataset
    check_box = st.sidebar.checkbox(label="Mostrar Correlaciones Lineales")

    if check_box:
        #Mostramos el dataset
        st.write(corr_factors_RNL)

    #Generamos un cuadro de seleccion (Checkbox) en una barra lateral (sidebar) para mostrar dataset
    check_map = st.sidebar.checkbox(label="Mostrar Heat Map")

    if check_map:
        #Mostramos el dataset
        heatmap = px.imshow(corr_factors_RNL)
        st.plotly_chart(heatmap)

    st.text('Seleccione una Variable Objetivo para graficar')
    vars_result_selected = st.selectbox(label='Variables Objetivo (Y)',options=data_results_RNL.columns)

    st.sidebar.subheader('Criterios de Graficación')
    x_var = st.sidebar.selectbox(label='Seleccione Variable X',options=numeric_cols_RNL)
    func = st.sidebar.selectbox(label='Seleccione Funcion para Graficar',options=['','Cuadratica','Absoluto','Exponencial','Logaritmica'])

    if func == 'Cuadratica':
        data_copy = data_cuant_RNL.copy()

        #Declaramos las variables dependientes e independientes para la regresion No Lineal
        x = data_cuant_RNL[[str(x_var)]]
        y = data_cuant_RNL[[str(vars_result_selected)]]

        st.text('Funcion Cuadratica - y = ax^2 + bx + c')

        try:
            #Ajustamos los parametros de la funcion curve_fit
            parametros, covs = curve_fit(funcCuad, data_cuant_RNL[x_var], data_cuant_RNL[vars_result_selected], maxfev=5000)

            #Predicciones
            y_pred = funcCuad(x, *parametros)
            data_copy['y_pred'] = y_pred

            #Calclamos el coeficiete de determinación del modelo
            r2 = r2_score(y, y_pred)

            #Calculamos el coeficiente de correlacion del modelo
            r = np.sqrt(abs(r2))

            #Mostramos el Coeficiente
            st.text('Coeficiente de Correlacion:')
            st.text(str(r))

            #SCATTERPLOT
            #Despliegue de un scatter plot, definiendo las variables "X" y "Y"
            figureRNL = px.scatter(data_frame=data_copy, x=x_var, y=[vars_result_selected,'y_pred'],
                                title="Regresion No Lineal - Cuadratica")
            st.plotly_chart(figureRNL)
        except:
            st.text('Es imposible formular la Grafica')

    if func == 'Absoluto':
        data_copy = data_cuant_RNL.copy()

        #Declaramos las variables dependientes e independientes para la regresion No Lineal
        x = data_cuant_RNL[[str(x_var)]]
        y = data_cuant_RNL[[str(vars_result_selected)]]

        st.text('Funcion Valor Absoluto - y = a*np.abs(x) + b*x + c')

        try:
            #Ajustamos los parametros de la funcion curve_fit
            parametros, covs = curve_fit(funcAbs, data_cuant_RNL[x_var], data_cuant_RNL[vars_result_selected], maxfev=5000)

            #Predicciones
            y_pred = funcAbs(x, *parametros)
            data_copy['y_pred'] = y_pred

            #Calclamos el coeficiete de determinación del modelo
            r2 = r2_score(y, y_pred)

            #Calculamos el coeficiente de correlacion del modelo
            r = np.sqrt(abs(r2))

            #Mostramos el Coeficiente
            st.text('Coeficiente de Correlacion:')
            st.text(str(r))

            #SCATTERPLOT
            #Despliegue de un scatter plot, definiendo las variables "X" y "Y"
            figureRNL = px.scatter(data_frame=data_copy, x=x_var, y=[vars_result_selected,'y_pred'],
                                title="Regresion No Lineal - Valor Absoluto")
            st.plotly_chart(figureRNL)
        except:
            st.text('Es imposible formular la Grafica')
    
    if func == 'Exponencial':
        data_copy = data_cuant_RNL.copy()

        #Declaramos las variables dependientes e independientes para la regresion No Lineal
        x = data_cuant_RNL[[str(x_var)]]
        y = data_cuant_RNL[[str(vars_result_selected)]]

        st.text('Funcion Exponencial - y = a*exp(-bx) + c')

        try:
            #Ajustamos los parametros de la funcion curve_fit
            parametros, covs = curve_fit(funcExp, data_cuant_RNL[x_var], data_cuant_RNL[vars_result_selected], maxfev=5000)

            #Predicciones
            y_pred = funcExp(x, *parametros)
            data_copy['y_pred'] = y_pred

            #Calclamos el coeficiete de determinación del modelo
            r2 = r2_score(y, y_pred)

            #Calculamos el coeficiente de correlacion del modelo
            r = np.sqrt(abs(r2))

            #Mostramos el Coeficiente
            st.text('Coeficiente de Correlacion:')
            st.text(str(r))

            #SCATTERPLOT
            #Despliegue de un scatter plot, definiendo las variables "X" y "Y"
            figureRNL = px.scatter(data_frame=data_copy, x=x_var, y=[vars_result_selected,'y_pred'],
                                title="Regresion No Lineal - Exponencial")
            st.plotly_chart(figureRNL)
        except:
            st.text('Es imposible formular la Grafica')
    
    if func == 'Logaritmica':
        data_copy = data_cuant_RNL.copy()

        #Declaramos las variables dependientes e independientes para la regresion No Lineal
        x = data_cuant_RNL[[str(x_var)]]
        y = data_cuant_RNL[[str(vars_result_selected)]]

        st.text('Funcion Logaritmica - y = a*np.log(x) + b')

        try:
            #Ajustamos los parametros de la funcion curve_fit
            parametros, covs = curve_fit(funcLog, data_cuant_RNL[x_var], data_cuant_RNL[vars_result_selected], maxfev=5000)

            #Predicciones
            y_pred = funcLog(x, *parametros)
            data_copy['y_pred'] = y_pred

            #Calclamos el coeficiete de determinación del modelo
            r2 = r2_score(y, y_pred)

            #Calculamos el coeficiente de correlacion del modelo
            r = np.sqrt(abs(r2))

            #Mostramos el Coeficiente
            st.text('Coeficiente de Correlacion:')
            st.text(str(r))

            #SCATTERPLOT
            #Despliegue de un scatter plot, definiendo las variables "X" y "Y"
            figureRNL = px.scatter(data_frame=data_copy, x=x_var, y=[vars_result_selected,'y_pred'],
                                title="Regresion No Lineal - Logaritmica")
            st.plotly_chart(figureRNL)
        except:
            st.text('Es imposible formular la Grafica')

######################################################################################################################################
#CONTENIDO - Regresion Logistica
if section == 'Regresion Logistica':
    st.subheader('Regresion Logistica')

    #Generamos un cuadro de seleccion (Checkbox) en una barra lateral (sidebar) para mostrar dataset
    check_box = st.sidebar.checkbox(label="Mostrar Correlaciones Lineales")

    if check_box:
        #Mostramos el dataset
        st.write(corr_factors_RNL)

    #Generamos un cuadro de seleccion (Checkbox) en una barra lateral (sidebar) para mostrar dataset
    check_map = st.sidebar.checkbox(label="Mostrar Heat Map")

    if check_map:
        #Mostramos el dataset
        heatmap = px.imshow(corr_factors_RNL)
        st.plotly_chart(heatmap)

    st.text('Selecciona la Variable Objetivo (Binaria)')
    selected_y = st.selectbox(label='Variable Y',options=dico_cols_RL)

    st.sidebar.text('Seleccione las Variables Independientes')
    selected_x = st.sidebar.multiselect(label='Variables X',options=numeric_cols_RNL)

    try:
        #Declaramos las variables dependientes e independientes para la regresion logistica
        X = data_RL[selected_x]
        y = data_RL[selected_y]

        #Dividimos el conjunto de datos en la parte de entrenamiento y prueba
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=None)

        #Se escalan todos los datos
        escalar = StandardScaler()

        #Para realizar el escalamiento de las variables 'x' tanto de entrenamiento como d prueba, utilizaremo fit_transform
        X_train = escalar.fit_transform(X_train)
        X_test = escalar.transform(X_test)

        #Definimos el algoritmo a utilizar
        algoritmo = LogisticRegression()
        #Entrenamos el modelo
        algoritmo.fit(X_train, y_train)

        #Realizamos una predicción
        y_pred = algoritmo.predict(X_test)

        #Verifico la matriz de confusion
        matriz = confusion_matrix(y_test, y_pred)
        st.text('Matriz de Confusión:')
        st.write(matriz)

        #Calculo la precision del modelos
        precision = precision_score(y_test, y_pred, average='binary', pos_label='t')
        st.text('Precision del modelo (True):')
        st.text(precision)

        #Calculo la exactitud del modelo
        exactitud = accuracy_score(y_test, y_pred)
        st.text('Exactitud del modelo (True):')
        st.text(exactitud)

        #Calculo la sensibilidad del modelo
        sensibilidad = recall_score(y_test, y_pred, average='binary', pos_label='t')
        st.text('Sensibilidad del modelo (True):')
        st.text(sensibilidad)

        check_box = st.sidebar.checkbox(label='ANOVA')

        if check_box:
            st.subheader('ANOVA')
            st.text('\nA continuación, seleccione de las variables eleguidas')
            st.text('Una para evaluar con ANOVA')
            x_var = st.selectbox(label='Variable X',options=selected_x)

            #GRAPH: Boxplot
            figureANVA = px.box(data_RL, x=x_var, y=selected_y)
            st.plotly_chart(figureANVA)

            #Defino los grupos donde me entrega la columna Fare separada por grupos e las
            #Categorias de la columna sex: 'male' y 'female'
            y_1 = data_RL[x_var][data_RL[selected_y] == 't']
            y_2 = data_RL[x_var][data_RL[selected_y] == 'f']

            #p-value < 0.05, se rechaza la hipotesis de que todas las medidas son iguales
            #p-value < 0.05, implica que la variale categorica influye en la variable cuantitatvia
            anova = stats.f_oneway(y_1,y_2)
            st.text('ANOVA:')
            st.text('anova')

            #p-value < 0.05, se reachaza la hipotesis de que todas las medias son iguales
            #Se puede generar un analisis MANOVA (Multiples variables categoricas)
            mod = ols(f'{x_var} ~ {selected_y} + {x_var} + {selected_y}:{x_var}', data=data_RL).fit()
            anova_table = sm.stats.anova_lm(mod, typ=2)
            st.write(anova_table)

    except:
        st.text('Defina las Variables Independientes')
    
######################################################################################################################################

Overwriting app.py
