In [48]:
%%writefile app.py 
#Creamos el archivo de la APP en el interprete principal (Phyton)

#Importamos librerias
import streamlit as st
import plotly.express as px
import pandas as pd
from sklearn.linear_model import LinearRegression
from streamlit_echarts import st_echarts
import numpy as np
from sklearn.metrics import confusion_matrix, precision_score, accuracy_score, recall_score

# Agrega este bloque al inicio del archivo app.py
st.markdown("""
    <style>      
        /* Sidebar */
        section[data-testid="stSidebar"] {
            background-color: #C96868;             
        }        
    </style>
""", unsafe_allow_html=True)


# Definimos la instancia
@st.cache_resource
def load_data():
    # Lectura de archivo CSV
    Naples = pd.read_csv("Datos_limpios_Naples.csv")
    Naples = Naples.drop(['Unnamed: 0'], axis=1)

    # Columnas num√©ricas
    numeric_Naples = Naples.select_dtypes(['float', 'int'])
    numeric_cols = numeric_Naples.columns

    # Columnas de texto
    text_Naples = Naples.select_dtypes(['object'])
    text_cols = text_Naples.columns

    # Columnas categ√≥ricas
    categorical_column_host = Naples['host_is_superhost']
    unique_categories_host = categorical_column_host.unique()

    return Naples, numeric_cols, text_cols, unique_categories_host, numeric_Naples

# Cargar datos
Naples, numeric_cols, text_cols, unique_categories_host, numeric_Naples = load_data()

############# CREACI√ìN DEL DASHBOARD Vista principal

# Agregar imagen al sidebar (por ejemplo, un logotipo o imagen representativa)
# st.sidebar.image("Napoles.jpg", use_container_width=True)
st.sidebar.image("Naples.png", use_container_width=True)

#Generamos los encabezados para la barra lateral (sidebar)
st.sidebar.title("·Øì ‚úàÔ∏é Datos N√°poles, Italia")
# st.sidebar.title("üîç Men√∫")
st.sidebar.subheader("Presentaci√≥n de los datos")

# Checkbox para mostrar dataset
check_box = st.sidebar.checkbox(label="üìÇ Mostrar Dataset Napol√©s")

# Condicional para que aparezca el dataframe
if check_box:
    st.header("üìä Dataset Completo")
    st.write(Naples)

    st.subheader("üî† Columnas del Dataset")
    st.write(Naples.columns)

    st.subheader("üìà Estad√≠sticas Descriptivas")
    st.write(Naples.describe())

# Checkbox para mostrar etapas
etapas_checkbox = st.sidebar.checkbox(label="üìå Mostrar Etapas del An√°lisis")

# Si se activa el checkbox, mostramos el selectbox
if etapas_checkbox:
    st.sidebar.subheader("Etapas")
    View = st.sidebar.selectbox(
        label="üîΩ Selecciona una etapa del an√°lisis:",
        options=[
            "Etapa I. Modelado explicativo", 
            "Etapa II. Modelado predictivo"]
    )

    # Contenido de la Etapa I
    if View == "Etapa I. Modelado explicativo":
        st.sidebar.title("üß† Etapa I ‚Äì Modelado Explicativo")
        st.sidebar.header("Exploraci√≥n de caracter√≠sticas importantes de los datos")

        Etapa1 = st.sidebar.selectbox(
        label="üìä Selecciona un tipo de an√°lisis",
        options=[
            "Relaci√≥n entre variable", 
            "Relaci√≥n entre diversas variables",
            "Gr√°fica de pastel",
            "Gr√°fica de l√≠neas",
            "L√≠neas m√∫ltiples",
            ]
        )

        if Etapa1 == "Relaci√≥n entre variable":        
            # Sidebar informativo
            st.sidebar.header("üîß Panel de Control")
            st.sidebar.subheader("Relaci√≥n entre variable categorica y numerica")
            #st.sidebar.subheader("üóÇÔ∏è Visualizaci√≥n del dataset")

            #Menus desplegables de opciones de la variables seleccionadas
            Variable_cat= st.sidebar.selectbox(label= "Variable Categ√≥rica", options= text_cols)
            Variable_num= st.sidebar.selectbox(label= "Variable Num√©rica", options= numeric_cols)

            # Bot√≥n para mostrar la gr√°fica
            Button1 = st.sidebar.button(label="üìä Mostrar gr√°fica")

            # Condicional para mostrar la gr√°fica solo cuando se presione el bot√≥n
            if Button1:
                # Generar un t√≠tulo descriptivo para el gr√°fico1
                st.subheader(" ‡ºò ‚ãÜÔΩ°ÀöüçÉ Relaci√≥n entre " + Variable_cat + " y " + Variable_num + " en datos de Airbnb en N√°poles")  
                # titulo_grafico = f"‡ºò ‚ãÜÔΩ°ÀöüçÉ Relaci√≥n entre {Variable_cat} y {Variable_num} en datos de Airbnb en N√°poles"
                
                # Crear la figura solo cuando se presiona el bot√≥n
                figure1 = px.bar(
                    data_frame=Naples, 
                    x=Naples[Variable_cat], 
                    y=Naples[Variable_num], 
                    # title=titulo_grafico
                )
                figure1.update_xaxes(automargin=True)
                figure1.update_yaxes(automargin=True)
                
                # Mostrar la gr√°fica
                st.plotly_chart(figure1)

        elif Etapa1 == "Relaci√≥n entre diversas variables":
            # Sidebar informativo
            st.sidebar.title("üîß Panel de Control")
            st.sidebar.header("Relaci√≥n entre diversas variables")

            # Selecci√≥n de variables num√©ricas
            numerics_vars_selected = st.sidebar.multiselect(
                label="Variables num√©ricas a graficar", 
                options=numeric_cols
            )

            # Selecci√≥n de categor√≠a (agrupador)
            category_col = st.sidebar.selectbox(
                label="Categor√≠a para agrupar", 
                options=text_cols
            )

            # Bot√≥n para mostrar la gr√°fica
            Button2 = st.sidebar.button(label="üìä Mostrar gr√°fica")

            # Condicional para mostrar la gr√°fica solo cuando se presione el bot√≥n
            if Button2:
                st.subheader("‡ºò ‚ãÜÔΩ°ÀöüçÉ Comparativa de variables num√©ricas agrupadas por " + category_col)

                # Mostramos un gr√°fico de barras para cada variable num√©rica seleccionada
                for var in numerics_vars_selected:
                    st.markdown(f"### üìå {var}")
                    fig = px.bar(
                        data_frame=Naples, 
                        x=category_col, 
                        y=var, 
                        color=category_col, 
                        title=f"{var} por {category_col}", 
                        height=400
                    )
                    fig.update_layout(xaxis_title=category_col, yaxis_title=var)
                    st.plotly_chart(fig)

        elif Etapa1 == "Gr√°fica de pastel":
                st.sidebar.title("üîß Panel de Control")
                st.sidebar.header("Gr√°fica de pastel")

                # Selecci√≥n de la categor√≠a y valores num√©ricos
                Variable_cat = st.sidebar.selectbox("Selecciona la categor√≠a (nombres)", options=text_cols)
                Variable_val = st.sidebar.selectbox("Selecciona el valor num√©rico (valores)", options=numeric_cols)

                # Bot√≥n para mostrar la gr√°fica
                Button_pie = st.sidebar.button(label="üìä Mostrar gr√°fica")

                if Button_pie:
                    st.subheader(f"‡ºò ‚ãÜÔΩ°ÀöüçÉ Gr√°fica de pastel: {Variable_val} por {Variable_cat}")
                    
                    # Agrupar datos para evitar repeticiones (por ejemplo, por promedio o suma)
                    grouped_data = Naples.groupby(Variable_cat)[Variable_val].sum().reset_index()

                    fig_pie = px.pie(
                        data_frame=grouped_data, 
                        names=Variable_cat, 
                        values=Variable_val, 
                        title=f"{Variable_val} por {Variable_cat}"
                    )
                    st.plotly_chart(fig_pie)  

        elif Etapa1 == "Gr√°fica de l√≠neas":
            st.sidebar.title("üîß Panel de Control")
            st.sidebar.header("üìà Gr√°fica de l√≠neas")

            # Selecci√≥n de variables
            eje_x = st.sidebar.selectbox("Eje X (categor√≠a o fecha)", options=text_cols)
            eje_y = st.sidebar.selectbox("Eje Y (num√©rica)", options=numeric_cols)

            # Bot√≥n para mostrar gr√°fica
            Button_line = st.sidebar.button("üìä Mostrar gr√°fica")

            if Button_line:
                st.subheader(f"‡ºò ‚ãÜÔΩ°ÀöüçÉ Evoluci√≥n de {eje_y} por {eje_x}")

                # Agrupamos para evitar muchos puntos repetidos
                grouped_line = Naples.groupby(eje_x)[eje_y].mean().reset_index()

                fig_line = px.line(
                    data_frame=grouped_line,
                    x=eje_x,
                    y=eje_y,
                    markers=True,
                    title=f"{eje_y} por {eje_x}"
                )
                st.plotly_chart(fig_line)
            
        elif Etapa1 == "L√≠neas m√∫ltiples":
            # Sidebar informativo
            st.sidebar.title("üîß Panel de Control")
            st.sidebar.header("üìà Selecci√≥n de variables para l√≠nea m√∫ltiple")

            eje_x = st.sidebar.selectbox("Eje X (Categor√≠a)", options=text_cols)
            vars_seleccionadas = st.sidebar.multiselect("Variables a comparar (Eje Y)", options=numeric_cols)

            mostrar_lineplot = st.sidebar.button("üìä Mostrar gr√°fica de l√≠neas m√∫ltiples")

            if mostrar_lineplot:
                st.subheader("‡ºò ‚ãÜÔΩ°ÀöüçÉ Comparaci√≥n de m√∫ltiples variables num√©ricas seg√∫n categor√≠a")

                # Agrupar y preparar los datos
                df_grouped = Naples.groupby(eje_x)[vars_seleccionadas].mean().reset_index()

                # Reestructurar para gr√°fica
                df_melted = df_grouped.melt(id_vars=eje_x, var_name="Variable", value_name="Valor")

                # Crear el gr√°fico de l√≠neas
                fig_line = px.line(df_melted, x=eje_x, y="Valor", color="Variable", markers=True)
                fig_line.update_layout(title="Relaci√≥n entre m√∫ltiples variables por " + eje_x)

                st.plotly_chart(fig_line)

    # Contenido de la Etapa II
    elif View == "Etapa II. Modelado predictivo":
        st.sidebar.title("ü§ñ Etapa II ‚Äì Modelado Predictivo")
        st.sidebar.header("Predicci√≥n de tendencias y patrones")

        # Checkbox para mostrar HEATMAP
        heatmap = st.sidebar.checkbox(label="üìå Mostrar Heatmap de Napol√©s")

        if heatmap:
            st.subheader("‡ºò ‚ãÜÔΩ°Àöüî• Mapa de calor de correlaciones entre variables num√©ricas")

            st.sidebar.title("üîß Panel de Control")
            st.sidebar.header("Mapa de calor")

            # Multiselect para seleccionar variables num√©ricas
            selected_vars = st.sidebar.multiselect(
                "Selecciona las variables num√©ricas a incluir en el mapa de calor:",
                options=numeric_cols,
                default=list(numeric_cols)
            )            

            # Para seleccionar el rango de correlaci√≥n a mostrar
            min_corr, max_corr = st.slider(
                "Rango de correlaci√≥n a mostrar:",
                min_value=-1.0,
                max_value=1.0,
                value=(-1.0, 1.0),
                step=0.01
            )

            # Calcular matriz de correlaci√≥n
            corr_matrix = Naples[selected_vars].corr()

            # Enmascarar valores fuera del rango seleccionado
            filtered_corr = corr_matrix.mask(
                (corr_matrix < min_corr) | (corr_matrix > max_corr)
            )

            # Crear mapa de calor con valores filtrados
            fig_heatmap = px.imshow(
                filtered_corr,
                text_auto=".2f",
                color_continuous_scale='RdBu_r',
                zmin=-1, zmax=1,
                # title="Mapa de Calor de Correlaci√≥n (Filtrado por Rango)",
                width=800,
                height=600
            )
            
            st.plotly_chart(fig_heatmap)

        st.sidebar.subheader("Tipo de Regresi√≥n")
        tipo_regresion = st.sidebar.selectbox(
            label="üìä Selecciona el tipo de regresi√≥n:",
            options=[
                "Regresi√≥n Lineal Simple", 
                "Regresi√≥n Lineal M√∫ltiple", 
                "Regresi√≥n Log√≠stica",
            ]
        )

        if tipo_regresion == "Regresi√≥n Lineal Simple":
            st.sidebar.header("üîß Panel de Control")
            st.sidebar.subheader("Variables para regresi√≥n lineal simple")

            x_var = st.sidebar.selectbox("Variable independiente (X):", options=numeric_cols)
            y_var = st.sidebar.selectbox("Variable dependiente (Y):", options=numeric_cols)

            from sklearn.linear_model import LinearRegression
            from sklearn.metrics import r2_score
            from scipy.stats import pearsonr

            X = Naples[[x_var]]
            y = Naples[y_var]
            model = LinearRegression()
            model.fit(X, y)
            y_pred = model.predict(X)

            r2 = r2_score(y, y_pred)
            r, _ = pearsonr(Naples[x_var], Naples[y_var])

            st.subheader(f"Àö.*‚òÅÔ∏è Regresi√≥n Lineal Simple: {y_var} vs {x_var}")

            # Mostrar m√©tricas en una tabla
            st.write("**üìà Coeficientes:**")
            resultados_df = pd.DataFrame({
                "M√©trica": ["Coeficiente de Determinaci√≥n (R¬≤)", "Coeficiente de Correlaci√≥n (r)"],
                "Valor": [f"{r2:.4f}", f"{r:.4f}"]
            })

            st.table(resultados_df)

            # Visualizaci√≥n con l√≠nea de regresi√≥n
            fig = px.scatter(
                x=Naples[x_var],
                y=Naples[y_var],
                labels={'x': x_var, 'y': y_var}
            )

            fig.add_scatter(
                x=Naples[x_var],
                y=y_pred,
                mode='lines',
                name='L√≠nea de regresi√≥n',
                line=dict(color='#C96868')  # Cambia el color
            )

            st.plotly_chart(fig)
        
        elif tipo_regresion == "Regresi√≥n Lineal M√∫ltiple":
            st.sidebar.header("üîß Panel de Control")
            st.sidebar.subheader("Variables para regresi√≥n lineal m√∫ltiple")

            x_vars = st.sidebar.multiselect("Variables independientes (X):", options=numeric_cols)
            y_var = st.sidebar.selectbox("Variable dependiente (Y):", options=numeric_cols)

            if x_vars and y_var:
                X = Naples[x_vars]
                y = Naples[y_var]

                # Entrenar modelo
                model = LinearRegression()
                model.fit(X, y)
                y_pred = model.predict(X)

                # M√©tricas
                r2 = model.score(X, y)
                r = np.sqrt(r2)
            
                st.subheader(f"Àö.*‚òÅÔ∏è Regresi√≥n Lineal M√∫ltiple para predecir '{y_var}'")

                st.write("**üìà Coeficientes del modelo:**")
                coef_df = pd.DataFrame({
                    "Variable": x_vars,
                    "Coeficiente": model.coef_
                })
                st.dataframe(coef_df)

                st.write("**üìä M√©tricas del modelo:**")
                st.table(pd.DataFrame({
                    "M√©trica": ["Coeficiente de Determinaci√≥n (R¬≤)", "Coeficiente de Correlaci√≥n (r)"],
                    "Valor": [f"{r2:.4f}", f"{r:.4f}"]
                }))

                # Preparar gr√°fico comparativo
                Naples_temp = Naples.copy()
                Naples_temp["Predicciones"] = y_pred

                eje_x = st.selectbox("Selecciona variable X para graficar:", options=x_vars)

                st.subheader("üìâ Comparaci√≥n de valores reales vs. predichos")
                fig = px.scatter(
                    Naples_temp,
                    x=eje_x,
                    y=y_var,
                    labels={'x': eje_x, 'y': y_var}
                )

                fig.add_scatter(
                    x=Naples_temp[eje_x],
                    y=Naples_temp["Predicciones"],
                    mode='markers',
                    name='Valores predichos',
                    marker=dict(color='Orange')
                )

                st.plotly_chart(fig)

        elif tipo_regresion == "Regresi√≥n Log√≠stica":
            st.sidebar.subheader("Variables para regresi√≥n log√≠stica")

            # Filtrar columnas categ√≥ricas con al menos dos clases distintas
            valid_categorical_cols = [
                col for col in text_cols if Naples[col].dropna().nunique() >= 2
            ]

            if not valid_categorical_cols:
                st.warning("No hay variables categ√≥ricas con al menos dos clases distintas.")

            x_vars = st.sidebar.multiselect("Variables independientes (X):", options=numeric_cols)
            y_var = st.sidebar.selectbox(
                "Variable dependiente categ√≥rica (Y):",
                options=valid_categorical_cols
            )

            from sklearn.linear_model import LogisticRegression
            from sklearn.preprocessing import LabelEncoder
            import pandas as pd

            if x_vars and y_var:
                # Codificar variable categ√≥rica
                encoder = LabelEncoder()
                y_encoded = encoder.fit_transform(Naples[y_var])
                X = Naples[x_vars]

                model = LogisticRegression(max_iter=200)
                model.fit(X, y_encoded)
                score = model.score(X, y_encoded)

                st.subheader(f"Àö.*‚òÅÔ∏è Regresi√≥n Log√≠stica para predecir: {y_var}")

                # Crear dataframe con coeficientes
                coef_data = pd.DataFrame({
                    "Variable": x_vars,
                    "Coeficiente": model.coef_[0]
                })

                # Predicci√≥n
                y_pred = model.predict(X)

                # Calcular m√©tricas
                conf_matrix = confusion_matrix(y_encoded, y_pred)
                precision = precision_score(y_encoded, y_pred, average='binary' if len(np.unique(y_encoded)) == 2 else 'macro')
                accuracy = accuracy_score(y_encoded, y_pred)
                recall = recall_score(y_encoded, y_pred, average='binary' if len(np.unique(y_encoded)) == 2 else 'macro')

                # Mostrar la matriz de confusi√≥n
                st.subheader("üß© Matriz de Confusi√≥n")
                conf_df = pd.DataFrame(conf_matrix,
                                    index=[f"Real {label}" for label in encoder.classes_],
                                    columns=[f"Predicho {label}" for label in encoder.classes_])
                st.dataframe(conf_df)
        
                # Mostrar m√©tricas como tabla
                st.subheader("üìã M√©tricas del Modelo")
                metrics_df = pd.DataFrame({
                    "M√©trica": ["Precisi√≥n", "Exactitud", "Sensibilidad"],
                    "Valor": [precision, accuracy, recall]
                })
                metrics_df["Valor"] = metrics_df["Valor"].apply(lambda x: f"{x:.4f}")
                st.table(metrics_df)

                import seaborn as sns
                import matplotlib.pyplot as plt

                st.subheader("üîç Matriz de Confusi√≥n")
                fig, ax = plt.subplots()
                sns.heatmap(conf_df, annot=True, fmt='d', cmap='Blues', ax=ax)
                labels = ["True Neg","False Pos","False Neg","True Pos"]
                ax.set_xlabel("Predicci√≥n")
                ax.set_ylabel("Real")
                st.pyplot(fig)




Overwriting app.py
