In [15]:
from IPython.display import HTML

custom_css = """
<style>
/* Fondo general */
body {
    background-color: #95c1ed; /* azul muy claro */
    font-family: 'Segoe UI', Tahoma, sans-serif;
    color: #333333;
}

/* Títulos */
h1, h3, b {
    color: #333333;
}

/* Botones */
button {
    background-color: #1f7a9c !important;
    color: white !important;
    border-radius: 6px !important;
    padding: 6px 12px !important;
}
button:hover {
    background-color: #45a049 !important;
}

/* Widgets */
.widget-label {
    font-weight: bold;
    color: #444444;
}
.widget-dropdown, .widget-text {
    border-radius: 5px;
    border: 1px solid #ccc;
}

/* Tablas */
.dataframe {
    border-collapse: collapse;
    width: 100%;
}
.dataframe th, .dataframe td {
    border: 1px solid #ccc;
    padding: 6px;
}
.dataframe th {
    background-color: #e0e0e0;
}
</style>
"""
display(HTML(custom_css))


In [108]:
import pandas as pd
import io
import matplotlib.pyplot as plt
from IPython.display import display, clear_output, HTML
import ipywidgets as widgets
import seaborn as sns

# --- helpers ---
def infer_type(series):
    if pd.api.types.is_numeric_dtype(series):
        return "Numérica"
    else:
        return "Categórica"

def summarize_variable(df, col, assigned_type):
    out = {}
    series = df[col]
    out["Nombre"] = col
    out["Tipo de variable"] = assigned_type
    out["Vacios"] = int(series.isna().sum())
    out["Únicos"] = int(series.nunique(dropna=True))
    if "Categórica" in assigned_type:
        counts = series.astype(str).value_counts().head(5)
        out["Categorías"] = ", ".join([f"{i}: {v}" for i, v in counts.items()])
        out["Media"] = pd.NA
        out["Mediana"] = pd.NA
        out["Q1"] = pd.NA
        out["Q3"] = pd.NA
        out["Desviación"] = pd.NA
        out["Min"] = pd.NA
        out["Max"] = pd.NA
    else:
        out["Categorías"] = pd.NA
        if pd.api.types.is_numeric_dtype(series):
            out["Media"] = series.mean()
            out["Mediana"] = series.median()
            out["Q1"] = series.quantile(0.25)
            out["Q3"] = series.quantile(0.75)
            out["Desviación"] = series.std()
            out["Min"] = series.min()
            out["Max"] = series.max()
        else:
            out["Media"] = pd.NA
            out["Mediana"] = pd.NA
            out["Q1"] = pd.NA
            out["Q3"] = pd.NA
            out["Desviación"] = pd.NA
            out["Min"] = pd.NA
            out["Max"] = pd.NA
    return out

def leer_excel_flexible(raw_bytes):
    df = pd.read_excel(io.BytesIO(raw_bytes))
    return df, "default"

def extract_content(upload_value):
    if isinstance(upload_value, dict):
        return list(upload_value.values())[0]
    elif isinstance(upload_value, (tuple, list)) and upload_value:
        return upload_value[0]
    else:
        raise ValueError("Formato inesperado de upload.value")

def interpretar_variable_html(df, col, assigned_type):
    serie = df[col].dropna()
    n = len(serie)
    if n == 0:
        return "<p>No hay datos</p>"
    
    if "Categórica" in assigned_type:
        counts = serie.astype(str).value_counts(normalize=True)
        top_cat = counts.idxmax()
        top_pct = counts.max() * 100
        n_unique = serie.nunique()
        text = f"<p>La variable '<b>{col}</b>' es categórica con <b>{n_unique}</b> categorías únicas.</p>"
        text += f"<p>La categoría con más frecuencia es '<b>{top_cat}</b>', representando el <b>{top_pct:.1f}%</b> de los datos.</p>"
        return text
    
    # Variables numéricas
    mean = serie.mean()
    median = serie.median()
    q1 = serie.quantile(0.25)
    q3 = serie.quantile(0.75)
    iqr = q3 - q1
    std = serie.std()
    min_v = serie.min()
    max_v = serie.max()

    text = f"<p>La variable '<b>{col}</b>' es numérica con <b>{n}</b> observaciones.</p>"
    text += f"<p>Media (promedio) = <b>{mean:.3f}</b>, Mediana (Q2) = <b>{median:.3f}</b>.</p>"
    text += f"<p>La desviación estándar es <b>{std:.3f}</b>, lo que nos indica la distancia promedio de los datos a la media.</p>"
    text += f"<p>El rango intercuartílico IQR (Q3 - Q1) es <b>{iqr:.3f}</b>, lo que indica dispersión central.</p>"
    text += (
        "<ul>"
        "<li>Un IQR pequeño → el 50% central de los datos está muy agrupado (baja variabilidad central).</li>"
        "<li>Un IQR grande → el 50% central está muy disperso (alta variabilidad central).</li>"
        "</ul>"
    )
    text += f"<p>El rango total va de <b>{min_v:.3f}</b> a <b>{max_v:.3f}</b>.</p>"

    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    outliers = serie[(serie < lower_bound) | (serie > upper_bound)]
    if len(outliers) > 0:
        text += f"<p>Se tienen <b>{len(outliers)}</b> valores atípicos (valores fuera de los límites) [{lower_bound:.3f}, {upper_bound:.3f}].</p>"
    else:
        text += "<p>No se detectaron valores atípicos evidentes.</p>"

    return text

# --- estado ---
state = {"df": None, "types": {}}

# --- widgets ---
upload = widgets.FileUpload(accept='.xls,.xlsx', multiple=False, description="Sube tu archivo Excel")
type_override_box = widgets.VBox()
summary_out = widgets.Output()
plot_out = widgets.Output()
status_out = widgets.Output()

var_selector = widgets.Dropdown(description="Variable:", options=[], layout=widgets.Layout(width="400px"))
bins_slider = widgets.IntSlider(value=25, min=5, max=100, step=5, description="Bins:", layout=widgets.Layout(width="300px"))
log_scale_chk = widgets.Checkbox(value=False, description="Escala log", indent=False)

# --- tipo de variable ---
def build_type_override_widgets():
    children = []
    for col, inferred_type in state["types"].items():
        dd = widgets.Dropdown(
            options=["Categórica", "Numérica"],  # Solo estas opciones
            value=inferred_type,
            description=col,
            layout=widgets.Layout(width="450px")
        )
        def on_change(change, column=col):
            state["types"][column] = change["new"]
            update_summary()
            refresh_variable_selector()
            plot_variable()
        dd.observe(on_change, names="value")
        children.append(dd)
    type_override_box.children = children

def update_summary(*args):
    summary_out.clear_output()
    if state["df"] is None:
        return
    df = state["df"]
    with summary_out:
        clear_output()
        print("Resumen de variables")
        summary_list = [summarize_variable(df, col, state["types"][col]) for col in df.columns]
        summary_df = pd.DataFrame(summary_list)
        cols_order = ["Nombre","Tipo de variable","Vacios","Únicos","Categorías",
                      "Media","Mediana","Q1","Q3","Desviación","Min","Max"]
        summary_df = summary_df[cols_order]
        pd.options.display.float_format = '{:.3f}'.format
        display(summary_df)

        var = var_selector.value
        if var is not None:
            assigned_type = state["types"].get(var, "Categórica")
            display(HTML("<h4>Resultados:</h4>"))
            texto_interpretacion = interpretar_variable_html(df, var, assigned_type)
            display(HTML(texto_interpretacion))

def refresh_variable_selector():
    if state["df"] is None:
        var_selector.options = []
        return
    var_selector.options = list(state["df"].columns)
    if var_selector.options and var_selector.value not in var_selector.options:
        var_selector.value = var_selector.options[0]

def plot_variable(*args):
    plot_out.clear_output()
    if state["df"] is None or not var_selector.value:
        return
    df = state["df"]
    var = var_selector.value
    assigned_type = state["types"].get(var, "Categórica")
    series = df[var].dropna()

    with plot_out:
        clear_output()
        if "Categórica" in assigned_type:
            counts = series.astype(str).value_counts()
            plt.figure(figsize=(7,5))
            ax = sns.barplot(x=counts.index, y=counts.values, palette="pastel", edgecolor='black')
            ax.set_title(f"Gráfico de barras: {var}", fontsize=16, fontweight='bold')
            ax.set_xlabel(var, fontsize=12)
            ax.set_ylabel("Frecuencia", fontsize=12)
            plt.xticks(rotation=45, ha='right')
            plt.tight_layout()
            plt.show()
        
            
            plt.figure(figsize=(6,6))
            plt.pie(counts.values,
                    labels=counts.index,
                    autopct='%1.1f%%',
                    colors=sns.color_palette("pastel"),
                    startangle=90,
                    wedgeprops={'edgecolor':'black'},
                    pctdistance=0.85)  
            plt.title(f"Gráfico de pastel: {var}", fontsize=16, fontweight='bold')
            plt.tight_layout()
            plt.show()

        else:
            plt.figure(figsize=(7,4))
            ax = sns.histplot(series, bins=bins_slider.value, color="steelblue", edgecolor='black', kde=False)
            if log_scale_chk.value:
                if (series > 0).all():
                    ax.set_yscale('log')
                else:
                    print("No se puede aplicar escala log porque hay valores ≤ 0.")
            ax.set_title(f"Histograma de {var}", fontsize=16, fontweight='bold')
            ax.set_xlabel(var, fontsize=12)
            ax.set_ylabel("Frecuencia", fontsize=12)
            plt.tight_layout()
            plt.show()

            plt.figure(figsize=(7,4))
            ax = sns.kdeplot(series, color='steelblue', linewidth=2)
            ax.set_title(f"Densidad de {var}", fontsize=16, fontweight='bold')
            ax.set_xlabel(var, fontsize=12)
            ax.set_ylabel("Densidad", fontsize=12)
            plt.tight_layout()
            plt.show()

            plt.figure(figsize=(7,2.5))
            ax = sns.boxplot(x=series, color='steelblue')
            ax.set_title(f"Boxplot de {var}", fontsize=16, fontweight='bold')
            plt.tight_layout()
            plt.show()

def on_upload(change):
    plot_out.clear_output()
    summary_out.clear_output()
    status_out.clear_output()
    if not upload.value:
        with status_out:
            clear_output()
            print("No se ha subido ningún archivo.")
        return

    with status_out:
        clear_output()
        print("Procesando archivo...")

    try:
        content = extract_content(upload.value)
    except Exception as e:
        with status_out:
            clear_output()
            print("Error extrayendo el contenido del upload:", repr(e))
        return

    try:
        raw = content.get("content", None)
        if raw is None:
            raise KeyError("No se encontró 'content' en el objeto recibido.")
    except Exception as e:
        with status_out:
            clear_output()
            print("Error accediendo al contenido bruto del upload:", repr(e))
        return

    try:
        df, _ = leer_excel_flexible(raw)
        with status_out:
            clear_output()
            print(f"Archivo cargado correctamente.")
    except Exception as e:
        with status_out:
            clear_output()
            print("Error al leer el archivo Excel. Detalle completo:")
            import traceback
            traceback.print_exc()
        with summary_out:
            clear_output()
            print("No se pudo cargar el archivo. Revisa su formato.")
        return

    state["df"] = df
    inferred = {col: infer_type(df[col]) for col in df.columns}
    state["types"] = inferred.copy()

    build_type_override_widgets()
    update_summary()
    refresh_variable_selector()
    plot_variable()

# --- conexiones ---
upload.observe(on_upload, names="value")
var_selector.observe(update_summary, names="value")
var_selector.observe(plot_variable, names="value")
bins_slider.observe(plot_variable, names="value")
log_scale_chk.observe(plot_variable, names="value")


# --- interfaz ---
display(widgets.HTML("""
<style>
@keyframes gradientMove {
    0% { background-position: 0% 50%; }
    50% { background-position: 100% 50%; }
    100% { background-position: 0% 50%; }
}
</style>

<h1 style="
    color:black; 
    background: linear-gradient(270deg, #a8edea, #fed6e3, #cfd9df, #e0c3fc);
    background-size: 600% 600%;
    animation: gradientMove 8s ease infinite;
    padding:12px; 
    border-radius:10px; 
    text-align:center; 
    font-family:Arial; 
    font-size:28px;">
Estadística descriptiva
</h1>
"""))

display(widgets.HTML("""
<p>
El uso de la estadística descriptiva es de vital importancia para 
<b>presentar información importante de manera resumida</b>, así como interpretar resultados obtenidos de algún conjunto de datos.
</p>

<p>
La estadística descriptiva es un <b>conjunto de técnicas para describir, resumir y analizar la información de un conjunto de datos</b> 🤓☝️ 
</p>

<p>
Vamos a encontrar con diferentes tipos de datos. 
Comenzaremos con una clasificación básica: <b>cuantitativos y cualitativos</b>.
</p>
"""))

display(widgets.HTML("""
<h3 style='color: #576574; text-align: left;'>🏷️ Tipos de variables</h3>
<div style='border: 2px solid #c8d6e5; border-radius: 10px; padding: 15px; 
            background-color: #f1f2f6; width: 1000px; margin: auto;'>
  <ul style='list-style: none; padding-left: 20px; margin: 0;'>
    <li>➤ <b>Variables cuantitativas</b>: son características que podemos cuantificar y representar con números, generalmente son conteos o mediciones.</li>
    <li>➤ <b>Variables cualitativas</b>: son características relativas a cualidades, se dividen en diferentes categorías y su principal característica es que son no numéricos.</li>
  </ul>
</div>
"""))


display(widgets.HTML("""
<h3 style='color: #576574; text-align: left;'>📈 Medidas descriptivas para variables numéricas</h3>
<div style='border: 2px solid #c8d6e5; border-radius: 10px; padding: 15px; 
            background-color: #f1f2f6; width: 1100px; margin: auto;'>
  <ul style='list-style: none; padding-left: 20px; margin: 0;'>
    <li>➤ <b>Media (aritmética)</b>: también es conocida como promedio, consiste en sumar todos los elementos y dividir entre el número de ellos. Es decir, realizar la suma de n valores y dividir entre nc
    <li>➤ <b>Mediana</b>: es el valor intermedio de un conjunto de datos cuando estos están ordenados de manera ascendente. Desde el punto de vista probabilístico son aquellos que acumulan 0.5 de probalidad.</li>
    <li>➤ <b>Desviación estándar</b>: es la medida de variación de los datos respecto a la media.</li>
    <li>➤ <b>Q1</b>: el primer cuartil acumula el 25 % de los datos, es decir, se tiene que al menos 25% de los datos son menores o iguales a Q1.</li>
    <li>➤ <b>Q3</b>: el tercer cuartil acumula el 75 % de los datos, es decir, se tiene que al menos 75% de los datos son menores o iguales a Q3.</li>
  </ul>
</div>
"""))

display(widgets.HTML("""
<h3 style='color: #576574; text-align: left;'>📊 Medidas descriptivas para variables categóricas</h3>
<div style='border: 2px solid #c8d6e5; border-radius: 10px; padding: 15px; 
            background-color: #f1f2f6; width: 1100px; margin: auto;'>
  <ul style='list-style: none; padding-left: 20px; margin: 0;'>
    <li>➤ <b>Valores únicos</b>: Categórias existentes en la vaariable.</li>
    <li>➤ <b>Gráfico de barras</b>: visualización gráfica de la frecuencia en las categórias de la variable.</li>
    <li>➤ <b>Gráfico de pay</b>: visualización gráfica de la frecuencia en las categórias de la variable en terminos porcentuales.</li>
  </ul>
</div>
"""))


display(widgets.HTML("""
<style>
@keyframes underlineGradient {
    0% { background-position: 0% 50%; }
    50% { background-position: 100% 50%; }
    100% { background-position: 0% 50%; }
}
.animated-underline {
    display: inline-block;
    position: relative;
    font-size: 16px;
    font-weight: bold;
    color: #2f3542; 
    text-align: center;
}
.animated-underline::after {
    content: '';
    display: block;
    height: 5px;
    width: 100%;
    border-radius: 5px;
    background: linear-gradient(270deg, #a8edea, #fed6e3, #cfd9df, #e0c3fc); /* Colores pastel */
    background-size: 600% 600%;
    animation: underlineGradient 6s ease infinite;
    margin-top: 4px;
}
.centered-title {
    text-align: center;
    margin-bottom: 20px;
}
</style>

<div class="centered-title">
    <h2 class="animated-underline">🔧  A continuación te presentamos una herramienta que nos ayudará a conocer los datos</h2>
</div>
"""))

display(widgets.HTML("""
<h3 style='color: #576574;'>📄 Requisitos del archivo de Excel</h3>
<p>Necesitamos un archivo de Excel que contenga todas las variables que deseas analizar en <b>una sola hoja</b>.</p>
<p>Antes de subirlo, asegúrate de que:</p>
<ul style='list-style-type: disc; padding-left: 25px;'>
    <li>Las variables estén correctamente <b>limpias y clasificadas</b>.</li>
    <li>Las <b>variables numéricas</b> contengan únicamente números válidos.</li>
    <li>Las <b>variables categóricas</b> tengan cada categoría escrita de forma consistente y correcta.</li>
</ul>
<p>Esto garantizará que el análisis sea preciso y sin errores.</p>
"""))

display(widgets.HTML("""
<h3 style='color: #576574;'>📝  Paso a paso para analizar tus datos</h3>
<p>Sube tu archivo Excel, indica los tipos de variables y empieza a explorar tus datos de forma sencilla 😊</p>
<ul style='list-style-type: none; padding-left: 0;'>
    <li><b>📤  1. Sube tu archivo Excel:</b> Asegúrate de que tenga las caracteísticas antes mencionadas.</li>
</ul>
"""))
display(upload)
display(status_out)
display(widgets.HTML("<b>2. Indica los tipos de variable (opcional):</b>"))
display(type_override_box)
display(summary_out)

display(widgets.HTML("<h3> 📊 Visualización de variable</h3>"))
display(widgets.HBox([var_selector, bins_slider, log_scale_chk]))
display(plot_out)


HTML(value='\n<style>\n@keyframes gradientMove {\n    0% { background-position: 0% 50%; }\n    50% { backgroun…

HTML(value='\n<p>\nEl uso de la estadística descriptiva es de vital importancia para \n<b>presentar informació…

HTML(value="\n<h3 style='color: #576574; text-align: left;'>🏷️ Tipos de variables</h3>\n<div style='border: 2p…

HTML(value="\n<h3 style='color: #576574; text-align: left;'>📈 Medidas descriptivas para variables numéricas</h…

HTML(value="\n<h3 style='color: #576574; text-align: left;'>📊 Medidas descriptivas para variables categóricas<…

HTML(value='\n<style>\n@keyframes underlineGradient {\n    0% { background-position: 0% 50%; }\n    50% { back…

HTML(value="\n<h3 style='color: #576574;'>📄 Requisitos del archivo de Excel</h3>\n<p>Necesitamos un archivo de…

HTML(value="\n<h3 style='color: #576574;'>📝  Paso a paso para analizar tus datos</h3>\n<p>Sube tu archivo Exce…

FileUpload(value=(), accept='.xls,.xlsx', description='Sube tu archivo Excel')

Output()

HTML(value='<b>2. Indica los tipos de variable (opcional):</b>')

VBox()

Output()

HTML(value='<h3> 📊 Visualización de variable</h3>')

HBox(children=(Dropdown(description='Variable:', layout=Layout(width='400px'), options=(), value=None), IntSli…

Output()