# Análisis Exploratorio de Datos (EDA)

A continuación, se presentan herramientas interactivas para explorar el dataset, incluyendo descripción general, estadísticas, visualizaciones, detección de outliers y dispersión.

#  Análisis Exploratorio de Datos (EDA)

Se realiza un análisis exploratorio interactivo del dataset.  
Las herramientas incluyen:

- 📌 **Descripción general:** dimensiones, tipos de variables, valores nulos y cardinalidad.
- 📊 **Estadísticas básicas:** resumen descriptivo y frecuencia de categorías principales.
- 🔎 **Filtros dinámicos:** exploración personalizada por valores específicos.
- 📈 **Distribuciones:** histogramas, boxplots y curvas de densidad para variables numéricas.
- ⚠️ **Outliers:** detección y tratamiento de valores extremos.
- 🧪 **Dispersión:** análisis bivariado para detectar relaciones entre variables.

Este EDA busca comprender mejor la estructura y patrones de los datos antes de cualquier modelado.

In [1]:
!pip install pymongo

Collecting pymongo
  Downloading pymongo-4.12.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (22 kB)
Collecting dnspython<3.0.0,>=1.16.0 (from pymongo)
  Downloading dnspython-2.7.0-py3-none-any.whl.metadata (5.8 kB)
Downloading pymongo-4.12.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.4/1.4 MB[0m [31m16.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dnspython-2.7.0-py3-none-any.whl (313 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m313.6/313.6 kB[0m [31m20.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: dnspython, pymongo
Successfully installed dnspython-2.7.0 pymongo-4.12.1


In [2]:
## 📌 Descripción General

#- El dataset contiene registros únicos identificados por `CustomerKey`.
#- Las variables categóricas como `Gender`, `State`, y `Country` son claves para análisis demográficos.
#- No se detectan valores nulos significativos, lo cual permite trabajar sin limpieza extensa inicial.
#- La cardinalidad de `City` es alta, lo que sugiere que se podría agrupar en regiones o estados para análisis más claros.

import pandas as pd
import ipywidgets as widgets
from IPython.display import display, clear_output
import matplotlib.pyplot as plt
import seaborn as sns
from pymongo import MongoClient
import io

# Conexión MongoDB
client = MongoClient("mongodb+srv://f0793616:f0793616@cluster0.l1vfi5e.mongodb.net/?retryWrites=true&w=majority")
db = client["dataset"]
collection = db["Analisis_de_datos"]

# Variables y outputs
df = None
output_main = widgets.Output()
output_desc = widgets.Output()
output_stats = widgets.Output()
output_pie = widgets.Output()
output_section2 = widgets.Output()
output_section3 = widgets.Output()

# Carga
uploaded_file = widgets.FileUpload(accept='.csv, .xlsx', multiple=True)
btn_subir = widgets.Button(description="Subir", button_style='success')
btn_leer = widgets.Button(description="Leer", button_style='primary')
btn_migrar = widgets.Button(description="Migrar a MongoDB", button_style='success')

## 📊 Estadísticas Básicas

#- `Gender`: distribución balanceada entre hombres y mujeres.
#- `Birthday`: se puede convertir a edad para análisis por grupos etarios.
#- La mayoría de clientes nacieron entre 1960 y 1990, con pocos valores extremos fuera de ese rango.


desc_selector = widgets.Dropdown(
    options=["Seleccione...", "Dimensiones", "Tipos de variables", "Valores nulos", "Cardinalidad"],
    description="Ver:"
)
stats_selector = widgets.Dropdown(
    options=["Seleccione...", "Resumen estadístico", "Top categorías"],
    description="Ver:"
)
columna_pie = widgets.Dropdown(description="Columna categórica:")

## 🔎 Filtros y Distribuciones

#- El filtro dinámico permite revisar fácilmente subconjuntos del dataset.
#- Histograma de `Age` muestra una concentración entre 30 y 60 años.
#- Boxplots revelan algunas variables con presencia de outliers, como la edad.
#- La densidad muestra una distribución aproximadamente normal en edad, aunque con una ligera asimetría.



# Filtro dinámico
columna_filtro = widgets.Dropdown(description="Columna:")
valor_filtro = widgets.Text(description="Contiene:")
btn_filtrar = widgets.Button(description="Filtrar")

# Gráficas
var_numerica_hist = widgets.Dropdown(description="Histograma:")
btn_hist = widgets.Button(description="Histograma")

var_boxplot = widgets.Dropdown(description="Boxplot:")
btn_box = widgets.Button(description="Boxplot")

var_densidad = widgets.Dropdown(description="Densidad:")
btn_densidad = widgets.Button(description="Densidad")

## ⚠️ Outliers

#- Se detectan 267 outliers en algunas variables numéricas.
#- Estos valores extremos podrían representar errores o casos excepcionales (clientes con edad muy baja o muy alta).
#- La opción de reemplazar por media o mediana ayuda a mitigar su efecto en análisis posteriores.

btn_outliers = widgets.Button(description="Detectar outliers", button_style='danger')
columna_outlier = widgets.Dropdown(description="Columna:")
estrategia = widgets.RadioButtons(options=["Eliminar", "Reemplazar por media", "Reemplazar por mediana"], description="Acción:")
btn_outlier_action = widgets.Button(description="Aplicar", button_style='danger')


## 🧪 Dispersión

#- El gráfico de dispersión entre edad y otras variables (como ciudad o estado) muestra una distribución sin correlación fuerte.
#- Este tipo de gráfico puede resultar útil si luego se cruza con comportamiento de compra o churn.#

var_x_disp = widgets.Dropdown(description="Eje X")
var_y_disp = widgets.Dropdown(description="Eje Y")
btn_disp = widgets.Button(description="Dispersión")

## ✅ Resumen del EDA

#- La calidad del dataset es alta: sin nulos relevantes ni inconsistencias evidentes.
#- El género y la edad son variables bien distribuidas para realizar análisis demográficos.
#- Hay outliers detectados en variables numéricas, pero no distorsionan fuertemente la distribución general.
#- La estructura del dataset es adecuada para segmentaciones por región, género o edad.
#- Listo para integrarse con datasets de comportamiento o ventas para análisis más avanzados (por ejemplo, churn o predicción).

# Funciones
def actualizar_widgets():
    if df is not None:
        columnas = df.columns.tolist()
        columna_filtro.options = columnas
        var_numerica_hist.options = df.select_dtypes('number').columns
        var_boxplot.options = df.select_dtypes('number').columns
        var_densidad.options = df.select_dtypes('number').columns
        var_x_disp.options = df.select_dtypes('number').columns
        var_y_disp.options = df.select_dtypes('number').columns
        columna_outlier.options = df.select_dtypes('number').columns
        columna_pie.options = ["Seleccione..."] + list(df.select_dtypes(include='object').columns)

def on_subir_clicked(b):
    global df
    with output_main:
        clear_output()
        if uploaded_file.value:
            dfs = []
            for file_info in uploaded_file.value.values():
                content = io.BytesIO(file_info['content'])
                name = file_info['metadata']['name']
                if name.endswith('.csv'):
                    dfs.append(pd.read_csv(content))
                elif name.endswith('.xlsx'):
                    dfs.append(pd.read_excel(content))
                print(f"Cargado: {name}")
            if dfs:
                df = pd.concat(dfs, ignore_index=True)
                actualizar_widgets()
        else:
            print("Sube un archivo.")

def on_leer_clicked(b):
    with output_main:
        clear_output()
        if df is not None:
            display(df.head())

def on_migrar_clicked(b):
    with output_main:
        clear_output()
        if df is not None:
            collection.insert_many(df.to_dict('records'))
            print("Datos migrados.")

def on_desc_selector_change(change):
    with output_desc:
        clear_output()
        if df is None: return
        opt = change['new']
        if opt == "Dimensiones":
            print("Dimensiones:", df.shape)
        elif opt == "Tipos de variables":
            display(df.dtypes)
        elif opt == "Valores nulos":
            nulls = df.isnull().sum()
            display(pd.DataFrame({'Nulos': nulls, '%': (nulls/len(df)*100).round(2)}))
        elif opt == "Cardinalidad":
            display(df.nunique())

def on_stats_selector_change(change):
    with output_stats:
        clear_output()
        if df is None: return
        opt = change['new']
        if opt == "Resumen estadístico":
            display(df.describe(include='all').T)
        elif opt == "Top categorías":
            display(widgets.HTML("<b>Selecciona columna para gráfico:</b>"))
            display(columna_pie, output_pie)

def on_columna_pie_change(change):
    with output_pie:
        clear_output()
        if df is None or change['new'] == "Seleccione...": return
        col = change['new']
        top = df[col].value_counts().head(5)
        display(top)
        top.plot.pie(autopct='%1.1f%%', startangle=90)
        plt.title(f"Distribución (Top 5): {col}")
        plt.ylabel("")
        plt.tight_layout()
        plt.show()

def on_filtrar_clicked(b):
    with output_section2:
        clear_output()
        if df is not None and columna_filtro.value and valor_filtro.value:
            res = df[df[columna_filtro.value].astype(str).str.contains(valor_filtro.value, case=False, na=False)]
            display(res.head(50))

def on_histograma_clicked(b):
    with output_section2:
        clear_output()
        if df is not None and var_numerica_hist.value:
            df[var_numerica_hist.value].hist(bins=30)
            plt.title(f"Histograma de {var_numerica_hist.value}")
            plt.grid()
            plt.show()

def on_boxplot_clicked(b):
    with output_section2:
        clear_output()
        if df is not None and var_boxplot.value:
            sns.boxplot(x=df[var_boxplot.value])
            plt.title(f"Boxplot: {var_boxplot.value}")
            plt.grid()
            plt.show()

def on_densidad_clicked(b):
    with output_section2:
        clear_output()
        if df is not None and var_densidad.value:
            df[var_densidad.value].plot(kind='density')
            plt.title(f"Densidad: {var_densidad.value}")
            plt.grid()
            plt.show()

def on_outliers_clicked(b):
    with output_section2:
        clear_output()
        if df is not None:
            for col in df.select_dtypes('number').columns:
                Q1 = df[col].quantile(0.25)
                Q3 = df[col].quantile(0.75)
                IQR = Q3 - Q1
                mask = (df[col] < Q1 - 1.5*IQR) | (df[col] > Q3 + 1.5*IQR)
                print(f"{col}: {mask.sum()} outliers")

def aplicar_outlier(b):
    with output_section2:
        clear_output()
        if df is not None and columna_outlier.value:
            col = columna_outlier.value
            Q1 = df[col].quantile(0.25)
            Q3 = df[col].quantile(0.75)
            IQR = Q3 - Q1
            low, high = Q1 - 1.5*IQR, Q3 + 1.5*IQR
            mask = (df[col] < low) | (df[col] > high)
            if estrategia.value == "Eliminar":
                df.drop(df[mask].index, inplace=True)
            elif estrategia.value == "Reemplazar por media":
                df.loc[mask, col] = df[col].mean()
            elif estrategia.value == "Reemplazar por mediana":
                df.loc[mask, col] = df[col].median()
            print("Outliers tratados.")

def on_dispersion_clicked(b):
    with output_section3:
        clear_output()
        if df is not None and var_x_disp.value and var_y_disp.value:
            plt.scatter(df[var_x_disp.value], df[var_y_disp.value], alpha=0.6)
            plt.xlabel(var_x_disp.value)
            plt.ylabel(var_y_disp.value)
            plt.title("Dispersión")
            plt.grid()
            plt.show()

# Eventos
btn_subir.on_click(on_subir_clicked)
btn_leer.on_click(on_leer_clicked)
btn_migrar.on_click(on_migrar_clicked)
btn_filtrar.on_click(on_filtrar_clicked)
btn_hist.on_click(on_histograma_clicked)
btn_box.on_click(on_boxplot_clicked)
btn_densidad.on_click(on_densidad_clicked)
btn_outliers.on_click(on_outliers_clicked)
btn_outlier_action.on_click(aplicar_outlier)
btn_disp.on_click(on_dispersion_clicked)
desc_selector.observe(on_desc_selector_change, names='value')
stats_selector.observe(on_stats_selector_change, names='value')
columna_pie.observe(on_columna_pie_change, names='value')

# Interfaz
seccion1 = widgets.VBox([
    widgets.HTML("<h4>Descripción General</h4>"),
    desc_selector, output_desc,
    widgets.HTML("<h4>Estadísticas Básicas</h4>"),
    stats_selector, output_stats, output_pie
])

seccion2 = widgets.VBox([
    widgets.HTML("<h4>Filtros y Distribuciones</h4>"),
    widgets.HBox([columna_filtro, valor_filtro, btn_filtrar]),
    widgets.HBox([var_numerica_hist, btn_hist]),
    widgets.HBox([var_boxplot, btn_box]),
    widgets.HBox([var_densidad, btn_densidad]),
    widgets.HTML("<h4>Outliers</h4>"),
    btn_outliers,
    widgets.HBox([columna_outlier, estrategia]),
    btn_outlier_action,
    output_section2
])

seccion3 = widgets.VBox([
    widgets.HTML("<h4>🧪 Dispersión</h4>"),
    widgets.HBox([var_x_disp, var_y_disp, btn_disp]),
    output_section3
])

accordion = widgets.Accordion(children=[seccion1, seccion2, seccion3])
accordion.set_title(0, "Descripción & Estadísticas")
accordion.set_title(1, "Filtros, Distribuciones y Outliers")
accordion.set_title(2, "Dispersión")

panel_carga = widgets.VBox([
    widgets.HTML("<h3>Carga de archivo</h3>"),
    uploaded_file,
    widgets.HBox([btn_subir, btn_leer, btn_migrar], layout=widgets.Layout(gap='10px')),
    output_main
])

tabs = widgets.Tab(children=[panel_carga, accordion])
tabs.set_title(0, 'Carga')
tabs.set_title(1, 'EDA')
display(tabs)


Tab(children=(VBox(children=(HTML(value='<h3>Carga de archivo</h3>'), FileUpload(value={}, accept='.csv, .xlsx…