
<p align="center">
  <img src="eda_assets/banner.png" alt="EDA Banner" style="width:100%;max-width:900px;">
</p>

# EDA: Análisis Exploratorio de Datos — Nivel Básico

**Fecha de generación:** 2025-09-17 21:34  
**Autor:** Tú 💻  
**Objetivo:** Comprender, con ejemplos simples, cómo **explorar**, **resumir** y **entender** datos antes de aplicar modelos.

> Este cuaderno está organizado para aprender paso a paso, con conceptos esenciales, buenas prácticas y pequeñas actividades.



## 1) ¿Qué es el EDA?

El **Análisis Exploratorio de Datos (EDA)** es el proceso inicial para **conocer** un conjunto de datos.  
Sirve para detectar **patrones**, **errores**, **valores atípicos**, y para formular **ideas** que luego pueden convertirse en decisiones o preguntas más precisas.

**En términos simples:** mirar los datos desde distintos ángulos para entender su naturaleza (cómo son) y su trascendencia (para qué sirven).



## 2) Mini caso: cadena de cafeterías

La gerencia nota que las ventas totales son estables, pero **sospecha** que pueden mejorar.  
Un analista decide **explorar** por **producto**, **hora del día**, **sucursal** y **tipo de cliente** (mostrador vs. app).

**Idea clave:** a veces el total oculta comportamientos distintos según el **contexto**.



## 3) Flujo de trabajo simple de EDA

1. **Plantear pregunta:** ¿Qué queremos responder?  
2. **Cargar y observar datos:** columnas, tipos, valores faltantes.  
3. **Clasificar variables:** numéricas vs. categóricas.  
4. **Resumir:** medias, medianas, frecuencias.  
5. **Visualizar:** histogramas, gráficos de dispersión, boxplots.  
6. **Relacionar variables:** ¿hay correlaciones o diferencias entre grupos?  
7. **Conclusiones y acciones:** ¿qué decisión sugieren los datos?



## 4) Análisis univariado (una variable)

- **Media:** promedio de los valores. Útil si no hay valores extremos que distorsionen.  
- **Mediana:** valor central al ordenar. Robusta ante valores extremos.  
- **Moda:** valor más frecuente (puede no existir o haber varias).  
- **Tablas de frecuencia:** ¿cuántas veces aparece cada valor o categoría?


In [None]:

# Media, mediana y moda (con datos sencillos)
import numpy as np
from scipy import stats

notas = [3.0, 3.5, 4.0, 4.5, 5.0, 3.5, 4.0]

media = np.mean(notas)
mediana = np.median(notas)

# stats.mode devuelve un objeto; usamos .mode[0] en SciPy<1.11
try:
    moda = stats.mode(notas, keepdims=True).mode[0]
except Exception:
    # Fallback simple por si cambia la API
    vals, counts = np.unique(notas, return_counts=True)
    moda = vals[counts.argmax()]

print("Media:", media)
print("Mediana:", mediana)
print("Moda:", moda)


**Tabla de frecuencia (edades — ejemplo):**

<p>
  <img src="eda_assets/bar_frecuencia_edades.png" alt="Frecuencia de edades" style="max-width:700px;">
</p>


In [None]:

# Tabla de frecuencia rápida con pandas
import pandas as pd

edades = [25, 30, 35, 30, 40, 35, 30, 25, 40, 35]
tabla = (pd.Series(edades).value_counts()
         .sort_index()
         .rename_axis("Edad")
         .reset_index(name="Frecuencia Absoluta"))
tabla["Frecuencia Relativa"] = (tabla["Frecuencia Absoluta"] / len(edades)).round(3)
tabla["Frecuencia Acumulada"] = tabla["Frecuencia Absoluta"].cumsum()
tabla


## 5) Dispersión y variabilidad

- **Varianza:** mide cuánto se alejan los datos del promedio (en unidades al cuadrado).  
- **Desviación estándar:** raíz cuadrada de la varianza (en las mismas unidades que los datos).

> Si la desviación estándar es **pequeña**, los valores están más **concentrados**; si es **grande**, hay más **dispersión**.


In [None]:

import numpy as np

edades = [20, 22, 24, 26, 28]
varianza = np.var(edades)           # población (básico para ilustrar)
desv_std = np.sqrt(varianza)

print("Varianza:", varianza)
print("Desviación estándar:", desv_std)


**Ejemplos visuales (imágenes):**

- Histograma (forma de la distribución):  
  <img src="eda_assets/hist_imc.png" alt="Histograma IMC" style="max-width:700px;">

- Boxplot (detección de valores atípicos por grupos):  
  <img src="eda_assets/box_fumador_prima.png" alt="Boxplot Fumador vs Prima" style="max-width:700px;">



## 6) Análisis bivariado (dos variables)

Sirve para **comparar** o **relacionar** dos variables.  
Ejemplo: **edad** vs. **prima del seguro** (¿las personas con más edad pagan primas más altas?).

**Gráfico de dispersión (scatter):**

<p>
  <img src="eda_assets/scatter_edad_prima.png" alt="Scatter edad vs prima" style="max-width:700px;">
</p>


In [None]:

# Correlación simple de ejemplo (numérica)
import pandas as pd
import numpy as np

# Datos sintéticos
edad = np.array([20, 25, 30, 35, 40, 45, 50])
prima = np.array([150, 155, 160, 168, 175, 185, 195])

df_corr = pd.DataFrame({"edad": edad, "prima": prima})
df_corr.corr()  # matriz de correlación (más cerca de 1 => relación positiva)


## 7) Actividad guiada (mini dataset)

Usaremos un archivo CSV de ejemplo (ventas por sucursal/horario/producto):  
**Ruta:** `/mnt/data/cafeteria_ventas_mini.csv`

### Tarea
1. Cargar el CSV en un `DataFrame`.
2. Ver `head()`, `info()` y `describe()`.
3. Hacer una **tabla de frecuencia** por `producto` y por `hora`.
4. **Pregunta:** ¿Qué combinación *producto-hora* parece más fuerte?


In [None]:

import pandas as pd

df = pd.read_csv(r"/mnt/data/cafeteria_ventas_mini.csv")
print("Dimensiones:", df.shape)
display(df.head())

print("\nInformación:")
display(df.info())

print("\nResumen numérico:")
display(df.describe(include="all"))

print("\nFrecuencia por producto:")
display(df["producto"].value_counts())

print("\nFrecuencia por hora:")
display(df["hora"].value_counts())

print("\nVentas promedio por producto-hora:")
display(df.groupby(["producto","hora"])["ventas"].mean().round(2).sort_values(ascending=False))


## 8) Checklist final

- [ ] ¿Planteaste una **pregunta** clara?  
- [ ] ¿Observaste la **estructura** de los datos (columnas, tipos, nulos)?  
- [ ] ¿Resumiste con **medidas** y **frecuencias**?  
- [ ] ¿Visualizaste al menos un **histograma**, un **dispersión** o un **boxplot**?  
- [ ] ¿Anotaste **ideas y conclusiones** que te acerquen a una decisión?

---

### Ejercicios sugeridos (básicos)
1. Repite la tabla de frecuencia para otra columna (por ejemplo, `sucursal`).  
2. Calcula **media**, **mediana** y **moda** de una lista de datos que elijas.  
3. Crea un gráfico de dispersión para dos columnas numéricas de un `DataFrame` propio.  
4. Escribe 2 conclusiones cortas a partir de un gráfico.



## 9) Apéndice rápido (Python/Pandas)

- Cargar CSV: `pd.read_csv("archivo.csv")`  
- Vistazo rápido: `df.head()`, `df.info()`, `df.describe()`  
- Selección: `df["col"]`, `df[["a","b"]]`  
- Filtros: `df[df["col"] > 0]`  
- Agrupar: `df.groupby("col")["x"].mean()`  
- Conteo: `df["col"].value_counts()`  
- Guardar: `df.to_csv("salida.csv", index=False)`
