
<p align="center">
  <img src="eda_assets/banner.png" alt="EDA Banner" style="width:100%;max-width:900px;">
</p>

# EDA: An√°lisis Exploratorio de Datos ‚Äî Nivel B√°sico

**Fecha de generaci√≥n:** 2025-09-17 21:34  
**Autor:** T√∫ üíª  
**Objetivo:** Comprender, con ejemplos simples, c√≥mo **explorar**, **resumir** y **entender** datos antes de aplicar modelos.

> Este cuaderno est√° organizado para aprender paso a paso, con conceptos esenciales, buenas pr√°cticas y peque√±as actividades.



## 1) ¬øQu√© es el EDA?

El **An√°lisis Exploratorio de Datos (EDA)** es el proceso inicial para **conocer** un conjunto de datos.  
Sirve para detectar **patrones**, **errores**, **valores at√≠picos**, y para formular **ideas** que luego pueden convertirse en decisiones o preguntas m√°s precisas.

**En t√©rminos simples:** mirar los datos desde distintos √°ngulos para entender su naturaleza (c√≥mo son) y su trascendencia (para qu√© sirven).



## 2) Mini caso: cadena de cafeter√≠as

La gerencia nota que las ventas totales son estables, pero **sospecha** que pueden mejorar.  
Un analista decide **explorar** por **producto**, **hora del d√≠a**, **sucursal** y **tipo de cliente** (mostrador vs. app).

**Idea clave:** a veces el total oculta comportamientos distintos seg√∫n el **contexto**.



## 3) Flujo de trabajo simple de EDA

1. **Plantear pregunta:** ¬øQu√© queremos responder?  
2. **Cargar y observar datos:** columnas, tipos, valores faltantes.  
3. **Clasificar variables:** num√©ricas vs. categ√≥ricas.  
4. **Resumir:** medias, medianas, frecuencias.  
5. **Visualizar:** histogramas, gr√°ficos de dispersi√≥n, boxplots.  
6. **Relacionar variables:** ¬øhay correlaciones o diferencias entre grupos?  
7. **Conclusiones y acciones:** ¬øqu√© decisi√≥n sugieren los datos?



## 4) An√°lisis univariado (una variable)

- **Media:** promedio de los valores. √ötil si no hay valores extremos que distorsionen.  
- **Mediana:** valor central al ordenar. Robusta ante valores extremos.  
- **Moda:** valor m√°s frecuente (puede no existir o haber varias).  
- **Tablas de frecuencia:** ¬øcu√°ntas veces aparece cada valor o categor√≠a?


In [None]:

# Media, mediana y moda (con datos sencillos)
import numpy as np
from scipy import stats

notas = [3.0, 3.5, 4.0, 4.5, 5.0, 3.5, 4.0]

media = np.mean(notas)
mediana = np.median(notas)

# stats.mode devuelve un objeto; usamos .mode[0] en SciPy<1.11
try:
    moda = stats.mode(notas, keepdims=True).mode[0]
except Exception:
    # Fallback simple por si cambia la API
    vals, counts = np.unique(notas, return_counts=True)
    moda = vals[counts.argmax()]

print("Media:", media)
print("Mediana:", mediana)
print("Moda:", moda)


**Tabla de frecuencia (edades ‚Äî ejemplo):**

<p>
  <img src="eda_assets/bar_frecuencia_edades.png" alt="Frecuencia de edades" style="max-width:700px;">
</p>


In [None]:

# Tabla de frecuencia r√°pida con pandas
import pandas as pd

edades = [25, 30, 35, 30, 40, 35, 30, 25, 40, 35]
tabla = (pd.Series(edades).value_counts()
         .sort_index()
         .rename_axis("Edad")
         .reset_index(name="Frecuencia Absoluta"))
tabla["Frecuencia Relativa"] = (tabla["Frecuencia Absoluta"] / len(edades)).round(3)
tabla["Frecuencia Acumulada"] = tabla["Frecuencia Absoluta"].cumsum()
tabla


## 5) Dispersi√≥n y variabilidad

- **Varianza:** mide cu√°nto se alejan los datos del promedio (en unidades al cuadrado).  
- **Desviaci√≥n est√°ndar:** ra√≠z cuadrada de la varianza (en las mismas unidades que los datos).

> Si la desviaci√≥n est√°ndar es **peque√±a**, los valores est√°n m√°s **concentrados**; si es **grande**, hay m√°s **dispersi√≥n**.


In [None]:

import numpy as np

edades = [20, 22, 24, 26, 28]
varianza = np.var(edades)           # poblaci√≥n (b√°sico para ilustrar)
desv_std = np.sqrt(varianza)

print("Varianza:", varianza)
print("Desviaci√≥n est√°ndar:", desv_std)


**Ejemplos visuales (im√°genes):**

- Histograma (forma de la distribuci√≥n):  
  <img src="eda_assets/hist_imc.png" alt="Histograma IMC" style="max-width:700px;">

- Boxplot (detecci√≥n de valores at√≠picos por grupos):  
  <img src="eda_assets/box_fumador_prima.png" alt="Boxplot Fumador vs Prima" style="max-width:700px;">



## 6) An√°lisis bivariado (dos variables)

Sirve para **comparar** o **relacionar** dos variables.  
Ejemplo: **edad** vs. **prima del seguro** (¬ølas personas con m√°s edad pagan primas m√°s altas?).

**Gr√°fico de dispersi√≥n (scatter):**

<p>
  <img src="eda_assets/scatter_edad_prima.png" alt="Scatter edad vs prima" style="max-width:700px;">
</p>


In [None]:

# Correlaci√≥n simple de ejemplo (num√©rica)
import pandas as pd
import numpy as np

# Datos sint√©ticos
edad = np.array([20, 25, 30, 35, 40, 45, 50])
prima = np.array([150, 155, 160, 168, 175, 185, 195])

df_corr = pd.DataFrame({"edad": edad, "prima": prima})
df_corr.corr()  # matriz de correlaci√≥n (m√°s cerca de 1 => relaci√≥n positiva)


## 7) Actividad guiada (mini dataset)

Usaremos un archivo CSV de ejemplo (ventas por sucursal/horario/producto):  
**Ruta:** `/mnt/data/cafeteria_ventas_mini.csv`

### Tarea
1. Cargar el CSV en un `DataFrame`.
2. Ver `head()`, `info()` y `describe()`.
3. Hacer una **tabla de frecuencia** por `producto` y por `hora`.
4. **Pregunta:** ¬øQu√© combinaci√≥n *producto-hora* parece m√°s fuerte?


In [None]:

import pandas as pd

df = pd.read_csv(r"/mnt/data/cafeteria_ventas_mini.csv")
print("Dimensiones:", df.shape)
display(df.head())

print("\nInformaci√≥n:")
display(df.info())

print("\nResumen num√©rico:")
display(df.describe(include="all"))

print("\nFrecuencia por producto:")
display(df["producto"].value_counts())

print("\nFrecuencia por hora:")
display(df["hora"].value_counts())

print("\nVentas promedio por producto-hora:")
display(df.groupby(["producto","hora"])["ventas"].mean().round(2).sort_values(ascending=False))


## 8) Checklist final

- [ ] ¬øPlanteaste una **pregunta** clara?  
- [ ] ¬øObservaste la **estructura** de los datos (columnas, tipos, nulos)?  
- [ ] ¬øResumiste con **medidas** y **frecuencias**?  
- [ ] ¬øVisualizaste al menos un **histograma**, un **dispersi√≥n** o un **boxplot**?  
- [ ] ¬øAnotaste **ideas y conclusiones** que te acerquen a una decisi√≥n?

---

### Ejercicios sugeridos (b√°sicos)
1. Repite la tabla de frecuencia para otra columna (por ejemplo, `sucursal`).  
2. Calcula **media**, **mediana** y **moda** de una lista de datos que elijas.  
3. Crea un gr√°fico de dispersi√≥n para dos columnas num√©ricas de un `DataFrame` propio.  
4. Escribe 2 conclusiones cortas a partir de un gr√°fico.



## 9) Ap√©ndice r√°pido (Python/Pandas)

- Cargar CSV: `pd.read_csv("archivo.csv")`  
- Vistazo r√°pido: `df.head()`, `df.info()`, `df.describe()`  
- Selecci√≥n: `df["col"]`, `df[["a","b"]]`  
- Filtros: `df[df["col"] > 0]`  
- Agrupar: `df.groupby("col")["x"].mean()`  
- Conteo: `df["col"].value_counts()`  
- Guardar: `df.to_csv("salida.csv", index=False)`
