# Sprint 7: An√°lisis estad√≠stico para detectar patrones y outliers


## Distribuciones, histogramas, variabilidad y detecci√≥n de outliers (IQR y Z-score)

## üéØ Objetivos de la sesi√≥n
Al final de esta clase podr√°s:

1. Explicar qu√© es una **distribuci√≥n** y c√≥mo se interpreta un **histograma**.
1. Entender qu√© es la **distribuci√≥n normal** y qu√© significa ‚Äú**normalidad**‚Äù en an√°lisis de datos.
2. Diferenciar medidas de **tendencia central** vs **variabilidad**.
3. Calcular e interpretar **rango**, **IQR**, **varianza** y **desviaci√≥n est√°ndar**.
4. Entender **percentiles y cuartiles** como ‚Äúpuntos de corte‚Äù de una distribuci√≥n.
5. Detectar outliers con dos enfoques:
   - **Rango intercuart√≠lico (IQR)**
   - **Z-score**
6. Decidir qu√© m√©todo usar seg√∫n el tipo de distribuci√≥n y el objetivo del an√°lisis.

## üß≠ Agenda
1. **Distribuciones y forma**
   - sim√©trica, sesgada, colas largas, multimodal
2. **Histogramas: c√≥mo leerlos**
   - bins, densidad, forma, centro, dispersi√≥n
3. **Variabilidad (20‚Äì30 min)**
   - rango, IQR, varianza, desviaci√≥n est√°ndar
4. **Cuartiles y percentiles**
   - Q1, Q2, Q3; P90, P95
5. **Outliers**
   - IQR rule
   - Z-score
   - comparaci√≥n, pros/cons

## ¬øQu√© es una distribuci√≥n?

Una **distribuci√≥n** describe c√≥mo se reparten los valores de una variable (por ejemplo: ingresos, tiempos de entrega, precios).

Cuando observas una distribuci√≥n, analiza:
- **Centro**: ¬ød√≥nde se concentra la mayor√≠a? (media/mediana)
- **Dispersi√≥n**: ¬øqu√© tan ‚Äúesparcidos‚Äù est√°n los datos?
- **Forma**:
  - **Sim√©trica** (valores equilibrados a ambos lados)
  - **Sesgada a la derecha** (cola larga hacia valores altos: ingresos, revenue)
  - **Sesgada a la izquierda** (cola hacia valores bajos: notas con ‚Äútecho‚Äù)
  - **Multimodal** (varios picos: mezcla de grupos distintos)

## Medidas de variabilidad (dispersi√≥n)

### Rango
`max - min`  
Simple, pero **muy sensible a outliers**.

### Varianza y desviaci√≥n est√°ndar
- **Varianza**: promedio del cuadrado de la distancia a la media.  
- **Desviaci√≥n est√°ndar (std)**: ra√≠z de la varianza (misma unidad del dato).

Idea clave:
- std grande = datos m√°s dispersos

Advertencia:
- media y std se afectan por outliers; por eso, para distribuciones sesgadas suelen ser menos estables.

### Percentiles y cuartiles
- Percentil `P90`: el 90% de los datos est√° por debajo.
- Cuartiles:
  - `Q1` = P25
  - `Q2` = P50 (mediana)
  - `Q3` = P75

### IQR (rango intercuart√≠lico)
`IQR = Q3 - Q1`  
Mide la dispersi√≥n del ‚Äúcentro‚Äù del 50% de los datos.  



## Distribuci√≥n normal (gaussiana) y ‚Äúnormalidad‚Äù

### ¬øQu√© es la distribuci√≥n normal?

La **distribuci√≥n normal** (o **gaussiana**) es una distribuci√≥n **sim√©trica** con forma de ‚Äúcampana‚Äù, donde:
- La mayor√≠a de valores se concentran alrededor del centro.
- La frecuencia disminuye gradualmente hacia los extremos (colas).
- En la normal ideal: **media = mediana = moda**.

Se define por:
- **Œº (mu)**: media (centro)
- **œÉ (sigma)**: desviaci√≥n est√°ndar (dispersi√≥n)

Intuici√≥n:
- œÉ grande ‚Üí campana ‚Äúancha‚Äù (m√°s dispersi√≥n)
- œÉ peque√±a ‚Üí campana ‚Äúestrecha‚Äù (m√°s concentraci√≥n)

### ¬øQu√© significa ‚Äúnormalidad‚Äù?
**Normalidad** es asumir (o verificar) que los datos se comportan **aproximadamente** como una normal.

Importa porque habilita interpretaciones y reglas √∫tiles:
- **Regla 68‚Äì95‚Äì99.7** (aproximaci√≥n):
  - ~68% de valores dentro de ¬±1œÉ
  - ~95% dentro de ¬±2œÉ
  - ~99.7% dentro de ¬±3œÉ

Traducci√≥n pr√°ctica:
- Si una variable es ~normal, un valor con `|z| > 3` es raro ‚Üí candidato a outlier.

## Histograma: c√≥mo interpretarlo sin caer en la trampa de los bins
Un **histograma** agrupa valores en intervalos (**bins**) y cuenta cu√°ntos caen en cada uno.

Qu√© mirar:
1. **Picos (modas)**: ¬øhay uno o varios?
2. **Colas**: ¬øhacia d√≥nde se estira? (sesgo)
3. **Huecos**: posibles errores o subgrupos
4. **Escala**: un outlier puede ‚Äúaplanar‚Äù el resto
5. **Bins**: cambiar bins puede cambiar la narrativa (sin cambiar los datos)

Regla pr√°ctica:
- Si el histograma cambia mucho con bins distintos, complementa con **boxplot** y **percentiles**.


## Detecci√≥n de outliers

### M√©todo IQR (regla de Tukey)
1. Calcula `Q1` y `Q3`
2. `IQR = Q3 - Q1`
3. L√≠mites:
   - Inferior: `Q1 - 1.5 * IQR`
   - Superior: `Q3 + 1.5 * IQR`
4. Fuera de l√≠mites ‚Üí outlier

‚úÖ Ventajas:
- No asume normalidad
- Robusto en distribuciones sesgadas

‚ö†Ô∏è Limitaciones:
- En colas largas puede marcar muchos casos extremos reales

---

### M√©todo Z-score
`z = (x - mean) / std`

Regla t√≠pica:
- `|z| > 3` ‚Üí outlier fuerte (a veces `> 2.5`)

‚úÖ Ventajas:
- Muy interpretable si hay **normalidad aproximada**

‚ö†Ô∏è Limitaciones:
- Outliers contaminan media y std (el outlier puede ‚Äúcamuflarse‚Äù)
- En sesgo/colas largas suele fallar sin transformaci√≥n


### ¬øCu√°l usar?
- Variable ~normal ‚Üí Z-score puede funcionar bien.
- Variable sesgada/cola larga ‚Üí IQR suele ser m√°s estable.
- En negocio: antes de ‚Äúlimpiar‚Äù, decide si el outlier es **error** o **caso extremo real** (VIP, evento, fraude, etc.).


In [None]:
# Demostraciones de codigo

## ¬øQu√© aprendimos hoy? üß†

1. Una distribuci√≥n describe c√≥mo se reparten los valores; la forma (sesgo, colas, picos) cambia la interpretaci√≥n

2. La normal es una distribuci√≥n sim√©trica tipo campana; normalidad es aproximarse a esa forma para habilitar reglas √∫tiles

3. En normalidad, la regla 68‚Äì95‚Äì99

4. Un histograma se lee por forma, colas y picos; los bins pueden enga√±ar ‚Üí complementa con boxplot/percentiles

5. **Variabilidad:** rango y std son sensibles a extremos

    * IQR es robusto y describe el centro del 50%

6. **Outliers:**

    * IQR es mejor en sesgo/colas largas
    * Z-score funciona mejor si hay normalidad aproximada

## Pr√≥xima Clase ‚è≠Ô∏è: 

* Funciones de file
* Segmentaci√≥n de clientes
* GitHub

# Sesi√≥n Pr√°ctica üí™: Habilidades t√©cnicas python y GitHub

## Ejercicios: funciones de fila para segmentaci√≥n de clientes (condicionales + bucles) + mini apartado GitHub

## üéØ Objetivos de la sesi√≥n
Al final de esta clase podr√°s:

1. Crear **funciones de fila** para segmentar clientes usando `if/elif/else` y manipulando correctamente nulos y outliers.
2. Integrar **bucles** dentro de funciones para evaluar reglas, contar condiciones o aplicar ‚Äúscoring‚Äù.
3. Aplicar segmentaciones t√≠picas (RFM simplificado, riesgo de churn, valor del cliente, engagement).
5. Entender el flujo b√°sico de **GitHub** para entregar y versionar notebooks.

---

## üß≠ Agenda
1. **Repaso r√°pido (10 min):** row functions, condicionales y loops.
2. **Ejercicio 1 (20 min):** segmentaci√≥n por reglas (VIP/Loyal/At risk).
3. **Ejercicio 2 (25 min):** scoring por puntos con bucle (customer score).
4. **Ejercicio 3 (20 min):** flags de calidad + segmentaci√≥n ‚Äúlimpia‚Äù.
5. **Mini apartado GitHub (15‚Äì20 min):** repo, commit, push, README.


In [None]:
#Ejercicio codigo aqui