<a href="https://colab.research.google.com/github/HesusG/diagnostico-lineas-accion/blob/main/Semana2/ejercicios/workshop2_version2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Workshop 2: Prueba Ji Cuadrada, ANOVA, Regresi√≥n y Correlaci√≥n

## CD2001B - An√°lisis de Informaci√≥n Estad√≠stica

---

## Objetivos del Workshop

1. **Pruebas de Ji Cuadrada (œá¬≤)**: Analizar independencia entre variables categ√≥ricas
2. **ANOVA**: Comparar medias de m√∫ltiples grupos
3. **Regresi√≥n Lineal**: Modelar relaciones entre variables
4. **Correlaci√≥n**: Medir asociaci√≥n entre variables

---

## Estructura del Workshop

- **Parte 1**: Pruebas de Ji Cuadrada (œá¬≤)
- **Parte 2**: ANOVA (An√°lisis de Varianza)
- **Parte 3**: Regresi√≥n y Correlaci√≥n
- **Reflexi√≥n Final**: Integraci√≥n de conceptos

---

## Importar Librer√≠as

In [None]:
# Librer√≠as b√°sicas
import pandas as pd
import numpy as np

# Estad√≠stica
from scipy import stats
from scipy.stats import chi2_contingency, f_oneway, pearsonr
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
import statsmodels.api as sm

# Visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("husl")
%matplotlib inline

# Configurar pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.precision', 4)

# Semilla para reproducibilidad
np.random.seed(42)

print("‚úì Librer√≠as importadas correctamente")

---

# PARTE 1: Pruebas de Ji Cuadrada (œá¬≤)

## Conceptos Te√≥ricos

### ¬øQu√© es la Prueba de Ji Cuadrada?

La prueba de Ji Cuadrada (œá¬≤) eval√∫a si existe **independencia** entre dos variables categ√≥ricas. Se utiliza para analizar tablas de contingencia.

### F√≥rmula

$$\chi^2 = \sum \frac{(O - E)^2}{E}$$

Donde:
- **O** = Frecuencia observada
- **E** = Frecuencia esperada

### Grados de Libertad

$$gl = (\text{filas} - 1) \times (\text{columnas} - 1)$$

### Hip√≥tesis

- **H‚ÇÄ**: Las variables son independientes
- **H‚ÇÅ**: Las variables NO son independientes (est√°n asociadas)

### Criterio de Decisi√≥n

- Si **p-value < Œ±**: Rechazamos H‚ÇÄ (hay asociaci√≥n)
- Si **p-value ‚â• Œ±**: No rechazamos H‚ÇÄ (son independientes)

---

## Ejercicio 11-6: Grados de Libertad

### Enunciado

¬øCu√°ntos **grados de libertad** hay en una tabla de **contingencia** con:

a) **4 filas** y **6 columnas**?  
b) **7 filas** y **3 columnas**?  
c) **5 filas** y **5 columnas**?  

---

### a) An√°lisis Te√≥rico

**Escribe aqu√≠ tu razonamiento:**

_F√≥rmula: gl = (filas - 1) √ó (columnas - 1)_

_Tu respuesta aqu√≠..._

---

In [None]:
# b) Implementaci√≥n en Python

def calcular_grados_libertad(filas, columnas):
    """
    Calcula los grados de libertad de una tabla de contingencia.
    
    Args:
        filas (int): N√∫mero de filas
        columnas (int): N√∫mero de columnas
    
    Returns:
        int: Grados de libertad
    """
    gl = (filas - 1) * (columnas - 1)
    return gl

# a) 4 filas y 6 columnas
gl_a = calcular_grados_libertad(4, 6)
print(f"a) Tabla 4√ó6: gl = {gl_a}")

# b) 7 filas y 3 columnas
gl_b = calcular_grados_libertad(7, 3)
print(f"b) Tabla 7√ó3: gl = {gl_b}")

# c) 5 filas y 5 columnas
gl_c = calcular_grados_libertad(5, 5)
print(f"c) Tabla 5√ó5: gl = {gl_c}")

### c) Interpretaci√≥n

**Completa:**

Los grados de libertad indican el n√∫mero de celdas en una tabla de contingencia que pueden variar libremente una vez que se conocen los totales marginales.

- **Mayor n√∫mero de grados de libertad** ‚Üí Mayor informaci√≥n para detectar asociaciones
- **Menor n√∫mero de grados de libertad** ‚Üí Menor poder estad√≠stico

**¬øCu√°l de las tres tablas tiene m√°s poder estad√≠stico? ¬øPor qu√©?**

_Tu respuesta aqu√≠..._

---

## Ejercicios 11-7 y 11-8: Distribuci√≥n de Marcas por Regi√≥n

### Enunciado

Una empresa estudia la **distribuci√≥n de tres marcas** de un producto en **cuatro regiones** geogr√°ficas. Se obtuvieron los siguientes datos:

| **Regi√≥n** | **Marca A** | **Marca B** | **Marca C** |
|------------|-------------|-------------|-------------|
| Norte      | 45          | 30          | 25          |
| Sur        | 35          | 40          | 25          |
| Este       | 50          | 35          | 15          |
| Oeste      | 40          | 45          | 15          |

**Pregunta de investigaci√≥n:** ¬øExiste asociaci√≥n entre la regi√≥n geogr√°fica y la preferencia de marca?

**Nivel de significancia:** Œ± = 0.05

---

### Ejercicio 11-7: Planteamiento de Hip√≥tesis

**Completa:**

- **H‚ÇÄ** (Hip√≥tesis nula): _Tu respuesta..._
- **H‚ÇÅ** (Hip√≥tesis alternativa): _Tu respuesta..._
- **Grados de libertad**: _Calcula usando la f√≥rmula..._
- **Nivel de significancia**: Œ± = 0.05

---

In [None]:
### Ejercicio 11-8: Implementaci√≥n de la Prueba

# Crear tabla de contingencia
tabla_marcas = pd.DataFrame({
    'Marca A': [45, 35, 50, 40],
    'Marca B': [30, 40, 35, 45],
    'Marca C': [25, 25, 15, 15]
}, index=['Norte', 'Sur', 'Este', 'Oeste'])

print("Tabla de Contingencia Observada:")
print(tabla_marcas)
print(f"\nTotal de observaciones: {tabla_marcas.sum().sum()}")

In [None]:
# Realizar prueba de Ji Cuadrada
chi2, p_value, dof, expected_freq = chi2_contingency(tabla_marcas)

print("\n" + "="*60)
print("RESULTADOS DE LA PRUEBA DE JI CUADRADA")
print("="*60)
print(f"Estad√≠stico œá¬≤: {chi2:.4f}")
print(f"Valor p: {p_value:.4f}")
print(f"Grados de libertad: {dof}")
print(f"Nivel de significancia: Œ± = 0.05")
print("="*60)

# Decisi√≥n
if p_value < 0.05:
    print(f"\n‚úì p-value ({p_value:.4f}) < Œ± (0.05)")
    print("CONCLUSI√ìN: Rechazamos H‚ÇÄ")
    print("Existe evidencia de asociaci√≥n entre regi√≥n y preferencia de marca.")
else:
    print(f"\n‚úó p-value ({p_value:.4f}) ‚â• Œ± (0.05)")
    print("CONCLUSI√ìN: No rechazamos H‚ÇÄ")
    print("No hay evidencia suficiente de asociaci√≥n entre regi√≥n y marca.")

In [None]:
# Tabla de frecuencias esperadas
tabla_esperadas = pd.DataFrame(expected_freq, 
                                index=tabla_marcas.index, 
                                columns=tabla_marcas.columns)

print("\nFrecuencias Esperadas (bajo H‚ÇÄ):")
print(tabla_esperadas.round(2))

In [None]:
# Visualizaci√≥n: Heatmap comparativo
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Frecuencias observadas
sns.heatmap(tabla_marcas, annot=True, fmt='d', cmap='YlOrRd', ax=axes[0], 
            cbar_kws={'label': 'Frecuencia'}, linewidths=1, linecolor='white')
axes[0].set_title('Frecuencias Observadas', fontsize=14, fontweight='bold')
axes[0].set_ylabel('Regi√≥n', fontsize=12)
axes[0].set_xlabel('Marca', fontsize=12)

# Frecuencias esperadas
sns.heatmap(tabla_esperadas, annot=True, fmt='.1f', cmap='YlGnBu', ax=axes[1],
            cbar_kws={'label': 'Frecuencia'}, linewidths=1, linecolor='white')
axes[1].set_title('Frecuencias Esperadas (bajo H‚ÇÄ)', fontsize=14, fontweight='bold')
axes[1].set_ylabel('Regi√≥n', fontsize=12)
axes[1].set_xlabel('Marca', fontsize=12)

plt.tight_layout()
plt.show()

In [None]:
# Gr√°fico de barras agrupadas
tabla_marcas.plot(kind='bar', figsize=(10, 6), width=0.8, edgecolor='black')
plt.title('Distribuci√≥n de Marcas por Regi√≥n', fontsize=16, fontweight='bold')
plt.xlabel('Regi√≥n', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.xticks(rotation=0)
plt.legend(title='Marca', fontsize=10)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

### Interpretaci√≥n de Resultados

**Completa tu an√°lisis:**

1. **Estad√≠stico œá¬≤:** _¬øEs grande o peque√±o? ¬øQu√© indica?_

2. **Valor p:** _¬øQu√© tan probable es obtener estos datos si H‚ÇÄ fuera cierta?_

3. **Decisi√≥n:** _¬øRechazamos o no rechazamos H‚ÇÄ? ¬øPor qu√©?_

4. **Conclusi√≥n pr√°ctica:** _¬øQu√© significa esto para la empresa?_

5. **An√°lisis visual:** _¬øQu√© diferencias observas entre frecuencias observadas y esperadas?_

---

## Ejercicios 11-9 y 11-10: Ventas de Papas Fritas y Etapas Econ√≥micas

### Enunciado

Un fabricante de **papas fritas** quiere determinar si las ventas de su producto est√°n asociadas con las **etapas econ√≥micas** (recesi√≥n, estabilidad, expansi√≥n).

Datos recopilados durante 150 per√≠odos:

| **Etapa Econ√≥mica** | **Ventas Bajas** | **Ventas Medias** | **Ventas Altas** |
|---------------------|------------------|-------------------|------------------|
| Recesi√≥n            | 15               | 25                | 10               |
| Estabilidad         | 20               | 30                | 20               |
| Expansi√≥n           | 10               | 15                | 5                |

**Pregunta:** ¬øLas ventas son independientes de la etapa econ√≥mica?

**Nivel de significancia:** Œ± = 0.05

---

### Ejercicio 11-9: Tu turno - Planteamiento

Antes de ver el c√≥digo, **escribe:**

1. **Hip√≥tesis nula (H‚ÇÄ):**  
   _Tu respuesta..._

2. **Hip√≥tesis alternativa (H‚ÇÅ):**  
   _Tu respuesta..._

3. **Grados de libertad:**  
   _Calcula: gl = (filas - 1) √ó (columnas - 1) = ..._

---

In [None]:
### Ejercicio 11-10: Implementaci√≥n

# Crear tabla de contingencia
tabla_papas = pd.DataFrame({
    'Ventas Bajas': [15, 20, 10],
    'Ventas Medias': [25, 30, 15],
    'Ventas Altas': [10, 20, 5]
}, index=['Recesi√≥n', 'Estabilidad', 'Expansi√≥n'])

print("Tabla de Contingencia:")
print(tabla_papas)
print(f"\nTotal de per√≠odos analizados: {tabla_papas.sum().sum()}")

# Realizar prueba de Ji Cuadrada
chi2_papas, p_value_papas, dof_papas, expected_papas = chi2_contingency(tabla_papas)

print("\n" + "="*60)
print("RESULTADOS - VENTAS VS ETAPA ECON√ìMICA")
print("="*60)
print(f"Estad√≠stico œá¬≤: {chi2_papas:.4f}")
print(f"Valor p: {p_value_papas:.4f}")
print(f"Grados de libertad: {dof_papas}")
print("="*60)

# Decisi√≥n
alpha = 0.05
if p_value_papas < alpha:
    print(f"\n‚úì Rechazamos H‚ÇÄ (p = {p_value_papas:.4f} < {alpha})")
    print("Las ventas S√ç est√°n asociadas con la etapa econ√≥mica.")
else:
    print(f"\n‚úó No rechazamos H‚ÇÄ (p = {p_value_papas:.4f} ‚â• {alpha})")
    print("Las ventas son independientes de la etapa econ√≥mica.")

In [None]:
# Visualizaci√≥n
tabla_papas.plot(kind='bar', figsize=(10, 6), width=0.75, edgecolor='black', alpha=0.85)
plt.title('Ventas de Papas Fritas por Etapa Econ√≥mica', fontsize=16, fontweight='bold')
plt.xlabel('Etapa Econ√≥mica', fontsize=12)
plt.ylabel('Frecuencia de Per√≠odos', fontsize=12)
plt.xticks(rotation=0)
plt.legend(title='Nivel de Ventas', fontsize=10)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

### Tu Interpretaci√≥n

**Responde:**

1. ¬øQu√© decisi√≥n tomaste? ¬øPor qu√©?  
   _Tu respuesta..._

2. ¬øQu√© patr√≥n observas en el gr√°fico?  
   _Tu respuesta..._

3. Si eres el fabricante, ¬øqu√© estrategia de inventario implementar√≠as?  
   _Tu respuesta..._

---

## Ejercicio 11-12: Lectura de Peri√≥dicos y Nivel Educativo

### Enunciado

Se desea saber si el **nivel educativo** est√° asociado con la **frecuencia de lectura de peri√≥dicos**.

Datos de una encuesta:

| **Nivel Educativo** | **Nunca** | **Ocasionalmente** | **Regularmente** |
|---------------------|-----------|--------------------|-----------------|
| Primaria            | 60        | 30                 | 10              |
| Secundaria          | 40        | 50                 | 30              |
| Universidad         | 20        | 40                 | 60              |

**Œ± = 0.01** (m√°s estricto)

---

In [None]:
# DESAF√çO: Implementa la prueba t√∫ mismo siguiendo los pasos anteriores

# 1. Crear tabla de contingencia
tabla_periodicos = pd.DataFrame({
    'Nunca': [60, 40, 20],
    'Ocasionalmente': [30, 50, 40],
    'Regularmente': [10, 30, 60]
}, index=['Primaria', 'Secundaria', 'Universidad'])

# 2. Realizar prueba
# COMPLETA TU C√ìDIGO AQU√ç

# 3. Interpretaci√≥n
# ESCRIBE TU AN√ÅLISIS AQU√ç

### Reflexi√≥n sobre Ji Cuadrada

**Responde:**

1. **¬øCu√°ndo usamos Ji Cuadrada?**  
   _Tu respuesta..._

2. **¬øQu√© limitaciones tiene esta prueba?**  
   _Investiga y responde..._

3. **¬øQu√© diferencia hay entre independencia y causalidad?**  
   _Tu respuesta..._

---

---

# PARTE 2: ANOVA (An√°lisis de Varianza)

## Conceptos Te√≥ricos

### ¬øQu√© es ANOVA?

**ANOVA** (Analysis of Variance) compara las **medias** de **tres o m√°s grupos** para determinar si al menos una es diferente.

### ¬øPor qu√© no usar m√∫ltiples pruebas t?

- Realizar m√∫ltiples pruebas t aumenta el **error tipo I** (falsos positivos)
- ANOVA controla este error al hacer una sola prueba

### F√≥rmula del Estad√≠stico F

$$F = \frac{\text{Varianza entre grupos}}{\text{Varianza dentro de grupos}} = \frac{MS_{\text{entre}}}{MS_{\text{dentro}}}$$

### Hip√≥tesis

- **H‚ÇÄ**: Œº‚ÇÅ = Œº‚ÇÇ = Œº‚ÇÉ = ... = Œº‚Çñ (todas las medias son iguales)
- **H‚ÇÅ**: Al menos una media es diferente

### Supuestos de ANOVA

1. **Independencia**: Las observaciones son independientes
2. **Normalidad**: Los residuos siguen distribuci√≥n normal
3. **Homocedasticidad**: Las varianzas son iguales entre grupos

### Criterio de Decisi√≥n

- Si **p-value < Œ±**: Rechazamos H‚ÇÄ (al menos una media es diferente)
- Si **p-value ‚â• Œ±**: No rechazamos H‚ÇÄ (no hay diferencias significativas)

---

## Ejercicio 11-26: Efectos Promocionales en Ventas

### Enunciado

Una empresa prueba **tres estrategias promocionales** para aumentar ventas. Se registraron las ventas (en miles de d√≥lares) durante 5 semanas para cada estrategia:

- **Estrategia A (Descuentos):** 12, 15, 14, 16, 13
- **Estrategia B (Publicidad TV):** 18, 20, 19, 21, 17
- **Estrategia C (Redes Sociales):** 16, 18, 17, 19, 15

**Pregunta:** ¬øExiste diferencia significativa en las ventas promedio entre estrategias?

**Œ± = 0.05**

---

### a) Planteamiento de Hip√≥tesis

**Completa:**

- **H‚ÇÄ:** _Las tres estrategias producen las mismas ventas promedio (Œº_A = Œº_B = Œº_C)_
- **H‚ÇÅ:** _Al menos una estrategia produce ventas promedio diferentes_

---

In [None]:
### b) Implementaci√≥n en Python

# Datos
estrategia_a = np.array([12, 15, 14, 16, 13])
estrategia_b = np.array([18, 20, 19, 21, 17])
estrategia_c = np.array([16, 18, 17, 19, 15])

# Crear DataFrame para mejor visualizaci√≥n
datos_estrategias = pd.DataFrame({
    'Descuentos': estrategia_a,
    'Publicidad TV': estrategia_b,
    'Redes Sociales': estrategia_c
})

print("Datos de Ventas (miles de d√≥lares):")
print(datos_estrategias)
print("\nEstad√≠sticas Descriptivas:")
print(datos_estrategias.describe())

In [None]:
# Realizar ANOVA de una v√≠a
f_stat, p_value_anova = f_oneway(estrategia_a, estrategia_b, estrategia_c)

print("\n" + "="*60)
print("RESULTADOS DE ANOVA")
print("="*60)
print(f"Estad√≠stico F: {f_stat:.4f}")
print(f"Valor p: {p_value_anova:.4f}")
print(f"Nivel de significancia: Œ± = 0.05")
print("="*60)

# Decisi√≥n
if p_value_anova < 0.05:
    print(f"\n‚úì Rechazamos H‚ÇÄ (p = {p_value_anova:.4f} < 0.05)")
    print("Conclusi√≥n: Al menos una estrategia produce ventas diferentes.")
    print("Recomendaci√≥n: Realizar pruebas post-hoc para identificar diferencias espec√≠ficas.")
else:
    print(f"\n‚úó No rechazamos H‚ÇÄ (p = {p_value_anova:.4f} ‚â• 0.05)")
    print("Conclusi√≥n: No hay evidencia de diferencias significativas entre estrategias.")

In [None]:
# Visualizaci√≥n: Boxplots comparativos
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Boxplot
datos_estrategias.boxplot(ax=axes[0], grid=False, patch_artist=True)
axes[0].set_title('Distribuci√≥n de Ventas por Estrategia', fontsize=14, fontweight='bold')
axes[0].set_ylabel('Ventas (miles de d√≥lares)', fontsize=12)
axes[0].set_xlabel('Estrategia Promocional', fontsize=12)
axes[0].grid(axis='y', alpha=0.3)

# Gr√°fico de medias con barras de error
medias = datos_estrategias.mean()
errores = datos_estrategias.std()

axes[1].bar(medias.index, medias.values, yerr=errores.values, 
            capsize=10, alpha=0.7, edgecolor='black', color=['#FF6B6B', '#4ECDC4', '#45B7D1'])
axes[1].set_title('Ventas Promedio por Estrategia (¬±1 SD)', fontsize=14, fontweight='bold')
axes[1].set_ylabel('Ventas Promedio (miles)', fontsize=12)
axes[1].set_xlabel('Estrategia', fontsize=12)
axes[1].grid(axis='y', alpha=0.3)
axes[1].set_xticklabels(medias.index, rotation=15, ha='right')

plt.tight_layout()
plt.show()

print("\nMedias por estrategia:")
print(medias)

### c) Interpretaci√≥n

**Completa tu an√°lisis:**

1. **Estad√≠stico F:** ¬øQu√© indica su valor?  
   _Tu respuesta..._

2. **Decisi√≥n:** ¬øRechazamos H‚ÇÄ? ¬øPor qu√©?  
   _Tu respuesta..._

3. **Conclusi√≥n pr√°ctica:** ¬øQu√© estrategia recomendar√≠as?  
   _Tu respuesta..._

4. **Limitaci√≥n:** ANOVA solo dice "hay diferencias", no dice "cu√°les". ¬øQu√© har√≠as despu√©s?  
   _Investiga: pruebas post-hoc (Tukey, Bonferroni)_

---

## Ejercicio 11-28: Quejas de Empleados por Departamento

### Enunciado

Una empresa analiza el **n√∫mero de quejas** registradas en tres departamentos durante 6 meses:

- **Producci√≥n:** 8, 10, 9, 12, 11, 10
- **Ventas:** 5, 6, 7, 5, 8, 6
- **Administraci√≥n:** 12, 14, 13, 15, 16, 14

**Pregunta:** ¬øHay diferencias significativas en el promedio de quejas entre departamentos?

**Œ± = 0.05**

---

In [None]:
# DESAF√çO: Implementa este ejercicio t√∫ mismo

# 1. Crear los arrays de datos
produccion = np.array([8, 10, 9, 12, 11, 10])
ventas = np.array([5, 6, 7, 5, 8, 6])
administracion = np.array([12, 14, 13, 15, 16, 14])

# 2. Realizar ANOVA
# TU C√ìDIGO AQU√ç

# 3. Visualizaci√≥n
# TU C√ìDIGO AQU√ç

# 4. Interpretaci√≥n
# TU AN√ÅLISIS AQU√ç

## Ejercicio 11-36: Ventas de Jeans por Marca

### Enunciado

Un analista compara las **ventas semanales** (en unidades) de cuatro marcas de jeans:

- **Marca X:** 150, 160, 155, 165, 158
- **Marca Y:** 170, 175, 180, 172, 178
- **Marca Z:** 140, 145, 142, 148, 143
- **Marca W:** 165, 168, 170, 167, 169

**Œ± = 0.01**

---

In [None]:
# DESAF√çO COMPLETO: Implementa desde cero

# TU C√ìDIGO AQU√ç

## Ejercicio 11-38: Tiempos de Servicio en Restaurantes

### Enunciado

Se miden los **tiempos de servicio** (en minutos) en tres restaurantes de comida r√°pida:

- **Restaurante A:** 3.2, 3.5, 3.0, 3.8, 3.3
- **Restaurante B:** 4.1, 4.5, 4.2, 4.8, 4.4
- **Restaurante C:** 2.8, 3.0, 2.9, 3.2, 2.7

**Œ± = 0.05**

---

In [None]:
# TU IMPLEMENTACI√ìN COMPLETA AQU√ç

### Reflexi√≥n sobre ANOVA

**Responde:**

1. **¬øCu√°l es la diferencia entre ANOVA y prueba t?**  
   _Tu respuesta..._

2. **¬øQu√© significa un valor F grande?**  
   _Tu respuesta..._

3. **¬øQu√© hacer si se rechaza H‚ÇÄ en ANOVA?**  
   _Tu respuesta..._

4. **¬øCu√°ndo NO ser√≠a apropiado usar ANOVA?**  
   _Piensa en los supuestos..._

---

---

# PARTE 3: Regresi√≥n y Correlaci√≥n

## Conceptos Te√≥ricos

### Correlaci√≥n

Mide la **fuerza y direcci√≥n** de la relaci√≥n lineal entre dos variables.

**Coeficiente de correlaci√≥n de Pearson (r):**

$$r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i - \bar{x})^2 \sum(y_i - \bar{y})^2}}$$

**Interpretaci√≥n de r:**
- **r = +1**: Correlaci√≥n positiva perfecta
- **r = 0**: Sin correlaci√≥n lineal
- **r = -1**: Correlaci√≥n negativa perfecta
- **|r| > 0.7**: Correlaci√≥n fuerte
- **0.3 < |r| < 0.7**: Correlaci√≥n moderada
- **|r| < 0.3**: Correlaci√≥n d√©bil

### Regresi√≥n Lineal Simple

Modelo que predice una variable dependiente (Y) a partir de una independiente (X).

**Ecuaci√≥n:**

$$\hat{y} = b_0 + b_1 x$$

Donde:
- **b‚ÇÄ** = Intercepto (ordenada al origen)
- **b‚ÇÅ** = Pendiente (cambio en Y por unidad de X)

### Coeficiente de Determinaci√≥n (R¬≤)

Proporci√≥n de variabilidad en Y explicada por X.

$$R^2 = r^2$$

**Interpretaci√≥n:**
- **R¬≤ = 0.85** ‚Üí El modelo explica el 85% de la variabilidad
- **R¬≤ = 0.20** ‚Üí El modelo explica solo el 20% de la variabilidad

---

## Ejercicio 12-64: Predicci√≥n de Rentas de Apartamentos

### Enunciado

Un inversionista inmobiliario quiere predecir la **renta mensual** de apartamentos bas√°ndose en su **√°rea** (en m¬≤).

Datos recopilados de 10 apartamentos:

| √Årea (m¬≤) | Renta ($) |
|-----------|----------|
| 45        | 800      |
| 50        | 850      |
| 55        | 900      |
| 60        | 950      |
| 65        | 1000     |
| 70        | 1050     |
| 75        | 1100     |
| 80        | 1150     |
| 85        | 1200     |
| 90        | 1250     |

**Tareas:**

a) Calcular el coeficiente de correlaci√≥n  
b) Determinar la ecuaci√≥n de regresi√≥n  
c) Interpretar R¬≤  
d) Predecir la renta de un apartamento de 68 m¬≤  

---

In [None]:
# Datos
area = np.array([45, 50, 55, 60, 65, 70, 75, 80, 85, 90])
renta = np.array([800, 850, 900, 950, 1000, 1050, 1100, 1150, 1200, 1250])

# Crear DataFrame
df_apartamentos = pd.DataFrame({'Area_m2': area, 'Renta_USD': renta})

print("Datos de Apartamentos:")
print(df_apartamentos)
print("\nEstad√≠sticas Descriptivas:")
print(df_apartamentos.describe())

In [None]:
# a) Coeficiente de correlaci√≥n
r_pearson, p_value_corr = pearsonr(area, renta)

print("="*60)
print("a) AN√ÅLISIS DE CORRELACI√ìN")
print("="*60)
print(f"Coeficiente de correlaci√≥n (r): {r_pearson:.4f}")
print(f"Valor p: {p_value_corr:.6f}")

if abs(r_pearson) > 0.7:
    fuerza = "FUERTE"
elif abs(r_pearson) > 0.3:
    fuerza = "MODERADA"
else:
    fuerza = "D√âBIL"

direccion = "positiva" if r_pearson > 0 else "negativa"

print(f"\nInterpretaci√≥n: Correlaci√≥n {fuerza} {direccion}")
print(f"‚Üí A mayor √°rea, {'mayor' if r_pearson > 0 else 'menor'} renta.")

In [None]:
# b) Modelo de regresi√≥n lineal

# Agregar constante (intercepto)
X = sm.add_constant(area)
y = renta

# Ajustar modelo
modelo = sm.OLS(y, X).fit()

print("\n" + "="*60)
print("b) MODELO DE REGRESI√ìN LINEAL")
print("="*60)
print(modelo.summary())

# Extraer coeficientes
b0 = modelo.params[0]  # Intercepto
b1 = modelo.params[1]  # Pendiente

print(f"\nüìê Ecuaci√≥n de regresi√≥n:")
print(f"Renta = {b0:.2f} + {b1:.2f} √ó √Årea")
print(f"\nInterpretaci√≥n de b‚ÇÅ ({b1:.2f}):")
print(f"Por cada m¬≤ adicional, la renta aumenta ${b1:.2f} USD")

In [None]:
# c) Coeficiente de determinaci√≥n R¬≤
r_squared = modelo.rsquared

print("\n" + "="*60)
print("c) COEFICIENTE DE DETERMINACI√ìN")
print("="*60)
print(f"R¬≤ = {r_squared:.4f}")
print(f"\nInterpretaci√≥n:")
print(f"El modelo explica el {r_squared*100:.2f}% de la variabilidad en las rentas.")
print(f"El {(1-r_squared)*100:.2f}% restante se debe a otros factores no incluidos.")

In [None]:
# d) Predicci√≥n para 68 m¬≤
area_nueva = 68
renta_predicha = b0 + b1 * area_nueva

print("\n" + "="*60)
print("d) PREDICCI√ìN")
print("="*60)
print(f"Para un apartamento de {area_nueva} m¬≤:")
print(f"Renta predicha = {b0:.2f} + {b1:.2f} √ó {area_nueva}")
print(f"Renta predicha = ${renta_predicha:.2f} USD")

In [None]:
# Visualizaci√≥n completa
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Diagrama de dispersi√≥n con l√≠nea de regresi√≥n
axes[0].scatter(area, renta, s=100, alpha=0.7, edgecolors='black', label='Datos observados')
axes[0].plot(area, modelo.fittedvalues, 'r-', linewidth=2, label=f'Regresi√≥n: y = {b0:.0f} + {b1:.2f}x')
axes[0].scatter(area_nueva, renta_predicha, s=200, color='green', marker='*', 
                edgecolors='black', linewidths=2, zorder=5, label=f'Predicci√≥n ({area_nueva}m¬≤, ${renta_predicha:.0f})')
axes[0].set_xlabel('√Årea (m¬≤)', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Renta (USD)', fontsize=12, fontweight='bold')
axes[0].set_title(f'Regresi√≥n Lineal: Renta vs √Årea\nR¬≤ = {r_squared:.4f}', fontsize=14, fontweight='bold')
axes[0].legend(loc='upper left', fontsize=10)
axes[0].grid(alpha=0.3)

# Residuos
residuos = modelo.resid
axes[1].scatter(modelo.fittedvalues, residuos, s=100, alpha=0.7, edgecolors='black')
axes[1].axhline(0, color='red', linestyle='--', linewidth=2)
axes[1].set_xlabel('Valores Ajustados', fontsize=12, fontweight='bold')
axes[1].set_ylabel('Residuos', fontsize=12, fontweight='bold')
axes[1].set_title('An√°lisis de Residuos', fontsize=14, fontweight='bold')
axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

### Tu Interpretaci√≥n

**Responde:**

1. **¬øEs apropiado usar este modelo para predicciones? ¬øPor qu√©?**  
   _Considera R¬≤, correlaci√≥n y gr√°fico de residuos..._

2. **¬øQu√© otros factores podr√≠an influir en la renta adem√°s del √°rea?**  
   _Piensa en la vida real..._

3. **¬øTiene sentido el valor del intercepto (b‚ÇÄ)?**  
   _¬øQu√© significa una renta cuando √°rea = 0?_

4. **¬øHasta qu√© √°rea es confiable hacer predicciones?**  
   _Investiga: extrapolaci√≥n vs interpolaci√≥n_

---

## Ejercicio 12-68: Tama√±o de IPO vs Precio por Acci√≥n

### Enunciado

Un analista financiero investiga si el **tama√±o de la oferta p√∫blica inicial (IPO)** de una empresa est√° relacionado con el **precio por acci√≥n** en el primer d√≠a.

Datos de 8 empresas:

| Tama√±o IPO (millones $) | Precio por Acci√≥n ($) |
|-------------------------|------------------------|
| 50                      | 12                     |
| 75                      | 15                     |
| 100                     | 18                     |
| 125                     | 22                     |
| 150                     | 25                     |
| 175                     | 28                     |
| 200                     | 32                     |
| 225                     | 35                     |

**Tareas:**

a) Calcular correlaci√≥n y determinar si es significativa  
b) Ajustar modelo de regresi√≥n  
c) Predecir precio para IPO de $180 millones  
d) Evaluar bondad del ajuste  

---

In [None]:
# DESAF√çO FINAL: Implementa este ejercicio completo

# Datos
tamano_ipo = np.array([50, 75, 100, 125, 150, 175, 200, 225])
precio_accion = np.array([12, 15, 18, 22, 25, 28, 32, 35])

# TU C√ìDIGO COMPLETO AQU√ç
# Incluye:
# - An√°lisis de correlaci√≥n
# - Modelo de regresi√≥n
# - Predicci√≥n
# - Visualizaciones
# - Interpretaci√≥n

---

# Reflexi√≥n Final: Integraci√≥n de Conceptos

## Compara las Tres T√©cnicas

| T√©cnica         | ¬øQu√© compara/analiza?        | Tipo de variables          | Hip√≥tesis nula                  |
|-----------------|------------------------------|----------------------------|---------------------------------|
| **Ji Cuadrada** | _Tu respuesta..._            | _Tu respuesta..._          | _Tu respuesta..._               |
| **ANOVA**       | _Tu respuesta..._            | _Tu respuesta..._          | _Tu respuesta..._               |
| **Regresi√≥n**   | _Tu respuesta..._            | _Tu respuesta..._          | _Tu respuesta..._               |

---

## Preguntas de Reflexi√≥n

### 1. Independencia vs Causalidad

**¬øCu√°l es la diferencia entre:**
- "X e Y est√°n asociados" (Ji Cuadrada)  
- "X causa Y" (Causalidad)  

_Tu respuesta..._

**Ejemplo pr√°ctico:**
_Proporciona un caso donde haya correlaci√≥n sin causalidad..._

---

### 2. Supuestos y Limitaciones

**¬øQu√© pasa si se violan los supuestos de cada prueba?**

a) **Ji Cuadrada** requiere frecuencias esperadas ‚â• 5:  
_Tu respuesta..._

b) **ANOVA** requiere normalidad y homocedasticidad:  
_Tu respuesta..._

c) **Regresi√≥n** requiere relaci√≥n lineal:  
_Tu respuesta..._

---

### 3. Aplicaci√≥n Pr√°ctica

**Para cada escenario, elige la t√©cnica apropiada y justifica:**

a) ¬øLa satisfacci√≥n del cliente depende del g√©nero?  
_T√©cnica: _____________  
_Justificaci√≥n: ..._

b) ¬øLos salarios difieren entre cinco departamentos?  
_T√©cnica: _____________  
_Justificaci√≥n: ..._

c) ¬øPuedo predecir ventas bas√°ndome en inversi√≥n publicitaria?  
_T√©cnica: _____________  
_Justificaci√≥n: ..._

d) ¬øEl nivel educativo est√° relacionado con preferencia pol√≠tica?  
_T√©cnica: _____________  
_Justificaci√≥n: ..._

---

### 4. Interpretaci√≥n de Resultados

**Escenario:** Realizas un ANOVA y obtienes p-value = 0.003.

a) ¬øQu√© decisi√≥n tomas?  
_Tu respuesta..._

b) ¬øQu√© significa esto en t√©rminos pr√°cticos?  
_Tu respuesta..._

c) ¬øQu√© an√°lisis har√≠as despu√©s?  
_Tu respuesta..._

---

## Autoevaluaci√≥n

**Marca tu nivel de comprensi√≥n (1-5):**

| Concepto                        | ‚≠ê Nivel |
|---------------------------------|----------|
| Prueba de Ji Cuadrada           | _____    |
| ANOVA                           | _____    |
| Regresi√≥n Lineal                | _____    |
| Interpretaci√≥n de p-values      | _____    |
| Visualizaci√≥n de resultados     | _____    |
| Aplicaci√≥n a casos reales       | _____    |

**¬øQu√© tema necesitas reforzar?**  
_Tu respuesta..._

---

---

## Entregables del Workshop

### ‚úÖ Checklist de Completado

**Parte 1: Ji Cuadrada**
- [ ] Ejercicio 11-6: Grados de libertad
- [ ] Ejercicios 11-7/11-8: Marcas por regi√≥n
- [ ] Ejercicios 11-9/11-10: Papas fritas y econom√≠a
- [ ] Ejercicio 11-12: Peri√≥dicos y educaci√≥n

**Parte 2: ANOVA**
- [ ] Ejercicio 11-26: Estrategias promocionales
- [ ] Ejercicio 11-28: Quejas por departamento
- [ ] Ejercicio 11-36: Ventas de jeans
- [ ] Ejercicio 11-38: Tiempos de servicio

**Parte 3: Regresi√≥n**
- [ ] Ejercicio 12-64: Rentas de apartamentos
- [ ] Ejercicio 12-68: IPO y precio por acci√≥n

**Reflexi√≥n**
- [ ] Tabla comparativa de t√©cnicas
- [ ] Preguntas de reflexi√≥n respondidas
- [ ] Autoevaluaci√≥n completa

---

### üì¶ ¬øQu√© entregar?

1. **Este notebook completo** con:
   - Todos los ejercicios resueltos
   - C√≥digo ejecutado (con outputs)
   - Interpretaciones escritas
   - Reflexiones finales

2. **Formato:** `.ipynb` (Jupyter Notebook)

3. **Nombre del archivo:**  
   `Workshop2_Apellido_Nombre.ipynb`

---

## Recursos Adicionales

### Documentaci√≥n
- [SciPy Stats](https://docs.scipy.org/doc/scipy/reference/stats.html)
- [Statsmodels](https://www.statsmodels.org/stable/index.html)
- [Seaborn Gallery](https://seaborn.pydata.org/examples/index.html)

### Videos Recomendados
- Prueba de Ji Cuadrada: [StatQuest](https://www.youtube.com/c/joshstarmer)
- ANOVA explicado: [Khan Academy](https://www.khanacademy.org/math/statistics-probability)
- Regresi√≥n Lineal: [3Blue1Brown](https://www.youtube.com/@3blue1brown)

---

## ¬°√âxito en tu Workshop! üöÄ

**Recuerda:**
- Los resultados estad√≠sticos son in√∫tiles sin interpretaci√≥n
- Las visualizaciones cuentan historias
- La estad√≠stica es una herramienta para tomar mejores decisiones

---

_CD2001B - An√°lisis de Informaci√≥n Estad√≠stica_  
_Tecnol√≥gico de Monterrey_

---