# Examen Primer Parcial

## Problema práctico de cálculo de RMSE

**Enunciado:** Se te dan los valores observados y predichos de una variable numérica para 4 observaciones:
- Observados = `[3, 7, 5, 10]`
- Predichos = `[2, 8, 4, 9]`

**Objetivo:** Calcular el RMSE (Root Mean Squared Error).

In [None]:
import numpy as np
import math

# Datos proporcionados
observados = np.array([3, 7, 5, 10])
predichos = np.array([2, 8, 4, 9])

# --- Método 1: Cálculo paso a paso ---
print("--- Cálculo Paso a Paso ---")

# 1. Calcular los errores (diferencias)
errores = observados - predichos
print(f"Errores (Observado - Predicho): {errores}")

# 2. Elevar al cuadrado los errores
errores_cuadrados = errores ** 2
print(f"Errores al cuadrado: {errores_cuadrados}")

# 3. Calcular el promedio de los errores cuadrados (MSE)
mse = np.mean(errores_cuadrados)
print(f"MSE (Promedio de errores al cuadrado): {mse}")

# 4. Calcular la raíz cuadrada del MSE (RMSE)
rmse = np.sqrt(mse)
print(f"RMSE (Raíz del MSE): {rmse}")


# --- Método 2: Usando Scikit-learn (si está disponible) ---
try:
    from sklearn.metrics import mean_squared_error
    print("\n--- Verificación con Scikit-learn ---")
    rmse_sklearn = np.sqrt(mean_squared_error(observados, predichos))
    print(f"RMSE calculado con sklearn: {rmse_sklearn}")
except ImportError:
    print("\nScikit-learn no está instalado, pero el cálculo manual es correcto.")

## Problema de probabilidad condicional

**Enunciado:** En una fábrica se producen piezas mediante dos máquinas, A y B.

- La máquina A produce el 60% del total de las piezas.
- La máquina B produce el 40% restante.

Sin embargo, no son igual de precisas:
- La máquina A produce 2% de piezas defectuosas.
- La máquina B produce 5% de piezas defectuosas.

Un inspector toma una pieza al azar del inventario general y encuentra que la pieza está defectuosa.

**Pregunta:** ¿Cuál es la probabilidad de que la pieza haya sido fabricada por la máquina B?

In [None]:
# Definición de eventos y probabilidades
# A: Pieza producida por la máquina A
# B: Pieza producida por la máquina B
# D: Pieza defectuosa

P_A = 0.60
P_B = 0.40

P_D_dado_A = 0.02
P_D_dado_B = 0.05

# Queremos calcular P(B | D)
# Usamos el Teorema de Bayes:
# P(B | D) = (P(D | B) * P(B)) / P(D)

# Primero calculamos la probabilidad total de que una pieza sea defectuosa P(D)
# P(D) = P(D | A) * P(A) + P(D | B) * P(B)
P_D = (P_D_dado_A * P_A) + (P_D_dado_B * P_B)

print(f"Probabilidad total de defecto P(D): {P_D:.4f}")

# Ahora aplicamos Bayes
P_B_dado_D = (P_D_dado_B * P_B) / P_D

print(f"Probabilidad de que sea de la máquina B dado que es defectuosa P(B | D): {P_B_dado_D:.4f}")
print(f"Resultado en porcentaje: {P_B_dado_D * 100:.2f}%")

## Simulación de calificaciones (Café vs Agua)

**Objetivo:** Simular datos de estudiantes divididos en dos grupos ('Café' y 'Agua') y comparar sus calificaciones promedio.

In [None]:
import pandas as pd
import numpy as np

# Establece una semilla para reproducibilidad
np.random.seed(42)

# 1. Crea una lista de matrículas de estudiantes
student_ids = [f'{i:06d}' for i in range(172120, 172120 + 20)]

# 2. Asigna 10 estudiantes al grupo 'Café' y 10 al grupo 'Agua'
groups = ['Café'] * 10 + ['Agua'] * 10
np.random.shuffle(groups)

# 3. Simula calificacionen de examenes para el grupo café
# Mean=70, Std=5, asegurate de que los valores estén entre (50-100)
coffee_scores = np.random.normal(loc=70, scale=5, size=10).round(0)
coffee_scores = np.clip(coffee_scores, 50, 100).astype(int)

# 4. Simula calificaciones de examen para el grupo de 'Agua'
# Mean=75, Std=5, asegurate de que los valores estén entre (50-100)
water_scores = np.random.normal(loc=75, scale=5, size=10).round(0)
water_scores = np.clip(water_scores, 50, 100).astype(int)

# Combina los valores basado en el grupo 
exam_scores = []
coffee_idx = 0
water_idx = 0
for group in groups:
    if group == 'Café':
        exam_scores.append(coffee_scores[coffee_idx])
        coffee_idx += 1
    else:
        exam_scores.append(water_scores[water_idx])
        water_idx += 1

# 5. Combina en un DataFrame de Pandas
df_students = pd.DataFrame({
    'Matrícula': student_ids,
    'Grupo': groups,
    'Calificaciones': exam_scores
})

print("Datos simulados (primeros 5 registros):")
print(df_students.head())

# --- Cálculos solicitados ---
print("\n--- Resultados ---")

# Calcula la media (promedio) de los estudiantes que consumen agua
mean_water = df_students[df_students['Grupo'] == 'Agua']['Calificaciones'].mean()
print(f"Media de calificaciones (Grupo Agua): {mean_water:.2f}")

# Calcula la media (promedio) de los estudiantes que consumen café
mean_coffee = df_students[df_students['Grupo'] == 'Café']['Calificaciones'].mean()
print(f"Media de calificaciones (Grupo Café): {mean_coffee:.2f}")

## Problema de Contingencia: Curso vs Examen

**Tabla de contingencia:**

| | Aprobó | Reprobó | Total |
|---|---|---|---|
| **Tomó el curso** | 45 | 5 | 50 |
| **No tomó el curso** | 20 | 30 | 50 |
| **Total** | 65 | 35 | 100 |

**Pregunta 1:** Calcula la probabilidad condicional de aprobar si se tomó el curso ($P(A|B)$).

Fórmula: 
$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

In [None]:
# Definición de eventos y conteos
# A: Aprobó el examen
# B: Tomó el curso

# De la tabla de contingencia:
total_estudiantes = 100

# Número de estudiantes que tomaron el curso y aprobaron (Intersección A y B)
n_A_inter_B = 45

# Número total de estudiantes que tomaron el curso (Total de la fila B)
n_B = 50

# Cálculo de probabilidades
# P(A n B) = n(A n B) / Total
P_A_inter_B = n_A_inter_B / total_estudiantes

# P(B) = n(B) / Total
P_B = n_B / total_estudiantes

# Cálculo de probabilidad condicional P(A | B)
P_A_dado_B = P_A_inter_B / P_B

print(f"P(A n B): {P_A_inter_B}")
print(f"P(B): {P_B}")
print(f"Probabilidad de Aprobar dado que tomó el curso P(A | B): {P_A_dado_B:.2f}")
print(f"Resultado en porcentaje: {P_A_dado_B * 100:.1f}%")

**Pregunta 2:** De la tabla de contingencia anterior, calcula la probabilidad simple de aprobar ($P(A)$).

Fórmula:
$$P(A) = \frac{\text{Total Aprobados}}{\text{Total Estudiantes}}$$

In [None]:
# Total de estudiantes que aprobaron (suma de la columna 'Aprobó')
total_aprobados = 65

# Cálculo de la probabilidad simple
P_Aprobó = total_aprobados / total_estudiantes

print(f"Total de aprobados: {total_aprobados}")
print(f"Total de estudiantes: {total_estudiantes}")
print(f"Probabilidad simple de aprobar P(A): {P_Aprobó:.2f}")
print(f"Resultado en porcentaje: {P_Aprobó * 100:.1f}%")