## Respuesta 5

Para resolver esto se aborda 2 partes:

### 1. Mencionar supuestos del modelo de Regresion Lineal

- **Linealidad**: La relación entre la variable dependiente y las variables independientes es lineal.
- **Independencia**: Las observaciones son independientes entre sí.
- **Homoscedasticidad**: La varianza de los errores es constante para todos los valores de las variables independientes.
- **Normalidad**: Los errores se distribuyen normalmente con media cero y varianza constante.
- **No multicolinealidad**: Las variables independientes no están perfectamente correlacionadas entre sí.

### 2. Calculo de los estimadores del modelo

El modelo se representa como:

𝐘 = 𝐗 β + *e*

Donde:

- **Y** es el vector de observaciones.
- **X** es la matriz de diseño de las variables independientes.
- **β** es el vector de coeficientes que queremos estimar.
- ***e*** es el vector de errores, que se asume que sigue una distribución normal con media cero y varianza constante.

Para estimar β se utiiza la formula de los minimos cuadrados ordinarios (OLS)

β^ = (XᵀX)\^-1 XᵀY


Dado:

In [1]:
import numpy as np

# Definir los datos
Y = np.array([6, 4, 23, 5, 11])
X = np.array([
    [3, 4, 5, 6, 13],
    [10, 3, 7, 1, 4],
    [10, 25, 12, 14, 16],
    [7, 14, 20, 23, 7],
    [3, 4, 4, 4, 10]
])

**Paso 1:** Primero se debe cacular la transpuesta de X

In [2]:
# Transponer la matriz X
X_T = X.T

**Paso 2:** Multiplicar Xᵀ por X

In [3]:
# Multiplicar X_T por X
X_T_X = np.dot(X_T, X)

**Paso 3:** Multiplicar Xᵀ por Y

In [4]:
# Multiplicar X_T por Y
X_T_Y = np.dot(X_T, Y)

**Paso 4**: Calcular la inversa de XᵀX

In [5]:
# Calcular la inversa de X_T_X
X_T_X_inv = np.linalg.inv(X_T_X)

**Paso 5:** Multiplicar la inversa por XᵀY para obtener β^

In [6]:
# Calcular los coeficientes beta
beta_hat = np.dot(X_T_X_inv, X_T_Y)
beta_hat

array([-11.24060403,   4.02248322,  15.7511745 , -13.04916107,
         1.78238255])

#### Resultado:
Los coeficientes estimados para β^ son:


β^ = \begin{pmatrix} -11.24060403 \\ 4.02248322 \\ 15.7511745 \\ -13.04916107 \\ 1.78238255 \end{pmatrix}

## Verificacion del resultado

Para verificar que los coeficientes estimados funcionan, se puede seguir los siguientes pasos:

In [7]:
# Paso 1: Calcular los valores predichos
Y_pred = np.dot(X, beta_hat)

# Paso 2: Comparar los valores predichos con los valores observados
print("Valores observados Y:", Y)
print("Valores predichos Y_pred:", Y_pred)

# Paso 3: Calcular el error de predicción (MSE)
MSE = np.mean((Y - Y_pred) ** 2)
print("Error Cuadrático Medio (MSE):", MSE)

Valores observados Y: [ 6  4 23  5 11]
Valores predichos Y_pred: [ 6.  4. 23.  5. 11.]
Error Cuadrático Medio (MSE): 1.8355356780338974e-22


Este error extremadamente pequeño indica que los valores predichos están casi exactamente alineados con los valores observados, lo que confirma que los coeficientes estimados funcionan correctamente para este conjunto de datos.

Si bien se ha verificado los coeficientes obtenidos utilizando el mismo dataset de entrenamiento, lo que muestra un buen ajuste, es importante destacar que para una evaluación más robusta del modelo, deberíamos probarlo en un dataset no visto durante el entrenamiento. Esto permitiría evaluar la capacidad de generalización del modelo. Sin embargo, debido al tamaño reducido del dataset disponible, no es posible dividirlo en conjuntos de entrenamiento y prueba sin comprometer la robustez del análisis.

array([ 6.,  4., 23.,  5., 11.])

In [13]:
# pregunta 1
def obtener_dominio(correo):
    try:
        partes = correo.split('@')
        if partes[1] == '' or len(partes)>2:
            raise ValueError("La variable ingresada no tiene el formato correcto, por lo tanto no se puede extraer el dominio")
        return partes[1]
    except Exception as e:
        raise ValueError("La variable ingresada no tiene el formato correcto, por lo tanto no se puede extraer el dominio")

def test_obtener_dominio():
    # Caso de prueba 1
    assert obtener_dominio("usuario@dominio.com") == "dominio.com", "Error en el caso de prueba 1"

    # Caso de prueba 2
    assert obtener_dominio("usuario@sub.dominio.com") == "sub.dominio.com", "Error en el caso de prueba 2"

    # Caso de prueba 3
    try:
        obtener_dominio("usuario@")
    except ValueError as e:
        assert str(e) == "La variable ingresada no tiene el formato correcto, por lo tanto no se puede extraer el dominio", "Error en el caso de prueba 3"
    else:
        assert False, "Error en el caso de prueba 3: no se lanzó ValueError"

    # Caso de prueba 4
    try:
        obtener_dominio("usuariodominio.com")
    except ValueError as e:
        assert str(e) == "La variable ingresada no tiene el formato correcto, por lo tanto no se puede extraer el dominio", "Error en el caso de prueba 4"
    else:
        assert False, "Error en el caso de prueba 4: no se lanzó ValueError"

    # Caso de prueba 5
    try:
        obtener_dominio("usuario@dominio@otro.com")
    except ValueError as e:
        assert str(e) == "La variable ingresada no tiene el formato correcto, por lo tanto no se puede extraer el dominio", "Error en el caso de prueba 4"
    else:
        assert False, "Error en el caso de prueba 5: no se lanzó ValueError"

# Ejecutar las pruebas
test_obtener_dominio()


In [8]:
# Pregunta 2
def identificar_nivel_ventas(venta, categoria):
  incremento = 50
  if categoria == 1 or categoria == 0:
    incremento = incremento * categoria # para que los limites sean 50 toneladas mas altos si es pasta (50*1=50), sino son los mismos limites (50 * 0 = 0)
  else:
    raise ValueError("La variable categoria solo puede contener valores de 0 y 1")

  if venta <=60+incremento:
    return "Baja"
  elif venta >=(61+incremento) and venta <=(80+incremento):
    return "Media"
  else:
    return "Alta"

def test_identificar_nivel_ventas():
    # Caso de prueba 1 - No pasta
    assert identificar_nivel_ventas(40, 0) == "Baja", "Error en el caso de prueba 1 - Cat 0"

    # Caso de prueba 1 - Pasta
    assert identificar_nivel_ventas(40, 1) == "Baja", "Error en el caso de prueba 1 - Cat 1"

    # Caso de prueba 2 - no pasta
    assert identificar_nivel_ventas(75, 0) == "Media", "Error en el caso de prueba 2 - Cat 0"

    # Caso de prueba 2 - pasta
    assert identificar_nivel_ventas(120, 1) == "Media", "Error en el caso de prueba 2 - Cat 1"

    # Caso de prueba 3 -  no pasta
    assert identificar_nivel_ventas(81, 0) == "Alta", "Error en el caso de prueba 3 - Cat 0"

    # Caso de prueba 3 - pasta
    assert identificar_nivel_ventas(150, 1) == "Alta", "Error en el caso de prueba 3 - Cat 0"

    # Caso de prueba 4
    try:
        identificar_nivel_ventas(50, 2)
    except ValueError as e:
        assert str(e) == "La variable categoria solo puede contener valores de 0 y 1", "Error en el caso de prueba 4"
    else:
        assert False, "Error en el caso de prueba 4: no se lanzó ValueError"

test_identificar_nivel_ventas()
