# Determinación de la Inferencia y Regresión lineal - Modelo load.wine()
Se cargan las librerías respectivas en Python antes de inicializar los procedimientos (librerías **Scikit-learn y NumPy**) y el dataset respectivo.

In [9]:
import numpy as np
from scipy import stats
from sklearn.datasets import load_wine

vino = load_wine()
alcohol = vino.data[:,0]

Como datos a utilizar, se selecciona la muestra y se establece **una semilla para reproducibilidad** (utilizando la librería NumPy)

In [10]:
np.random.seed(42)
sample = np.random.choice(alcohol, size=100)

Se define la media hipotética (H0) y el nivel de significancia definido (error del 10%)

In [11]:
mu_hipotetica = 11  # Media hipotética bajo H0
nivel_significancia = 0.1  # 10% de error

Se realiza la prueba de la muestra, y **se compara el valor p con el porcentaje de error** para determinar si se rechaza o no la hipótesis nula. Debido a que es una prueba de dos colas, el nivel de significancia (error) **se divide entre dos** para realizar la comparativa.

In [12]:
t_statistic, p_value = stats.ttest_1samp(sample, mu_hipotetica)
if p_value < nivel_significancia / 2: 
    print("Se rechaza la hipótesis nula, al ser p menor al valor del error.")
else:
    print("No existe suficiente evidencia para rechazar la hipótesis nula.")

Se rechaza la hipótesis nula, al ser p menor al valor del error.


Debido a que el valor de P es menor que el valor del error, **se rechaza la hipótesis** de media de alcohol es de 11.

Ahora, para utilizar el valor de desviación típica proporcionado de 8, se puede obtener el intervalo de confianza donde la mayoría de los valores de nuestra muestra se encontrarán, eso se usará utilizando el valor de error (nivel de signficancia), los grados de libertad, y el **uso de la función t.interval de Scikit-learn**.

In [14]:
desviacion_tipica_conocida = 8
grados_libertad = len(sample) - 1
conf_int = stats.t.interval(1 - nivel_significancia, grados_libertad, loc=np.mean(sample),
                            scale=desviacion_tipica_conocida / np.sqrt(len(sample)))

print(f'Intervalo de confianza del {100*(1-nivel_significancia)}%: {conf_int}')

Intervalo de confianza del 90.0%: (11.679587075202885, 14.33621292479711)


Con este resultado, se puede deducir que para mejorar la hipótesis, se puede **definir un intervalo de valores** entre 11.67 y 14.33 grados de alcohol que puede tener el vino.