# 1. Media de alcohol de todos los vinos registrados en el dataset
Se cargan las librerías respectivas en Python antes de inicializar los procedimientos (librería **Scikit-learn**)

In [1]:
from sklearn.datasets import load_wine
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold

Cargamos el dataset en la variable "vino" y separamos la columna del dataset **respectiva al alcohol** para trabajar con ella (variable "alcohol")

In [2]:
vino = load_wine()
alcohol = vino.data[:, 0]

Se realiza el cálculo de la media utilizando la **función "mean"** integrada en Python. Como alternativa también **se puede usar NumPy** si se desea. Se imprime el resultado arrojado.

In [3]:
media_alcohol = alcohol.mean()
print(f"La media de alcohol es de {media_alcohol:.2f}%")

La media de alcohol es de 13.00%


# 2. Entrenamiento del modelo con base a una Regresión Lineal
*Se omitirán los pasos respectivos a la carga de librerías, funciones y datasets ya que fueron realizados anteriormente.*

Se realiza la separación de las variables respectivas **dependiente e independiente ("x" y "y")**

In [6]:
x = vino.data
y = vino.target

Se dividen los datos en un conjunto de entrenamiento y un conjunto de prueba por cada variable. Se establece un tamaño de la muestra de 0.25.

In [7]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

Se realiza el entrenamiento de todo el modelo con el conjunto de entrenamiento respectivo

In [9]:
modelo = LinearRegression().fit(x_train, y_train)

# 3. Métrica de éxito (score) del entrenamiento
Se genera un puntaje del **éxito del modelo generado**, utilizando el modelo previamente generado, y utilizando la función "score". Se imprime el resultado del éxito del modelo generado.

In [10]:
exito = modelo.score(x_test, y_test)

print(f"El éxito del modelo en el conjunto de prueba es del {exito:.0%}")

El éxito del modelo en el conjunto de prueba es del 83%


El valor arrojado para el modelo (82%) es aceptable sin embargo puede tener **áreas de oportunidad**, por lo que se puede intentar mejorar el éxito del modelo ajustando los parámetros del modelo. Por ejemplo, **podemos cambiar el valor de alpha**, que controla la fuerza de regularización del modelo. El valor predeterminado de alpha es **0.0001**. Podemos probar valores más altos o más bajos de alpha para ver si podemos mejorar el puntaje del modelo.

También se puede intentar agregar **más variables independientes** al modelo. Por ejemplo, podemos agregar las variables "color", "acidez fija" y "pH" al modelo.

# 4. Validación con el método de K-fold Cross-Validation
Para la validación cruzada (K-fold Cross-Validation), se definirá un número de iteraciones (folds) como validación del set disponible. Se coloca n_folds = 5 como el número de folds a realizar.

In [11]:
n_folds = 5

Se crea el **objeto KFold** que realizará la función del cruzamiento de validaciones dentro de la librería Scikit-learn, función KFold

In [12]:
kfold = KFold(n_splits=n_folds, shuffle=True, random_state=42)

# 5. Métrica de éxito (cross_val_score) tras la validación del modelo.
Se realiza la iteración en cada fold (n_folds) a través de un ciclo "for", para visualizar **la mejora del éxito del modelo** conforme se incrementa el número de folds (n_folds). Se agregan media y desviación estándar para determinar el parámetro del modelo.

In [14]:
results = cross_val_score(modelo, x, y, cv=kfold)

for i, result in enumerate(results):
    print(f"Iteración {i+1}: {result:.0%}")

print(f"Media: {results.mean()}")
print(f"Desviación Estándar: {results.std()}")

Iteración 1: 88%
Iteración 2: 89%
Iteración 3: 86%
Iteración 4: 90%
Iteración 5: 85%
Media: 0.8767328127813474
Desviación Estándar: 0.0179436934346585
