<a href="https://colab.research.google.com/github/RochaCesar26/Algoritmos-de-regresi-n-Ejemplos---API-Sklearn/blob/main/Algoritmos_de_regresi%C3%B3n_(Ejemplos)_API_Sklearn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Gradient Boosting Regression.

## Ejemplo 1
Empecemos con un ejemplo simple, en el siguiente código se espera obtener el error cuadrático medio entre las predicciones y los valores reales en el conjunto de prueba.

In [None]:
# Importar las bibliotecas necesarias
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error
import numpy as np

# Generar datos de ejemplo
X, y = make_regression(n_samples=1000, n_features=10, noise=0.1, random_state=42)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar el modelo de Gradient Boosting Regressor
gb_regressor = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)

# Entrenar el modelo
gb_regressor.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred = gb_regressor.predict(X_test)

# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)



Mean Squared Error: 1234.752982660588


## Ejemplo 2
En el siguiente ejemplo, se utilizará el conjunto de datos de diabetes de Scikit-learn, que es otro conjunto de datos comúnmente utilizado en ejemplos, al igual que añade el uso de matplotlib.pyplot, que se utilizara para mostrar de manera grafica los resultados.

In [None]:
# Importar las librerías necesarias
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos de diabetes
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target
# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Inicializar el modelo de Gradient Boosting Regression
model = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)

# Entrenar el modelo
model.fit(X_train, y_train)
# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio:", mse)
# Graficar las predicciones vs. los valores reales
plt.scatter(y_test, y_pred)
plt.xlabel("Valores reales")
plt.ylabel("Predicciones")
plt.title("Predicciones vs. Valores Reales")
plt.show()


## Ejemplo 3
Continuemos con un tercer ejemplo con un poco más de complejidad.

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos de viviendas de California
california_housing = fetch_california_housing()
X, y= california_housing.data, california_housing.target

# Convertir los datos a un DataFrame de pandas
df = pd.DataFrame(data= np.c_[california_housing['data'], california_housing['target']],
                     columns= california_housing['feature_names'] + ['target'])

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar y ajustar el modelo Gradient Boosting Regression
gb_regressor = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
gb_regressor.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = gb_regressor.predict(X_test)

# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
print("Error Cuadrático Medio:", mse)

El código anterior utiliza el conjunto de datos de precios de viviendas de California. Este conjunto de datos contiene características sobre el precio medio de las viviendas en varios distritos de California. Utilizaremos Gradient Boosting Regression para predecir el precio medio de la vivienda basándonos en estas características.

## Ejemplo 4
El siguiente ejemplo será un poco más complejo, ya que se utiliza una validación cruzada para ajustar los hiperparámetros(más favorables) del modelo de Gradient Boosting Regression en un conjunto de datos.

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos de diabetes
diabetes = load_diabetes()
X = diabetes.data
y = diabetes.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir los hiperparámetros a ajustar
param_grid = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7]
}

# Crear el modelo de regresión de aumento de gradiente
gb_regressor = GradientBoostingRegressor(random_state=42)

# Realizar la búsqueda de hiperparámetros utilizando validación cruzada
grid_search = GridSearchCV(gb_regressor, param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search.fit(X_train, y_train)

# Obtener los mejores hiperparámetros
best_params = grid_search.best_params_
print("Mejores hiperparámetros:", best_params)

# Obtener el mejor modelo
best_gb_regressor = grid_search.best_estimator_

# Predecir en el conjunto de prueba utilizando el mejor modelo
y_pred = best_gb_regressor.predict(X_test)

# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio:", mse)

# Elastic Net Regression

## Ejemplo 1
En este ejemplo vemos una introducción simple al uso del modelo de regresión Elastic Net.

In [None]:
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import ElasticNet
from sklearn.metrics import mean_squared_error

# Generar datos de ejemplo
X, y = make_regression(n_samples=100, n_features=10, noise=0.1, random_state=42)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo Elastic Net
elastic_net = ElasticNet(alpha=0.1, l1_ratio=0.5, random_state=42)

# Entrenar el modelo
elastic_net.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = elastic_net.predict(X_test)

# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio:", mse)

## Ejemplo 2
En este caso, utilizaremos el conjunto de datos de diabetes de scikit-learn al igual que matplotlib.pyplot para imprimir de manera grafica los datos.

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import ElasticNet
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos de diabetes
diabetes = datasets.load_diabetes()
X = diabetes.data
y = diabetes.target

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo de Elastic Net Regression
elastic_net = ElasticNet(alpha=0.1, l1_ratio=0.5, random_state=42)

# Entrenar el modelo
elastic_net.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred = elastic_net.predict(X_test)

# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
print("Error Cuadrático Medio:", mse)

# Visualizar los coeficientes del modelo
plt.figure(figsize=(10, 5))
plt.plot(elastic_net.coef_, color='skyblue', linewidth=2, marker='o', markersize=7)
plt.title("Coeficientes del modelo Elastic Net")
plt.xlabel("Índice del coeficiente")
plt.ylabel("Valor del coeficiente")
plt.grid(True)
plt.show()

## Ejemplo 3


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import ElasticNet
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos de precios de viviendas en California
california_housing = fetch_california_housing()
# Convertir el conjunto de datos a un DataFrame de pandas
df = pd.DataFrame(california_housing.data, columns=california_housing.feature_names)
df['target'] = california_housing.target
# Dividir los datos en características (X) y etiquetas (y)
X = df.drop('target', axis=1)
y = df['target']
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalizar las características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
# Crear y entrenar el modelo Elastic Net Regression
elastic_net = ElasticNet(alpha=0.1, l1_ratio=0.5, random_state=42)
elastic_net.fit(X_train_scaled, y_train)
# Hacer predicciones en el conjunto de prueba
y_pred = elastic_net.predict(X_test_scaled)

# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
print("Error Cuadrático Medio:", mse)
# Visualizar los coeficientes del modelo
plt.figure(figsize=(10, 5))
plt.plot(elastic_net.coef_, color='skyblue', linewidth=2, marker='o', markersize=7)
plt.title("Coeficientes del modelo Elastic Net")
plt.xlabel("Índice del coeficiente")
plt.ylabel("Valor del coeficiente")
plt.grid(True)
plt.show()

## Ejemplo 4
Veamos un último ejemplo utilizando un conjunto de datos local.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import ElasticNet
from sklearn.metrics import mean_squared_error

# Cargar los datos de precios de viviendas en Melbourne
df = pd.read_csv('DatosMelbourne.csv')

# Eliminar filas con valores faltantes en la variable objetivo
df = df.dropna(subset=['Price'])
# Seleccionar características y variable objetivo
X = df[['Rooms', 'Distance', 'Bathroom', 'Car', 'Landsize', 'BuildingArea', 'YearBuilt']]
y = df['Price']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Normalizar las características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
# Crear y entrenar el modelo de Elastic Net Regression
elastic_net = ElasticNet(alpha=0.1, l1_ratio=0.5, random_state=42)
elastic_net.fit(X_train_scaled, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred = elastic_net.predict(X_test_scaled)
# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
print("Error Cuadrático Medio:", mse)
# Visualizar los coeficientes del modelo
plt.figure(figsize=(10, 5))
plt.plot(elastic_net.coef_, color='skyblue', linewidth=2, marker='o', markersize=7)
plt.title("Coeficientes del modelo Elastic Net")
plt.xlabel("Índice del coeficiente")
plt.ylabel("Valor del coeficiente")
plt.grid(True)
plt.show()

# Stochastic Gradient Descent Regression.

## Ejemplo 1

In [None]:
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import SGDRegressor
from sklearn.metrics import mean_squared_error

# Generar datos de ejemplo
X, y = make_regression(n_samples=1000, n_features=1, noise=20, random_state=42)

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo de regresión SGD
sgd_regressor = SGDRegressor(max_iter=1000, tol=1e-3, random_state=42)
sgd_regressor.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = sgd_regressor.predict(X_test)

# Calcular el error (RMSE en este caso)
rmse = mean_squared_error(y_test, y_pred, squared=False)
print("Root Mean Squared Error:", rmse)


## Ejemplo 2


En este ejemplo utilizaremos el conjunto de datos de diabetes de Scikit-learn, que contiene información sobre la progresión de la diabetes en 442 pacientes, así como 10 variables predictoras que pueden ser utilizadas para predecir la progresión de la enfermedad.
Este ejemplo es similar al anterior, con el único cambio notorios es que cargamos un conjunto de datos en lugar de generarlos.

In [None]:
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDRegressor
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos de diabetes
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Crear y entrenar el modelo de regresión SGD
sgd_regressor = SGDRegressor(max_iter=1000, tol=1e-3, random_state=42)
sgd_regressor.fit(X_train_scaled, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = sgd_regressor.predict(X_test_scaled)

# Calcular el error (RMSE en este caso)
rmse = mean_squared_error(y_test, y_pred, squared=False)
print("Root Mean Squared Error:", rmse)

Root Mean Squared Error: 53.70027976126501


## Ejemplo 3

En este ejemplo, subiremos un poco la complejidad, aquí generamos datos de manera aleatoria y luego ajustaremos un modelo de regresión utilizando SGD. Una vez importadas las librerías empezamos a explicar paso a paso.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import SGDRegressor
from sklearn.metrics import mean_squared_error

# Generar datos de ejemplo
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test = X[:80], X[80:]
y_train, y_test = y[:80], y[80:]

# Crear y entrenar el modelo de regresión SGD
sgd_regressor = SGDRegressor(max_iter=1000, tol=1e-3, random_state=42)
sgd_regressor.fit(X_train, y_train)
# Realizar predicciones en el conjunto de prueba
y_pred = sgd_regressor.predict(X_test)
# Calcular el error (RMSE en este caso)
rmse = mean_squared_error(y_test, y_pred, squared=False)
print("Root Mean Squared Error:", rmse)

# Graficar los datos y las predicciones del modelo
plt.figure(figsize=(10, 6))
plt.scatter(X_test, y_test, color='blue', label='Datos reales')
plt.plot(X_test, y_pred, color='red', label='Predicciones')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Predicciones del modelo de regresión SGD')
plt.legend()
plt.show()

## Ejemplo 4

Este ejemplo es similar al anterior, pero ahora utilizaremos un archivo local para realizar la regresión, y de recordatorio, asegúrense tener el archivo guardado en el mismo directorio de donde se ejecute el código.

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import SGDRegressor
from sklearn.metrics import mean_squared_error

# Cargar datos desde un archivo CSV
data = pd.read_csv('diamonds.csv')

# Dividir los datos en características (X) y variable objetivo (y)
X = data.iloc[:, :-1].values  # Todas las columnas excepto la última
y = data.iloc[:, -1].values   # Última columna

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo de regresión SGD
sgd_regressor = SGDRegressor(max_iter=1000, tol=1e-3, random_state=42)
sgd_regressor.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = sgd_regressor.predict(X_test)

# Calcular el error (RMSE en este caso)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print("Root Mean Squared Error:", rmse)

# Support Vector Machine

## Ejemplo 1

En este ejemplo utilizaremos el conjunto de datos Iris, es un conjunto de datos muy conocido y disponible en scikit-learn. Lo que hace el código es cargar los datos, dividirlos en conjuntos de entrenamiento y prueba, escalar las características para normalizarlas, inicializar el clasificador SVM con un kernel lineal, entrenar los datos de entrenamiento y luego predice las clases para el conjunto de prueba. Finalmente, calcula la precisión del modelo utilizando las etiquetas verdaderas y las etiquetas predichas. Recorrámoslo a detalle:

In [None]:
# Importar las bibliotecas necesarias
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# Cargar el conjunto de datos Iris (ejemplo de conjunto de datos)
iris = datasets.load_iris()
X = iris.data
y = iris.target

# Dividir el conjunto de datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Escalar las características para normalizarlas
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

# Inicializar el clasificador SVM
classifier = SVC(kernel='linear', random_state=42)

# Entrenar el clasificador SVM
classifier.fit(X_train, y_train)

# Predecir las clases para el conjunto de prueba
y_pred = classifier.predict(X_test)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo SVM:", accuracy)

## Ejemplo 2
Veamos otro ejemplo básico de cómo implementar un Support Vector Machine (SVM) en Python utilizando scikit-learn. En este ejemplo, vamos a utilizar el conjunto de datos Breast Cancer Wisconsin.



In [None]:
# Importar las bibliotecas necesarias
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# Cargar el conjunto de datos Breast Cancer Wisconsin
data = load_breast_cancer()
X = data.data
y = data.target
# Dividir el conjunto de datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# Escalar las características para normalizarlas
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

# Inicializar el clasificador SVM con un kernel lineal
classifier = SVC(kernel='linear', random_state=42)
# Entrenar el clasificador SVM
classifier.fit(X_train, y_train)
# Predecir las clases para el conjunto de prueba
y_pred = classifier.predict(X_test)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo SVM:", accuracy)

## Ejemplo 3


En este ejemplo se busca mostrar la precisión del modelo SVM y un informe detallado de la clasificación en el conjunto de prueba. Además, se visualiza las fronteras de decisión del clasificador SVM en un gráfico bidimensional, lo que permite una comprensión visual de cómo el modelo divide el espacio de características para la clasificación.

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report

# Paso 1: Generar datos de clasificación binaria
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)
# Paso 2: Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Paso 3: Escalar las características para normalizarlas
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
# Paso 4: Inicializar y entrenar el clasificador SVM
classifier = SVC(kernel='linear')
classifier.fit(X_train, y_train)

# Paso 5: Predecir las clases para el conjunto de prueba
y_pred = classifier.predict(X_test)
# Paso 6: Evaluar el rendimiento del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo SVM:", accuracy)

# Informe detallado de la clasificación
print("Informe de clasificación:")
print(classification_report(y_test, y_pred))

#Visualizar las fronteras de decisión (solo para dos características)
def plot_decision_boundary(X, y, classifier):
    plt.figure(figsize=(8, 6))
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.coolwarm, s=20, edgecolors='k')
    ax = plt.gca()
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()

    xx, yy = np.meshgrid(np.linspace(xlim[0], xlim[1], 50),
                         np.linspace(ylim[0], ylim[1], 50))
    Z = classifier.decision_function(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    plt.contour(xx, yy, Z, colors='k', levels=[-1, 0, 1], alpha=0.5,
                linestyles=['--', '-', '--'])
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.title('Decision Boundary of SVM Classifier')
    plt.show()

# Visualizar las fronteras de decisión (solo para dos características)
X_train_subset = X_train[:, :2]
classifier.fit(X_train_subset, y_train)
plot_decision_boundary(X_train_subset, y_train, classifier)

## Ejemplo 4

En el siguiente ejemplo es un poco más complejo, ya que involucra un conjunto de datos real y la optimización de parámetros utilizando búsqueda de hiperparámetros:

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report

# Paso 1: Cargar el conjunto de datos de cáncer de mama
cancer = load_breast_cancer()
X = cancer.data
y = cancer.target
# Paso 2: Dividir el conjunto de datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Paso 3: Escalar las características para normalizarlas
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
# Paso 4: Inicializar el clasificador SVM
svm = SVC()

# Paso 5: Definir los parámetros a optimizar y realizar la búsqueda de hiperparámetros
param_grid = {'C': [0.1, 1, 10, 100],
              'gamma': [1, 0.1, 0.01, 0.001],
              'kernel': ['rbf', 'linear', 'poly']}
grid_search = GridSearchCV(svm, param_grid, cv=5)
grid_search.fit(X_train_scaled, y_train)
# Mejores parámetros encontrados
best_params = grid_search.best_params_
print("Mejores parámetros encontrados:", best_params)

# Paso 6: Entrenar el clasificador SVM con los mejores parámetros encontrados
best_svm = SVC(**best_params)
best_svm.fit(X_train_scaled, y_train)
# Paso 7: Predecir las clases para el conjunto de prueba
y_pred = best_svm.predict(X_test_scaled)

# Paso 8: Evaluar el rendimiento del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo SVM:", accuracy)
# Informe detallado de la clasificación
print("Informe de clasificación:")
print(classification_report(y_test, y_pred))


# Bayesian Ridge Regression.

## Ejemplo 1

In [None]:
from sklearn.linear_model import BayesianRidge

# Datos de entrada y salida
X = [[0], [1], [2], [3], [4]]
y = [0, 1, 2, 3, 4]

# Crear el modelo
model = BayesianRidge()
# Entrenar el modelo
model.fit(X, y)

# Hacer predicciones
predictions = model.predict([[5]])
print("Predicción para x = 5:", predictions[0])

## Ejemplo 2
En este ejemplo vamos a utilizar el conjunto de datos de diabetes de la biblioteca Scikit-learn.



In [None]:
import numpy as np
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import BayesianRidge
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos de diabetes
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target
# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalizar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Crear y entrenar el modelo de regresión de la bahía de la cresta
model = BayesianRidge()
model.fit(X_train_scaled, y_train)
# Realizar predicciones en el conjunto de prueba
predictions = model.predict(X_test_scaled)

# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, predictions)
print("Error cuadrático medio:", mse)


## Ejemplo 3
En este ejemplo incluye una visualización de los datos y las predicciones realizadas por el modelo de regresión de la bahía de la cresta:

In [None]:
#Importamos las bibliotcas
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import BayesianRidge

# Generamos datos de ejemplo
np.random.seed(42)
X = np.random.rand(100, 1) * 10
true_slope = 2
true_intercept = 3
y = true_slope * X.squeeze() + true_intercept + np.random.randn(100) * 2  # Relación lineal con ruido

# Creamos el modelo de regresión de la bahía de la cresta
model = BayesianRidge()
# Entrenamos el modelo
model.fit(X, y)

# Hacemos predicciones para visualizar la línea de regresión
X_range = np.linspace(0, 10, 100).reshape(-1, 1)
y_pred, y_std = model.predict(X_range, return_std=True)

# Visualizamos los datos y la línea de regresión
plt.figure(figsize=(10, 6))
plt.scatter(X, y, color='blue', label='Datos de entrenamiento')
plt.plot(X_range, y_pred, color='red', label='Predicción')
plt.fill_between(X_range.squeeze(), y_pred - y_std, y_pred + y_std, color='orange', alpha=0.3, label='Incertidumbre')
plt.title('Regresión de la Bahía de la Cresta')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.grid(True)
plt.show()

## Ejemplo 4

En el siguiente ejemplo, generaremos datos sintéticos con una relación lineal y un poco de ruido gaussiano. Luego, dividimos los datos en conjuntos de entrenamiento y prueba, ajustaremos el modelo de regresión bayesiana a los datos de entrenamiento y evalúa su rendimiento en el conjunto de prueba utilizando el error cuadrático medio (MSE) y el coeficiente de determinación (R^2). Finalmente, traza un gráfico que muestra las predicciones del modelo versus los valores reales en el conjunto de prueba.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import BayesianRidge
from sklearn.metrics import mean_squared_error, r2_score

# Paso 2: Generar datos sintéticos
np.random.seed(42)
X = np.linspace(0, 10, 100)
y = 2 * X + np.random.normal(0, 1, 100)  # Relación lineal con ruido gaussiano

# Paso 3: Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Paso 4: Crear y ajustar el modelo de regresión bayesiana
bayesian_regressor = BayesianRidge()
bayesian_regressor.fit(X_train.reshape(-1, 1), y_train)

# Paso 5: Evaluar el rendimiento del modelo
y_pred = bayesian_regressor.predict(X_test.reshape(-1, 1))
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print("Mean Squared Error:", mse)
print("R^2 Score:", r2)

# Paso 6: Visualizar los resultados
plt.scatter(X_test, y_test, color='black', label='Datos reales')
plt.plot(X_test, y_pred, color='blue', linewidth=3, label='Predicciones')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Bayesian Ridge Regression')
plt.legend()
plt.show()

# CatBoost Regressor

## Ejemplo 1


En este primer ejemplo utilizando CatBoost Regressor, servirá para predecir los precios de las casas basándonos en características como el tamaño y el número de habitaciones.

In [None]:
# Instalación
!pip install catboost

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
from catboost import CatBoostRegressor

# Datos de ejemplo: tamaño de la casa y número de habitaciones
X = np.array([[1000, 2], [1500, 3], [2000, 4], [2500, 5]])
# Precios correspondientes de las casas
y = np.array([50000, 75000, 100000, 125000])

# Crear el modelo de CatBoost Regressor
model = CatBoostRegressor(iterations=50, learning_rate=0.1, depth=3)
# Entrenar el modelo
model.fit(X, y)

# Datos de una nueva casa para predecir su precio
new_house = np.array([[1800, 3]])
# Predecir el precio de la nueva casa
predicted_price = model.predict(new_house)
# Imprimir el precio predicho
print("El precio predicho de la nueva casa es:", predicted_price)

## Ejemplo 2

Vemos otro ejemplo similar, pero en esta ocasión predeciremos el precio de las acciones de una empresa basándonos en algunas características financieras.

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
from catboost import CatBoostRegressor

# Datos de ejemplo: características financieras y precios de las acciones
X = np.array([[100, 10], [150, 12], [200, 15], [250, 18]])  # Características financieras (por ejemplo, ingresos, gastos)
y = np.array([50, 55, 60, 65])  # Precios correspondientes de las acciones

# Crear el modelo de CatBoost Regressor
model = CatBoostRegressor(iterations=30, learning_rate=0.1, depth=3)

# Entrenar el modelo
model.fit(X, y)

# Datos de una nueva empresa para predecir el precio de sus acciones
new_company = np.array([[180, 13]])  # Nuevas características financieras

# Predecir el precio de las acciones de la nueva empresa
predicted_price = model.predict(new_company)

# Imprimir el precio predicho
print("El precio predicho de las acciones de la nueva empresa es:", predicted_price)

Este ejemplo es básicamente similar al anterior, con diferencia en las características, en este caso las características de ejemplo es ingresos y gastos.
X contiene las características financieras de varias empresas(ingresos y los gastos), e Y contiene los precios correspondientes de las acciones. Continuamos con la creación del modelo para después utilizar los datos para el entrenamiento del modelo. Y al final imprimir las interaciones y el precio predicho final.


## Ejemplo 3

Continuemos con un ejemplo más elaborado donde utilizaremos CatBoost Regressor para predecir el precio de diamantes utilizando un conjunto de datos realista.

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from catboost import CatBoostRegressor
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos de precios de diamantes
data = pd.read_csv(r"c:\Users\CesarIvan\OneDrive\Escritorio\diamonds.csv")

# Dividir los datos en características (X) y precios (y)
X = data.drop("price", axis=1)
y = data["price"]

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Crear el modelo de CatBoost Regressor
model = CatBoostRegressor(iterations=500, learning_rate=0.1, depth=6, verbose=100)
# Entrenar el modelo
model.fit(X_train, y_train, eval_set=(X_test, y_test), early_stopping_rounds=50)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)
# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio en el conjunto de prueba:", mse)

## Ejemplo 4

En el siguiente ejemplo usaremos el mismo dataframe, pero en este ejemplo añadiremos más funciones de CatBoostRegressor y realizara una validación cruzada para evaluar el rendimiento del modelo.

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
import pandas as pd
from catboost import CatBoostRegressor
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos
data = pd.read_csv(r"c:\Users\CesarIvan\OneDrive\Escritorio\diamonds.csv")
# Dividir los datos en características (X) y precios (y)
X = data.drop("price", axis=1)
y = data["price"]

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Crear el modelo de CatBoost Regressor
model = CatBoostRegressor(iterations=500, learning_rate=0.1, depth=6, verbose=100)

# Realizar validación cruzada para evaluar el rendimiento del modelo
cv_scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error')

# Entrenar el modelo en el conjunto de entrenamiento
model.fit(X_train, y_train, eval_set=(X_test, y_test), early_stopping_rounds=50)
# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)
# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio en el conjunto de prueba:", mse)

# Imprimir los resultados de la validación cruzada
print("Resultados de la validación cruzada:")
for i, score in enumerate(cv_scores):
    print(f"Fold {i+1}: {-score}")
print(f"Promedio: {-np.mean(cv_scores)}")


#Kernel Ridge Regression (KRR)

Continuemos con los ejemplos.

## Ejemplo 1

Como primer ejemplo veamos cómo se implementa KRR en Python.

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
import matplotlib.pyplot as plt
from sklearn.kernel_ridge import KernelRidge

# Generar datos de ejemplo
np.random.seed(0)
X = 5 * np.random.rand(100, 1)  # Características (en este caso, solo una característica)
y = np.sin(X).ravel() + np.random.normal(0, 0.1, 100)  # Variable objetivo (respuesta)

# Instanciar el modelo Kernel Ridge Regression
model = KernelRidge(kernel='rbf', gamma=0.1)
# Ajustar el modelo a los datos de entrenamiento
model.fit(X, y)

# Generar datos de prueba para la visualización
X_test = np.linspace(0, 5, 100)[:, np.newaxis]
# Realizar predicciones usando el modelo entrenado
y_pred = model.predict(X_test)

# Graficar los resultados
plt.scatter(X, y, color='blue', label='Datos de entrenamiento')
plt.plot(X_test, y_pred, color='red', linewidth=2, label='Predicción')
plt.xlabel('Característica')
plt.ylabel('Variable Objetivo')
plt.title('Predicción utilizando Kernel Ridge Regression')
plt.legend()
plt.show()

## Ejemplo 2

Para el siguiente código creamos un modelo de KRR utilizando un kernel polinomial de grado 2 y lo ajusta a los datos de entrenamiento (para este ejemplo usaremos de ejemplos kilometraje y precios de venta de coches usados). Luego, realiza predicciones para diferentes valores de kilometraje y visualiza los resultados. Para recordar que en una aplicación real, se podrían usar más características y ajustar los hiperparámetros del modelo para obtener resultados más precisos.



In [None]:
# Importar las bibliotecas necesarias
import numpy as np
from sklearn.kernel_ridge import KernelRidge
import matplotlib.pyplot as plt

# Datos de ejemplo: características y precios de algunos coches usados
# Aquí, usaremos solo una característica (kilometraje) para simplificar
X = np.array([[5000], [10000], [15000], [20000], [25000]])
y = np.array([15000, 12000, 10000, 8000, 6000])

# Instanciar el modelo Kernel Ridge Regression
# Aquí, usaremos un kernel polinomial de grado 2 para mostrar un ejemplo simple
model = KernelRidge(kernel='polynomial', degree=2)
# Ajustar el modelo a los datos de entrenamiento
model.fit(X, y)

# Generar datos de prueba para la visualización
X_test = np.linspace(0, 30000, 100)[:, np.newaxis]
# Realizar predicciones usando el modelo entrenado
y_pred = model.predict(X_test)

# Graficar los resultados
plt.scatter(X, y, color='blue', label='Datos de entrenamiento')
plt.plot(X_test, y_pred, color='red', linewidth=2, label='Predicción')
plt.xlabel('Kilometraje')
plt.ylabel('Precio de venta')
plt.title('Predicción de precio de venta de coches usados')
plt.legend()
plt.show()

## Ejemplo 3


Para el siguiente ejemplo subamos un poco la complejidad.
Lo que haremos en este código es generar datos de ejemplo que representan características de productos (tamaño y peso) y sus precios correspondientes. Luego, con el modelo de Kernel Ridge Regression con un kernel polinomial de grado 3 y un coeficiente de regularización de 0.1. Ajusta el modelo a los datos de entrenamiento y realizamos predicciones sobre nuevos productos. Finalmente, graficamos los datos de entrenamiento y las predicciones del modelo para visualizar cómo se ajusta a los datos.

In [None]:
import numpy as np
from sklearn.kernel_ridge import KernelRidge
import matplotlib.pyplot as plt

# Generar datos de ejemplo: características y precios de algunos productos
# En este ejemplo, consideraremos dos características: tamaño y peso
X = np.array([[2, 3], [3, 4], [4, 5], [5, 6], [6, 7]])
y = np.array([20, 25, 30, 35, 40])

# Instanciar el modelo Kernel Ridge Regression con kernel polinomial
model = KernelRidge(kernel='polynomial', degree=3, alpha=0.1)
# Ajustar el modelo a los datos de entrenamiento
model.fit(X, y)

# Generar datos de prueba para la visualización
X_test = np.array([[3.5, 4.5], [4.5, 5.5], [5.5, 6.5]])  # Ejemplos de nuevos productos
# Realizar predicciones usando el modelo entrenado
y_pred = model.predict(X_test)

# Imprimir las predicciones
print("Predicciones para nuevos productos:")
for i in range(len(X_test)):
    print("Características:", X_test[i], " Predicción de precio:", y_pred[i])

# Graficar los resultados
plt.scatter(X[:, 0], y, color='blue', label='Datos de entrenamiento')
plt.plot(X_test[:, 0], y_pred, color='red', marker='o', linestyle='-', label='Predicción')
plt.xlabel('Tamaño')
plt.ylabel('Precio')
plt.title('Predicción de precios de productos utilizando Kernel Ridge Regression')
plt.legend()
plt.show()

## Ejemplo 4

Veamos un ejemplo más complejo de cómo utilizar Kernel Ridge Regression en un problema más desafiante. Supongamos que trabajamos en un proyecto de análisis financiero y se busca predecir los precios de las acciones de una empresa basándonos en múltiples factores económicos y de mercado. Utilizaremos datos históricos para entrenar nuestro modelo y luego intentaremos predecir los precios futuros de las acciones.

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
import pandas as pd
from sklearn.kernel_ridge import KernelRidge
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

# Cargar los datos históricos de precios de las acciones
# Supongamos que tenemos datos de múltiples características como volumen, precio de cierre, etc.
data = pd.read_csv(r"c:\Users\CesarIvan\OneDrive\Escritorio\HistoricalData.csv")
# Seleccionar características y variable objetivo
X = data[['Volume','Open', 'High', 'Low']].values
y = data['Close/Last'].values

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Instanciar el modelo Kernel Ridge Regression con kernel RBF
model = KernelRidge(kernel='rbf', alpha=0.1, gamma=0.1)

# Ajustar el modelo a los datos de entrenamiento
model.fit(X_train_scaled, y_train)
# Realizar predicciones sobre los datos de prueba
y_pred = model.predict(X_test_scaled)
# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio (MSE):", mse)

# Visualizar las predicciones
plt.figure(figsize=(10, 6))
plt.plot(y_test, label='Precio real')
plt.plot(y_pred, label='Predicción')
plt.title('Predicción de precios de acciones utilizando Kernel Ridge Regression')
plt.xlabel('Índice del dato de prueba')
plt.ylabel('Precio')
plt.legend()
plt.show()


# Linear Regression.

## Ejemplo 1

Empecemos con un ejemplo básico de cómo implementar una regresión lineal en Python utilizando la biblioteca scikit-learn.

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Datos de ejemplo
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)  # Variables independientes
y = np.array([2, 3, 4, 5, 6])  # Variable dependiente

# Crear el modelo de regresión lineal
modelo = LinearRegression()

# Entrenar el modelo
modelo.fit(X, y)

# Realizar predicciones
y_pred = modelo.predict(X)

# Visualizar los resultados
plt.scatter(X, y, color='blue')  # Graficar los puntos de datos
plt.plot(X, y_pred, color='red')  # Graficar la línea de regresión
plt.xlabel('Variable independiente')
plt.ylabel('Variable dependiente')
plt.title('Regresión lineal simple')
plt.show()


En este ejemplo, X son las variables independientes (en este caso, solo una variable) e Y es la variable dependiente. **Creamos** un objeto LinearRegression de scikit-learn, lo **entrenamos** con nuestros datos utilizando el método fit(), y luego hacemos **predicciones** con el método predict().

Finalmente, **visualizamos los resultados** trazando los puntos de datos y la línea de regresión en un gráfico utilizando matplotlib.


## Ejemplo 2

En el siguiente ejemplo aplicaremos una regresión lineal múltiple.

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Datos de ejemplo: supongamos que tenemos dos variables independientes X1 y X2,
# y queremos predecir una variable dependiente Y.
X = np.array([[1, 2], [2, 4], [3, 6], [4, 8]])  # Variables independientes
Y = np.array([2, 4, 6, 8])  # Variable dependiente

# Crear un objeto de regresión lineal
modelo = LinearRegression()
# Ajustar el modelo a los datos
modelo.fit(X, Y)

# Imprimir los coeficientes y la ordenada al origen
print("Coeficientes:", modelo.coef_)
print("Ordenada al origen:", modelo.intercept_)

# Predecir nuevos valores
nuevos_valores = np.array([[5, 10], [6, 12]])  # Nuevos valores de X
predicciones = modelo.predict(nuevos_valores)
print("Predicciones:", predicciones)

# Graficar los resultados
plt.scatter(X[:, 0], Y, color='blue', label='Datos reales')  # Graficar X1 vs Y
plt.scatter(X[:, 1], Y, color='red', label='Datos reales')  # Graficar X2 vs Y
plt.plot(X[:, 0], modelo.predict(X), color='green', label='Regresión lineal X1')  # Graficar la regresión lineal para X1
plt.plot(X[:, 1], modelo.predict(X), color='orange', label='Regresión lineal X2')  # Graficar la regresión lineal para X2
plt.xlabel('Variables independientes')
plt.ylabel('Variable dependiente')
plt.title('Regresión lineal múltiple')
plt.legend()
plt.show()


En este código tenemos dos variables independientes X1 y X2, y una variable dependiente Y. **Creamos** un objeto de regresión lineal, **ajustamos el modelo** a los datos utilizando el método fit, e **imprimimos los coeficientes** y la **ordenada al origen**. Luego, utilizamos el modelo entrenado para hacer **predicciones** sobre nuevos valores de X usando el método predict.



## Ejemplo 3

Subamos la complejidad.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error, r2_score

# Generar datos sintéticos
np.random.seed(0)
X = 6 * np.random.rand(100, 3) - 3  # Tres características
y = 0.5 * X[:, 0]**3 + X[:, 1]**2 - 2 * X[:, 2] + np.random.randn(100)

# Aplicar transformación polinomial a las características
poly_features = PolynomialFeatures(degree=3, include_bias=False)
X_poly = poly_features.fit_transform(X)

# Crear el modelo de regresión lineal
modelo = LinearRegression()

# Entrenar el modelo
modelo.fit(X_poly, y)

# Realizar predicciones sobre los datos de entrenamiento
y_pred = modelo.predict(X_poly)
# Calcular métricas de evaluación
mse = mean_squared_error(y, y_pred)
r2 = r2_score(y, y_pred)
print(f'MSE (Mean Squared Error): {mse}')
print(f'R^2 Score: {r2}')

# Graficar los datos y la curva ajustada
plt.scatter(X[:, 0], y, label='Datos')
plt.plot(X[:, 0], y_pred, color='red', label='Curva Ajustada')
plt.xlabel('Feature 1')
plt.ylabel('y')
plt.title('Regresión Lineal con Polinomio de Grado 3')
plt.legend()
plt.show()

## Ejemplo 4

Otro ejemplo de regresión lineal múltiple utilizando datos hipotéticos sobre el rendimiento académico de los estudiantes en función de diferentes variables.

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Crear un DataFrame de ejemplo con datos de estudiantes
data = {
    'Horas de estudio': [5, 3, 7, 2, 6],
    'Horas de sueño': [8, 7, 6, 9, 7],
    'Asistencia (%)': [90, 95, 80, 85, 88],
    'Extracurriculares': ['Sí', 'No', 'Sí', 'Sí', 'No'],
    'Calificación': [85, 70, 90, 65, 80]
}

# Convertir el diccionario en un DataFrame de pandas
df = pd.DataFrame(data)
# Convertir variables categóricas en variables dummy
df = pd.get_dummies(df, columns=['Extracurriculares'])

# Seleccionar las variables independientes y la variable dependiente(calificación)
X = df.drop('Calificación', axis=1)
Y = df['Calificación']

# Dividir el conjunto de datos en datos de entrenamiento y datos de prueba
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)
# Crear un objeto de regresión lineal
modelo = LinearRegression()
# Ajustar el modelo a los datos de entrenamiento
modelo.fit(X_train, Y_train)

# Imprimir los coeficientes y la ordenada al origen
print("Coeficientes:", modelo.coef_)
print("Ordenada al origen:", modelo.intercept_)
# Hacer predicciones sobre los datos de prueba
predicciones = modelo.predict(X_test)

# Graficar los resultados
plt.scatter(Y_test, predicciones)
plt.xlabel("Calificaciones reales")
plt.ylabel("Predicciones")
plt.title("Calificaciones reales vs Predicciones")
plt.show()

# XGBoost Regressor

## Ejemplo 1

Empecemos con un ejemplo simple de como implementar XGBoost regressor.

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Generar datos aleatorios para simular precios de casas
np.random.seed(42)
# Generar características (habitaciones, baños, metros cuadrados, edad de la casa)
X = np.random.rand(100, 4)
# Generar precios de casas como una combinación lineal de características con algo de ruido
y = 2*X[:,0] + 3*X[:,1] + 4*X[:,2] + 5*X[:,3] + np.random.randn(100)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Configurar el modelo XGBoost Regressor
xg_reg = xgb.XGBRegressor(objective ='reg:squarederror', colsample_bytree = 0.3, learning_rate = 0.1,
                max_depth = 5, alpha = 10, n_estimators = 10)

# Entrenar el modelo
xg_reg.fit(X_train, y_train)
# Hacer predicciones en el conjunto de prueba
preds = xg_reg.predict(X_test)

# Imprimir las predicciones
print("Predicciones:")
for i, pred in enumerate(preds):
    print(f"Predicción {i+1}: {pred}")
# Calcular el error cuadrático medio
rmse = np.sqrt(mean_squared_error(y_test, preds))
print("Error cuadrático medio:", rmse)


## Ejemplo 2

En este ejemplo, usaremos el conjunto de datos de diabetes de Scikit-learn, que es un conjunto de datos un poco más complejo.

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
import xgboost as xgb
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos de diabetes
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Configurar el modelo XGBoost Regressor con diferentes parámetros
xg_reg = xgb.XGBRegressor(objective ='reg:squarederror', colsample_bytree = 0.5, learning_rate = 0.1,
                max_depth = 8, alpha = 3, n_estimators = 200)

# Entrenar el modelo
xg_reg.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
preds = xg_reg.predict(X_test)

# Imprimir las predicciones
print("Predicciones:")
for i, pred in enumerate(preds):
    print(f"Predicción {i+1}: {pred}")

# Calcular el error cuadrático medio
rmse = np.sqrt(mean_squared_error(y_test, preds))
print("Error cuadrático medio:", rmse)

## Ejemplo 3

Continuamos con un ejemplo más complejo, este incluye una búsqueda de hiperparámetros utilizando la técnica de búsqueda en cuadrícula (grid search) junto con una validación cruzada.

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
import xgboost as xgb
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split, GridSearchCV, KFold
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos de diabetes
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir los parámetros para la búsqueda en cuadrícula
param_grid = {
    'learning_rate': [0.05, 0.1, 0.2],
    'max_depth': [3, 5, 7],
    'n_estimators': [50, 100, 200],
    'colsample_bytree': [0.5, 0.7, 0.9],
    'alpha': [1, 3, 5]
}

# Configurar el modelo XGBoost Regressor
xg_reg = xgb.XGBRegressor(objective ='reg:squarederror')

# Realizar la búsqueda en cuadrícula con validación cruzada
cv = KFold(n_splits=5, shuffle=True, random_state=42)
grid_search = GridSearchCV(estimator=xg_reg, param_grid=param_grid, cv=cv, scoring='neg_mean_squared_error', verbose=1)
grid_search.fit(X_train, y_train)

# Obtener el mejor modelo
best_model = grid_search.best_estimator_
# Hacer predicciones en el conjunto de prueba con el mejor modelo
preds = best_model.predict(X_test)

# Imprimir las predicciones
print("Predicciones:")
for i, pred in enumerate(preds):
    print(f"Predicción {i+1}: {pred}")
# Calcular el error cuadrático medio
rmse = np.sqrt(mean_squared_error(y_test, preds))
print("Error cuadrático medio:", rmse)
# Imprimir los mejores parámetros encontrados
print("Mejores parámetros encontrados:")
print(grid_search.best_params_)


## Ejemplo 4

Veamos otro ejemplo más complejo, utilizando un conjunto de datos diferente y ajustando más hiperparámetros.

In [None]:
import numpy as np
import xgboost as xgb
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos de California housing
california_housing = fetch_california_housing()
X, y = california_housing.data, california_housing.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir los hiperparámetros para la búsqueda aleatoria
param_dist = {
    'learning_rate': [0.01, 0.05, 0.1],
    'max_depth': [3, 5, 7, 9],
    'n_estimators': [50, 100, 150, 200],
    'subsample': [0.5, 0.7, 0.9],
    'colsample_bytree': [0.5, 0.7, 0.9],
    'gamma': [0, 0.1, 0.2],
    'reg_alpha': [0, 0.1, 0.5, 1],
    'reg_lambda': [0, 0.1, 0.5, 1]
}

# Configurar el modelo XGBoost Regressor
xg_reg = xgb.XGBRegressor(objective ='reg:squarederror')
# Realizar la búsqueda aleatoria con validación cruzada
random_search = RandomizedSearchCV(estimator=xg_reg, param_distributions=param_dist, n_iter=50, cv=5, scoring='neg_mean_squared_error', random_state=42)
random_search.fit(X_train, y_train)

# Obtener el mejor modelo
best_model = random_search.best_estimator_
# Hacer predicciones en el conjunto de prueba con el mejor modelo
preds = best_model.predict(X_test)

# Calcular el error cuadrático medio
rmse = np.sqrt(mean_squared_error(y_test, preds))
print("Error cuadrático medio:", rmse)
# Imprimir los mejores parámetros encontrados
print("Mejores parámetros encontrados:")
print(random_search.best_params_)


# LGBM Regressor

## Ejemplo 1

In [None]:
# Importar las bibliotecas necesarias
import numpy as np
from lightgbm import LGBMRegressor

# Datos de ejemplo (características y etiquetas)
X_train = np.array([[1, 2, 3],
                    [4, 5, 6],
                    [7, 8, 9]])
y_train = np.array([10, 20, 30])

# Crear y entrenar el modelo LGBM Regressor
model = LGBMRegressor()
model.fit(X_train, y_train)

# Hacer una predicción
X_test = np.array([[2, 3, 4]])  # Nuevas características para predecir
prediction = model.predict(X_test)

print("Predicción:", prediction)

Para este ejemplo, primero **importamos** la clase LGBMRegressor del paquete lightgbm. Luego se **crea un conjunto de datos** de ejemplo con algunas características (X_train) y etiquetas correspondientes (y_train). Para continuar, se **crea una instancia del modelo LGBMRegressor** y lo entrenamos con los datos de entrenamiento. Después, **creamos un conjunto de características** de prueba (X_test) y utilizamos el modelo entrenado para **hacer una predicción** sobre estos datos. Finalmente, **imprimimos la predicción** resultante.

## Ejemplo 2

In [None]:
import numpy as np
import lightgbm as lgb
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Generar datos sintéticos de regresión
X, y = make_regression(n_samples=1000, n_features=10, noise=0.1, random_state=42)

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Configurar el modelo LGBMRegressor
params = {
    'boosting_type': 'gbdt',
    'objective': 'regression',
    'metric': ['l2', 'l1'],  # Cambiar el conjunto por una lista
    'num_leaves': 31,
    'learning_rate': 0.05,
    'feature_fraction': 0.9,
    'bagging_fraction': 0.8,
    'bagging_freq': 5,
    'verbose': 0
}

# Crear y entrenar el modelo LGBMRegressor
gbm = lgb.LGBMRegressor(**params)
gbm.fit(X_train, y_train)
# Predecir en el conjunto de prueba
y_pred = gbm.predict(X_test)

# Evaluar el rendimiento del modelo
mse = mean_squared_error(y_test, y_pred)
print('Mean Squared Error:', mse)

## Ejemplo 3

Para el siguiente ejemplo se sigue un procedimiento similar al anterior, pero utilizando un conjunto de datos local(train.csv) en lugar de utilizar datos sintéticos.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import lightgbm as lgb

# Cargar el conjunto de datos de viviendas
df = pd.read_csv(r"c:\Users\----\Escritorio\train.csv")
# Seleccionar características y etiquetas
X = df.drop(columns=["SalePrice"])
y = df["SalePrice"]

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Definir los parámetros para el modelo LGBMRegressor
params = {
    'boosting_type': 'gbdt',
    'objective': 'regression',
    'metric': 'l2',
    'num_leaves': 31,
    'learning_rate': 0.05,
    'feature_fraction': 0.9,
    'bagging_fraction': 0.8,
    'bagging_freq': 5,
    'verbose': 0
}

# Crear y entrenar el modelo LGBMRegressor
gbm = lgb.LGBMRegressor(**params)
gbm.fit(X_train, y_train)
# Predecir en el conjunto de prueba
y_pred = gbm.predict(X_test)
# Evaluar el rendimiento del modelo
mse = mean_squared_error(y_test, y_pred)
print('Mean Squared Error:', mse)


Después de **importar las librerias**, cargamos el **conjunto de datos locales**, para después **seleccionar las características y etiquetas**.

Continuamos con la **división el conjunto de datos en train y test**, y seguimos con la **definición de los parámetros para el modelo**.

Para ultimo **crear y entrenar nuestro modelo**, se realizan las **predicciones** y evaluamos el **rendimiento del modelo**.


## Ejemplo 4

Veamos un ejemplo más completo y complejo que aborda un problema de regresión utilizando el conjunto de datos de precios de viviendas de California (California Housing Prices dataset).

En este ejemplo, además de la limpieza y preprocesamiento de datos, también utilizaremos la técnica de validación cruzada y realizaremos una evaluación más exhaustiva del modelo.


In [None]:
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split, GridSearchCV, KFold
from sklearn.metrics import mean_squared_error
import lightgbm as lgb

# Cargar el conjunto de datos de precios de viviendas de California
california_housing = fetch_california_housing()
X = california_housing.data
y = california_housing.target

# Convertir a DataFrame de pandas para mayor comodidad
df = pd.DataFrame(data=X, columns=california_housing.feature_names)
df['target'] = y

# Seleccionar características y etiquetas
X = df.drop(columns=["target"])
y = df["target"]

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir la cuadrícula de hiperparámetros a buscar
param_grid = {
    'boosting_type': ['gbdt', 'dart'],
    'num_leaves': [20, 30, 40],
    'learning_rate': [0.01, 0.05, 0.1],
    'n_estimators': [50, 100, 200],
    'subsample': [0.8, 0.9, 1.0],
    'colsample_bytree': [0.8, 0.9, 1.0]
}

# Crear el modelo LGBMRegressor
gbm = lgb.LGBMRegressor()

# Realizar la búsqueda de cuadrícula utilizando validación cruzada
kf = KFold(n_splits=5, shuffle=True, random_state=42)
grid_search = GridSearchCV(gbm, param_grid, cv=kf, scoring='neg_mean_squared_error', verbose=2, n_jobs=-1)
grid_search.fit(X_train, y_train)

# Obtener el mejor modelo y sus hiperparámetros
best_gbm = grid_search.best_estimator_
best_params = grid_search.best_params_

# Hacer predicciones en el conjunto de prueba utilizando el mejor modelo
y_pred = best_gbm.predict(X_test)

# Evaluar el rendimiento del mejor modelo
mse = mean_squared_error(y_test, y_pred)
print('Mean Squared Error:', mse)
print('Best Parameters:', best_params)
