<a href="https://colab.research.google.com/github/damianmtz98/ClasesAnalisisDeDatos/blob/main/ClasePython4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Modelos de Regresión Lineal para Predicción**

Los modelos de regresión lineal son una técnica estadística utilizada para predecir una variable numérica a partir de una o más variables predictoras. La idea principal es encontrar una relación lineal que mejor se ajuste a los datos disponibles. En una regresión lineal simple, tienes una variable predictora, mientras que en una regresión lineal múltiple, tienes múltiples variables predictoras.

Los modelos de regresión lineal se aplican en una amplia gama de campos, como economía, ciencias sociales, medicina y más. Algunos ejemplos de aplicaciones reales incluyen predecir el precio de una vivienda basado en sus características, estimar la demanda de un producto en función de variables de marketing y pronosticar el rendimiento académico de los estudiantes utilizando sus calificaciones previas.

En Python, puedes utilizar la librería scikit-learn para aplicar modelos de regresión lineal. Aquí hay un ejemplo de cómo ajustar un modelo de regresión lineal simple:








In [4]:
from sklearn.linear_model import LinearRegression
import numpy as np

*   Importamos la librería scikit-learn (sklearn) y
específicamente la clase LinearRegression. Esto nos permite usar las funciones necesarias para crear un modelo de regresión lineal.



In [5]:
# Datos de ejemplo
X = np.array([1, 2, 3, 4, 5]).reshape(-1,1)
y = np.array([2, 4, 5, 4, 5])

* Creación de datos de ejemplo: Creamos datos de ejemplo para demostrar el
funcionamiento del modelo. X representa las variables predictoras (en este caso, una secuencia de números del 1 al 5) y y representa la variable dependiente que deseamos predecir.

NOTA: reshape(-1, 1) se usa para cambiar la forma de un array en NumPy, convirtiéndolo de un array unidimensional a uno bidimensional con una sola columna. Esto es comúnmente necesario para preparar los datos de entrada en el formato adecuado para modelos de regresión lineal en Python.

In [None]:
# Crear y ajustar el modelo de regresión lineal
modelo = LinearRegression()
modelo.fit(X, y)

* Creación del modelo de regresión lineal: Creamos una instancia del modelo de regresión lineal utilizando LinearRegression() y la asignamos a la variable modelo.
* Ajuste del modelo: Utilizamos el método fit(X, y) para ajustar el modelo a los datos. Esto significa que el modelo encontrará la mejor línea recta que se ajuste a los puntos de datos representados por X e y. La línea recta representa la relación lineal entre las variables predictoras y la variable dependiente.

In [7]:
# Realizar una predicción
prediccion = modelo.predict(np.array([[6]]))
print("Predicción:", prediccion)

Predicción: [5.8]


Hasta este punto, hemos creado y ajustado el modelo de regresión lineal. Ahora, el modelo tiene la capacidad de hacer predicciones.

* Realizar una predicción: Podemos usar el modelo ajustado para hacer predicciones. En este ejemplo, estamos haciendo una predicción para un valor de X igual a 6:
El método predict(X) toma una matriz de valores de X (en este caso, un solo valor) y devuelve una predicción de y. La predicción se almacena en la variable prediccion.

La predicción que obtuviste es [5.8]. Esto significa que, según el modelo de regresión lineal ajustado, si X es igual a 6, la predicción para (y) es de aproximadamente 5.8. En otras palabras, el modelo estima que el valor de la variable dependiente (y) será aproximadamente 5.8 cuando la variable predictora (X) sea igual a 6, de acuerdo con la relación lineal que ha aprendido a partir de los datos de entrenamiento.

# **Random Forest para Clasificación**

Random Forest es un algoritmo de aprendizaje automático que se basa en un conjunto de árboles de decisión. Cada árbol en el conjunto vota por una clase en un problema de clasificación o produce una predicción en un problema de regresión. El resultado final se obtiene por mayoría de votos (clasificación) o promediando las predicciones (regresión) de los árboles. Esto hace que Random Forest sea robusto y capaz de manejar problemas de clasificación y regresión de manera eficaz.

Random Forest se aplica en una variedad de escenarios del mundo real. Por ejemplo, se utiliza en la detección de spam en correos electrónicos para clasificar si un correo es legítimo o no, en la clasificación de imágenes médicas para el diagnóstico de enfermedades, en la predicción de la satisfacción del cliente en el comercio electrónico basada en datos de comportamiento del usuario, y en la detección de fraudes en transacciones financieras para identificar transacciones sospechosas.

En Python, puedes utilizar la librería scikit-learn para implementar Random Forest. La clase RandomForestClassifier de scikit-learn se usa para problemas de clasificación. Debes cargar tus datos, dividirlos en conjuntos de entrenamiento y prueba, crear un modelo de Random Forest utilizando esta clase y entrenar el modelo con los datos de entrenamiento. Luego, puedes usar el modelo para hacer predicciones en el conjunto de prueba y evaluar su rendimiento utilizando métricas como la precisión.

In [8]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Cargar el conjunto de datos Iris como ejemplo
iris = load_iris()
X, y = iris.data, iris.target


* Importación de librerías: En la primera línea, importamos las librerías y clases necesarias. RandomForestClassifier es la clase que utilizaremos para crear un modelo de Random Forest para clasificación. También importamos otras clases y funciones necesarias de scikit-learn para cargar datos, dividirlos en conjuntos de entrenamiento y prueba, y evaluar el rendimiento del modelo.

* Cargar datos de ejemplo: Utilizamos el conjunto de datos Iris como ejemplo. iris.data contiene las características (variables predictoras), y iris.target contiene las etiquetas de clase (variable objetivo). Estos datos se utilizan comúnmente en ejemplos y tutoriales de aprendizaje automático.

In [9]:
# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


* División de datos: Utilizamos la función train_test_split para dividir los datos en conjuntos de entrenamiento y prueba. Esto es importante para evaluar el rendimiento del modelo. En este ejemplo, el 80% de los datos se utilizan para entrenamiento (X_train y y_train), y el 20% restante se utiliza para prueba (X_test y y_test).

NOTA: Los datos se dividen en conjuntos de entrenamiento y pruebas para medir cuán bien un modelo de aprendizaje automático se desempeña en datos no vistos, evitar el sobreajuste y seleccionar el mejor modelo. Esto simula cómo funcionará en situaciones reales.

In [10]:
# Crear y entrenar el modelo de Random Forest
modelo_rf = RandomForestClassifier(n_estimators=100, random_state=42)
modelo_rf.fit(X_train, y_train)


* Creación y entrenamiento del modelo: Creamos una instancia del modelo de Random Forest utilizando RandomForestClassifier y lo asignamos a la variable modelo_rf. El parámetro n_estimators indica el número de árboles en el bosque. En este caso, hemos configurado n_estimators en 100 para usar 100 árboles. Luego, ajustamos el modelo a los datos de entrenamiento llamando al método fit().

In [11]:
# Realizar predicciones en el conjunto de prueba
predicciones = modelo_rf.predict(X_test)


* Realización de predicciones: Usamos el modelo entrenado para hacer predicciones en el conjunto de prueba (X_test) llamando al método predict(). Esto nos proporciona las etiquetas predichas para cada observación en el conjunto de prueba.

In [12]:
# Calcular la precisión del modelo
precisión = accuracy_score(y_test, predicciones)
print("Precisión del modelo:", precisión)


Precisión del modelo: 1.0


* Evaluación del modelo: Calculamos la precisión del modelo comparando las etiquetas reales en y_test con las etiquetas predichas en predicciones. La precisión se calcula utilizando la función accuracy_score() de scikit-learn. Luego, imprimimos la precisión del modelo en la pantalla.


Una precisión del modelo de 1.0 significa que el modelo clasificó correctamente todas las muestras en el conjunto de prueba. Esto es un rendimiento perfecto, lo que indica que el modelo de Random Forest que entrenaste en el conjunto de datos Iris fue capaz de hacer predicciones precisas para todas las muestras en el conjunto de prueba. Una precisión del 1.0 es un resultado excepcional y sugiere que el modelo es altamente efectivo en la clasificación de los datos de prueba.
