<center><h1>REGRESIÓN LINEAL</h1></center>

En el contexto de la IA, la regresión lineal se aplica para construir un modelo matemático que relaciona variables de entrada (características) con una variable de salida (objetivo). <br>Por ejemplo, supongamos que deseamos predecir el precio de una casa en función de su tamaño y edad. Podemos usar la regresión lineal para encontrar la relación entre estas variables y luego utilizar el modelo resultante para predecir el precio de casas nuevas.

<br>En este notebook abordaremos la regresión lineal aplicada a la predicción de aprendices que se encuentran en riesgo de deserción, para lo cual tendremos los siguientes elementos: <br>
<ul>
    <li> Lectura y análisis de los datos </li>
    <li> Limpieza y transformación de los datos </li>
    <li> Entrenamiento de un modelo de regresión lineal </li>
    <li> Evaluación del modelo </li>
</ul>

<h2>Lectura y análisis de los datos</h2>

Realizar la instalación de scikit-learn <br>pip install scikit-learn

In [None]:
#importar las librerias
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [None]:
# Cargar el dataset
df = pd.read_excel('Dataset_final.xlsx')

In [None]:
#Obtener informacion del dataset
df.info()

<h2>Limpieza y transformación de los datos</h2>

In [None]:
#Eliminar las filas con valores nulos
df = df.dropna()

In [None]:
#Eliminar las columnas que no se van a utilizar
df = df.drop(['Documento', 'Nombre', 'Apellidos', 'Direccción', 'Teléfono', 'Edad', 'Estatura', 'Área de residencia', 'Tipo colegio', 'Género', 'Estrato', 'Último grado cursado'], axis=1)

In [None]:
#Reemplazar Sí por Si en la columna "Apoyo económico de padres"
df['Apoyo económico de padres'] = df['Apoyo económico de padres'].replace('Sí', 'Si')

#Crear la columna "Apoyo economico" y asignarle un valor de 0 si es no o 1 si es si
df['Apoyo económico de padres'] = np.where(df['Apoyo económico de padres'] == 'Si', 1, 0)

In [None]:
#Cambiar el nombre de las columnas
df.columns = ['matematicas', 'lecto_escritura', 'apoyo_economico']

In [None]:
# Crear la columna "promedio"
df['promedio'] = (df['matematicas'] + df['lecto_escritura']) / 2

In [None]:
#Crear la columna riesgo y asignarle un valor de 1 si Apoyo economico es 0 y Promedio Notas es menor a 3.5 o 0 en caso contrario
df['Riesgo'] = np.where((df['apoyo_economico'] == 0) & (df['promedio'] < 3.5), 1, 0)

<h2>Entrenamiento de un modelo de regresión lineal</h2>

In [None]:
# Seleccionar las variables relevantes para la regresión
variables = ['matematicas', 'lecto_escritura', 'apoyo_economico']

X = df[variables]
y = df['Riesgo']


In [None]:
# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Crear el modelo de regresión lineal
model = LinearRegression()

In [None]:
# Entrenar el modelo
model.fit(X_train, y_train)

In [None]:
# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

<h2>Evaluación del modelo</h2>

In [None]:
#Evaluar el modelo
from sklearn.metrics import mean_squared_error, r2_score
print('Coeficiente de determinación: %.2f' % r2_score(y_test, y_pred))
print('Error cuadrático medio: %.2f' % mean_squared_error(y_test, y_pred))


Coeficiente de determinación: 0.66
Error cuadrático medio: 0.08


In [None]:
#Nota Matematicas	Nota Lecto Escritura	Apoyo economico
nmat = 0
nlecto = 1
apoyo = 0

# Realizar una predicción
pred = model.predict([[nmat, nlecto, apoyo]])
print(pred)

[1.60365893]




In [None]:
#importar las librerias
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Cargar el dataset
df = pd.read_excel('Dataset_final.xlsx')

#Eliminar las filas con valores nulos
df = df.dropna()

#Eliminar las columnas que no se van a utilizar
df = df.drop(['Documento', 'Nombre', 'Apellidos', 'Direccción', 'Teléfono', 'Edad', 'Estatura', 'Área de residencia', 'Tipo colegio', 'Género', 'Estrato', 'Último grado cursado'], axis=1)

#Reemplazar Sí por Si en la columna "Apoyo económico de padres"
df['Apoyo económico de padres'] = df['Apoyo económico de padres'].replace('Sí', 'Si')

#Crear la columna "Apoyo economico" y asignarle un valor de 0 si es no o 1 si es si
df['Apoyo económico de padres'] = np.where(df['Apoyo económico de padres'] == 'Si', 1, 0)

#Cambiar el nombre de las columnas
df.columns = ['matematicas', 'lecto_escritura', 'apoyo_economico']

# Crear la columna "promedio"
df['promedio'] = (df['matematicas'] + df['lecto_escritura']) / 2

#Crear la columna riesgo y asignarle un valor de 1 si Apoyo economico es 0 y Promedio Notas es menor a 3.5 o 0 en caso contrario
df['Riesgo'] = np.where((df['apoyo_economico'] == 0) & (df['promedio'] < 3.5), 1, 0)

# Seleccionar las variables relevantes para la regresión
variables = ['matematicas', 'lecto_escritura', 'apoyo_economico']

X = df[variables]
y = df['Riesgo']

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

#Evaluar el modelo
from sklearn.metrics import mean_squared_error, r2_score
print('Coeficiente de determinación: %.2f' % r2_score(y_test, y_pred))
print('Error cuadrático medio: %.2f' % mean_squared_error(y_test, y_pred))

#Nota Matematicas	Nota Lecto Escritura	Apoyo economico
nmat = int(input("Ingrese la Calf de Matematicas: "))
nlecto = int(input("Ingrese la Calf de Lectura: "))
apoyo = int(input("Ingrese la Calf de Apoyo: "))

# Realizar una predicción
pred = model.predict([[nmat, nlecto, apoyo]])
print(pred)