In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

# Cargar los datos
df = pd.read_csv(r"C:\Users\soler\Downloads\Formulario sin título (respuestas) - Respuestas de formulario 1.csv")

# Renombrar columnas para facilitar su manejo
df.columns = ['timestamp', 'edad', 'facultad', 'semestre', 'area_tiempo_libre', 'horas_area', 
              'frecuencia_estudio', 'promedio', 'horas_estudio_semana', 'modalidad_estudio', 
              'lugar_estudio', 'beca', 'trabajo', 'actividades_extracurriculares']

# Exploración de datos
print("Resumen de los datos:")
print(df.info())
print("\nDescripción estadística:")
print(df.describe())

# Distribución del promedio
plt.figure(figsize=(8,5))
sns.histplot(df['promedio'], bins=20, kde=True)
plt.title('Distribución del Promedio Académico')
plt.xlabel('Promedio')
plt.ylabel('Frecuencia')
plt.show()

# Relación entre variables numéricas y el promedio
plt.figure(figsize=(10,6))
sns.heatmap(df.select_dtypes(include=['number']).corr(), annot=True, cmap='coolwarm', fmt='.2f')


plt.title('Matriz de Correlación')
plt.show()
# Limpiar valores que contienen porcentajes o caracteres no numéricos
df = df.replace({'%': '', ',': '.'}, regex=True)

# Convertir columnas numéricas
df['edad'] = pd.to_numeric(df['edad'], errors='coerce')
df['semestre'] = pd.to_numeric(df['semestre'], errors='coerce')
df['horas_area'] = pd.to_numeric(df['horas_area'], errors='coerce')
df['frecuencia_estudio'] = pd.to_numeric(df['frecuencia_estudio'], errors='coerce')
df['promedio'] = pd.to_numeric(df['promedio'], errors='coerce')
df['horas_estudio_semana'] = pd.to_numeric(df['horas_estudio_semana'], errors='coerce')

# Eliminar valores nulos
df = df.dropna()

# Explicación de Variables:
# - Edad: Edad del estudiante
# - Semestre: Número de semestre en el que está inscrito
# - Área de tiempo libre: Lugar donde pasa más tiempo libre en la universidad
# - Horas en área: Tiempo promedio en horas que pasa en esa área
# - Frecuencia de estudio: Qué tan frecuente estudia en esa área
# - Promedio: Promedio acumulado del estudiante (Variable objetivo)
# - Horas de estudio a la semana: Tiempo que dedica al estudio fuera de clases
# - Modalidad de estudio: Si estudia solo o en grupo
# - Lugar de estudio fuera de clase: Dónde estudia cuando no está en clases
# - Beca: Indica si recibe algún tipo de beca
# - Trabajo: Indica si trabaja mientras estudia
# - Actividades extracurriculares: Si participa en actividades extracurriculares

# Codificar variables categóricas
df = pd.get_dummies(df, columns=['facultad', 'area_tiempo_libre', 'modalidad_estudio', 'lugar_estudio', 'trabajo', 'actividades_extracurriculares'], drop_first=True)

# Definir variables predictoras y variable objetivo
X = df.drop(columns=['timestamp', 'promedio'])
y = df['promedio']

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Construir modelo de regresión lineal
model = LinearRegression()
model.fit(X_train, y_train)

# Evaluar modelo
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

r2_train = r2_score(y_train, y_train_pred)
r2_test = r2_score(y_test, y_test_pred)
mse_test = mean_squared_error(y_test, y_test_pred)

print(f'R2 de entrenamiento: {r2_train:.4f}')
print(f'R2 de prueba: {r2_test:.4f}')
print(f'MSE de prueba: {mse_test:.4f}')