<a href="https://colab.research.google.com/github/Edgar-Tinoco/probabilidad/blob/main/unidad5/probabilidadProyecto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression


archivos = ['grupo1.csv', 'grupo2.csv', 'grupo3.csv']


def analizar_grupo(archivo):
    print(f"==================================================")
    print(f"Análisis para el Archivo: {archivo}")
    print(f"==================================================")


    df = pd.read_csv(archivo)


    print("##  Exploración Inicial de Datos")
    print(df.head())
    print("\n--- Estadísticas Descriptivas ---")
    print(df.describe())


    X = df[['HorasEstudio']]
    y = df['Calificacion']
    r = df['HorasEstudio'].corr(df['Calificacion'])
    R2 = r**2

    print(f"\n  Cálculos de Correlación")
    print(f"Coeficiente de Correlación de Pearson (r): {r:.3f}")
    print(f"Coeficiente de Determinación (R²): {R2:.3f}")


    model = LinearRegression()
    model.fit(X, y)


    beta1 = model.coef_[0]
    beta0 = model.intercept_

    print(f"\n Modelo de Regresión Lineal")
    print(f"Intersección (β₀): {beta0:.2f}")
    print(f"Pendiente (β₁): {beta1:.2f}")
    print(f"Ecuación de Regresión: Calificación = {beta0:.2f} + {beta1:.2f} * HorasEstudio")


    plt.figure(figsize=(10, 6))


    plt.subplot(1, 2, 1)
    sns.histplot(df['Calificacion'], kde=True)
    plt.title(f'Histograma de Calificaciones ({archivo})')
    plt.xlabel('Calificación Final')
    plt.ylabel('Frecuencia')


    plt.subplot(1, 2, 2)
    sns.scatterplot(x='HorasEstudio', y='Calificacion', data=df)
    plt.plot(X, model.predict(X), color='red', label=f'Regresión Lineal (R²={R2:.3f})')
    plt.title(f'Horas de Estudio vs. Calificación ({archivo})')
    plt.xlabel('Horas de Estudio')
    plt.ylabel('Calificación Final')
    plt.legend()
    plt.tight_layout()
    plt.show()


    print("\n Interpretación de Resultados (Respuestas a las Preguntas)")


    interpretacion_b1 = (
        f"1. Interpretación del Coeficiente de Regresión (β₁ = {beta1:.2f}):\n"
        f"   Por cada **aumento de una hora** en el tiempo de estudio, la calificación final predicha "
        f"   **{'aumenta' if beta1 > 0 else 'disminuye'}** en **{abs(beta1):.2f} puntos**, en promedio."
    )
    print(interpretacion_b1)


    fuerza = 'Extremadamente Fuerte' if abs(r) > 0.9 else ('Fuerte' if abs(r) > 0.7 else ('Moderada' if abs(r) > 0.4 else 'Muy Débil o Nula'))
    direccion = 'Positiva' if r > 0 else ('Negativa' if r < 0 else 'Inexistente')

    interpretacion_r = (
        f"2. Interpretación del Coeficiente de Correlación (r = {r:.3f}):\n"
        f"   Indica una relación lineal **{fuerza}** y de dirección **{direccion}**. "
        f"   Un valor de r = {r:.3f} sugiere que las variables tienen una asociación lineal {fuerza.lower()}."
    )
    print(interpretacion_r)


    significativo = 'Altamente Significativo' if R2 >= 0.7 else ('Significativo' if R2 >= 0.5 else 'Poco Significativo')

    interpretacion_R2 = (
        f"3. ¿El modelo de regresión lineal es estadísticamente significativo?\n"
        f"   El modelo es **{significativo}**. El Coeficiente de Determinación (R² = {R2:.3f}) significa que el "
        f"   **{R2*100:.1f}%** de la variación en las calificaciones se explica por la variación en las horas de estudio."
    )
    print(interpretacion_R2)


    confiabilidad = 'Alta Confiabilidad' if R2 >= 0.7 else ('Confiabilidad Moderada' if R2 >= 0.5 else 'Baja Confiabilidad')

    interpretacion_confiabilidad = (
        f"4. ¿Qué tan confiable es el modelo de regresión para predecir las calificaciones finales?\n"
        f"   El modelo tiene una **{confiabilidad}** para la predicción, ya que el R² mide la bondad de ajuste de la línea a los datos."
    )
    print(interpretacion_confiabilidad)


    print("\n--- Conclusión General ---")
    print(f"Para el {archivo}, se determinó una relación lineal **{fuerza.lower()} y {direccion.lower()}** entre las Horas de Estudio y la Calificación Final. El modelo es **{significativo.lower()}**.")
    print("\n" + "="*50 + "\n")



for archivo in archivos:
    analizar_grupo(archivo)