<a href="https://colab.research.google.com/github/Edgar-Tinoco/probabilidad/blob/main/unidad5/probabilidadProyecto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression


archivos = ['grupo1.csv', 'grupo2.csv', 'grupo3.csv']


def analizar_grupo(archivo):
    print(f"==================================================")
    print(f"üöÄ An√°lisis para el Archivo: {archivo}")
    print(f"==================================================")


    df = pd.read_csv(archivo)


    print("## üîç Exploraci√≥n Inicial de Datos")
    print(df.head())
    print("\n--- Estad√≠sticas Descriptivas ---")
    print(df.describe())


    X = df[['HorasEstudio']]
    y = df['Calificacion'] # Variable dependiente (respuesta)

    # 3. C√°lculo del Coeficiente de Correlaci√≥n de Pearson (r)
    # Se utiliza el m√©todo .corr() de pandas
    r = df['HorasEstudio'].corr(df['Calificacion'])
    R2 = r**2

    print(f"\n## üî¢ C√°lculos de Correlaci√≥n")
    print(f"Coeficiente de Correlaci√≥n de Pearson (r): {r:.3f}")
    print(f"Coeficiente de Determinaci√≥n (R¬≤): {R2:.3f}")

    # 4. Modelo de Regresi√≥n Lineal Simple
    model = LinearRegression()
    model.fit(X, y)

    # Obtener la ecuaci√≥n de la l√≠nea de regresi√≥n
    beta1 = model.coef_[0]    # Pendiente (Coeficiente de Regresi√≥n)
    beta0 = model.intercept_  # Intersecci√≥n

    print(f"\n## üìä Modelo de Regresi√≥n Lineal")
    print(f"Intersecci√≥n (Œ≤‚ÇÄ): {beta0:.2f}")
    print(f"Pendiente (Œ≤‚ÇÅ): {beta1:.2f}")
    print(f"Ecuaci√≥n de Regresi√≥n: Calificaci√≥n = {beta0:.2f} + {beta1:.2f} * HorasEstudio")


    plt.figure(figsize=(10, 6))


    plt.subplot(1, 2, 1)
    sns.histplot(df['Calificacion'], kde=True)
    plt.title(f'Histograma de Calificaciones ({archivo})')
    plt.xlabel('Calificaci√≥n Final')
    plt.ylabel('Frecuencia')

    # Gr√°fico de Dispersi√≥n y L√≠nea de Regresi√≥n
    plt.subplot(1, 2, 2)
    sns.scatterplot(x='HorasEstudio', y='Calificacion', data=df)
    plt.plot(X, model.predict(X), color='red', label=f'Regresi√≥n Lineal (R¬≤={R2:.3f})')
    plt.title(f'Horas de Estudio vs. Calificaci√≥n ({archivo})')
    plt.xlabel('Horas de Estudio')
    plt.ylabel('Calificaci√≥n Final')
    plt.legend()
    plt.tight_layout()
    plt.show()

    # 6. Interpretaci√≥n de Resultados
    print("\n## üí¨ Interpretaci√≥n de Resultados (Respuestas a las Preguntas)")

    # Pregunta 1: Interpretaci√≥n del Coeficiente de Regresi√≥n (Pendiente)
    interpretacion_b1 = (
        f"1. Interpretaci√≥n del Coeficiente de Regresi√≥n (Œ≤‚ÇÅ = {beta1:.2f}):\n"
        f"   Por cada **aumento de una hora** en el tiempo de estudio, la calificaci√≥n final predicha "
        f"   **{'aumenta' if beta1 > 0 else 'disminuye'}** en **{abs(beta1):.2f} puntos**, en promedio."
    )
    print(interpretacion_b1)

    # Pregunta 2: Interpretaci√≥n del Coeficiente de Correlaci√≥n (r)
    fuerza = 'Extremadamente Fuerte' if abs(r) > 0.9 else ('Fuerte' if abs(r) > 0.7 else ('Moderada' if abs(r) > 0.4 else 'Muy D√©bil o Nula'))
    direccion = 'Positiva' if r > 0 else ('Negativa' if r < 0 else 'Inexistente')

    interpretacion_r = (
        f"2. Interpretaci√≥n del Coeficiente de Correlaci√≥n (r = {r:.3f}):\n"
        f"   Indica una relaci√≥n lineal **{fuerza}** y de direcci√≥n **{direccion}**. "
        f"   Un valor de r = {r:.3f} sugiere que las variables tienen una asociaci√≥n lineal {fuerza.lower()}."
    )
    print(interpretacion_r)

    # Pregunta 3: Significaci√≥n Estad√≠stica (basada en R¬≤)
    significativo = 'Altamente Significativo' if R2 >= 0.7 else ('Significativo' if R2 >= 0.5 else 'Poco Significativo')

    interpretacion_R2 = (
        f"3. ¬øEl modelo de regresi√≥n lineal es estad√≠sticamente significativo?\n"
        f"   El modelo es **{significativo}**. El Coeficiente de Determinaci√≥n (R¬≤ = {R2:.3f}) significa que el "
        f"   **{R2*100:.1f}%** de la variaci√≥n en las calificaciones se explica por la variaci√≥n en las horas de estudio."
    )
    print(interpretacion_R2)

    # Pregunta 4: Confiabilidad del Modelo
    confiabilidad = 'Alta Confiabilidad' if R2 >= 0.7 else ('Confiabilidad Moderada' if R2 >= 0.5 else 'Baja Confiabilidad')

    interpretacion_confiabilidad = (
        f"4. ¬øQu√© tan confiable es el modelo de regresi√≥n para predecir las calificaciones finales?\n"
        f"   El modelo tiene una **{confiabilidad}** para la predicci√≥n, ya que el R¬≤ mide la bondad de ajuste de la l√≠nea a los datos."
    )
    print(interpretacion_confiabilidad)

    # Conclusi√≥n General
    print("\n--- Conclusi√≥n General ---")
    print(f"Para el {archivo}, se determin√≥ una relaci√≥n lineal **{fuerza.lower()} y {direccion.lower()}** entre las Horas de Estudio y la Calificaci√≥n Final. El modelo es **{significativo.lower()}**.")
    print("\n" + "="*50 + "\n")


# 7. Ejecutar el an√°lisis para cada grupo
for archivo in archivos:
    analizar_grupo(archivo)