In [80]:
import pandas as pd
import matplotlib.pyplot as plt
import altair as alt
import numpy as np
import seaborn as sns

In [81]:
data = pd.read_csv("students.csv")
data = pd.DataFrame(data)

In [None]:
features = data.columns
num_list = ["age","Medu","Fedu","traveltime","studytime","failures_mat","failures_por","famrel","freetime","goout","Dalc","Walc","health","absences_mat","absences_por",'G1_mat','G2_mat','G3_mat','G1_por','G2_por','G3_por']
cualitativas =  [feature for feature in features if feature not in num_list]
print(cualitativas)

In [None]:
np.arange(data["age"].min() - 0.5, data["age"].max() + 0.5, 1).tolist()


In [None]:

# Analisis de las variables cuantitativas

for feature in features:
    if feature in num_list:

        # Datos
        rango = (data[feature].min(),data[feature].max())
        media = data[feature].mean()
        mediana = data[feature].median()
        desvio = data[feature].std()
        coef_de_asimetria = data[feature].skew()
        cuantil_025 = data[feature].quantile(0.25)
        cuantil_075 = data[feature].quantile(0.75)
        print("""Datos de la variable {}: 
        Rango = {}
        Media = {}
        Mediana = {}
        Desvio estandar = {}
        Coeficiente de asimetria = {}
        Cuartiles = {} , {}
        """.format(feature,rango,media,mediana,desvio,coef_de_asimetria,cuantil_025,cuantil_075))

        # Graficos
        # Al hacer un breve analisis del dataset descubrimos que todas nuestras variables numericas son discretetas, por lo tanto
        # nos parecio mas enrriquecedor realizar histogramas en vez de graficos de densidad.
        sns.histplot(data=data, x=feature, bins = np.arange(data[feature].min() - 0.5, data[feature].max() + 0.5, 1).tolist(), kde=False, color='skyblue')
        plt.title(f'Histogram for {feature}')
        plt.xlabel(feature)
        plt.ylabel('Frequency')
        plt.show()

        # Boxplots
        sns.boxplot(x=data[feature], color='skyblue')
        plt.title(f'Boxplot for {feature}')
        plt.xlabel(feature)
        plt.show()

        # Outliers analisis post boxplot

        Q1 = data[feature].quantile(0.25)
        Q3 = data[feature].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        outliers = data[(data[feature] < lower_bound) | (data[feature] > upper_bound)]
        if len(outliers) > 0:
            absolute_freq_table = outliers[feature].value_counts().to_frame().rename_axis('Value').reset_index()
            absolute_freq_table.columns = ['Value', 'Frequency']
            print(absolute_freq_table.sort_values(by='Value'))
        else:
            print("No outliers detected.")


        print("\n\n")

        



In [None]:
for feature in features:
    if feature not in num_list:
        sns.countplot(data=data, x=feature, palette='Blues')
        plt.title(f'Frequency Chart for {feature}')
        plt.xlabel(feature)
        plt.ylabel('Frequency')
        plt.show()

In [86]:
matrix_num = pd.DataFrame(data[num_list])

In [99]:
matcor = matrix_num.corr()

In [None]:
sns.heatmap(matcor.round(2), cmap=sns.diverging_palette(240, 10, as_cmap=True), annot=True, annot_kws={"size": 5}, vmin=-1, vmax=1,center=0)
plt.show()

In [None]:
# Ver cantidad de NAs en el dataset

num_total_nans = data.isna().sum().sum()
print("El número total de valores faltantes en el DataFrame es:", num_total_nans)

In [None]:
# Ver la cantidad de correlaciones lineales entre variables mayores a 0.3

triangulo_sup = matcor.where(np.triu(np.ones(matcor.shape), k=1).astype(bool))
np.fill_diagonal(triangulo_sup.values, np.nan)
num_relaciones_mayores_a_03 = (pd.DataFrame(triangulo_sup).abs() > 0.7).sum().sum()
print("El número de relaciones mayores a 0.3 en la matriz de correlación, sin contar la diagonal, es:", num_relaciones_mayores_a_03)

In [None]:
# Las 15 correlaciones mas fuertes

matcor2 = matcor
np.fill_diagonal(matcor2.values, 0)
top_corr_pairs = matcor2.unstack().sort_values(ascending=False).drop_duplicates()[:20]
top_corr_features = [(pair[0], pair[1], matcor2.loc[pair]) for pair in top_corr_pairs.index]
for feature1, feature2, correlation in top_corr_features:
    print(f"{feature1} - {feature2}: {correlation.round(2)}")

In [None]:
# Scatterplots de las relaciones lineales mas fuertes

for relacion in top_corr_features:
    counts = data.groupby([relacion[0], relacion[1]]).size().reset_index(name='count')
    sns.scatterplot(data=counts, x=relacion[0], y=relacion[1], size = "count",legend=False)
    plt.title(f'Scatter Plot of {relacion[0]} vs {relacion[1]}')
    plt.xlabel(f"{relacion[0]}")
    plt.ylabel(f'{relacion[1]}')

    # Show the plot
    plt.show()

In [None]:
# Correlaciones entre variables cualitativas

from scipy.stats import chi2_contingency

cant_relaciones = 0
for i in range(len(cualitativas)):
    for j in range(i + 1,len(cualitativas)):
        contingency_table = pd.crosstab(data[cualitativas[i]], data[cualitativas[j]])
        chi2, p_value, dof, expected = chi2_contingency(contingency_table)
        print(f"Test de correlacion entre {cualitativas[i]} - {cualitativas[j]}")
        print("Estadístico chi-cuadrado:", chi2)
        print("Valor p:", p_value)
        if (p_value < 0.05):
            print(f"Hay evidencia estadistica suficiente para afirmar que existe relación entre {cualitativas[i]} - {cualitativas[j]}")
            cant_relaciones += 1
        print("\n")
print(f"Hay {cant_relaciones} relaciones entre variables cualitativas")        

In [None]:
# Correlacion entre variables numericas y cualitativas

from scipy.stats import f_oneway

cant_relaciones = 0

for cualitativa in cualitativas:
    for numerica in num_list:
        grupos = {}
        for grupo, datos in data.groupby(data[cualitativa]):
            grupos[grupo] = datos[numerica]
        resultado_anova = f_oneway(*grupos.values())
        if (resultado_anova[1] < 0.05):
            print(f"ANOVA para la variable cualitativa '{cualitativa}' y la variable numérica '{numerica}':")
            print("Estadístico F:", resultado_anova[0])
            print("Valor p:", resultado_anova[1])
            print(f"Hay evidencia estadistica suficiente para afirmar que existe relación entre {cualitativa} - {numerica}\n")
            cant_relaciones += 1

print(f"Hay {cant_relaciones} relaciones significativas entre cualitativas y cuantitativas")
