Integrantes:

*   Daniel Perea Mercado
*   David Diaz Rodriguez
*   Nicolas Niño Valderrama
*   Valentina Jimenez Torres

# **Preparación del notebook**

___
## Cargue de librerias

In [None]:
!pip install unidecode

In [None]:
# Eliminar Warnings
import warnings
warnings.filterwarnings("ignore")

# Data
import pandas as pd
import numpy as np
from datetime import datetime
import unidecode
from scipy.stats import chi2_contingency
from sklearn.preprocessing import LabelEncoder

# Estadística
import math
import scipy.stats as stats
from math import pi
from scipy.stats import zscore

# Visualización
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
import plotly.subplots as sp
import seaborn as sns
from matplotlib.patches import Patch


# Modelling
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression, LogisticRegression
import statsmodels.api as sm
from sklearn.metrics import mean_squared_error,  mean_absolute_error, mean_absolute_percentage_error, r2_score, classification_report, accuracy_score,confusion_matrix, ConfusionMatrixDisplay, f1_score
import math

___
## Instalación del entorno de GitHub

In [None]:
# Instalar git en Colab si no está instalado
!apt-get install git

In [None]:
# Clonar el repositorio de GitHub
!git clone https://github.com/niconinov/Proyecto-Aula.git

___
## Descarga de las bases de datos en el notebook

In [None]:
# Nombre de las bases de datos en GitHub
names =['algebra_vectorial', 'calculo_diferencial']

In [None]:
# Lectura de los csv en GitHub
dfs = {}

for i in names:
  dfs[i] = pd.read_csv(f'/content/Proyecto-Aula/{i}.csv')

In [None]:
# Creación de las bases de datos
df_alg = pd.DataFrame(dfs['algebra_vectorial'])
df_cal = pd.DataFrame(dfs['calculo_diferencial'].iloc[:, 1:])

In [None]:
df_alg = pd.read_csv('/content/Proyecto-Aula/algebra_vectorial.csv', sep=';')
df_alg = df_alg.drop(df_alg.columns[0], axis=1)
df_alg.head()

___
# **Tratamiento de las bases de datos**

## CÁLCULO DIFERENCIAL

### Exploración

In [None]:
df_cal.shape

In [None]:
# Respectivas variables ordinales en categorías ordinales

categorical_columns = ['madre_edu', 'padre_edu', 't_examen', 't_estudio', 'relacion_fam', 'tiempo_libre',
                        'salir_amigos', 'cons_alcohol_sem', 'cons_alcohol_finde', 'salud']

df_cal[categorical_columns] = df_cal[categorical_columns].astype('object')

In [None]:
df_cal.info()

In [None]:
df_cal.head()

In [None]:
# Se guarda esta copia para cambiar el nombre de las columnas en el dataframe de álgebra
df_cal_og = df_cal.copy()

### Datos duplicados

In [None]:
df_cal.duplicated().sum()

In [None]:
duplicadoscal = df_cal[df_cal.duplicated(keep=False)]
print(duplicadoscal)

In [None]:
# Eliminación de los datos duplicados
df_cal = df_cal.drop_duplicates()

En el DataFrame df_cal, se identificaron dos filas duplicadas, ubicadas en las posiciones 395 y 396. Para asegurar la integridad y calidad de los datos, se ha decidido eliminar estas filas duplicadas antes de continuar con el tratamiento y análisis de la base de datos.

### Valores nulos

In [None]:
nuloscal = df_cal.isnull().sum()
for columna, cantidad in nuloscal.items():
    print(f"La columna '{columna}' tiene {cantidad} observaciones nulas.")

Se identifica y reporta la cantidad de valores nulos en cada columna del DataFrame, proporcionando una visión general de la cantidad de datos faltantes por columna, lo cual es útil para la limpieza y el análisis de datos. La salida del código ayudará a identificar las columnas que podrían necesitar atención adicional para manejar los valores nulos, ya sea mediante imputación, eliminación o alguna otra estrategia de tratamiento de datos faltantes. Para este caso, se puede evidenciar que en el DataFrame no se encuentran datos nulos.

### Outliers

Revisamos el método gráfico para las variables con naturaleza numérica, las variables son: 'edad', 'faltas', 'ausencias', 'nota_01', 'nota_02', 'nota_03'.

In [None]:
columnas_especificas = ['edad', 'faltas', 'ausencias', 'nota_01', 'nota_02', 'nota_03']

# Configuramos el número de columnas y filas
n_cols = 3
n_rows = math.ceil(len(columnas_especificas) / n_cols)

# Creamos la figura y los ejes
fig, axes = plt.subplots(n_rows, n_cols, figsize=(18, 6 * n_rows))

# Generamos los boxplots
for i, col in enumerate(columnas_especificas):
    row = i // n_cols
    col_idx = i % n_cols
    sns.boxplot(data=df_cal, x=col, ax=axes[row, col_idx])
    axes[row, col_idx].set_xlabel(col.capitalize())
    axes[row, col_idx].set_title(f'Boxplot de {col.capitalize()}')

# Eliminamos los ejes vacíos
for j in range(i + 1, n_rows * n_cols):
    row = j // n_cols
    col_idx = j % n_cols
    fig.delaxes(axes[row, col_idx])

# Ajustamos el layout para que no se solapen las etiquetas
plt.tight_layout()
plt.show()

Revisamos el z-core para aquellas variables con puntos fuera de la caja

In [None]:
#Obtenemos el conteo de los valores únicos de cada variable para analizar los outliers
columnas = ['edad', 'faltas', 'ausencias', 'nota_02']

for col in columnas:
    conteo_valores = df_cal[col].value_counts().sort_index()
    print(f"Variable:")
    print(conteo_valores)
    print("---")

In [None]:
for col in columnas:

    # Calcular z-score para cada columna y obtener su valor absoluto
    z_scores = zscore(df_cal[col])
    abs_z_scores = np.abs(z_scores)

    # Seleccionar los outliers usando un límite de 3
    outliers_zscore = df_cal[abs_z_scores > 3]

    # Contar el número de valores atípicos
    num_outliers = outliers_zscore[col].count()

    # Imprimir el nombre de la columna, el valor mínimo del outlier y el número de outliers
    print(f"Variable: {col}")
    print(f"Número de valores atípicos: {num_outliers}")
    print(f"Outlier mínimo (z-score): {outliers_zscore[col].min()}")
    print("---")

In [None]:
# En el caso de la variable edad, considerando el tamaño relativamente pequeño del dataframe
# se decide imputar los 2 outliers con la mediana
z_scores = zscore(df_cal['edad'])
abs_z_scores = np.abs(z_scores)

outliers_zscore = df_cal[abs_z_scores > 3]

mediana = df_cal['edad'].median()
df_cal.loc[outliers_zscore.index, 'edad'] = mediana

print('La mediana de la variable edad es', mediana)
print("---")
print(df_cal['edad'].value_counts())

In [None]:
# En el caso de la variable faltas, no se consideran valores atípicos al resultado del código z-score pues
# entre el conteo para 2 faltas y el conteo para 3 faltas hay un sólo registro de diferencia. En este caso,
# se prefiere hacer una transformación a booleana creando las nuevas categorías 'No falta a clase' con los
# registros de cero faltas y otra categoría 'Falta a clase' con los registros de 1, 2 y 3 faltas.
df_cal['faltas'].value_counts()

In [None]:
# Aplicamos la recategorización para la variable faltas
def Transf(faltas):
    if faltas == 0:
        return 'No falta a clase'
    else:
        return 'Falta a clase'

# Aplicar la función a la columna 'ausencias'
df_cal['faltas'] = df_cal['faltas'].apply(Transf)
df_cal['faltas'].value_counts()

In [None]:
# Aplicamos la recategorización para la variable ausencias
def Transf(ausencias):
    if ausencias == 0:
        return 'No falta a la universidad'
    else:
        return 'Falta a la universidad'

# Aplicar la función a la columna 'ausencias'
df_cal['ausencias'] = df_cal['ausencias'].apply(Transf)
df_cal['ausencias'].value_counts()

In [None]:
# En el caso de la variable ausencias, considerando el tamaño relativamente pequeño del dataframe
# se decide imputar los 6 outliers con la mediana
# z_scores = zscore(df_cal['ausencias'])
# abs_z_scores = np.abs(z_scores)

# outliers_zscore = df_cal[abs_z_scores > 3]

# mediana = df_cal['ausencias'].median()
# df_cal.loc[outliers_zscore.index, 'ausencias'] = mediana

# print('La mediana para imputar en la variable ausencias es', mediana)
# print("---")
# print(df_cal['ausencias'].value_counts().sort_index())

Finalmente para nota 02, el punto atípico del boxplot es la nota 0 que cuenta con 13 registros. Consideramos que en este caso y con apoyo del z-score que no muestra atípicos para la variable, no es necesario hacer tratamiento, pues brinda información relevante.

### Análisis univariado

#### Variable objetivo

In [None]:
df_cal['nota_03'].describe()

En la variable nota_03, la calificación promedio fue de 10-11, lo que sugiere que la mayoría de los estudiantes obtuvo notas cercanas a este valor. Sin embargo, hubo una gran variación en los resultados, la nota más baja fue 0, mientras que la más alta fue 20. Una cuarta parte de los estudiantes obtuvo menos de 8 puntos, mientras que la mitad logró una nota igual o menor a 11. Los estudiantes con mejores resultados, es decir, aquellos en el 25% superior, alcanzaron calificaciones de 14 o más.

In [None]:
## Distribución de la variable
sns.set_style('darkgrid')

plt.figure(figsize=(5, 5))
sns.histplot(df_cal['nota_03'], bins=len(df_cal['nota_03'].unique()), kde=True, color='blue', edgecolor='black')

plt.title('Distribución de la variable objetivo nota_03', fontsize=14)
plt.xlabel('Nota 03', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)

plt.show()

In [None]:
#retorno valores shapiro
statistic, p_value = stats.shapiro(df_cal['nota_03'])
#Imprimir estadistica de prueba
print("estadistica de prueba:", statistic)
#Imprimir p_value
print("p-value:", p_value)

Los resultados de la prueba de Shapiro para la variable nota_03 indican una estadística de prueba de 0.9287 y un p-valor extremadamente bajo (8.8359e-13). Dado que el p-valor es mucho menor que un nivel de significancia comúnmente utilizado (0.05), rechazamos la hipótesis nula de normalidad. Por lo tanto, podemos concluir que la variable nota_03 no sigue una distribución normal.

#### Análisis variables numéricas

###### Resumen estadístico

In [None]:
# Resumen estadístico para las variables numéricas
columnas_especificas = ['edad', 'nota_01', 'nota_02']
df_cal[columnas_especificas].describe()

El análisis estadístico de las variables muestra que la edad promedio de los estudiantes es de 16 a 17 años, con poca variabilidad, y que la media de ausencias es 5-6, aunque con una alta dispersión, llegando hasta 28 ausencias en algunos casos. Las calificaciones promedio de nota_01 y nota_02 son 10-11, respectivamente, con una distribución relativamente simétrica en ambas, aunque nota_02 muestra una mayor dispersión y un valor mínimo de 0.

###### Distribuciones

In [None]:
## Distribución de la variable
sns.set_style('darkgrid')

n_col = 2  # Número de columnas
n_row = (len(columnas_especificas) + 1) // 2  # Número de filas

fig, axes = plt.subplots(n_row, n_col, figsize=(12, 6))

# Aplanar la matriz de ejes para iterar fácilmente
axes = axes.flatten()

# Crear histogramas para cada variable
for i, columna in enumerate(columnas_especificas):
    sns.histplot(df_cal[columna], bins=len(df_cal[columna].unique()), kde=True, color='blue', edgecolor='black', ax=axes[i])
    axes[i].set_title(f'Histograma de {columna}', fontsize=14)
    axes[i].set_xlabel(columna, fontsize=12)
    axes[i].set_ylabel('Frecuencia', fontsize=12)

# Eliminar ejes vacíos si hay menos subgráficos que columnas
for j in range(len(columnas_especificas), len(axes)):
    fig.delaxes(axes[j])

# Ajustar el espacio entre las filas y columnas
plt.subplots_adjust(hspace=0.8, wspace=0.3)  # Aumenta el hspace para más espacio entre filas

plt.show()

##### Pruebas de normalidad

In [None]:
for columna in columnas_especificas:
    statistic, p_value = stats.shapiro(df_cal[columna])

    print(f"\nVariable: {columna}")
    print("Estadística de prueba:", statistic)
    print("p-value:", p_value)

    if p_value > 0.05:
        print(f"La variable {columna} sigue una distribución normal (El p-value es mayor a 0.05).")
    else:
        print(f"La variable {columna} no sigue una distribución normal (El p-value es menor a 0.05).")

    print("\n-----------------------------------------")

No sólo la variable respuesta NO sigue una distribución normal, sino que además de esto, ninguna de las variables númericas lo sigue.

#### Análisis variables categóricas

##### **Variables categóricas con más de dos categorías**

###### Exploración

Para las variables categóricas consideramos que las categorías con menos del 5% se podrían considerar ruido, dependiendo del contexto.

In [None]:
# Lista de columnas para graficar
columnas = [col for col in df_cal.select_dtypes(include=['object']).columns
                                   if len(df_cal[col].unique()) > 2]

# Número de gráficos
n = len(columnas)
n_cols = 2
n_rows = (n + 1) // n_cols  # Calcula el número de filas necesarias

fig, axes = plt.subplots(n_rows, n_cols, figsize=(14, 4 * n_rows))
axes = axes.flatten()  # Aplanar la matriz de ejes

for i, columna in enumerate(columnas):
    sizes = df_cal[columna].value_counts()
    labels = sizes.index
    counts = sizes.values

    # Crear el gráfico de dona sin etiquetas
    wedges, texts, autotexts = axes[i].pie(sizes, autopct='%1.1f%%', startangle=140, pctdistance=0.85)
    centre_circle = plt.Circle((0, 0), 0.70, fc='white')
    axes[i].add_artist(centre_circle)

    # Crear leyenda con conteos
    legend_labels = [f'{label} (Conteo: {count})' for label, count in zip(labels, counts)]
    axes[i].legend(wedges, legend_labels, title="Categorías", loc="upper left", bbox_to_anchor=(1, 1), fontsize='small')

    axes[i].set_title(f'Diagrama de Dona - {columna}')

# Eliminar ejes vacíos si hay menos gráficos que subplots
for ax in axes[n:]:
    ax.remove()

plt.tight_layout(rect=[0, 0, 0.75, 1])  # Ajustar el espacio para la leyenda
plt.show()

In [None]:
print(columnas)

###### madre_edu y padre_edu

En el caso de estas variables, aunque la categoría 0 (ninguna educación) hace ruido al representar menos del 1% de los datos, consideramos que no es correto agruparla con ningún otra categoría, pues el contexto de no tener ningún tipo de educación es muy diferente a tener un mínimo grado pues esto puede influir en la habilidad de leer, escribir y tener conocimiento básico de matemáticas.

###### t_examen

En el caso de esta categoría, al tener una connotación importante tener mas de una hora con las demás opciones, no se considera viable reagrupar.

###### madre_trab

En el caso de esta variable, al no haber ningún tipo de relación entre los trabajos, tampoco es correcto pensar en reagrupaciones.

###### relacion_fam, tiempo_libre, salir_amigos, cons_alcohol_sem, cons_alcohol_finde, salud






En el caso de estas variables, calificadas desde 1 - muy bajo hasta 5 - muy alto, no es correcto reagrupar las categorías para darle tratamiento, ya que cada una representa una percepción y comportamiento en diferentes aspectos, los valores en cada variable tienen un significado específico dentro de su contexto, lo cual impide que se puedan tratar de manera uniforme.

##### **Variables boolenas**

Para las variables booleanas hemos definido un umbral de 80-20. Donde las varibles que se distribuyan mayor de 80 y menor de 20, no serán significativas y se eliminarán del modelo.

In [None]:
# Lista de columnas para graficar
columnas = [col for col in df_cal.select_dtypes(include=['object']).columns
            if len(df_cal[col].unique()) <= 2]

columnas_mayor_80 = []

# Evaluar cada columna y crear gráficos
n = len(columnas)
n_cols = 2
n_rows = (n + 1) // n_cols  # Calcula el número de filas necesarias

fig, axes = plt.subplots(n_rows, n_cols, figsize=(14, 4 * n_rows))
axes = axes.flatten()  # Aplanar la matriz de ejes

for i, columna in enumerate(columnas):
    sizes = df_cal[columna].value_counts(normalize=True) * 100
    if any(sizes > 80):
        columnas_mayor_80.append(columna)

    # Crear gráfico de dona para cada columna
    sizes = df_cal[columna].value_counts()
    labels = sizes.index
    counts = sizes.values

    # Crear el gráfico de dona
    wedges, texts, autotexts = axes[i].pie(sizes, autopct='%1.1f%%', startangle=140, pctdistance=0.85)
    centre_circle = plt.Circle((0, 0), 0.70, fc='white')
    axes[i].add_artist(centre_circle)

    # Crear leyenda con conteos
    legend_labels = [f'{label} (Conteo: {count})' for label, count in zip(labels, counts)]
    axes[i].legend(wedges, legend_labels, title="Categorías", loc="upper left", bbox_to_anchor=(1, 1), fontsize='small')

    axes[i].set_title(f'Diagrama de dona - {columna}')

# Eliminar ejes vacíos si hay menos gráficos que subplots
for ax in axes[n:]:
    ax.remove()

plt.tight_layout(rect=[0, 0, 0.75, 1])  # Ajustar el espacio para la leyenda
plt.show()

In [None]:
print("Columnas con categorías mayores al 80%:")
print(columnas_mayor_80)

In [None]:
df_cal = df_cal.drop(columns = columnas_mayor_80, axis=1)

### Analisis Bivariado

#### Variables numéricas

##### Correlación y multicolinealidad

Se revisa la correlación de las variables númericas con la variable a predecir

In [None]:
corr_matrix_num = df_cal.select_dtypes(include=np.number).corr()
print("Correlaciones de las variables numericas con 'nota_03':")
print(corr_matrix_num["nota_03"].sort_values(ascending=False))

In [None]:
threshold = 0.8 #este valor se utiliza para correlacion del 80 en adelante
filter_= np.abs(corr_matrix_num["nota_03"])> threshold
corr_features = corr_matrix_num.columns[filter_].tolist()
plt.figure(figsize=(12,8))
sns.heatmap(df_cal[corr_features].corr(),annot=True, cmap = 'Blues', fmt=".2f")
plt.title("Correlacion entre variables numericas (Threshold: {})".format(threshold))
plt.show()

In [None]:
# Variables numéricas
sns.pairplot(df_cal[corr_features], diag_kind="kde")

Por la alta correlación de nota_01 y nota_02 con la variable respuesta, se realiza la prueba de correlación entre ellas para revisar multicolinealidad.

In [None]:
correlacion_nota_01_02 = df_cal["nota_01"].corr(df_cal["nota_02"])
print("La correlación entre nota_01 y nota_02 es:", correlacion_nota_01_02)

Al encontrar multicolinealidad entre ellas, se decide eliminar nota_01, pues es la que menor correlación tiene con la variable respuesta..

In [None]:
df_cal = df_cal.drop(['nota_01'], axis=1)

#### Variables categóricas con más de dos categorías

###### Correlaciones con matriz de Cramér's V

Se revisa la correlación de estas variables categóricas entre sí.
Cramér's V usa la tabla de contingencia para calcular el estadístico Chi-cuadrado, que luego se convierte en una medida de la fuerza de la asociación entre las variables categóricas. El estadístico de pruba V va de 0 (sin asociación) a 1 (asociación perfecta).

In [None]:
def cramers_v(x, y):
    # Crear una tabla de contingencia
    contingency_table = pd.crosstab(x, y)
    # Calcular el estadístico Chi-Cuadrado
    chi2_stat, _, _, _ = chi2_contingency(contingency_table)
    # Obtener el número de observaciones
    n = contingency_table.sum().sum()
    # Número de filas y columnas
    k = min(contingency_table.shape) - 1
    # Calcular Cramer's V
    return np.sqrt(chi2_stat / (n * k))

In [None]:
# Lista de variables categóricas
categorical_vars = [col for col in df_cal.select_dtypes(include=['object']).columns
                                   if len(df_cal[col].unique()) > 2]

# Crear un DataFrame para almacenar los resultados
cramers_v_results = pd.DataFrame(index=categorical_vars, columns=categorical_vars)

# Calcular Cramér's V para cada par de variables categóricas
for var1 in categorical_vars:
    for var2 in categorical_vars:
        if var1 != var2:
            cramers_v_value = cramers_v(df_cal[var1], df_cal[var2])
            cramers_v_results.loc[var1, var2] = cramers_v_value
        else:
            # Para la diagonal (mismo par de variables), podemos poner NaN o 0
            cramers_v_results.loc[var1, var2] = np.nan

print("Matriz de Cramér's V entre variables categóricas:")
print(cramers_v_results)

En el caso de las variables categóricas ordinales, no encontramos problemas de colinealidad o multicolinealidad, considerando correlacines entre ellas con un nivel de significancia por encima del 80%.

#### Variables categóricas booleanas

###### Correlaciones con matriz de Cramér's V

Se revisa la correlación de estas variables categóricas entre sí.
Cramér's V usa la tabla de contingencia para calcular el estadístico Chi-cuadrado, que luego se convierte en una medida de la fuerza de la asociación entre las variables categóricas. El estadístico de pruba V va de 0 (sin asociación) a 1 (asociación perfecta).

In [None]:
# Lista de variables categóricas
categorical_vars = [col for col in df_cal.select_dtypes(include=['object']).columns
                                   if len(df_cal[col].unique() == 2)]

# Crear un DataFrame para almacenar los resultados
cramers_v_results = pd.DataFrame(index=categorical_vars, columns=categorical_vars)

# Calcular Cramér's V para cada par de variables categóricas
for var1 in categorical_vars:
    for var2 in categorical_vars:
        if var1 != var2:
            cramers_v_value = cramers_v(df_cal[var1], df_cal[var2])
            cramers_v_results.loc[var1, var2] = cramers_v_value
        else:
            # Para la diagonal (mismo par de variables), podemos poner NaN o 0
            cramers_v_results.loc[var1, var2] = np.nan

print("Matriz de Cramér's V entre variables categóricas:")
print(cramers_v_results)

En el caso de las variables categóricas booleanas, no encontramos problemas de colinealidad o multicolinealidad, considerando correlacines entre ellas con un nivel de significancia por encima del 80%.

### Transformaciones

Revisamos los valores únicos dentro de cada variable de manera gráfica

In [None]:
# Se valida que variables no pueden ser booleanas
columnas_categoricas_no_dummies = [col for col in df_cal.select_dtypes(include=['object']).columns
                                   if len(df_cal[col].unique()) > 2]

print("Columnas con más de dos valores únicos:")
print(columnas_categoricas_no_dummies)

In [None]:
# Conversión de variables categóricas con dos valores únicos en variables dummies
df_cal = pd.get_dummies(df_cal,
                        columns=[col for col in df_cal.select_dtypes(include=['object']).columns
                                 if col not in columnas_categoricas_no_dummies],
                        drop_first=True)

df_cal.info()

In [None]:
# Para las variables categóricas con más de dos valores únicos se trabaja el método One-Hot para
# transformarlas en un conjunto de columnas binarias que indiquen la presencia o ausencia de la categoría

columnas_originales = df_cal.columns.tolist()
df_cal = pd.get_dummies(df_cal, columns=columnas_categoricas_no_dummies)
columnas_resultantes = df_cal.columns.tolist()

# Obtener las nuevas columnas generadas por pd.get_dummies() para mas adelante
nuevas_columnas = list(set(columnas_resultantes) - set(columnas_originales))
print(nuevas_columnas)

In [None]:
# Se normalizan las columnas númericas dividiendo cada valor por el máximo valor en la columna respectiva,
# de forma que los valores queden en un rango entre 0 y 1, exceptuando la variable a precedir 'nota_03'.
numeric_columns = []

for col in df_cal.select_dtypes(include=np.number).columns:
    numeric_columns.append(col)
    if col != 'nota_03':
        df_cal[col] = df_cal[col] / df_cal[col].max()

df_cal[numeric_columns].head()

In [None]:
#Se normaliza la variable a predecir (opcional)
# df_cal['nota_03'] = df_cal['nota_03']/df_cal['nota_03'].max()
# df_cal['nota_03'].head()

In [None]:
df_cal.head()

In [None]:
df_cal.info()

### Análisis univariado VARIABLES NUEVAS

##### **Variables boolenas**

Para las variables booleanas hemos definido un umbral de 80-20. Donde las varibles que se distribuyan mayor de 80 y menor de 20, no serán significativas y se eliminarán del modelo.

In [None]:
# Lista de columnas para graficar
nuevas_columnas.sort()
columnas = nuevas_columnas

columnas_mayor_80 = []

# Evaluar cada columna y crear gráficos
n = len(columnas)
n_cols = 2
n_rows = (n + 1) // n_cols  # Calcula el número de filas necesarias

fig, axes = plt.subplots(n_rows, n_cols, figsize=(14, 4 * n_rows))
axes = axes.flatten()  # Aplanar la matriz de ejes

for i, columna in enumerate(columnas):
    sizes = df_cal[columna].value_counts(normalize=True) * 100
    if any(sizes > 80):
        columnas_mayor_80.append(columna)

    # Crear gráfico de dona para cada columna
    sizes = df_cal[columna].value_counts()
    labels = sizes.index
    counts = sizes.values

    # Crear el gráfico de dona
    wedges, texts, autotexts = axes[i].pie(sizes, autopct='%1.1f%%', startangle=140, pctdistance=0.85)
    centre_circle = plt.Circle((0, 0), 0.70, fc='white')
    axes[i].add_artist(centre_circle)

    # Crear leyenda con conteos
    legend_labels = [f'{label} (Conteo: {count})' for label, count in zip(labels, counts)]
    axes[i].legend(wedges, legend_labels, title="Categorías", loc="upper left", bbox_to_anchor=(1, 1), fontsize='small')

    axes[i].set_title(f'Diagrama de dona - {columna}')

# Eliminar ejes vacíos si hay menos gráficos que subplots
for ax in axes[n:]:
    ax.remove()

plt.tight_layout(rect=[0, 0, 0.75, 1])  # Ajustar el espacio para la leyenda
plt.show()

In [None]:
print("Columnas con categorías mayores al 80%:")
columnas_mayor_80.sort()
print(columnas_mayor_80)

In [None]:
df_cal = df_cal.drop(columns = ['razon_otro', 't_examen_3', 't_examen_4'], axis=1)

#### **Ultimas transformaciónes**

Al analizar las nuevas columnas resultantes de la dummización de las variables categóricas con más de dos valores únicos, identificamos que algunas categorías presentaban una baja representación, lo que podría influir negativamente en la capacidad predictiva del modelo. Para mitigar este efecto, decidimos agrupar valores con características similares dentro de estas variables categóricas. Este agrupamiento nos permitió mejorar la proporción de los datos en cada categoría, generando clases más equilibradas y con mayor representatividad. Además, renombramos estas nuevas variables agrupadas.

In [None]:
# Combinamos las columnas 4 y 5 de la variable cons_alcohol_finde_4
df_cal['cons_alcohol_finde_4'] = df_cal['cons_alcohol_finde_4'] | ~df_cal['cons_alcohol_finde_4'] & df_cal['cons_alcohol_finde_5']
df_cal = df_cal.drop('cons_alcohol_finde_5', axis = 1)

In [None]:
# Combinamos las columnas de la variable cons_alcohol_sem dejando solo 1 categoría cons_alcohol_sem_reg que corresponde a
# los niveles 3,4 y 5 de la variable original y el false sería un consumo esporádico con los niveles 1 y 2
df_cal['cons_alcohol_sem_reg'] = (df_cal['cons_alcohol_sem_3'] | ~df_cal['cons_alcohol_sem_3'] & df_cal['cons_alcohol_sem_4']) | ~df_cal['cons_alcohol_sem_3'] & ~df_cal['cons_alcohol_sem_4'] & df_cal['cons_alcohol_sem_5']
df_cal = df_cal.drop(columns = ['cons_alcohol_sem_3', 'cons_alcohol_sem_4', 'cons_alcohol_sem_5'], axis = 1)

In [None]:
# Combinamos las columnas 0 y 1 de la variable padre_edu
df_cal['padre_edu_1'] = df_cal['padre_edu_1'] | ~df_cal['padre_edu_1'] & df_cal['padre_edu_0']
df_cal = df_cal.drop('padre_edu_0', axis = 1)

In [None]:
# Combinamos las columnas 0 y 1 de la variable madre_edu
df_cal['madre_edu_1'] = df_cal['madre_edu_1'] | ~df_cal['madre_edu_1'] & df_cal['madre_edu_0']
df_cal = df_cal.drop('madre_edu_0', axis = 1)

In [None]:
# Incluimos la opción salud en otros para la variable madre_trab
df_cal['madre_trab_otro'] = df_cal['madre_trab_otro'] | ~df_cal['madre_trab_otro'] & df_cal['madre_trab_salud']
df_cal = df_cal.drop('madre_trab_salud', axis = 1)

In [None]:
# Incluimos la opción en casa en otros para la variable padre_trab
df_cal['padre_trab_otro'] = df_cal['padre_trab_otro'] | ~df_cal['padre_trab_otro'] & df_cal['padre_trab_en_casa']
df_cal = df_cal.drop('padre_trab_en_casa', axis = 1)

In [None]:
# Incluimos la opción salud y profesor en servicios para la variable padre_trab, entendiendo servicios como trabajos
# del sector publico
df_cal['padre_trab_servicios'] = (df_cal['padre_trab_servicios'] | ~df_cal['padre_trab_servicios'] & df_cal['padre_trab_profesor']) | ~df_cal['padre_trab_servicios'] & ~df_cal['padre_trab_profesor'] & df_cal['padre_trab_salud']
df_cal = df_cal.drop(columns = ['padre_trab_profesor', 'padre_trab_salud'], axis = 1)

In [None]:
#Reducimos las opciones de relacion_fam de 1,2,3,4 y 5 a regular (1,2 y 3), buena (4) y excelente (5)
df_cal['relacion_fam_reg'] = (df_cal['relacion_fam_1'] | ~df_cal['relacion_fam_1'] & df_cal['relacion_fam_2']) | ~df_cal['relacion_fam_1'] & ~df_cal['relacion_fam_2'] & df_cal['relacion_fam_3']
df_cal = df_cal.drop(columns = ['relacion_fam_1', 'relacion_fam_2', 'relacion_fam_3'], axis = 1)

In [None]:
# Renombrar la variable
df_cal = df_cal.rename(columns={'relacion_fam_4': 'relacion_fam_buena'})

In [None]:
# Renombrar la variable
df_cal = df_cal.rename(columns={'relacion_fam_5': 'relacion_fam_exc'})

In [None]:
#Reducimos las opciones de salir_amigos de 1,2,3,4 y 5 a bajo (1 y 2), medio (3) y alto (4 y 5)
df_cal['salir_amigos_bajo'] = df_cal['salir_amigos_2'] | ~df_cal['salir_amigos_2'] & df_cal['salir_amigos_1']
df_cal = df_cal.drop(columns = ['salir_amigos_1', 'salir_amigos_2'], axis = 1)

In [None]:
# Renombrar la variable
df_cal = df_cal.rename(columns={'salir_amigos_3': 'salir_amigos_medio'})

In [None]:
# Combinamos las columnas con el operador | y ~
df_cal['salir_amigos_alto'] = df_cal['salir_amigos_4'] | ~df_cal['salir_amigos_4'] & df_cal['salir_amigos_5']
df_cal = df_cal.drop(columns = ['salir_amigos_4', 'salir_amigos_5'], axis = 1)

In [None]:
#Reducimos las opciones de salud de 1,2,3,4 y 5 a mala (1 y 2), regular (3) y alta (4 y 5)
df_cal['salud_mala'] = df_cal['salud_1'] | ~df_cal['salud_1'] & df_cal['salud_2']
df_cal = df_cal.drop(columns = ['salud_1', 'salud_2'], axis = 1)

In [None]:
# Renombrar la variable
df_cal = df_cal.rename(columns={'salud_3': 'salud_regular'})

In [None]:
# Combinamos las columnas con el operador | y ~
df_cal['salud_alta'] = df_cal['salud_4'] | ~df_cal['salud_4'] & df_cal['salud_5']
df_cal = df_cal.drop(columns = ['salud_4', 'salud_5'], axis = 1)

In [None]:
# Combinamos las columnas 3 y 4 de la variable t_estudio
df_cal['t_estudio_3'] = df_cal['t_estudio_3'] | ~df_cal['t_estudio_3'] & df_cal['t_estudio_4']
df_cal = df_cal.drop('t_estudio_4', axis = 1)

In [None]:
#Reducimos las opciones de salud de 1,2,3,4 y 5 a vajo (1 y 2), medio (3) y alto (4 y 5)
df_cal['tiempo_libre_bajo'] = df_cal['tiempo_libre_1'] | ~df_cal['tiempo_libre_1'] & df_cal['tiempo_libre_2']
df_cal = df_cal.drop(columns = ['tiempo_libre_1', 'tiempo_libre_2'], axis = 1)

In [None]:
# Renombrar la variable
df_cal = df_cal.rename(columns={'tiempo_libre_3': 'tiempo_libre_medio'})

In [None]:
# Combinamos las columnas con el operador | y ~
df_cal['tiempo_libre_alto'] = df_cal['tiempo_libre_4'] | ~df_cal['tiempo_libre_4'] & df_cal['tiempo_libre_5']
df_cal = df_cal.drop(columns = ['tiempo_libre_4', 'tiempo_libre_5'], axis = 1)

In [None]:
columnas_resultantes = df_cal.columns.tolist()

# Obtener las nuevas columnas generadas por pd.get_dummies() para mas adelante
nuevas_columnas = list(set(columnas_resultantes) - set(columnas_originales))

# Lista de columnas para graficar
nuevas_columnas.sort()
columnas = nuevas_columnas

columnas_mayor_80 = []

# Evaluar cada columna y crear gráficos
n = len(columnas)
n_cols = 2
n_rows = (n + 1) // n_cols  # Calcula el número de filas necesarias

fig, axes = plt.subplots(n_rows, n_cols, figsize=(14, 4 * n_rows))
axes = axes.flatten()  # Aplanar la matriz de ejes

for i, columna in enumerate(columnas):
    sizes = df_cal[columna].value_counts(normalize=True) * 100
    if any(sizes > 80):
        columnas_mayor_80.append(columna)

    # Crear gráfico de dona para cada columna
    sizes = df_cal[columna].value_counts()
    labels = sizes.index
    counts = sizes.values

    # Crear el gráfico de dona
    wedges, texts, autotexts = axes[i].pie(sizes, autopct='%1.1f%%', startangle=140, pctdistance=0.85)
    centre_circle = plt.Circle((0, 0), 0.70, fc='white')
    axes[i].add_artist(centre_circle)

    # Crear leyenda con conteos
    legend_labels = [f'{label} (Conteo: {count})' for label, count in zip(labels, counts)]
    axes[i].legend(wedges, legend_labels, title="Categorías", loc="upper left", bbox_to_anchor=(1, 1), fontsize='small')

    axes[i].set_title(f'Diagrama de dona - {columna}')

# Eliminar ejes vacíos si hay menos gráficos que subplots
for ax in axes[n:]:
    ax.remove()

plt.tight_layout(rect=[0, 0, 0.75, 1])  # Ajustar el espacio para la leyenda
plt.show()

Para las variables booleanas hemos definido un umbral de 80-20. Donde las varibles que se distribuyan mayor de 80 y menor de 20, no serán significativas y se eliminarán del modelo.

In [None]:
print("Columnas con categorías mayores al 80%:")
columnas_mayor_80.sort()
print(columnas_mayor_80)

In [None]:
df_cal = df_cal.drop(columns = columnas_mayor_80, axis=1)

### Modelo de regresión

#### Regresión lineal


In [None]:
# definir gráfica
fig = px.histogram(df_cal, x = 'nota_03', nbins = 50, width = 650, height = 500, title = '<b>Histograma nota 3<b>')

# agregar detalles
fig.update_layout(
    xaxis_title = '<b>Nota<b>',
    yaxis_title = '<b>Frecuencia<b>',
    template = 'simple_white',
    title_x = 0.5,
    barmode='overlay')
fig.update_traces(opacity=0.75)

fig.show()

In [None]:
X_cal = df_cal.drop(["nota_03"], axis=1)
y_cal = df_cal["nota_03"]
# Tranformación logarítmica
y_log = np.log(y_cal + 1)
# Separar los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_cal, y_log, test_size=0.3, random_state=59)
# Inicializar y entrenar el modelo GBM
lr_reg = LinearRegression()
lr_reg.fit(X_train, y_train) # .fit: entrenar el modelo
# Realizar predicciones
lr_pred = lr_reg.predict(X_test)
# Evaluación del modelo (por ejemplo, precisión)
accuracy = lr_reg.score(X_test, y_test)
print("Accuracy:", accuracy)
# Metricas
print("MSE: %.2f" % mean_squared_error(y_test, lr_pred))
print("RMSE %.2f" % math.sqrt(mean_squared_error(y_test, lr_pred)))
print("MAE: %.2f" % mean_absolute_error(y_test, lr_pred))
print("MAPE: %.2f" % mean_absolute_percentage_error(y_test, lr_pred))
print("R2: %.2f" % r2_score(y_test, lr_pred))
# R2 ajustado
r2 = r2_score(y_test, lr_pred)
adj_r2 = 1 - (1-r2)*(len(y_test )-1)/(len(y_test)-X_test.shape[1]-1)
print("R2-adjusted: %.2f" % adj_r2)

In [None]:
lr_pred = lr_reg.predict(X_train)

In [None]:
# Metricas
accuracy = lr_reg.score(X_test, y_test)
print("Accuracy:", accuracy)
print("MSE: %.2f" % mean_squared_error(y_train, lr_pred))
print("RMSE %.2f" % math.sqrt(mean_squared_error(y_train, lr_pred)))
print("MAE: %.2f" % mean_absolute_error(y_train, lr_pred))
print("MAPE: %.2f" % mean_absolute_percentage_error(y_train, lr_pred))
print("R2: %.2f" % r2_score(y_train, lr_pred))

# R2 ajustado
r2 = r2_score(y_train, lr_pred)
adj_r2 = 1 - (1-r2)*(len(y_train)-1)/(len(y_train)-X_train.shape[1]-1)
print("R2-adjusted: %.2f" % adj_r2)

## ÁLGEBRA VECTORIAL

### Exploración

In [None]:
df_alg.shape

In [None]:
df_alg.info()

In [None]:
df_alg.head()

___
Al revisar la dimesión del data frame de Algebra Vectorial notamos que toda la información esta condensada en una única columna que esta compuesta por las demás variables separadas por ";" por lo que debemos dividirlas para trabajar con ellas.

In [None]:
# Separación de las columnas
#df_alg1 = df_alg.iloc[:, 0].str.split(';', expand=True)
# Eliminar la primera columna que actúa como índice
#df_alg1 = df_alg1.drop(df_alg1.columns[0], axis=1)
#df_alg1.shape

In [None]:
df_alg1 = df_alg

In [None]:
df_alg1.head()

Además, cambiamos los nombres de las columnas para mejor entendimiento.

In [None]:
# Extraer los nombres de las columnas de df_cal_og
col_name = df_cal_og.columns.tolist()

# Reemplazar los nombres de las columnas en df_agl1 con los extraídos de df_cal_og
#df_alg1.columns = col_name

In [None]:
df_alg1.head()

In [None]:
df_alg1.info()

### Datos duplicados

In [None]:
df_alg1.duplicated().sum()

In [None]:
duplicadosalg = df_alg1[df_alg1.duplicated(keep=False)]
print(duplicadosalg)

In [None]:
df_alg1 = df_alg1.drop_duplicates()

### Valores nulos

In [None]:
nulosalg1 = df_alg1.isnull().sum()

for columna, cantidad in nulosalg1.items():
    print(f"La columna '{columna}' tiene {cantidad} observaciones nulas.")

### Resumen estadístico

In [None]:
pd.set_option('display.float_format', lambda x: '{:.2f}'.format(x))
df_alg1.describe()

### Outliers

Revisamos el método gráfico para las variables con naturaleza numérica, las variables son: 'edad', 'faltas', 'ausencias', 'nota_01', 'nota_02', 'nota_03'.

In [None]:
columnas_especificas = ['edad', 'faltas', 'ausencias', 'nota_01', 'nota_02', 'nota_03']

# Configuramos el número de columnas y filas
n_cols = 3
n_rows = math.ceil(len(columnas_especificas) / n_cols)

# Creamos la figura y los ejes
fig, axes = plt.subplots(n_rows, n_cols, figsize=(18, 6 * n_rows))

# Generamos los boxplots
for i, col in enumerate(columnas_especificas):
    row = i // n_cols
    col_idx = i % n_cols
    sns.boxplot(data=df_alg1, x=col, ax=axes[row, col_idx])
    axes[row, col_idx].set_xlabel(col.capitalize())
    axes[row, col_idx].set_title(f'Boxplot de {col.capitalize()}')

# Eliminamos los ejes vacíos
for j in range(i + 1, n_rows * n_cols):
    row = j // n_cols
    col_idx = j % n_cols
    fig.delaxes(axes[row, col_idx])

# Ajustamos el layout para que no se solapen las etiquetas
plt.tight_layout()
plt.show()

Revisamos el z-core para aquellas variables con puntos fuera de la caja

In [None]:
#Obtenemos el conteo de los valores únicos de cada variable para analizar los outliers
columnas = ['edad', 'faltas', 'ausencias', 'nota_01', 'nota_02', 'nota_03']

for col in columnas:
    conteo_valores = df_alg1[col].value_counts().sort_index()
    print(f"Variable:")
    print(conteo_valores)
    print("---")

In [None]:
for col in columnas:

    # Calcular z-score para cada columna y obtener su valor absoluto
    z_scores = zscore(df_alg1[col])
    abs_z_scores = np.abs(z_scores)

    # Seleccionar los outliers usando un límite de 3
    outliers_zscore = df_alg1[abs_z_scores > 3]

    # Contar el número de valores atípicos
    num_outliers = outliers_zscore[col].count()

    # Imprimir el nombre de la columna, el valor mínimo del outlier y el número de outliers
    print(f"Variable: {col}")
    print(f"Número de valores atípicos: {num_outliers}")
    print(f"Outlier mínimo (z-score): {outliers_zscore[col].min()}")
    print("---")

In [None]:
# En el caso de la variable faltas, no se consideran valores atípicos al resultado del código z-score pues
# entre el conteo para 2 faltas y el conteo para 3 faltas hay un sólo registro de diferencia. En este caso,
# se prefiere hacer una transformación a booleana creando las nuevas categorías 'No falta a clase' con los
# registros de cero faltas y otra categoría 'Falta a clase' con los registros de 1, 2 y 3 faltas.
df_alg1['faltas'].value_counts()

In [None]:
# Aplicamos la recategorización para la variable faltas
def Transf(faltas):
    if faltas == 0:
        return 'No falta a clase'
    else:
        return 'Falta a clase'

# Aplicar la función a la columna 'ausencias'
df_alg1['faltas'] = df_alg1['faltas'].apply(Transf)
df_alg1['faltas'].value_counts()

In [None]:
# Aplicamos la recategorización para la variable ausencias
def Transf(ausencias):
    if ausencias == 0:
        return 'No se asuenta a la U'
    else:
        return 'Se ausenta a la U'

# Aplicar la función a la columna 'ausencias'
df_alg1['ausencias'] = df_alg1['ausencias'].apply(Transf)
df_alg1['ausencias'].value_counts()

En el caso de las notas, el z-score nos está mostrando la nota 0 como límite de outliers, pero hemos considerado que es un valor que representa información relevante.

### Análisis univariado

#### Variable objetivo

In [None]:
## Distribución de la variable
sns.set_style('darkgrid')

plt.figure(figsize=(5, 5))
sns.histplot(df_alg1['nota_03'], bins=len(df_alg1['nota_03'].unique()), kde=True, color='blue', edgecolor='black')

plt.title('Distribución de la variable objetivo nota_03', fontsize=14)
plt.xlabel('Nota 03', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)

plt.show()

In [None]:
#retorno valores shapiro
statistic, p_value = stats.shapiro(df_alg1['nota_03'])
#Imprimir estadistica de prueba
print("estadistica de prueba:", statistic)
#Imprimir p_value
print("p-value:", p_value)

Conclusion

#### Análisis variable numéricas

###### Resumen estadístico

In [None]:
# Resumen estadístico para las variables numéricas
columnas_especificas = ['nota_01', 'nota_02']
df_alg1[columnas_especificas].describe()

El análisis estadístico de las variables muestra que la edad promedio de los estudiantes es de 16 a 17 años, con poca variabilidad, y que la media de ausencias es 3-4, aunque con una alta dispersión, llegando hasta 32 ausencias en algunos casos. Las calificaciones promedio de nota_01 y nota_02 son 11-12, con una distribución relativamente simétrica en ambas, aunque nota_02 muestra una mayor dispersión.

###### Distribuciones

In [None]:
## Distribución de la variable
sns.set_style('darkgrid')

n_col = 2  # Número de columnas
n_row = (len(columnas_especificas) + 1) // 2  # Número de filas

fig, axes = plt.subplots(n_row, n_col, figsize=(12, 6))

# Aplanar la matriz de ejes para iterar fácilmente
axes = axes.flatten()

# Crear histogramas para cada variable
for i, columna in enumerate(columnas_especificas):
    sns.histplot(df_alg1[columna], bins=len(df_alg1[columna].unique()), kde=True, color='blue', edgecolor='black', ax=axes[i])
    axes[i].set_title(f'Histograma de {columna}', fontsize=14)
    axes[i].set_xlabel(columna, fontsize=12)
    axes[i].set_ylabel('Frecuencia', fontsize=12)

# Eliminar ejes vacíos si hay menos subgráficos que columnas
for j in range(len(columnas_especificas), len(axes)):
    fig.delaxes(axes[j])

# Ajustar el espacio entre las filas y columnas
plt.subplots_adjust(hspace=0.8, wspace=0.3)  # Aumenta el hspace para más espacio entre filas

plt.show()

##### Pruebas de normalidad

In [None]:
for columna in columnas_especificas:
    statistic, p_value = stats.shapiro(df_alg1[columna])

    print(f"\nVariable: {columna}")
    print("Estadística de prueba:", statistic)
    print("p-value:", p_value)

    if p_value > 0.05:
        print(f"La variable {columna} sigue una distribución normal (El p-value es mayor a 0.05).")
    else:
        print(f"La variable {columna} no sigue una distribución normal (El p-value es menor a 0.05).")

    print("\n-----------------------------------------")

No sólo la variable respuesta NO sigue una distribución normal, sino que además de esto, ninguna de las variables númericas lo sigue.

#### Análisis variables categóricas

##### **Variables categóricas con más de dos categorías**

###### Exploración

In [None]:
# Lista de columnas para graficar
columnas = [col for col in df_alg1.select_dtypes(include=['object']).columns
                                   if len(df_alg1[col].unique()) > 2]

# Número de gráficos
n = len(columnas)
n_cols = 2
n_rows = (n + 1) // n_cols  # Calcula el número de filas necesarias

fig, axes = plt.subplots(n_rows, n_cols, figsize=(14, 4 * n_rows))
axes = axes.flatten()  # Aplanar la matriz de ejes

for i, columna in enumerate(columnas):
    sizes = df_alg1[columna].value_counts()
    labels = sizes.index
    counts = sizes.values

    # Crear el gráfico de dona sin etiquetas
    wedges, texts, autotexts = axes[i].pie(sizes, autopct='%1.1f%%', startangle=140, pctdistance=0.85)
    centre_circle = plt.Circle((0, 0), 0.70, fc='white')
    axes[i].add_artist(centre_circle)

    # Crear leyenda con conteos
    legend_labels = [f'{label} (Conteo: {count})' for label, count in zip(labels, counts)]
    axes[i].legend(wedges, legend_labels, title="Categorías", loc="upper left", bbox_to_anchor=(1, 1), fontsize='small')

    axes[i].set_title(f'Diagrama de dona - {columna}')

# Eliminar ejes vacíos si hay menos gráficos que subplots
for ax in axes[n:]:
    ax.remove()

plt.tight_layout(rect=[0, 0, 0.75, 1])  # Ajustar el espacio para la leyenda
plt.show()

###### madre_edu y padre_edu

En el caso de estas variables, aunque la categoría 0 (ninguna educación) hace ruido al representar menos del 1% de los datos, consideramos que no es correto agruparla con ningún otra categoría, pues el contexto de no tener ningún tipo de educación es muy diferente a tener un mínimo grado pues esto puede influir en la habilidad de leer, escribir y tener conocimiento básico de matemáticas.

###### t_examen

En el caso de esta categoría, al tener una connotación importante tener mas de una hora con las demás opciones, no se considera viable reagrupar.

###### relacion_fam, tiempo_libre, salir_amigos, cons_alcohol_sem, cons_alcohol_finde, salud






En el caso de estas variables, calificadas desde 1 - muy bajo hasta 5 - muy alto, no es correcto reagrupar las categorías para darle tratamiento, ya que cada una representa una percepción y comportamiento en diferentes aspectos, los valores en cada variable tienen un significado específico dentro de su contexto, lo cual impide que se puedan tratar de manera uniforme.

###### padre_trab

En el caso de esta variable, al no haber ningún tipo de relación entre los trabajos, tampoco es correcto pensar en reagrupaciones.

Para las variables categóricas consideramos que las categorías con menos del 5% se podrían considerar ruido, dependiendo del contexto.

##### **Variables boolenas**

Para las variables booleanas hemos definido un umbral de 80-20. Donde las varibles que se distribuyan mayor de 80 y menor de 20, no serán significativas y se eliminarán del modelo.

In [None]:
# Lista de columnas para graficar
columnas = [col for col in df_alg1.select_dtypes(include=['object']).columns
            if len(df_alg1[col].unique()) <= 2]

columnas_mayor_80 = []

# Evaluar cada columna y crear gráficos
n = len(columnas)
n_cols = 2
n_rows = (n + 1) // n_cols  # Calcula el número de filas necesarias

fig, axes = plt.subplots(n_rows, n_cols, figsize=(14, 4 * n_rows))
axes = axes.flatten()  # Aplanar la matriz de ejes

for i, columna in enumerate(columnas):
    sizes = df_alg1[columna].value_counts(normalize=True) * 100
    if any(sizes > 80):
        columnas_mayor_80.append(columna)

    # Crear gráfico de dona para cada columna
    sizes = df_alg1[columna].value_counts()
    labels = sizes.index
    counts = sizes.values

    # Crear el gráfico de dona
    wedges, texts, autotexts = axes[i].pie(sizes, autopct='%1.1f%%', startangle=140, pctdistance=0.85)
    centre_circle = plt.Circle((0, 0), 0.70, fc='white')
    axes[i].add_artist(centre_circle)

    # Crear leyenda con conteos
    legend_labels = [f'{label} (Conteo: {count})' for label, count in zip(labels, counts)]
    axes[i].legend(wedges, legend_labels, title="Categorías", loc="upper left", bbox_to_anchor=(1, 1), fontsize='small')

    axes[i].set_title(f'Diagrama de dona - {columna}')

# Eliminar ejes vacíos si hay menos gráficos que subplots
for ax in axes[n:]:
    ax.remove()

plt.tight_layout(rect=[0, 0, 0.75, 1])  # Ajustar el espacio para la leyenda
plt.show()

In [None]:
print("Columnas con categorías mayores al 80%:")
print(columnas_mayor_80)

In [None]:
df_alg1 = df_alg1.drop(columns = columnas_mayor_80, axis=1)

### Analisis Bivariado

#### Variables numéricas

##### Correlación y multicolinealidad

Se revisa la correlación de las variables númericas con la variable a predecir

In [None]:
corr_matrix_num = df_alg1.select_dtypes(include=np.number).corr()
print("Correlaciones de las variables numericas con 'nota_03':")
print(corr_matrix_num["nota_03"].sort_values(ascending=False))

In [None]:
threshold = 0.8 #este valor se utiliza para correlacion del 80 en adelante
filter_= np.abs(corr_matrix_num["nota_03"])> threshold
corr_features = corr_matrix_num.columns[filter_].tolist()
plt.figure(figsize=(12,8))
sns.heatmap(df_alg1[corr_features].corr(),annot=True, cmap = 'Blues', fmt=".2f")
plt.title("Correlacion entre variables numericas (Threshold: {})".format(threshold))
plt.show()

In [None]:
# Variables numéricas
sns.pairplot(df_alg1[corr_features], diag_kind="kde")

Por la alta correlación de nota_01 y nota_02 con la variable respuesta, se realiza la prueba de correlación entre ellas para revisar multicolinealidad.

In [None]:
correlacion_nota_01_02 = df_alg1["nota_01"].corr(df_alg1["nota_02"])
print("La correlación entre nota_01 y nota_02 es:", correlacion_nota_01_02)

Al encontrar multicolinealidad entre ellas, se decide eliminar nota_01, pues es la que menor correlación tiene con la variable respuesta..

In [None]:
df_alg1 = df_alg1.drop(['nota_01'], axis=1)

#### Variables categóricas con más de dos categorías

Cramér's V usa la tabla de contingencia para calcular el estadístico Chi-cuadrado, que luego se convierte en una medida de la fuerza de la asociación entre las variables categóricas. El estadístico de pruba V va de 0 (sin asociación) a 1 (asociación perfecta).

In [None]:
def cramers_v(x, y):
    # Crear una tabla de contingencia
    contingency_table = pd.crosstab(x, y)
    # Calcular el estadístico Chi-Cuadrado
    chi2_stat, _, _, _ = chi2_contingency(contingency_table)
    # Obtener el número de observaciones
    n = contingency_table.sum().sum()
    # Número de filas y columnas
    k = min(contingency_table.shape) - 1
    # Calcular Cramer's V
    return np.sqrt(chi2_stat / (n * k))

###### Correlaciones con matriz de Cramér's V

Se revisa la correlación de estas variables categóricas entre sí.


In [None]:
# Lista de variables categóricas
categorical_vars = [col for col in df_alg1.select_dtypes(include=['object']).columns
                                   if len(df_alg1[col].unique()) > 2]

# Crear un DataFrame para almacenar los resultados
cramers_v_results = pd.DataFrame(index=categorical_vars, columns=categorical_vars)

# Calcular Cramér's V para cada par de variables categóricas
for var1 in categorical_vars:
    for var2 in categorical_vars:
        if var1 != var2:
            cramers_v_value = cramers_v(df_alg1[var1], df_alg1[var2])
            cramers_v_results.loc[var1, var2] = cramers_v_value
        else:
            # Para la diagonal (mismo par de variables), podemos poner NaN o 0
            cramers_v_results.loc[var1, var2] = np.nan

print("Matriz de Cramér's V entre variables categóricas:")
print(cramers_v_results)

En el caso de las variables categóricas ordinales, no encontramos problemas de colinealidad o multicolinealidad, considerando correlacines entre ellas con un nivel de significancia por encima del 80%.

#### Variables categóricas booleanas

###### Correlaciones con matriz de Cramér's V

Se revisa la correlación de estas variables categóricas entre sí.
Cramér's V usa la tabla de contingencia para calcular el estadístico Chi-cuadrado, que luego se convierte en una medida de la fuerza de la asociación entre las variables categóricas. El estadístico de pruba V va de 0 (sin asociación) a 1 (asociación perfecta).

In [None]:
# Lista de variables categóricas
categorical_vars = [col for col in df_alg1.select_dtypes(include=['object']).columns
                                   if len(df_alg1[col].unique()) <= 2]

# Crear un DataFrame para almacenar los resultados
cramers_v_results = pd.DataFrame(index=categorical_vars, columns=categorical_vars)

# Calcular Cramér's V para cada par de variables categóricas
for var1 in categorical_vars:
    for var2 in categorical_vars:
        if var1 != var2:
            cramers_v_value = cramers_v(df_alg1[var1], df_alg1[var2])
            cramers_v_results.loc[var1, var2] = cramers_v_value
        else:
            # Para la diagonal (mismo par de variables), podemos poner NaN o 0
            cramers_v_results.loc[var1, var2] = np.nan

print("Matriz de Cramér's V entre variables categóricas:")
print(cramers_v_results)

En el caso de las variables categóricas booleanas, no encontramos problemas de colinealidad o multicolinealidad, considerando correlacines entre ellas con un nivel de significancia por encima del 80%.

### Transformaciones

In [None]:
# Se revisa el tipo de cada variable y se convierten en el que se considera acorde
df_alg1.info()

In [None]:
# Convertir columnas enteras a int
columnas_enteras = ['nota_03']
df_alg1[columnas_enteras] = df_alg1[columnas_enteras].astype('int64')

In [None]:
# Luego se valida que variables categóricas no pueden ser dummies por tener mas de dos valores únicos
columnas_categoricas_no_dummies = [col for col in df_alg1.select_dtypes(include=['object']).columns
                                   if len(df_alg1[col].unique()) > 2]
print("Columnas con más de dos valores únicos:")
print(columnas_categoricas_no_dummies)

In [None]:
# Conversión de variables categóricas con dos valores únicos en variables dummies
df_alg1 = pd.get_dummies(df_alg1,
                         columns=[col for col in df_alg1.select_dtypes(include=['object']).columns
                                  if col not in columnas_categoricas_no_dummies],
                        drop_first=True)
df_alg1.info()

In [None]:
# Para las variables categóricas con más de dos valores únicos se trabaja el método One-Hot para
# transformarlas en un conjunto de columnas binarias que indiquen la presencia o ausencia de la categoría

columnas_originales = df_alg1.columns.tolist()
df_alg1 = pd.get_dummies(df_alg1, columns=columnas_categoricas_no_dummies)
columnas_resultantes = df_alg1.columns.tolist()

# Obtener las nuevas columnas generadas por pd.get_dummies() para mas adelante
nuevas_columnas = list(set(columnas_resultantes) - set(columnas_originales))
print(nuevas_columnas)

In [None]:
# Se normalizan las columnas númericas dividiendo cada valor por el máximo valor en la columna respectiva,
# de forma que los valores queden en un rango entre 0 y 1, exceptuando la variable a precedir 'nota_03'.
numericas_columns = []

for col in df_alg1.select_dtypes(include=np.number).columns:
    numericas_columns.append(col)
    if col != 'nota_03':
        df_alg1[col] = df_alg1[col] / df_alg1[col].max()

df_alg1[numericas_columns].head()

In [None]:
df_alg1.info()

### Análisis univariado VARIABLES NUEVAS

##### **Variables boolenas**

Para las variables booleanas hemos definido un umbral de 80-20. Donde las varibles que se distribuyan mayor de 80 y menor de 20, no serán significativas y se eliminarán del modelo.

In [None]:
# Lista de columnas para graficar
nuevas_columnas.sort()
columnas = nuevas_columnas

columnas_mayor_80 = []

# Evaluar cada columna y crear gráficos
n = len(columnas)
n_cols = 2
n_rows = (n + 1) // n_cols  # Calcula el número de filas necesarias

fig, axes = plt.subplots(n_rows, n_cols, figsize=(14, 4 * n_rows))
axes = axes.flatten()  # Aplanar la matriz de ejes

for i, columna in enumerate(columnas):
    sizes = df_alg1[columna].value_counts(normalize=True) * 100
    if any(sizes > 80):
        columnas_mayor_80.append(columna)

    # Crear gráfico de dona para cada columna
    sizes = df_alg1[columna].value_counts()
    labels = sizes.index
    counts = sizes.values

    # Crear el gráfico de dona
    wedges, texts, autotexts = axes[i].pie(sizes, autopct='%1.1f%%', startangle=140, pctdistance=0.85)
    centre_circle = plt.Circle((0, 0), 0.70, fc='white')
    axes[i].add_artist(centre_circle)

    # Crear leyenda con conteos
    legend_labels = [f'{label} (Conteo: {count})' for label, count in zip(labels, counts)]
    axes[i].legend(wedges, legend_labels, title="Categorías", loc="upper left", bbox_to_anchor=(1, 1), fontsize='small')

    axes[i].set_title(f'Diagrama de dona - {columna}')

# Eliminar ejes vacíos si hay menos gráficos que subplots
for ax in axes[n:]:
    ax.remove()

plt.tight_layout(rect=[0, 0, 0.75, 1])  # Ajustar el espacio para la leyenda
plt.show()

In [None]:
print("Columnas con categorías mayores al 80%:")
columnas_mayor_80.sort()
print(columnas_mayor_80)

In [None]:
df_alg1 = df_alg1.drop(columns = ['razon_otro'], axis=1)

#### **Ultimas transformaciónes**

Al analizar las nuevas columnas resultantes de la dummización de las variables categóricas con más de dos valores únicos, identificamos que algunas categorías presentaban una baja representación, lo que podría influir negativamente en la capacidad predictiva del modelo. Para mitigar este efecto, decidimos agrupar valores con características similares dentro de estas variables categóricas. Este agrupamiento nos permitió mejorar la proporción de los datos en cada categoría, generando clases más equilibradas y con mayor representatividad. Además, renombramos estas nuevas variables agrupadas.

In [None]:
# Incluimos la opción en_casa en otros para la variable madre_trab
df_alg1['madre_trab_otro'] = df_alg1['madre_trab_otro'] | ~df_alg1['madre_trab_otro'] & df_alg1['madre_trab_en_casa']
df_alg1 = df_alg1.drop('madre_trab_en_casa', axis = 1)

In [None]:
# Incluimos la opción salud y profesor en servicios para la variable madre_trab, entendiendo servicios como trabajos
# del sector publico
df_alg1['madre_trab_servicios'] = (df_alg1['madre_trab_servicios'] | ~df_alg1['madre_trab_servicios'] & df_alg1['madre_trab_profesor']) | ~df_alg1['madre_trab_servicios'] & ~df_alg1['madre_trab_profesor'] & df_alg1['madre_trab_salud']
df_alg1 = df_alg1.drop(columns = ['madre_trab_profesor', 'madre_trab_salud'], axis = 1)

In [None]:
# Incluimos la opción en_casa en otros para la variable padre_trab
df_alg1['padre_trab_otro'] = df_alg1['padre_trab_otro'] | ~df_alg1['padre_trab_otro'] & df_alg1['padre_trab_en_casa']
df_alg1 = df_alg1.drop('padre_trab_en_casa', axis = 1)

In [None]:
# Incluimos la opción salud y profesor en servicios para la variable padre_trab, entendiendo servicios como trabajos
# del sector publico
df_alg1['padre_trab_servicios'] = (df_alg1['padre_trab_servicios'] | ~df_alg1['padre_trab_servicios'] & df_alg1['padre_trab_profesor']) | ~df_alg1['padre_trab_servicios'] & ~df_alg1['padre_trab_profesor'] & df_alg1['padre_trab_salud']
df_alg1 = df_alg1.drop(columns = ['padre_trab_profesor', 'padre_trab_salud'], axis = 1)

In [None]:
columnas_resultantes = df_alg1.columns.tolist()

# Obtener las nuevas columnas generadas por pd.get_dummies() para mas adelante
nuevas_columnas = list(set(columnas_resultantes) - set(columnas_originales))

# Lista de columnas para graficar
nuevas_columnas.sort()
columnas = nuevas_columnas

columnas_mayor_80 = []

# Evaluar cada columna y crear gráficos
n = len(columnas)
n_cols = 2
n_rows = (n + 1) // n_cols  # Calcula el número de filas necesarias

fig, axes = plt.subplots(n_rows, n_cols, figsize=(14, 4 * n_rows))
axes = axes.flatten()  # Aplanar la matriz de ejes

for i, columna in enumerate(columnas):
    sizes = df_alg1[columna].value_counts(normalize=True) * 100
    if any(sizes > 80):
        columnas_mayor_80.append(columna)

    # Crear gráfico de dona para cada columna
    sizes = df_alg1[columna].value_counts()
    labels = sizes.index
    counts = sizes.values

    # Crear el gráfico de dona
    wedges, texts, autotexts = axes[i].pie(sizes, autopct='%1.1f%%', startangle=140, pctdistance=0.85)
    centre_circle = plt.Circle((0, 0), 0.70, fc='white')
    axes[i].add_artist(centre_circle)

    # Crear leyenda con conteos
    legend_labels = [f'{label} (Conteo: {count})' for label, count in zip(labels, counts)]
    axes[i].legend(wedges, legend_labels, title="Categorías", loc="upper left", bbox_to_anchor=(1, 1), fontsize='small')

    axes[i].set_title(f'Diagrama de dona - {columna}')

# Eliminar ejes vacíos si hay menos gráficos que subplots
for ax in axes[n:]:
    ax.remove()

plt.tight_layout(rect=[0, 0, 0.75, 1])  # Ajustar el espacio para la leyenda
plt.show()

Para las variables booleanas hemos definido un umbral de 80-20. Donde las varibles que se distribuyan mayor de 80 y menor de 20, no serán significativas y se eliminarán del modelo.

In [None]:
print("Columnas con categorías mayores al 80%:")
columnas_mayor_80.sort()
print(columnas_mayor_80)

In [None]:
df_alg1 = df_alg1.drop(columns = columnas_mayor_80, axis=1)

### Modelos de regresión

#### Regresión logistica

In [None]:
df_alg1["nota_03"].unique()

In [None]:
def Transf(nota):
    if nota < 12:
        return False
    else:
        return True

In [None]:
df_alg1['nota_03'] = df_alg1['nota_03'].apply(Transf)

In [None]:
df_alg1['nota_03'].head()

In [None]:
X_alg = df_alg1.drop("nota_03", axis=1)
y_alg = df_alg1["nota_03"]

# Separar los datos en conjuntos de entrenamiento y prueba
x_train, x_test, y_train, y_test = train_test_split(X_alg, y_alg, test_size=0.3, random_state=113)

model = LogisticRegression() # definir el modelo
model.fit(x_train, y_train) # entrenar el modelo

y_pred_train = model.predict(x_train) # guardar la predicción para train
y_pred_test = model.predict(x_test) # guardar la predicción para test

In [None]:
# Matriz de confusión:
cm = confusion_matrix(y_test, y_pred_test, labels=model.classes_) # guardar las clases para la matriz de confusión
disp = ConfusionMatrixDisplay(confusion_matrix=cm,display_labels=model.classes_)
disp.plot();
print(cm)

In [None]:
TP=cm[1,1] # El modelo dijo que eran 1 y en la realidad son 1, verdaderos positivos - 89
FP=cm[0,1] # El modelo dijo que eran 1, en la realidad son 0, falsos positivos - 19
FN=cm[1,0] # El modelo dijo que eran 0, en la realidad son 1, falsos negativos - 6
TN=cm[0,0] # El modelo dijo que eran 0 y en la realidad son 0, verdaderos negativos - 81

print(f"Accuracy test: {accuracy_score(y_test, y_pred_test)}")
print(f'Precicion: {TP/(TP+FP)}')
print(f'Recall (Sensibilidad)): {TP/(TP+FN)}')
print(f'F1-score:', f1_score(y_test, y_pred_test, average='binary'))
print(f'Especificidad: {TN/(FP+TN)}')

In [None]:
# Metricas de entrenamiento
cm = confusion_matrix(y_train, y_pred_train, labels=model.classes_) # guardar las clases para la matriz de confusión

TP=cm[1,1] # El modelo dijo que eran 1 y en la realidad son 1, verdaderos positivos - 89
FP=cm[0,1] # El modelo dijo que eran 1, en la realidad son 0, falsos positivos - 19
FN=cm[1,0] # El modelo dijo que eran 0, en la realidad son 1, falsos negativos - 6
TN=cm[0,0] # El modelo dijo que eran 0 y en la realidad son 0, verdaderos negativos - 91

print(f"Accuracy train: {accuracy_score(y_train, y_pred_train)}")
print(f'Precicion: {TP/(TP+FP)}')
print(f'Recall (Sensibilidad)): {TP/(TP+FN)}')
print(f'F1-score:', f1_score(y_train, y_pred_train, average='binary'))
print(f'Especificidad: {TN/(FP+TN)}')

In [None]:
from sklearn.metrics import roc_curve, auc, roc_auc_score
y_pred = model.predict_proba(x_test)[::,1]
fpr, tpr,_ =roc_curve(y_test, y_pred)
auc = roc_auc_score(y_test, y_pred)
plt.plot(fpr, tpr,marker='.',label='Logistic (auc= %0.3f)'%auc)
plt.xlabel('False positive rate')
plt.ylabel('True positive rate')
plt.legend()
plt.show()