In [None]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
import os

#**Descargar archivos CSV**

Con este código se descargan los archivos directamente desde la plataforma Kaggle mediante la API

In [None]:
os.environ['KAGGLE_CONFIG_DIR'] = '.'
!chmod 600 ./kaggle.json
!kaggle competitions download -c udea-ai-4-eng-20251-pruebas-saber-pro-colombia

#**Descomprimir los archivos**

In [None]:
!unzip udea*.zip > /dev/null

In [None]:
!wc *.csv

#**Cargar archivos como Dataframes**

In [None]:
train_df = pd.read_csv('train.csv')
test_df = pd.read_csv('test.csv')

#**Mostrar los primeros datos del Dataframe**

In [None]:
train_df.head()

#**Mostrar número de registros vacios por columna**

In [None]:
k = train_df.isna().sum()
k

#**Gráfica del número de estudiantes por rendimiento global**

Se ajustó la gráfica para visualizar de una mejor forma las diferencias entre cada rendimiento

In [None]:
plt.figure(figsize=(10, 6))
rendimiento = train_df['RENDIMIENTO_GLOBAL'].value_counts().sort_index()
sns.barplot(x=rendimiento.index, y=rendimiento.values, width=0.6)
plt.ylim(170000, 180000)

#**Mostrar el tipo de dato de cada columna**

In [None]:
train_df.info()

#**Mostrar las estadísticas globales de las columnas de tipo númerico**

De los no númericos muestra la moda, su frecuencia y el número de respuestas únicas

In [None]:
print(train_df.describe(include='all'))

#**Imprimir por cada columna sus nombres y sus variables únicas**

In [None]:
for col in train_df.columns:
    print("\n")
    print(f"{col}: {train_df[col].unique()}")

#**Generar gráfica de barras de un conjunto de columnas para ver las frecuencias de sus variables únicas**

In [None]:
columnas = ['ESTU_PRGM_DEPARTAMENTO',
       'ESTU_VALORMATRICULAUNIVERSIDAD', 'ESTU_HORASSEMANATRABAJA',
       'FAMI_ESTRATOVIVIENDA', 'FAMI_TIENEINTERNET', 'FAMI_EDUCACIONPADRE',
       'FAMI_EDUCACIONMADRE', 'ESTU_PAGOMATRICULAPROPIO']

for column in columnas:
    plt.figure(figsize=(10, 6))
    print("\n")
    train_df[column].value_counts().plot(kind='bar')
    plt.title(f'Conteo de valores para {column}')
    plt.ylabel('Frecuencia')
    plt.xlabel(column)
    plt.show()


# **Mostrar gráficas que relacionan dos columnas**

## **Estrato vs Rendimiento Global**

In [None]:
c = sorted(train_df.FAMI_ESTRATOVIVIENDA.value_counts().index)
n_cols = 4
n_rows = (len(c) + n_cols - 1) // n_cols
fig, axes = plt.subplots(n_rows, n_cols, figsize=(n_cols * 4, n_rows * 4))
axes = axes.flatten()
# Iterar sobre las categorías y sus respectivos ejes
for i, ci in enumerate(c):
    ax = axes[i]
    zc = train_df[train_df.FAMI_ESTRATOVIVIENDA == ci]
    counts = zc.RENDIMIENTO_GLOBAL.value_counts()
    counts = counts.reindex(['bajo', 'medio-bajo', 'medio-alto', 'alto'], fill_value=0)
    counts.plot(kind='bar', ax=ax)
    ax.set_title(f'{ci}')
    ax.set_ylabel('Conteo')

plt.tight_layout()
plt.show()


## **Horas que Trabaja por Semana vs Rendimiento Global**

In [None]:
c = sorted(train_df.ESTU_HORASSEMANATRABAJA.value_counts().index)
n_cols = 3
n_rows = (len(c) + n_cols - 1) // n_cols
fig, axes = plt.subplots(n_rows, n_cols, figsize=(n_cols * 4, n_rows * 4))
axes = axes.flatten()
# Iterar sobre las categorías y sus respectivos ejes
for i, ci in enumerate(c):
    ax = axes[i]
    zc = train_df[train_df.ESTU_HORASSEMANATRABAJA == ci]
    counts = zc.RENDIMIENTO_GLOBAL.value_counts()
    counts = counts.reindex(['bajo', 'medio-bajo', 'medio-alto', 'alto'], fill_value=0)
    counts.plot(kind='bar', ax=ax)
    ax.set_title(f'{ci}')
    ax.set_ylabel('Conteo')

plt.tight_layout()
plt.show()


## **Paga su Propia Matricula vs Rendimiento Global**

In [None]:
c = sorted(train_df.ESTU_PAGOMATRICULAPROPIO.value_counts().index)
n_cols = 2
n_rows = (len(c) + n_cols - 1) // n_cols
fig, axes = plt.subplots(n_rows, n_cols, figsize=(n_cols * 4, n_rows * 4))
axes = axes.flatten()
# Iterar sobre las categorías y sus respectivos ejes
for i, ci in enumerate(c):
    ax = axes[i]
    zc = train_df[train_df.ESTU_PAGOMATRICULAPROPIO == ci]
    counts = zc.RENDIMIENTO_GLOBAL.value_counts()
    counts = counts.reindex(['bajo', 'medio-bajo', 'medio-alto', 'alto'], fill_value=0)
    counts.plot(kind='bar', ax=ax)
    ax.set_title(f'{ci}')
    ax.set_ylabel('Conteo')

plt.tight_layout()
plt.show()


## **Educación del Padre vs Rendimiento Global**

In [None]:
c = sorted(train_df.FAMI_EDUCACIONPADRE.value_counts().index)
n_cols = 4
n_rows = (len(c) + n_cols - 1) // n_cols
fig, axes = plt.subplots(n_rows, n_cols, figsize=(n_cols * 4, n_rows * 4))
axes = axes.flatten()
# Iterar sobre las categorías y sus respectivos ejes
for i, ci in enumerate(c):
    ax = axes[i]
    zc = train_df[train_df.FAMI_EDUCACIONPADRE == ci]
    counts = zc.RENDIMIENTO_GLOBAL.value_counts()
    counts = counts.reindex(['bajo', 'medio-bajo', 'medio-alto', 'alto'], fill_value=0)
    counts.plot(kind='bar', ax=ax)
    ax.set_title(f'{ci}')
    ax.set_ylabel('Conteo')

plt.tight_layout()
plt.show()


## **Tiene Intenet en su Hogar vs Rendimiento Global**

In [None]:
c = sorted(train_df.FAMI_TIENEINTERNET.value_counts().index)
n_cols = 2
n_rows = (len(c) + n_cols - 1) // n_cols
fig, axes = plt.subplots(n_rows, n_cols, figsize=(n_cols * 4, n_rows * 4))
axes = axes.flatten()
# Iterar sobre las categorías y sus respectivos ejes
for i, ci in enumerate(c):
    ax = axes[i]
    zc = train_df[train_df.FAMI_TIENEINTERNET == ci]
    counts = zc.RENDIMIENTO_GLOBAL.value_counts()
    counts = counts.reindex(['bajo', 'medio-bajo', 'medio-alto', 'alto'], fill_value=0)
    counts.plot(kind='bar', ax=ax)
    ax.set_title(f'{ci}')
    ax.set_ylabel('Conteo')

plt.tight_layout()
plt.show()