# Exploración inicial del rendimiento de alumnos

Este notebook presenta una exploración inicial de datos simulados sobre el rendimiento académico de alumnos, con el objetivo de identificar patrones generales y variables relevantes para análisis posteriores.


## Objetivos del análisis

- Cargar y explorar el conjunto de datos
- Comprender la estructura y los tipos de variables
- Identificar posibles problemas en los datos
- Obtener estadísticas descriptivas básicas


In [1]:
import pandas as pd
import numpy as np

## Creación del dataset

Para esta primera exploración se utilizarán datos simulados que representan información básica sobre alumnos.


In [2]:
data = {
    "alumno_id": range(1, 21),
    "asistencia": np.random.randint(60, 100, 20),
    "nota_final": np.random.randint(1, 10, 20),
    "horas_estudio": np.random.randint(1, 15, 20)
}

df = pd.DataFrame(data)
df.head()


Unnamed: 0,alumno_id,asistencia,nota_final,horas_estudio
0,1,87,1,5
1,2,66,4,7
2,3,72,1,8
3,4,83,4,2
4,5,86,4,4


## Información general del dataset


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype
---  ------         --------------  -----
 0   alumno_id      20 non-null     int64
 1   asistencia     20 non-null     int64
 2   nota_final     20 non-null     int64
 3   horas_estudio  20 non-null     int64
dtypes: int64(4)
memory usage: 772.0 bytes


El dataset contiene variables numéricas asociadas al rendimiento académico. La ausencia de valores nulos permite avanzar directamente hacia análisis descriptivos sin necesidad de una etapa previa de imputación.


## Estadísticas descriptivas


In [4]:
df.describe()


Unnamed: 0,alumno_id,asistencia,nota_final,horas_estudio
count,20.0,20.0,20.0,20.0
mean,10.5,75.85,5.15,7.5
std,5.91608,10.048697,2.455391,3.886549
min,1.0,62.0,1.0,1.0
25%,5.75,66.0,4.0,4.75
50%,10.5,75.0,5.0,7.5
75%,15.25,86.0,7.0,10.25
max,20.0,91.0,9.0,14.0


Las estadísticas descriptivas permiten observar la distribución general de las variables y constituyen una base para análisis posteriores más profundos.


## Próximos pasos

En un siguiente notebook se abordará la limpieza y preparación de los datos, incorporando un dataset almacenado en un archivo externo (CSV) para simular un flujo de trabajo más cercano a un entorno profesional.
