## Análisis del Rendimiento Académico Estudiantil



### Objetivo del análisis

Este proyecto tiene como objetivo analizar distintos factores asociados al rendimiento académico de estudiantes universitarios. Se exploran variables sociodemográficas, hábitos de estudio, salud mental, acceso a recursos y desempeño en general, con el fin de identificar patrones o relaciones útiles para la toma de decisiones educativas.

### Integrantes del equipo

* Melania Ligorria
* Miguel Rojas
* Federico Córdoba
* Adriel Delosanto
* Florencia Andrada
* Guadalupe Mendoza
* Noelia Soto
* Liliana Elizabet Lamas

### Link al reporsitorio GITHUB del equipo

[GitHub](https://github.com//adriel1364/Analisis_25)


## IMPORTACION DE LOS DATOS


Es importante tener instaladas las librerias de Numpy y Pandas.
La funcion read_csv de Pandas es la que permite cargar el dataframe


In [1]:
import pandas as pd
import numpy as np


Integrar Google Drive con Colab para acceder y leer el archivo CSV almacenado en la nube.

In [3]:
# Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Leer el archivo CSV (desde Drive)
df = pd.read_csv('/content/drive/My Drive/AnalisisdeDatosISPC2025/DataSet_Rendimiento_Estudiantes.csv')


Mounted at /content/drive


## Visualización de las primeras 10 filas

Incorporamos este aspecto porque mejora la visualización al presentar los datos con la estructura original del DataFrame (filas y columnas), lo que permite desplazarse de manera fluida mediante barras de scroll horizontales y verticales.

In [4]:
df.head (10)

Unnamed: 0,student_ulid,first_name,last_name,student_id,gender,age,email,address,phone,major,gpa,attendance_rate,mental_health_status,study_hours_per_week,extracurricular_participation,scholarship,internet_access,sleep_hours_per_night
0,01JSJW8GB9GFDGKT3R63J7NWSM,Reeba,Francesch,229675100.0,Genderqueer,58.0,rfrancesch0@state.gov,5 Coleman Hill,(161) 8707438,Architecture,2.8,73.0,Good,22.0,True,False,,
1,01JSJW8GBCDQ03EJ7XTYD2ATTZ,Meade,Fedorchenko,9423870000.0,Male,54.0,mfedorchenko1@dell.com,75159 Mcbride Place,(937) 5176332,Law,1.72,63.0,Good,30.0,True,False,True,5.0
2,01JSJW8GBEA636S3CRYQYFVM54,Elle,Slimm,5731077000.0,Female,25.0,eslimm2@gizmodo.com,,(464) 6044481,Administration,0.76,,,30.0,True,True,False,12.0
3,01JSJW8GBF2TK2F4EEDCH3HTBY,Selena,Hugett,361853000.0,Female,86.0,shugett3@edublogs.org,3213 Heath Circle,(499) 4575315,Engineering,1.52,75.0,Bad,,True,True,True,9.0
4,01JSJW8GBH5K7RE7CQW5TJRR50,Rozalin,Barks,9074949000.0,Female,98.0,rbarks4@360.cn,86 Holmberg Street,(964) 2462771,Medicine,3.25,75.0,Bad,0.0,False,True,True,3.0
5,01JSJW8GBJXN0E056TY0Q51MEQ,Richmond,,3161899000.0,Male,60.0,rcovert5@51.la,6676 Daystar Avenue,(647) 4899125,Student,3.84,73.0,Good,14.0,True,False,,3.0
6,01JSJW8GBMG99WH1B8RMTRK8NB,Hester,Darrel,4283919000.0,Female,81.0,hdarrel6@buzzfeed.com,0 Superior Circle,(542) 7605201,Administration,1.0,,Bad,5.0,False,False,False,11.0
7,01JSJW8GBPMFJEY0F1HAMPCQZ5,Virgina,Fitch,8669234000.0,Female,57.0,vfitch7@yelp.com,7885 Ridge Oak Point,,Psychology,0.7,61.0,Bad,,False,False,,
8,01JSJW8GBQ22DPE7XKE29M5EHD,Giusto,Minci,9685291000.0,Polygender,75.0,gminci8@about.me,6773 Debra Trail,,Student,2.72,71.0,Good,,True,False,False,6.0
9,01JSJW8GBRSZ3JVG361E7V9T7J,Ruby,Dulen,2469802000.0,Male,93.0,rdulen9@hexun.com,,(968) 5818592,Law,1.01,87.0,Average,9.0,False,False,True,6.0


# Descripcion General de DataSet

## Observaciones iniciales del dataset

El dataset contiene 18 columnas y 1000 registros.
Tipos de datos: 6 columnas numéricas, 12 categóricas.


In [5]:
df.shape #cantidad de filas y columnas del df

(1000, 18)


Las columnas incluyen:

- Identificadores únicos (`student_ulid`, `student_id`)
- Datos personales (`first_name`, `last_name`, `gender`, `age`, `email`, `address`, `phone`)
- Variables académicas (`major`, `gpa`, `attendance_rate`, `study_hours_per_week`)
- Información contextual o complementaria (`mental_health_status`, `extracurricular_participation`, `scholarship`, `internet_access`, `sleep_hours_per_night`)

Los tipos de datos incluyen:
- **Strings**: nombres, género, email, dirección, carrera.
- **Numéricos**: edad, GPA, asistencia, horas de estudio y sueño.
- **Booleanos**: participación extracurricular, beca, acceso a internet.
- Algunas columnas contienen valores faltantes, los cuales se deberán tener en cuenta durante la limpieza y análisis del dataset.

## Informacion General del DataSet

### Muestra tipos de datos y analisis exploratorio del DF



In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 18 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   student_ulid                   980 non-null    object 
 1   first_name                     1000 non-null   object 
 2   last_name                      969 non-null    object 
 3   student_id                     978 non-null    float64
 4   gender                         982 non-null    object 
 5   age                            973 non-null    float64
 6   email                          882 non-null    object 
 7   address                        792 non-null    object 
 8   phone                          833 non-null    object 
 9   major                          967 non-null    object 
 10  gpa                            942 non-null    float64
 11  attendance_rate                887 non-null    float64
 12  mental_health_status           907 non-null    ob

### Análisis rápido de distribuciones

Aplicado a variables Numéricas

In [7]:
df.describe()

Unnamed: 0,student_id,age,gpa,attendance_rate,study_hours_per_week,sleep_hours_per_night
count,978.0,973.0,942.0,887.0,833.0,807.0
mean,5017482000.0,59.146968,1.958535,74.647125,20.37455,6.535316
std,2935483000.0,23.692257,1.161729,14.686512,11.818293,3.517193
min,24028180.0,18.0,0.0,50.0,0.0,1.0
25%,2465493000.0,39.0,0.96,62.0,10.0,3.0
50%,4932404000.0,60.0,1.95,75.0,21.0,7.0
75%,7652283000.0,79.0,2.9875,87.0,30.0,10.0
max,9993930000.0,99.0,4.0,100.0,40.0,12.0


Aplicado a variables categóricas

In [8]:
df.describe(include=['object', 'category','bool'])

Unnamed: 0,student_ulid,first_name,last_name,gender,email,address,phone,major,mental_health_status,extracurricular_participation,scholarship,internet_access
count,980,1000,969,982,882,792,833,967,907,942,950,906
unique,980,938,962,8,882,792,833,7,3,2,2,2
top,01JSJW8J9WJ5J2TPY10N96S9QT,Nicol,Dehn,Female,ggerirr@weibo.com,60 Fairfield Place,(727) 1749788,Student,Good,False,True,True
freq,1,3,2,451,1,1,1,152,316,494,478,464


### Cantidad de estudiantes por carrera

In [9]:
df['major'].value_counts()

Unnamed: 0_level_0,count
major,Unnamed: 1_level_1
Student,152
Architecture,148
Engineering,144
Law,135
Psychology,132
Medicine,131
Administration,125


### Filas Nulas
a continuacion se detalla cantidad de campos nulos por fila.
La primera columna indica la cantidad de campos vacios que presenta y la segunda columna el conteo de filas que cumplen esa condicion.

In [10]:
valores_nulos_por_fila = df.isnull().sum(axis=1)
agrupado = valores_nulos_por_fila.value_counts().sort_index()

print(agrupado)

0    198
1    349
2    292
3    119
4     30
5     12
Name: count, dtype: int64


### Edades fuera de rango

In [11]:
# Revisar si existen edades fuera de un rango razonable (ejemplo: menores de 16 o mayores de 99)
invalid_ages = df[(df['age'] < 16) | (df['age'] > 99)]

if invalid_ages.empty:
    print("Registros con edades fuera de rango: 0 (ninguno encontrado)")
else:
    print(f"Registros con edades fuera de rango:\n{invalid_ages}")


Registros con edades fuera de rango: 0 (ninguno encontrado)


### Valores erróneos en género

In [12]:
# Verificar valores erróneos en género (ejemplo: valores que no sean 'Male' o 'Female')
invalid_gender = df[~df['gender'].isin(['Male', 'Female'])]
cantidad_invalidos = invalid_gender.shape[0]

print(f"Valores erróneos en la columna 'gender': {cantidad_invalidos}")


Valores erróneos en la columna 'gender': 106


Detalle de **valores mal cargados** en gender

In [13]:
print(invalid_gender[['gender']])

          gender
0    Genderqueer
8     Polygender
12      Bigender
25       Agender
31    Polygender
..           ...
959     Bigender
983   Polygender
987          NaN
989      Agender
992     Bigender

[106 rows x 1 columns]


### Estadisticas descriptivas por variables Numéricas

Seleccionamos las columnas Numéricas, identificando las mismas por el tipo de dato

In [14]:
numericas = df.select_dtypes(include=["int64", "float64"])
print("Columnas numéricas:", numericas.columns.tolist())

Columnas numéricas: ['student_id', 'age', 'gpa', 'attendance_rate', 'study_hours_per_week ', 'sleep_hours_per_night']


Calculamos el **Desvio Estandar** de estas columnas

In [15]:
desvios = numericas.std()  # Desvío estándar muestral (ddof=1)
print(desvios)

student_id               2.935483e+09
age                      2.369226e+01
gpa                      1.161729e+00
attendance_rate          1.468651e+01
study_hours_per_week     1.181829e+01
sleep_hours_per_night    3.517193e+00
dtype: float64


Calculamos la **Media**

In [16]:
media = numericas.mean()
print(media)

student_id               5.017482e+09
age                      5.914697e+01
gpa                      1.958535e+00
attendance_rate          7.464713e+01
study_hours_per_week     2.037455e+01
sleep_hours_per_night    6.535316e+00
dtype: float64


Calculamos la **Mediana**

In [17]:
mediana = numericas.median()
print(mediana)

student_id               4.932404e+09
age                      6.000000e+01
gpa                      1.950000e+00
attendance_rate          7.500000e+01
study_hours_per_week     2.100000e+01
sleep_hours_per_night    7.000000e+00
dtype: float64


Cuenta **valores nulos** por columna

In [18]:
print(numericas.isnull().sum())

student_id                22
age                       27
gpa                       58
attendance_rate          113
study_hours_per_week     167
sleep_hours_per_night    193
dtype: int64


Número de **valores únicos** por columna

In [19]:
print(numericas.nunique())

student_id               978
age                       82
gpa                      360
attendance_rate           51
study_hours_per_week      41
sleep_hours_per_night     12
dtype: int64


Cantidad de **valores válidos sobre el total**

In [20]:
# Total de filas incluyendo las NaN
total = numericas.shape[0]

# Conteo de valores no nulos por columna
valores_validos = numericas.count()

# Cociente
cociente = valores_validos / total
print(cociente)

student_id               0.978
age                      0.973
gpa                      0.942
attendance_rate          0.887
study_hours_per_week     0.833
sleep_hours_per_night    0.807
dtype: float64


### Estadisticas descriptivas por variables Categóricas



In [21]:
#Analisis de columnas de variables categóricas

categoricas = df.select_dtypes(include=["object", "category", "bool"])
print("Columnas Categoricas:", categoricas.columns.tolist())

Columnas Categoricas: ['student_ulid', 'first_name', 'last_name', 'gender', 'email', 'address ', 'phone', 'major', 'mental_health_status', 'extracurricular_participation', 'scholarship ', 'internet_access ']


Cantidad de **valores no nulos**

In [22]:
print(categoricas.count())

student_ulid                      980
first_name                       1000
last_name                         969
gender                            982
email                             882
address                           792
phone                             833
major                             967
mental_health_status              907
extracurricular_participation     942
scholarship                       950
internet_access                   906
dtype: int64


Cantidad de **valores nulos**

In [23]:
print(categoricas.isnull().sum())

student_ulid                      20
first_name                         0
last_name                         31
gender                            18
email                            118
address                          208
phone                            167
major                             33
mental_health_status              93
extracurricular_participation     58
scholarship                       50
internet_access                   94
dtype: int64


Cantidad de **valores válidos sobre el total**

In [24]:
# Total de filas incluyendo las NaN
total = categoricas.shape[0]

# Conteo de valores no nulos por columna
valores_validos = categoricas.count()

# Cociente
cociente = valores_validos / total
print(cociente)

student_ulid                     0.980
first_name                       1.000
last_name                        0.969
gender                           0.982
email                            0.882
address                          0.792
phone                            0.833
major                            0.967
mental_health_status             0.907
extracurricular_participation    0.942
scholarship                      0.950
internet_access                  0.906
dtype: float64


## Conclusiones preliminares

- Se identificaron valores faltantes en varias columnas, entre ellas: `email`, `phone`, `mental_health_status` y `gpa`.
- La mayoría de las variables categóricas presentan categorías bien definidas, aunque en la variable `gender` se hallaron registros inconsistentes o mal tipificados.
- La columna `major` contiene una amplia diversidad de carreras, con una distribución desigual entre ellas.