# Tarea: Análisis de Datos de una Escuela

### Descripción del Dataset

Tienes tres datasets en formato CSV:
- `estudiantes.csv`: Información sobre los estudiantes.
  - Columnas: `student_id`, `student_name`, `age`
- `cursos.csv`: Información sobre los cursos.
  - Columnas: `course_id`, `course_name`, `credits`, `professor`
- `notas.csv`: Información sobre las notas de los estudiantes en los cursos.
  - Columnas: `note_id`, `student_id`, `course_id`, `grade`


Puntaje:


### 1. Cargar y mostrar los datos (1 pts)

Carga los archivos CSV en dataframes de pandas y muestra las primeras filas de cada uno.

In [65]:
import numpy as np
import pandas as pd

df_estudiantes = pd.read_csv('estudiantes.csv')
df_cursos = pd.read_csv('cursos.csv')
df_notas = pd.read_csv('notas.csv')

#df_estudiantes

### 2. Limpieza de Datos (3 pts)

#### a. Estudiantes
1. Eliminar registros con nombres vacíos.
2. Eliminar registros con edades fuera del rango (18-25).

In [66]:
df_estudiantes = df_estudiantes[df_estudiantes['student_name'].notnull()]
#df_estudiantes
df_estudiantes = df_estudiantes[(df_estudiantes['age'] >= 18) & (df_estudiantes['age'] <= 25)]
#df_estudiantes

#### b. Cursos
1. Eliminar registros con nombres de cursos vacíos.
2. Eliminar registros con créditos fuera del rango (1-5).

In [67]:
#df_cursos
df_cursos = df_cursos[df_cursos['course_name'].notnull()]
df_cursos = df_cursos[(df_cursos['credits'] >= 1) & (df_cursos['credits'] <= 5)]
df_cursos

Unnamed: 0,course_id,course_name,credits,professor
0,1,Curso 1,1,Profesor 1
2,3,Curso 3,1,Profesor 3
3,4,Curso 4,1,Profesor 4
4,5,Curso 5,4,Profesor 5
5,6,Curso 6,4,Profesor 6
...,...,...,...,...
94,95,Curso 95,2,Profesor 95
96,97,Curso 97,2,Profesor 97
97,98,Curso 98,2,Profesor 98
98,99,Curso 99,3,Profesor 99


#### c. Notas
1. Eliminar registros con notas fuera del rango (0-10).
2. Eliminar registros con `student_id` y `course_id` que no existen en las tablas de estudiantes y cursos respectivamente.

In [68]:
#df_notas
df_notas = df_notas[(df_notas['grade'] >= 0) & (df_notas['grade'] <= 10)]
df_notas = df_notas[df_notas['student_id'].isin(df_estudiantes['student_id'])]
df_notas = df_notas[df_notas['course_id'].isin(df_cursos['course_id'])]
df_notas

Unnamed: 0,grade_id,student_id,course_id,grade
0,1,168,16,8.00
1,2,137,19,3.11
4,5,23,61,1.38
5,6,80,43,1.94
6,7,9,83,4.81
...,...,...,...,...
993,994,48,18,6.04
994,995,82,6,6.62
996,997,200,64,8.70
997,998,54,28,9.93


### 3. Estadísticas (3 pts)

1. Calcular la media, mediana y desviación estándar de las edades de los estudiantes.
2. Calcular la media, mediana y desviación estándar de los créditos de los cursos.
3. Calcular la media, mediana y desviación estándar de las notas de los estudiantes.

In [69]:
result_edades_estudiantes = df_estudiantes['age'].agg(['mean', 'median', 'std'])
result_creditos_cursos = df_cursos['credits'].agg(['mean', 'median', 'std'])
result_notas_estudiantes = df_notas['grade'].agg(['mean', 'median', 'std'])
result_notas_estudiantes

mean      4.854544
median    4.790000
std       2.866402
Name: grade, dtype: float64

### 4. Uniones/ Joins (3 pts)

1. Unir las notas con los estudiantes para obtener el nombre y la edad del estudiante en cada nota.
2. Unir las notas con los cursos para obtener el nombre del curso y el profesor en cada nota.

In [70]:
print(df_notas.shape)
print(df_cursos.shape)
print(df_estudiantes.shape)
df_notas = pd.merge(df_notas, df_estudiantes, on='student_id', how='inner')
df_notas = pd.merge(df_notas, df_cursos, on='course_id', how='inner')
df_notas

(559, 4)
(82, 4)
(164, 4)


Unnamed: 0,grade_id,student_id,course_id,grade,student_name,age,gender,course_name,credits,professor
0,1,168,16,8.00,Estudiante 168,21,Femenino,Curso 16,4,Profesor 16
1,2,137,19,3.11,Estudiante 137,21,Femenino,Curso 19,4,Profesor 19
2,5,23,61,1.38,Estudiante 23,19,Masculino,Curso 61,3,Profesor 61
3,6,80,43,1.94,Estudiante 80,18,Femenino,Curso 43,4,Profesor 43
4,7,9,83,4.81,Estudiante 9,23,Femenino,Curso 83,3,Profesor 83
...,...,...,...,...,...,...,...,...,...,...
554,994,48,18,6.04,Estudiante 48,20,Masculino,Curso 18,4,Profesor 18
555,995,82,6,6.62,Estudiante 82,21,Femenino,Curso 6,4,Profesor 6
556,997,200,64,8.70,Estudiante 200,22,Masculino,Curso 64,4,Profesor 64
557,998,54,28,9.93,Estudiante 54,22,Femenino,Curso 28,1,Profesor 28


### 5. Filtros (5 pts)

1. Filtrar las notas de estudiantes entre 20 y 22 años.
2. Filtrar las notas en cursos con más de 3 créditos.
3. Filtrar las notas obtenidas por un estudiante específico (ejemplo: `student_id` = 1) y en un curso específico (ejemplo: `course_id` = 1).

In [72]:
df_notas = df_notas[(df_notas['age'] >= 20) & (df_notas['age'] <= 22)]
df_notas

(273, 10)


Unnamed: 0,grade_id,student_id,course_id,grade,student_name,age,gender,course_name,credits,professor
0,1,168,16,8.00,Estudiante 168,21,Femenino,Curso 16,4,Profesor 16
1,2,137,19,3.11,Estudiante 137,21,Femenino,Curso 19,4,Profesor 19
9,15,152,13,8.47,Estudiante 152,22,Masculino,Curso 13,3,Profesor 13
10,17,5,57,1.27,Estudiante 5,21,Femenino,Curso 57,2,Profesor 57
11,18,101,67,8.41,Estudiante 101,20,Femenino,Curso 67,3,Profesor 67
...,...,...,...,...,...,...,...,...,...,...
554,994,48,18,6.04,Estudiante 48,20,Masculino,Curso 18,4,Profesor 18
555,995,82,6,6.62,Estudiante 82,21,Femenino,Curso 6,4,Profesor 6
556,997,200,64,8.70,Estudiante 200,22,Masculino,Curso 64,4,Profesor 64
557,998,54,28,9.93,Estudiante 54,22,Femenino,Curso 28,1,Profesor 28


In [74]:
df_notas = df_notas[df_notas['credits'] > 3]
df_notas

Unnamed: 0,grade_id,student_id,course_id,grade,student_name,age,gender,course_name,credits,professor
0,1,168,16,8.00,Estudiante 168,21,Femenino,Curso 16,4,Profesor 16
1,2,137,19,3.11,Estudiante 137,21,Femenino,Curso 19,4,Profesor 19
23,43,121,19,7.69,Estudiante 121,20,Masculino,Curso 19,4,Profesor 19
30,58,92,16,7.49,Estudiante 92,22,Femenino,Curso 16,4,Profesor 16
73,142,179,6,4.31,Estudiante 179,20,Femenino,Curso 6,4,Profesor 6
...,...,...,...,...,...,...,...,...,...,...
547,981,116,63,2.84,Estudiante 116,22,Femenino,Curso 63,4,Profesor 63
554,994,48,18,6.04,Estudiante 48,20,Masculino,Curso 18,4,Profesor 18
555,995,82,6,6.62,Estudiante 82,21,Femenino,Curso 6,4,Profesor 6
556,997,200,64,8.70,Estudiante 200,22,Masculino,Curso 64,4,Profesor 64


### 6. Agregaciones (5 pts)

1. Calcular el promedio de notas por cada estudiante.
2. Calcular el promedio de notas por cada curso.
3. Calcular el promedio de notas por cada profesor.
4. Calcular el número total de estudiantes por curso.
5. Calcular el número total de cursos por profesor.