# Tarea: Análisis de Datos de una Escuela

### Descripción del Dataset

Tienes tres datasets en formato CSV:
- `estudiantes.csv`: Información sobre los estudiantes.
  - Columnas: `student_id`, `student_name`, `age`
- `cursos.csv`: Información sobre los cursos.
  - Columnas: `course_id`, `course_name`, `credits`, `professor`
- `notas.csv`: Información sobre las notas de los estudiantes en los cursos.
  - Columnas: `note_id`, `student_id`, `course_id`, `grade`


Puntaje:


### 1. Cargar y mostrar los datos (1 pts)

Carga los archivos CSV en dataframes de pandas y muestra las primeras filas de cada uno.

In [None]:
import pandas as pd

# 1.Cargar los datos
estudiantes = pd.read_csv('estudiantes.csv')
cursos = pd.read_csv('cursos.csv')
notas = pd.read_csv('notas.csv')

# Mostrar las primeras filas de cada dataframe
print("Estudiantes:")
print(estudiantes.head())
print("\nCursos:")
print(cursos.head())
print("\nNotas:")
print(notas.head())


Estudiantes:
   student_id  student_name  age     gender
0           1           NaN   -5  Masculino
1           2  Estudiante 2   10   Femenino
2           3  Estudiante 3   18   Femenino
3           4  Estudiante 4   21   Femenino
4           5  Estudiante 5   21   Femenino

Cursos:
   course_id course_name  credits   professor
0          1     Curso 1        1  Profesor 1
1          2         NaN        3  Profesor 2
2          3     Curso 3        1  Profesor 3
3          4     Curso 4        1  Profesor 4
4          5     Curso 5        4  Profesor 5

Notas:
   grade_id  student_id  course_id  grade
0         1         168         16   8.00
1         2         137         19   3.11
2         3          14         30   4.98
3         4         136        101   7.02
4         5          23         61   1.38


### 2. Limpieza de Datos (3 pts)

#### a. Estudiantes
1. Eliminar registros con nombres vacíos.
2. Eliminar registros con edades fuera del rango (18-25).

In [None]:
# a. Estudiantes
# 1. Eliminar registros con nombres vacíos.
estudiantes = estudiantes[estudiantes['student_name'].notna()]

# 2. Eliminar registros con edades fuera del rango (18-25).
estudiantes = estudiantes[(estudiantes['age'] >= 18) & (estudiantes['age'] <= 25)]
# Mostrar los dataframes limpios
print("\nEstudiantes actualizados:")
print(estudiantes.head())


Estudiantes actualizados:
   student_id  student_name  age     gender
2           3  Estudiante 3   18   Femenino
3           4  Estudiante 4   21   Femenino
4           5  Estudiante 5   21   Femenino
5           6  Estudiante 6   21  Masculino
6           7  Estudiante 7   19  Masculino


#### b. Cursos
1. Eliminar registros con nombres de cursos vacíos.
2. Eliminar registros con créditos fuera del rango (1-5).

In [None]:
# b. Cursos
# 1. Eliminar registros con nombres de cursos vacíos.
cursos = cursos[cursos['course_name'].notna()]

# 2. Eliminar registros con créditos fuera del rango (1-5).
cursos = cursos[(cursos['credits'] >= 1) & (cursos['credits'] <= 5)]
print("\nCursos actualizados:")
print(cursos.head())


Cursos actualizados:
   course_id course_name  credits   professor
0          1     Curso 1        1  Profesor 1
2          3     Curso 3        1  Profesor 3
3          4     Curso 4        1  Profesor 4
4          5     Curso 5        4  Profesor 5
5          6     Curso 6        4  Profesor 6


#### c. Notas
1. Eliminar registros con notas fuera del rango (0-10).
2. Eliminar registros con `student_id` y `course_id` que no existen en las tablas de estudiantes y cursos respectivamente.

In [None]:
# c. Notas
# 1. Eliminar registros con notas fuera del rango (0-10).
notas = notas[(notas['grade'] >= 0) & (notas['grade'] <= 10)]

# 2. Eliminar registros con student_id y course_id que no existen en las tablas de estudiantes y cursos respectivamente.
notas = notas[notas['student_id'].isin(estudiantes['student_id'])]
notas = notas[notas['course_id'].isin(cursos['course_id'])]

print("\nNotas actualizadas:")
print(notas.head())


Notas actualizadas:
   grade_id  student_id  course_id  grade
0         1         168         16   8.00
1         2         137         19   3.11
4         5          23         61   1.38
5         6          80         43   1.94
6         7           9         83   4.81


### 3. Estadísticas (3 pts)

1. Calcular la media, mediana y desviación estándar de las edades de los estudiantes.
2. Calcular la media, mediana y desviación estándar de los créditos de los cursos.
3. Calcular la media, mediana y desviación estándar de las notas de los estudiantes.

In [None]:
# 3. Estadísticas
#1. Calcular la media, mediana y desviación estándar de las edades de los estudiantes.
edad_media = estudiantes['age'].mean()
edad_mediana = estudiantes['age'].median()
edad_std = estudiantes['age'].std()

#2. Calcular la media, mediana y desviación estándar de los créditos de los cursos.
creditos_media = cursos['credits'].mean()
creditos_mediana = cursos['credits'].median()
creditos_std = cursos['credits'].std()

#3. Calcular la media, mediana y desviación estándar de las notas de los estudiantes.
notas_media = notas['grade'].mean()
notas_mediana = notas['grade'].median()
notas_std = notas['grade'].std()

estadisticas = {
    'Edad': {'Media': edad_media, 'Mediana': edad_mediana, 'STD': edad_std},
    'Créditos': {'Media': creditos_media, 'Mediana': creditos_mediana, 'STD': creditos_std},
    'Notas': {'Media': notas_media, 'Mediana': notas_mediana, 'STD': notas_std}
}

print("\nEstadísticas:")
print(pd.DataFrame(estadisticas))



Estadísticas:
              Edad  Créditos     Notas
Media    20.768293   2.52439  4.854544
Mediana  21.000000   3.00000  4.790000
STD       1.930058   1.15711  2.866402


### 4. Uniones/ Joins (3 pts)

1. Unir las notas con los estudiantes para obtener el nombre y la edad del estudiante en cada nota.
2. Unir las notas con los cursos para obtener el nombre del curso y el profesor en cada nota.

In [None]:
# 4. Uniones/Joins
#1. Unir notas con estudiantes
notas_estudiantes = pd.merge(notas, estudiantes, on='student_id', how='inner')

#2. Unir notas con cursos
notas_cursos = pd.merge(notas, cursos, on='course_id', how='inner')

# Mostrar las primeras filas de las uniones
print("\nNotas con Estudiantes:")
print(notas_estudiantes.head())
print("\nNotas con Cursos:")
print(notas_cursos.head())


Notas con Estudiantes:
   grade_id  student_id  course_id  grade    student_name  age    gender
0         1         168         16   8.00  Estudiante 168   21  Femenino
1       365         168         85   5.12  Estudiante 168   21  Femenino
2       573         168         60   0.44  Estudiante 168   21  Femenino
3         2         137         19   3.11  Estudiante 137   21  Femenino
4       121         137         81   7.63  Estudiante 137   21  Femenino

Notas con Cursos:
   grade_id  student_id  course_id  grade course_name  credits    professor
0         1         168         16   8.00    Curso 16        4  Profesor 16
1        58          92         16   7.49    Curso 16        4  Profesor 16
2       130         124         16   6.95    Curso 16        4  Profesor 16
3       188         172         16   1.96    Curso 16        4  Profesor 16
4       231         103         16   5.67    Curso 16        4  Profesor 16


### 5. Filtros (5 pts)

1. Filtrar las notas de estudiantes entre 20 y 22 años.
2. Filtrar las notas en cursos con más de 3 créditos.
3. Filtrar las notas obtenidas por un estudiante específico (ejemplo: `student_id` = 1) y en un curso específico (ejemplo: `course_id` = 1).

In [None]:
# 5. Filtros
# Filtro 1: Notas de estudiantes entre 20 y 22 años
notas_20_22 = notas_estudiantes[(notas_estudiantes['age'] >= 20) & (notas_estudiantes['age'] <= 22)]

# Mostrar resultados de los filtros
print("\nNotas de estudiantes entre 20 y 22 años:")
print(notas_20_22.head())



Notas de estudiantes entre 20 y 22 años:
   grade_id  student_id  course_id  grade    student_name  age    gender
0         1         168         16   8.00  Estudiante 168   21  Femenino
1       365         168         85   5.12  Estudiante 168   21  Femenino
2       573         168         60   0.44  Estudiante 168   21  Femenino
3         2         137         19   3.11  Estudiante 137   21  Femenino
4       121         137         81   7.63  Estudiante 137   21  Femenino


In [None]:
# Filtro 2: Notas en cursos con más de 3 créditos
notas_cursos_3_creditos = notas_cursos[notas_cursos['credits'] > 3]
print("\nNotas en cursos con más de 3 créditos:")
print(notas_cursos_3_creditos.head())


Notas en cursos con más de 3 créditos:
   grade_id  student_id  course_id  grade course_name  credits    professor
0         1         168         16   8.00    Curso 16        4  Profesor 16
1        58          92         16   7.49    Curso 16        4  Profesor 16
2       130         124         16   6.95    Curso 16        4  Profesor 16
3       188         172         16   1.96    Curso 16        4  Profesor 16
4       231         103         16   5.67    Curso 16        4  Profesor 16


In [None]:
# Filtro 3: Notas de un estudiante específico en un curso específico
notas_especificas = notas_cursos[(notas_cursos['student_id'] == 1) & (notas_cursos['course_id'] == 1)]
print("\nNotas de un estudiante específico en un curso específico:")
print(notas_especificas.head())



Notas de un estudiante específico en un curso específico:
Empty DataFrame
Columns: [grade_id, student_id, course_id, grade, course_name, credits, professor]
Index: []


### 6. Agregaciones (5 pts)

1. Calcular el promedio de notas por cada estudiante.
2. Calcular el promedio de notas por cada curso.
3. Calcular el promedio de notas por cada profesor.
4. Calcular el número total de estudiantes por curso.
5. Calcular el número total de cursos por profesor.

In [None]:
# 6. Agregaciones
# 1.Promedio de notas por cada estudiante
promedio_notas_estudiante = notas.groupby('student_id')['grade'].mean().reset_index()

# 2.Promedio de notas por cada curso
promedio_notas_curso = notas.groupby('course_id')['grade'].mean().reset_index()

# 3.Unir notas con cursos para obtener la información de los profesores
notas_profesores = pd.merge(notas, cursos, on='course_id', how='inner')

# 4.Promedio de notas por cada profesor
promedio_notas_profesor = notas_profesores.groupby('professor')['grade'].mean().reset_index()

# 5.Número total de estudiantes por curso
total_estudiantes_curso = notas.groupby('course_id')['student_id'].count().reset_index()
total_estudiantes_curso.columns = ['course_id', 'total_estudiantes']

# 6. Número total de cursos por profesor
total_cursos_profesor = cursos.groupby('professor')['course_id'].count().reset_index()
total_cursos_profesor.columns = ['professor', 'total_cursos']

# Mostrar resultados de las nuevas agregaciones
print("\nPromedio de notas por estudiante:")
print(promedio_notas_estudiante)
print("\nPromedio de notas por curso:")
print(promedio_notas_curso)
print("\nPromedio de notas por profesor:")
print(promedio_notas_profesor)
print("\nNúmero total de estudiantes por curso:")
print(total_estudiantes_curso)
print("\nNúmero total de cursos por profesor:")
print(total_cursos_profesor)



Promedio de notas por estudiante:
     student_id     grade
0             3  4.854000
1             4  4.077500
2             5  4.060000
3             6  4.210000
4             7  3.007500
..          ...       ...
153         195  7.262000
154         196  5.605000
155         197  5.850000
156         199  6.076667
157         200  4.995000

[158 rows x 2 columns]

Promedio de notas por curso:
    course_id     grade
0           1  4.664000
1           3  3.245556
2           4  4.590000
3           5  4.927143
4           6  4.375625
..        ...       ...
77         95  4.631000
78         97  2.485000
79         98  5.501111
80         99  5.905000
81        100  6.047500

[82 rows x 2 columns]

Promedio de notas por profesor:
       professor     grade
0     Profesor 1  4.664000
1    Profesor 10  4.382500
2   Profesor 100  6.047500
3    Profesor 11  4.268000
4    Profesor 12  2.842857
..           ...       ...
77   Profesor 94  4.666667
78   Profesor 95  4.631000
79   Profeso