# Desafío:

### Conociendo la Base de Datos:

Para practicar los métodos aprendidos a lo largo de esta lección y aprender nuevos, realizaremos algunos análisis utilizando un archivo CSV diferente: __alumnos.csv__.

- Importa el archivo __alumnos.csv__ y almacena su contenido en un DataFrame de Pandas.

- Visualiza las primeras 7 filas del DataFrame y las últimas 5.

- Verifica la cantidad de filas y columnas en este DataFrame.

- Explora las columnas del DataFrame y analiza los tipos de datos presentes en cada columna.

- Extra: Calcula algunas estadísticas descriptivas básicas de los datos en el DataFrame (media, desviación estándar, etc.). Pista: busca el método "describe".

In [146]:
import pandas as pd

In [147]:
path = 'alumnos.csv'
datos = pd.read_csv(path, sep=',')
datos

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
1,Ana,18,,False
2,Camila,27,2.5,False
3,David,18,5.0,False
4,Brian,21,10.0,True
5,Bruna,23,,False
6,Daniela,21,7.0,True
7,Carlos,19,6.0,False
8,Alicia,35,5.6,False
9,Victor,28,,False


In [148]:
datos.head(7)                # Muestra las primeras 7 filas del DataFrame

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
1,Ana,18,,False
2,Camila,27,2.5,False
3,David,18,5.0,False
4,Brian,21,10.0,True
5,Bruna,23,,False
6,Daniela,21,7.0,True


In [149]:
datos.tail()                # Muestra las últimas 5 filas del DataFrame

Unnamed: 0,Nombre,Edad,Nota,Aprobado
13,Miriam,25,9.0,True
14,Pablo,37,,False
15,Milena,29,7.0,True
16,Lucas,33,,False
17,Nadia,34,8.0,Verdadero


In [150]:
datos.shape                # Muestra la cantidad de filas y columnas del DataFrame

(18, 4)

In [151]:
datos[['Nombre', 'Edad']]  # Muestra las columnas 'Nombre' y 'Edad' del DataFrame

Unnamed: 0,Nombre,Edad
0,Alberto,20
1,Ana,18
2,Camila,27
3,David,18
4,Brian,21
5,Bruna,23
6,Daniela,21
7,Carlos,19
8,Alicia,35
9,Victor,28


In [152]:
datos.info()                 # Proporciona un resumen conciso del DataFrame, incluyendo el número de entradas, columnas, tipos de datos y uso de memoria

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Nombre    18 non-null     object 
 1   Edad      18 non-null     int64  
 2   Nota      12 non-null     float64
 3   Aprobado  18 non-null     object 
dtypes: float64(1), int64(1), object(2)
memory usage: 708.0+ bytes


In [153]:
datos.describe()             # Muestra estadísticas descriptivas del DataFrame, como la cuenta, media, desviación estándar, valores mínimo y máximo, y percentiles

Unnamed: 0,Edad,Nota
count,18.0,12.0
mean,25.5,6.841667
std,6.070662,2.264532
min,18.0,2.5
25%,21.0,5.45
50%,24.5,7.0
75%,28.75,8.25
max,37.0,10.0


### Tratamiento y Filtrado de los Datos:

Para practicar los métodos aprendidos a lo largo de esta lección y aprender nuevos, realizaremos algunos tratamientos y selecciones:

1. Verifica si la base de datos contiene datos nulos y, en caso de tenerlos, realiza el tratamiento de estos datos nulos de la manera que consideres más coherente con la situación.

2. Los estudiantes "Alicia" y "Carlos" ya no forman parte del grupo. Por lo tanto, elimínalos de la base de datos.

3. Aplica un filtro que seleccione solo a los estudiantes que fueron aprobados.

4. Guarda el DataFrame que contiene solo a los estudiantes aprobados en un archivo CSV llamado "alumnos_aprobados.csv".
   
5. Extra: Al revisar las calificaciones de los estudiantes aprobados, notamos que algunas calificaciones eran incorrectas. Las estudiantes que obtuvieron una calificación de 7.0, en realidad tenían un punto extra que no se contabilizó. Por lo tanto, reemplaza las calificaciones de 7.0 en la base de datos por 8.0. Consejo: busca el método replace.

In [154]:
datos.isnull().sum()  # 1. Verificamos datos nulos

Nombre      0
Edad        0
Nota        6
Aprobado    0
dtype: int64

In [155]:
datos = datos.fillna(0)  # 1. Reemplazamos los valores nulos por 0

In [156]:
datos    # 1. Comprobamos y aseguramos

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
1,Ana,18,0.0,False
2,Camila,27,2.5,False
3,David,18,5.0,False
4,Brian,21,10.0,True
5,Bruna,23,0.0,False
6,Daniela,21,7.0,True
7,Carlos,19,6.0,False
8,Alicia,35,5.6,False
9,Victor,28,0.0,False


In [157]:
# Cambiamos Verdadero por True
datos.loc[17, 'Aprobado'] = True;

In [158]:
# 2. Guardamos los índices de las filas a eliminar en una variable
alumnos_a_eliminar = datos.query('Nombre == "Alicia" | Nombre == "Carlos"').index

# 2. Eliminamos las filas correspondientes a los estudiantes "Alicia" y "Carlos"
datos.drop(alumnos_a_eliminar, axis=0, inplace=True)

In [159]:
datos  # 2. Comprobamos y Aseguramos

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
1,Ana,18,0.0,False
2,Camila,27,2.5,False
3,David,18,5.0,False
4,Brian,21,10.0,True
5,Bruna,23,0.0,False
6,Daniela,21,7.0,True
9,Victor,28,0.0,False
10,Danilo,21,0.0,False
11,Ignacio,24,4.5,False


In [166]:
seleccion = datos['Nota'] >= 6.0  # 3. Filtramos la condición

In [167]:
datos[seleccion] # 3. Comprobamos y Aseguramos

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
4,Brian,21,10.0,True
6,Daniela,21,7.0,True
12,Stephany,26,10.0,True
13,Miriam,25,9.0,True
15,Milena,29,7.0,True
17,Nadia,34,8.0,True


In [168]:
alumnos_aprobados = datos[seleccion]   # 4. Almacenamos 

In [169]:
alumnos_aprobados.to_csv('alumnos_aprobados.csv', index=False)   # 4. Creamos el csv

In [170]:
alumnos_aprobados.replace(7.0, 8.0)   # Extra Reemplazamos los 7.0 por 8.0

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
4,Brian,21,10.0,True
6,Daniela,21,8.0,True
12,Stephany,26,10.0,True
13,Miriam,25,9.0,True
15,Milena,29,8.0,True
17,Nadia,34,8.0,True


In [171]:
alumnos_aprobados = alumnos_aprobados.replace(7.0, 8.0) # Extra Almacenamos

### Manipulación de los Datos:

Resolvamos los problemas propuestos a continuación utilizando los conocimientos adquiridos hasta ahora.

1. Los estudiantes participaron en una actividad extracurricular y ganaron puntos extras. Estos puntos extras corresponden al 40% de su nota actual. Por lo tanto, crea una columna llamada "Puntos_extras" que contenga los puntos extras de cada estudiante, es decir, el 40% de su nota actual.

2. Crea otra columna llamada "Notas_finales" que contenga las notas de cada estudiante sumadas con los puntos extras.

3. Dado que hubo una puntuación extra, algunos estudiantes que no habían sido aprobados antes pueden haber sido aprobados ahora. En función de esto, crea una columna llamada "Aprobado_final" con los siguientes valores:

   - True: si el estudiante está aprobado (la nota final debe ser mayor o igual a 7.0).
   - False: si el estudiante está reprobado (la nota final debe ser menor que 7.0).
4. Realiza una selección y verifica qué estudiantes no habían sido aprobados anteriormente, pero ahora fueron aprobados después de sumar los puntos extras.

In [172]:
datos['Puntos_extras'] = datos['Nota'].apply(lambda x: x*0.4)  # 1. Creamos la columna con los puntos extra

In [173]:
datos   # Comprobamos

Unnamed: 0,Nombre,Edad,Nota,Aprobado,Puntos_extras
0,Alberto,20,7.5,True,3.0
1,Ana,18,0.0,False,0.0
2,Camila,27,2.5,False,1.0
3,David,18,5.0,False,2.0
4,Brian,21,10.0,True,4.0
5,Bruna,23,0.0,False,0.0
6,Daniela,21,7.0,True,2.8
9,Victor,28,0.0,False,0.0
10,Danilo,21,0.0,False,0.0
11,Ignacio,24,4.5,False,1.8


In [174]:
datos['Notas_finales'] = datos['Nota'] + datos['Puntos_extras']  # 2. Columna Nota Final

In [175]:
datos # Comprobamos

Unnamed: 0,Nombre,Edad,Nota,Aprobado,Puntos_extras,Notas_finales
0,Alberto,20,7.5,True,3.0,10.5
1,Ana,18,0.0,False,0.0,0.0
2,Camila,27,2.5,False,1.0,3.5
3,David,18,5.0,False,2.0,7.0
4,Brian,21,10.0,True,4.0,14.0
5,Bruna,23,0.0,False,0.0,0.0
6,Daniela,21,7.0,True,2.8,9.8
9,Victor,28,0.0,False,0.0,0.0
10,Danilo,21,0.0,False,0.0,0.0
11,Ignacio,24,4.5,False,1.8,6.3


In [176]:
# 3. Columna Aprobado Final
datos['Aprobado_final'] = datos['Notas_finales'].apply(lambda x: True if x >= 7.0 else False)

In [177]:
datos # Comprobamos

Unnamed: 0,Nombre,Edad,Nota,Aprobado,Puntos_extras,Notas_finales,Aprobado_final
0,Alberto,20,7.5,True,3.0,10.5,True
1,Ana,18,0.0,False,0.0,0.0,False
2,Camila,27,2.5,False,1.0,3.5,False
3,David,18,5.0,False,2.0,7.0,True
4,Brian,21,10.0,True,4.0,14.0,True
5,Bruna,23,0.0,False,0.0,0.0,False
6,Daniela,21,7.0,True,2.8,9.8,True
9,Victor,28,0.0,False,0.0,0.0,False
10,Danilo,21,0.0,False,0.0,0.0,False
11,Ignacio,24,4.5,False,1.8,6.3,False


In [181]:
datos.query('Nota < 6.0 & Aprobado_final == True') # 4. Comparamos Columnas

Unnamed: 0,Nombre,Edad,Nota,Aprobado,Puntos_extras,Notas_finales,Aprobado_final
3,David,18,5.0,False,2.0,7.0,True


In [182]:
seleccion = (datos['Nota'] < 6.0) & (datos['Aprobado_final'] == True)
datos[seleccion]

Unnamed: 0,Nombre,Edad,Nota,Aprobado,Puntos_extras,Notas_finales,Aprobado_final
3,David,18,5.0,False,2.0,7.0,True
