## Pandas: Conociendo la biblioteca.
### Aula 4: Manipulación de los datos.

Para trabajar en este desafío vamos a utilizar el archivo `alumnos.csv`

In [11]:
import pandas as pd

url = '../../data/alumnos.csv'
datos = pd.read_csv(url)
datos

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
1,Ana,18,,False
2,Camila,27,2.5,False
3,David,18,5.0,False
4,Brian,21,10.0,True
5,Bruna,23,,False
6,Daniela,21,7.0,True
7,Carlos,19,6.0,False
8,Alicia,35,5.6,False
9,Victor,28,,False


In [12]:
# Normalizamos los datos:
# Rellenamos los datos en null y almacenamos la tabla en una nueva
# para trabajar sobre ella
df = datos.fillna(0)
df


Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
1,Ana,18,0.0,False
2,Camila,27,2.5,False
3,David,18,5.0,False
4,Brian,21,10.0,True
5,Bruna,23,0.0,False
6,Daniela,21,7.0,True
7,Carlos,19,6.0,False
8,Alicia,35,5.6,False
9,Victor,28,0.0,False


In [13]:
# También normalizamos la columna Aprobado para que sus valores
# queden en booleano
df['Aprobado'] = df['Aprobado'].apply(
    lambda x: True if x in [True, 'True', 'Verdadero'] else False
)
df['Aprobado'].dtype


dtype('bool')

1. Los estudiantes participaron en una actividad extracurricular y ganaron puntos extras. Estos puntos extras corresponden al 40% de su nota actual. Por lo tanto, crea una columna llamada "Puntos_extras" que contenga los puntos extras de cada estudiante, es decir, el 40% de su nota actual.

In [14]:
df['Puntos_extras'] = (df['Nota'] * 0.4).round(1)
df

Unnamed: 0,Nombre,Edad,Nota,Aprobado,Puntos_extras
0,Alberto,20,7.5,True,3.0
1,Ana,18,0.0,False,0.0
2,Camila,27,2.5,False,1.0
3,David,18,5.0,False,2.0
4,Brian,21,10.0,True,4.0
5,Bruna,23,0.0,False,0.0
6,Daniela,21,7.0,True,2.8
7,Carlos,19,6.0,False,2.4
8,Alicia,35,5.6,False,2.2
9,Victor,28,0.0,False,0.0


2. Crea otra columna llamada "Notas_finales" que contenga las notas de cada estudiante sumadas con los puntos extras.

In [16]:
df['Notas_finales'] = df['Nota'] + df['Puntos_extras']
df

Unnamed: 0,Nombre,Edad,Nota,Aprobado,Puntos_extras,Notas_finales
0,Alberto,20,7.5,True,3.0,10.5
1,Ana,18,0.0,False,0.0,0.0
2,Camila,27,2.5,False,1.0,3.5
3,David,18,5.0,False,2.0,7.0
4,Brian,21,10.0,True,4.0,14.0
5,Bruna,23,0.0,False,0.0,0.0
6,Daniela,21,7.0,True,2.8,9.8
7,Carlos,19,6.0,False,2.4,8.4
8,Alicia,35,5.6,False,2.2,7.8
9,Victor,28,0.0,False,0.0,0.0


3. Dado que hubo una puntuación extra, algunos estudiantes que no habían sido aprobados antes pueden haber sido aprobados ahora. En función de esto, crea una columna llamada "Aprobado_final" con los siguientes valores:

    - True: si el estudiante está aprobado (la nota final debe ser mayor o igual a 7.0).
    - False: si el estudiante está reprobado (la nota final debe ser menor que 7.0).

In [20]:
df['Aprobado_final'] = df['Notas_finales'].apply(
        lambda x: True if x >= 7.0 else False
        )

df

Unnamed: 0,Nombre,Edad,Nota,Aprobado,Puntos_extras,Notas_finales,Aprobado_final
0,Alberto,20,7.5,True,3.0,10.5,True
1,Ana,18,0.0,False,0.0,0.0,False
2,Camila,27,2.5,False,1.0,3.5,False
3,David,18,5.0,False,2.0,7.0,True
4,Brian,21,10.0,True,4.0,14.0,True
5,Bruna,23,0.0,False,0.0,0.0,False
6,Daniela,21,7.0,True,2.8,9.8,True
7,Carlos,19,6.0,False,2.4,8.4,True
8,Alicia,35,5.6,False,2.2,7.8,True
9,Victor,28,0.0,False,0.0,0.0,False


4. Realiza una selección y verifica qué estudiantes no habían sido aprobados anteriormente, pero ahora fueron aprobados después de sumar los puntos extras.

In [21]:
comparativa = df.loc[(df['Aprobado'] == False) & (df['Aprobado_final'] == True)]
comparativa

Unnamed: 0,Nombre,Edad,Nota,Aprobado,Puntos_extras,Notas_finales,Aprobado_final
3,David,18,5.0,False,2.0,7.0,True
7,Carlos,19,6.0,False,2.4,8.4,True
8,Alicia,35,5.6,False,2.2,7.8,True
