## Pandas: Conociendo la biblioteca.
### Aula 3: Tratamiento y filtrado de los datos.

Para trabajar en este desafío vamos a utilizar el archivo `alumnos.csv`

In [22]:
import pandas as pd

url = '../../data/alumnos.csv'
datos = pd.read_csv(url)
datos

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
1,Ana,18,,False
2,Camila,27,2.5,False
3,David,18,5.0,False
4,Brian,21,10.0,True
5,Bruna,23,,False
6,Daniela,21,7.0,True
7,Carlos,19,6.0,False
8,Alicia,35,5.6,False
9,Victor,28,,False


1. Verifica si la base de datos contiene datos nulos y, en caso de tenerlos, realiza el tratamiento de estos datos nulos de la manera que consideres más coherente con la situación.

In [23]:
datos.isnull().sum()

Nombre      0
Edad        0
Nota        6
Aprobado    0
dtype: int64

In [24]:
# Rellenamos los datos null y los almacenamos en una nueva variable (df)
df = datos.fillna(0)

In [25]:
# Constatamos que los datos hayan quedado correctamente tratados
df.isnull().sum()

Nombre      0
Edad        0
Nota        0
Aprobado    0
dtype: int64

2. Los estudiantes "Alicia" y "Carlos" ya no forman parte del grupo. Por lo tanto, elimínalos de la base de datos.

In [26]:
# Establecemos un query para identificar el index de los Nombres
# con dichos valores y lo almacenamos en una variable
df_remove = df.query('Nombre == "Alicia" | Nombre == "Carlos"').index
df_remove

Index([7, 8], dtype='int64')

In [27]:
# Luego usamos el método .drop() para eliminar los registros de 
# la BBDD
df.drop(df_remove, axis=0, inplace=True)

In [28]:
# Constatamos que ya no existen los registros:
df.query('Nombre == "Alicia" | Nombre == "Carlos"').index

Index([], dtype='int64')

3. Aplica un filtro que seleccione solo a los estudiantes que fueron aprobados.

In [29]:
# Primero analizamos si los valores generales de la columna 'Aprobado' son booleanos
df["Aprobado"].dtype

dtype('O')

In [30]:
# Al constatar que la columna no está normalizada, siendo tipo "Object"
#  procedemos atransformar los datos a booleanos
df["Aprobado"] = df["Aprobado"].apply(
    lambda x: True if x in [True, "True", "Verdadero"] else False
)

In [31]:
# Verificamos que el tipo de datos en la columna se hayan
# transformado a boolean
df["Aprobado"].dtype

dtype('bool')

In [32]:
# Ahora creamos la máscara o filtro
aprobado = df['Aprobado'] == True

In [33]:
# Verificamos que el filtro funcione mostrando solo los alumnos aprobados
df[aprobado]

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
4,Brian,21,10.0,True
6,Daniela,21,7.0,True
12,Stephany,26,10.0,True
13,Miriam,25,9.0,True
15,Milena,29,7.0,True
17,Nadia,34,8.0,True


In [34]:
# Finalmente lo almacenamos en una variable
df_aprobado = df[aprobado]

4. Guarda el DataFrame que contiene solo a los estudiantes aprobados en un archivo CSV llamado "alumnos_aprobados.csv".

In [35]:
# Lo guardamos en la carpeta /data del repositorio
df_aprobado.to_csv('../../data/alumnos_aprobados.csv', index=False)

In [36]:
# Constatamos que se pueda leer
pd.read_csv('../../data/alumnos_aprobados.csv')

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
1,Brian,21,10.0,True
2,Daniela,21,7.0,True
3,Stephany,26,10.0,True
4,Miriam,25,9.0,True
5,Milena,29,7.0,True
6,Nadia,34,8.0,True


Extra: Al revisar las calificaciones de los estudiantes aprobados, notamos que algunas calificaciones eran incorrectas. Las estudiantes que obtuvieron una calificación de 7.0, en realidad tenían un punto extra que no se contabilizó. Por lo tanto, reemplaza las calificaciones de 7.0 en la base de datos por 8.0. Consejo: busca el método replace.

In [39]:
df_aprobado['Nota'] = df['Nota'].replace(7.0, 8.0)
df_aprobado

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_aprobado['Nota'] = df['Nota'].replace(7.0, 8.0)


Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
4,Brian,21,10.0,True
6,Daniela,21,8.0,True
12,Stephany,26,10.0,True
13,Miriam,25,9.0,True
15,Milena,29,8.0,True
17,Nadia,34,8.0,True


In [41]:
df_aprobado = df[df["Aprobado"] == True].copy()
df_aprobado

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
4,Brian,21,10.0,True
6,Daniela,21,7.0,True
12,Stephany,26,10.0,True
13,Miriam,25,9.0,True
15,Milena,29,7.0,True
17,Nadia,34,8.0,True


In [43]:
df_aprobado["Nota"] = df_aprobado["Nota"].replace(7.0, 8.0)
df_aprobado

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
4,Brian,21,10.0,True
6,Daniela,21,8.0,True
12,Stephany,26,10.0,True
13,Miriam,25,9.0,True
15,Milena,29,8.0,True
17,Nadia,34,8.0,True


In [44]:
df_aprobado.to_csv('../../data/alumnos_aprobados.csv', index=False)

In [45]:
pd.read_csv('../../data/alumnos_aprobados.csv')

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
1,Brian,21,10.0,True
2,Daniela,21,8.0,True
3,Stephany,26,10.0,True
4,Miriam,25,9.0,True
5,Milena,29,8.0,True
6,Nadia,34,8.0,True
