In [1]:
import seaborn as sns
import pandas as pd

In [2]:
df = sns.load_dataset("penguins")
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


Hoy en la clase ha surgido una duda, ¿Cómo podremos extraer solo las filas donde tenga nulos? Hemos optado por identificar los índices de las filas que tienen nulos. Para ello vamos a hacer un filtro sobre nuestro dataframe usando como condición el método `isnull`que nos devuelve una matriz de booleanos siendo True en aquellas celdas donde tengamos nulos. 

In [3]:
df[df["bill_length_mm"].isnull()]

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
3,Adelie,Torgersen,,,,,
339,Gentoo,Biscoe,,,,,


Ya tenemos las filas donde tenemos nulos para la columna `bill_length_mm`. Sin embargo, esto nos devuelve un dataframe, pero lo que queremos son los índices. Así que vamos a usar el método `index` para sacar los índices

In [4]:
df[df["bill_length_mm"].isnull()].index

Int64Index([3, 339], dtype='int64')

Pero ui!! Esto es un tipo de dato muy raro. ¿Cómo podríamos hacer que fuera una simple lista? Convirtiendolo a lista!

In [5]:
list(df[df["bill_length_mm"].isnull()].index)

[3, 339]

Ahora lo unico que nos falta es sacar esto para todas las columnas, para eso usaremos un for loop. 

In [6]:
indices = []
for i in df.columns:
    ind = list(df[df[i].isnull()].index)
    indices.extend(ind)
indices

[3, 339, 3, 339, 3, 339, 3, 339, 3, 8, 9, 10, 11, 47, 246, 286, 324, 336, 339]

Si nos fijamos ahora, vemos que tenemos indices que están repetidos, lo vamos a convertir a set y luego a lista de nuevo para eliminar los duplicados

In [7]:
indices = list(set(indices))
indices

[3, 324, 8, 9, 10, 11, 47, 336, 339, 246, 286]

El siguiente paso sería filtrar el dataframe original para sacar las filas que coinciden con estos indices. Veamos como hacerlo usando un iloc: 

In [8]:
df_nulos = df.iloc[indices]
df_nulos


Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
3,Adelie,Torgersen,,,,,
324,Gentoo,Biscoe,47.3,13.8,216.0,4725.0,
8,Adelie,Torgersen,34.1,18.1,193.0,3475.0,
9,Adelie,Torgersen,42.0,20.2,190.0,4250.0,
10,Adelie,Torgersen,37.8,17.1,186.0,3300.0,
11,Adelie,Torgersen,37.8,17.3,180.0,3700.0,
47,Adelie,Dream,37.5,18.9,179.0,2975.0,
336,Gentoo,Biscoe,44.5,15.7,217.0,4875.0,
339,Gentoo,Biscoe,,,,,
246,Gentoo,Biscoe,44.5,14.3,216.0,4100.0,
