In [125]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import sidetable

En esta clase, gestionaremos los valores nulos de nuestro data frame.

In [126]:
df = pd.read_csv('../../datos/attacks_limpio_4.csv', index_col=0)

In [127]:
df.head(2)

Unnamed: 0,case_number,year,mes,country,type,activity,age,sex,species,fatal
0,1800.00.00,1976,,seychelles,Unprovoked,a corsair's boat was overturned,,F,UNKNOWN,y
1,1797.05.28.R,1976,May,,Unprovoked,Dropped overboard,,,UNKNOWN,y


In [128]:
df.shape

(6328, 10)

Primero que nada, eliminaremos la columna 'activity', ya que no nos es de utilidad para nuestro estudio actual. 

In [129]:
df.drop(columns='activity', inplace=True)

In [130]:
df.columns

Index(['case_number', 'year', 'mes', 'country', 'type', 'age', 'sex',
       'species', 'fatal'],
      dtype='object')

Lo primero que tenemos que evaluar es en que columnas tenemos nulos y qué cantidad tenemos en cada una. ¿Hay alguna columna con una gran cantidad de nulos? En caso de que sea así deberemos eliminarla.

In [131]:
df.stb.missing()

Unnamed: 0,missing,total,percent
age,2873,6328,45.401391
fatal,619,6328,9.781922
mes,576,6328,9.102402
sex,569,6328,8.991783
country,50,6328,0.790139
type,4,6328,0.063211
case_number,1,6328,0.015803
year,0,6328,0.0
species,0,6328,0.0


Es el momento de eliminar los nulos:
- Reemplazad los valores nulos de la columna age por la media de la edad, redondeada a dos decimales.


In [132]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6328 entries, 0 to 6283
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   case_number  6327 non-null   object 
 1   year         6328 non-null   int64  
 2   mes          5752 non-null   object 
 3   country      6278 non-null   object 
 4   type         6324 non-null   object 
 5   age          3455 non-null   float64
 6   sex          5759 non-null   object 
 7   species      6328 non-null   object 
 8   fatal        5709 non-null   object 
dtypes: float64(1), int64(1), object(7)
memory usage: 494.4+ KB


In [133]:
df['age'].fillna(round((df['age'].mean()), 2),inplace = True)

In [134]:
df['age'].unique()

array([27.28, 14.  , 19.  , 20.  , 15.  , 21.  , 27.  , 36.  , 25.  ,
        6.  , 16.  , 50.  , 13.  , 57.  , 11.  , 48.  , 18.  , 52.  ,
       12.  , 32.  , 10.  , 34.  , 30.  , 60.  , 33.  , 29.  , 54.  ,
       41.  , 37.  , 56.  , 69.  , 38.  , 55.  , 35.  , 46.  , 45.  ,
       28.  , 24.  , 26.  , 49.  , 22.  ,  7.  , 31.  , 17.  , 40.  ,
       42.  ,  3.  ,  8.  , 82.  , 73.  , 68.  , 51.  , 39.  , 58.  ,
       47.  , 61.  , 65.  , 66.  , 43.  ,  9.  , 72.  , 59.  , 64.  ,
       23.  , 71.  , 44.  , 62.  , 63.  , 70.  , 53.  , 77.  , 74.  ,
        5.  , 86.  , 84.  , 75.  , 87.  , 67.  ,  1.  ,  2.  , 81.  ,
       78.  ])

In [135]:
# Podemos observar que los valores nulos se reemplazaron por la media que es igual a 27.28
df.sample(5)

Unnamed: 0,case_number,year,mes,country,type,age,sex,species,fatal
5251,1929.00.00.a,1929,,usa,Unprovoked,27.0,M,UNKNOWN,n
3660,1967.11.04,1967,Nov,philippines,Sea Disaster,27.28,,UNKNOWN,y
1186,2010.06.25.a,2010,Jun,usa,Unprovoked,13.0,F,UNKNOWN,n
2661,1993.05.00.a,1993,,somalia,Unprovoked,27.28,F,UNKNOWN,y
3965,1962.07.20,1962,Jul,madagascar,Provoked,20.0,M,UNKNOWN,n


- En relación a la columna de country al tratarse de una columna de tipo categórica, reemplazad los valores nulos por una nueva categória que se llame Unknown.


In [136]:
df['country'].replace(np.nan,'unknown', inplace=True)

In [137]:
df['country'].unique()

array(['seychelles', 'unknown', 'england', 'australia', 'barbados',
       'jamaica', 'martinique', 'usa', 'guinea', 'greenland', 'france',
       'spain', 'mediterranean sea', 'cuba', 'sweden', 'panama', 'italy',
       'iceland', 'roatan', 'india', 'between portugal & india',
       'venezuela', 'mexico', 'greece', 'canada', 'kenya', 'uruguay',
       'papua new guinea', 'bermuda', 'lebanon', 'sudan', 'djibouti',
       'libya', 'new zealand', 'vietnam', 'sri lanka', 'mozambique',
       'south africa', 'bahrein', 'bahamas', 'reunion', 'solomon islands',
       'korea', 'french polynesia', 'vanuatu', 'iran', 'red sea?',
       'singapore', 'fiji', 'iraq', 'madagascar', 'indonesia',
       'nicaragua', 'marshall islands', 'kiribati', 'north pacific ocean',
       'saudi arabia', 'pacific ocean', 'burma', 'belize', 'asia?',
       'ceylon (sri lanka)', 'brazil', 'thailand', 'costa rica',
       'maldives', 'new caledonia', 'ecuador', 'malaysia', 'mauritius',
       'samoa', 'japan', 'e

- Reemplazad los valores nulos de la columna fatal por Unknown.

In [138]:
df['fatal'].replace(np.nan,'unknown', inplace=True)

In [139]:
df['fatal'].unique()

array(['y', 'n', 'unknown'], dtype=object)

- Reemplazad los valores nulos de la columna type por el valor más frecuente (la moda).


In [140]:
df['type'].mode()[0]

'Unprovoked'

In [141]:
# Reemplazando los  nan con replace

df['type'].replace(np.nan,df['type'].mode()[0], inplace=True)

In [142]:
df['type'].unique()

array(['Unprovoked', 'Provoked', 'Boat', 'Sea Disaster', 'Invalid',
       'Boating', 'Questionable', 'Boatomg'], dtype=object)

In [143]:
# También se podrían reemplazar los nan con fillna

df['type'].fillna(df['type'].mode()[0], inplace=True)

- Reemplazad los valores nulos de la columna fecha por Unknown.

In [144]:
# En nuestro caso la columna fecha se llama 'mes'
df['mes'].unique()

array([nan, 'May', 'Sep', 'Jul', 'Aug', 'Dec', 'Mar', 'Oct', 'Apr', 'Jan',
       'Jun', 'Feb', 'Nov', 'Unknown'], dtype=object)

In [145]:
df['mes'].replace(np.nan,'Unknown', inplace=True)

In [146]:
df['mes'].unique()

array(['Unknown', 'May', 'Sep', 'Jul', 'Aug', 'Dec', 'Mar', 'Oct', 'Apr',
       'Jan', 'Jun', 'Feb', 'Nov'], dtype=object)

In [147]:
# Observamos cómo ha cambiado la cantidad de nulos en nuestras columnas

df.isnull().sum()

case_number      1
year             0
mes              0
country          0
type             0
age              0
sex            569
species          0
fatal            0
dtype: int64

Reemplazamos los valores de la columna 'sex' con la moda

In [148]:
df['sex'].unique()

array(['F', nan, 'M'], dtype=object)

In [149]:
df['sex'].fillna(df['sex'].mode()[0], inplace=True)

In [150]:
df['sex'].unique()

array(['F', 'M'], dtype=object)

Guardad el csv para seguir trabajando con el en los siguientes ejercicios de pair.

In [151]:
df.to_csv('../../datos/attack_limpio_nulos_1.csv')