# Pair Programming 
## Lección 13 - Limpieza IV - Valores Nulos
​
En este caso trabajaremos con el dataframe que limpiamos en el ejercicio de pair de Limpieza anterior, el de Limpieza III, donde limpiabamos las columnas de species, age, etc. y eliminabamos los outliers.

Antes de seguir, recordamos las preguntas que nos planteamos al principio del pair programming de EDA para dirigir nuestro análisis.

- ¿Es Australia es el sitio más peligroso y letal para estar relajada en la playa?
- ¿Cuál es el rango de edad que sufre la mayoría de los ataques?
- Independientemente de la edad, sufren los hombres más ataques que las mujeres?
- ¿En qué mes ocurren más ataques?
- ¿Cuál es la relación entre la especie y el tipo de ataque (si es fatal o no)?
- ¿Cómo han evolucionado los ataques a lo largo del tiempo?

De todo esto, nos damos cuenta que solo tenemos que limpiar algunas de las columnas, en concreto age, species, country, fatal, year, sex. Si reducimos esto a una tabla para saber que tenemos ya limpito y que no. **Actualizamos esta tabla ya que en el ejercicio de pair de Limpieza I ya dejamos algunas columnas limpitas:

variable    ¿Está limpia?

age         ✔️ esta en formato string cuando debería ser integer y en algunos casos tenemos rangos de edad

species     ✔️ es un jaleo! Debemos unificar los nombres y reducir a las especies más importantes

country     ✔️ los paises están en mayúsculas, algunos se repiten con algunos cambios

fatal       ✔️ la limpiamos en el pair de Pandas V

year        ✔️ es una columna de tipo float deberíamos convertirla a integer

sex         ✔️ la limpiamos en el pair de Pandas V

fecha       ✔️ la limpiamos en el pair de Pandas V

Es el momento de ponernos a trabajar con los valores nulos 💪🏽. A lo largo de este ejercicio de pair programming vamos a intentar eliminar los valores nulos de nuestras columnas. En la lección hemos aprendido varios métodos, nosotras os planteamos los ejercicios pero sentiros libres de usar el método que más se adapte a vuestras necesidades. Manos a la obra!

In [1]:
import pandas as pd
import sidetable
import numpy as np

In [2]:
df = pd.read_csv("limpieza3.csv", index_col=0)

In [3]:
df.head(2)

Unnamed: 0,type,country,activity,age,species_,mes,fatal,sex,especie_tiburon,year,age_ok
0,Boating,usa,Paddling,57,White shark,Jun,N,F,White shark,2018,57.0
1,Unprovoked,brazil,Swimming,18,Tiger shark,Jun,Y,M,Tiger shark,2018,18.0


1. Lo primero que tenemos que evaluar es en que columnas tenemos nulos y que cantidad tenemos en cada una. ¿Hay alguna columna con una gran cantidad de nulos? En caso de que sea así deberemos eliminarla.

In [4]:
nulos = df.stb.missing()
nulos

Unnamed: 0,missing,total,percent
mes,214,1667,12.837433
age_ok,154,1667,9.238152
age,150,1667,8.9982
species_,123,1667,7.378524
especie_tiburon,123,1667,7.378524
fatal,97,1667,5.818836
activity,31,1667,1.859628
sex,15,1667,0.89982
country,10,1667,0.59988
type,0,1667,0.0


En la columna "mes" es donde hay más cantidad de nulos con un 12.8% de los mismos. Procederemos a eliminar los nulos de dicha columna.

In [5]:
df.dropna(subset=["mes"], how = "any", inplace=True)

In [6]:
nulos = df.stb.missing()
nulos

Unnamed: 0,missing,total,percent
fatal,77,1453,5.299381
age_ok,11,1453,0.757054
species_,9,1453,0.619408
especie_tiburon,9,1453,0.619408
age,8,1453,0.550585
country,2,1453,0.137646
sex,2,1453,0.137646
activity,1,1453,0.068823
type,0,1453,0.0
mes,0,1453,0.0


2. Es el momento de eliminar los nulos:
- Reemplazad los valores nulos de la columna age por la media de la edad, redondeada a dos decimales.

In [7]:
df["age_ok"].fillna(round(df["age_ok"].mean(),2), inplace=True)

In [8]:
nulos = df.stb.missing()
nulos

Unnamed: 0,missing,total,percent
fatal,77,1453,5.299381
species_,9,1453,0.619408
especie_tiburon,9,1453,0.619408
age,8,1453,0.550585
country,2,1453,0.137646
sex,2,1453,0.137646
activity,1,1453,0.068823
type,0,1453,0.0
mes,0,1453,0.0
year,0,1453,0.0


In [9]:
df.tail()

Unnamed: 0,type,country,activity,age,species_,mes,fatal,sex,especie_tiburon,year,age_ok
1511,Sea Disaster,martinique,,,,Mar,Y,M,,1997,28.07
1512,Unprovoked,usa,Swimming,,,Aug,Y,M,,1997,28.07
1521,Unprovoked,usa,Swimming,,,Jul,Y,M,,1997,28.07
1525,Unprovoked,,Swimming,,,Dec,Y,M,,1997,28.07
1530,Unprovoked,barbados,Swimming,19.0,,Mar,N,M,,1997,19.0


- En relación a la columna de country al tratarse de una columna de tipo categórica, reemplazad los valores nulos por una nueva categoría que se llame Unknown.

In [10]:
df["country"].replace( np.nan, "Unknown", inplace=True)

In [11]:
nulos = df.stb.missing()
nulos

Unnamed: 0,missing,total,percent
fatal,77,1453,5.299381
species_,9,1453,0.619408
especie_tiburon,9,1453,0.619408
age,8,1453,0.550585
sex,2,1453,0.137646
activity,1,1453,0.068823
type,0,1453,0.0
country,0,1453,0.0
mes,0,1453,0.0
year,0,1453,0.0


In [12]:
df.tail()

Unnamed: 0,type,country,activity,age,species_,mes,fatal,sex,especie_tiburon,year,age_ok
1511,Sea Disaster,martinique,,,,Mar,Y,M,,1997,28.07
1512,Unprovoked,usa,Swimming,,,Aug,Y,M,,1997,28.07
1521,Unprovoked,usa,Swimming,,,Jul,Y,M,,1997,28.07
1525,Unprovoked,Unknown,Swimming,,,Dec,Y,M,,1997,28.07
1530,Unprovoked,barbados,Swimming,19.0,,Mar,N,M,,1997,19.0


- Reemplazad los valores nulos de la columna fatal por Unknown.

In [13]:
df["fatal"].replace( np.nan, "Unknown", inplace=True)

In [14]:
nulos = df.stb.missing()
nulos

Unnamed: 0,missing,total,percent
species_,9,1453,0.619408
especie_tiburon,9,1453,0.619408
age,8,1453,0.550585
sex,2,1453,0.137646
activity,1,1453,0.068823
type,0,1453,0.0
country,0,1453,0.0
mes,0,1453,0.0
fatal,0,1453,0.0
year,0,1453,0.0


In [27]:
df.sample()

Unnamed: 0,type,country,activity,age,species_,mes,fatal,sex,especie_tiburon,year,age_ok
445,Invalid,australia,Swimming,34,Not a shark attack; it was a hoax,Dec,Unknown,M,Unspecified,2007,34.0


- Reemplazad los valores nulos de la columna type por el valor más frecuente (la moda).

In [16]:
df["type"].replace( np.nan, df["type"].mode()[0], inplace=True)

In [17]:
nulos_porcentaje = pd.DataFrame((df.isnull().sum()*100)/df.shape[0]).reset_index()
nulos_porcentaje.columns = ["columna", "porcentaje"]
nulos_porcentaje

Unnamed: 0,columna,porcentaje
0,type,0.0
1,country,0.0
2,activity,0.068823
3,age,0.550585
4,species_,0.619408
5,mes,0.0
6,fatal,0.0
7,sex,0.137646
8,especie_tiburon,0.619408
9,year,0.0


In [18]:
df["type"].mode()[0]

'Unprovoked'

In [19]:
df.head()

Unnamed: 0,type,country,activity,age,species_,mes,fatal,sex,especie_tiburon,year,age_ok
0,Boating,usa,Paddling,57,White shark,Jun,N,F,White shark,2018,57.0
1,Unprovoked,brazil,Swimming,18,Tiger shark,Jun,Y,M,Tiger shark,2018,18.0
2,Unprovoked,usa,Walking,15,"Bull shark, 6'",May,N,M,Bull shark,2018,15.0
3,Provoked,australia,Feeding sharks,32,Grey reef shark,May,N,M,Grey shark,2018,32.0
4,Invalid,england,Fishing,21,Invalid incident,May,N,M,Unspecified,2018,21.0


- Reemplazad los valores nulos de la columna fecha por Unknown.

In [20]:
df["mes"].replace( np.nan, "Unknown", inplace=True)

In [21]:
nulos_porcentaje = pd.DataFrame((df.isnull().sum()*100)/df.shape[0]).reset_index()
nulos_porcentaje.columns = ["columna", "porcentaje"]
nulos_porcentaje

Unnamed: 0,columna,porcentaje
0,type,0.0
1,country,0.0
2,activity,0.068823
3,age,0.550585
4,species_,0.619408
5,mes,0.0
6,fatal,0.0
7,sex,0.137646
8,especie_tiburon,0.619408
9,year,0.0


Se intenta reemplazar los nulos a la categoría "Unknown" pero si nos fijamos no aparece dicha columna porque en este caso eliminamos todos los nulos en el primer ejercicio.

3. Guardad el csv para seguir trabajando con el en los siguientes ejercicios de pair.

In [22]:
df.to_csv("limpieza4.csv")

Happy coding 🦈