# CLEANING

![alt text](https://miro.medium.com/max/413/0*Cir0TzUEkHMbb8QB "Cleaning data")

- Cargamos **librerías, funciones y el data set** que vamos a usar para la limpieza 

In [None]:
!conda install matplotlib

Collecting package metadata (current_repodata.json): done
Solving environment: failed with initial frozen solve. Retrying with flexible solve.
Solving environment: failed with repodata from current_repodata.json, will retry with next repodata source.
Collecting package metadata (repodata.json): done
Solving environment: / 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [None]:
#ORDENAR - esta es la importacion del archivo de las funciones de limpieza que me he creado
import sys
sys.path.append("src/")
from src.cleaning_functions import *

In [None]:
ds = pd.read_csv("data/attacks.csv",encoding = "ISO-8859-1")

- Hacemos una copia del data set "just in case"...

In [None]:
df = ds.copy()

# EXPLORACIÓN DATA SET

![alt text](https://memegenerator.net/img/instances/40379228/let-me-take-a-look-at-this.jpg "Take a look")

In [None]:
df.shape #25.723 Lineas y 24 columnas

In [None]:
df.sample()

df.isna().sum()

Hay muchas columnas bastante sucias donde prácticamente todo son NaN.
De hecho "Unnamed 22 y 23" solo tienen dos datos

In [None]:
df[["Unnamed: 22","Unnamed: 23"]].notna().sum()

- Podemos ver el porcentaje de NaN por cada columna para ver su grado de suciedad/validez:

In [None]:
df.isnull().sum().apply(lambda x: x/df.shape[0]).sort_values(ascending=False)

In [None]:
df.loc[df['Unnamed: 22'].notna()] #stopped here, mierdato

In [None]:
df.loc[df['Unnamed: 23'].notna()] #Teramo y change filename

In [None]:
df.columns

- Vemos que hay un par de columnsa con espacios que podemos quitar: Species y Sex

In [None]:
df.columns = df.columns.str.rstrip()

In [None]:
df.columns

# LIMPIEZA

![alt text](https://miro.medium.com/max/568/1*S1HH5F8PqWWcId9sb0L8og.jpeg "Dropna")

- Quitamos todas las filas y columnas que tengan todo NaN

In [None]:
df.dropna(axis = 0, how = 'all', inplace = True)
df.dropna(axis = 1, how = 'all', inplace = True)

df.drop_duplicates(inplace=True)


df.shape #hemos quitado bastantes filas, realmente columnas no hemos limpiado directamente ya que Unnamed 22 y 23 tenian 1 y 2 datos

In [None]:
df["Case Number"].sample(40)

In [None]:
df[["Case Number", "Date","Investigator or Source",'Case Number.1', 'Case Number.2', 'original order']].sample(30)

- Echando una ojeada a estas columnas podemosdescartarlas ya que o están duplicadas o son datos que no nos van a aportar para nuestras hipótesis

In [None]:
df[["pdf", "href","href formula"]].sample(20)

- Miramos uno de los links del href para ver contenido:

In [None]:
df["href"][3513] 

https://sharkattackfile.net/spreadsheets/pdf_directory/1967.08.25-Casucci.pdf

In [None]:
df["href formula"][6091]

http://sharkattackfile.net/spreadsheets/pdf_directory/1830.04.30-Bromwick.pdf


- Algunos estaban vacíos (iamgino que habrá cambiado en algo la dirección), otros contienen pdf´s con datos del ataque reportado: imagenes, recortes de periódico, fotos de la ubicación, etc....
Pero en este caso no voy a utilizarlos.

- Ojeadas las columnas podemos hacer **drop** de las que **no considero interesantes** para el caso:

'Case Number','Investigator or Source', 'pdf', 'href formula', 'href', 'Case Number.1', 'Case Number.2', 'original order', 'Unnamed: 22','Unnamed: 23'

In [None]:
df.drop(['Case Number','Investigator or Source', 'pdf', 'href formula', 'href', 'Case Number.1', 'Case Number.2', 'original order', 'Unnamed: 22','Unnamed: 23'], axis=1, inplace=True)

In [None]:
df.columns

### YEAR y DATE COLUMN

In [None]:
df.Year.unique() #Vamos a ver si podemos rescatar algun año a través del contenido de la columna date

- Vemos años un poco raros, así que paso a verlos en detalle

In [None]:
df[(df.Year == 0)]

- Hay 125 lineas con el df.Year == CERO pero en df.Date si que figuran datos, a ver que podemos rescatar de ahí.

In [None]:
list(df.Date.unique())

- Mucho reported y mucho espacio en blanco:

In [None]:
df.Date = df.Date.replace(regex=r'(?i)Reported\s{1,9}',value='')
list(df.Date.unique())

- Aunque no salen en los **uniques** hay muchos Dates que salen como rangos, o datos de antes de Cristo.
- Vamos a denominarlos momentáneamente salvables para ver cuantos hay exactamente:

In [None]:
salvables = df.loc[(df["Year"] == 0) & (df["Date"] != np.nan)]
salvables.shape

In [None]:
salvables.sample(30)

- Llamamos a las funciones definidas en el **cleanin_functions.py**, mas concretamente a rescatar fechas que aplica 3 funciones secuencialmente donde coge por orden los que contienen BC, los que son fechas sueltas (tipo Before YYYY) y luego los intervalos de los cuales saca la media, para rellenar los datos de df.Year para esos valores de df.Dates  #TODO, mira tema de late´s y demas para meterlos tb

In [None]:
df.Year = df.Date.apply(rescatar_fechas)

- Si miramos el dato primero de nuestra lista anterior vemos que:

In [None]:
df["Date"][6228]

In [None]:
df["Year"][6228]

In [None]:
df["Date"][6265]

In [None]:
df["Year"][6265]

In [None]:
#pd.set_option('max_rows', None)

In [None]:
df[["Date","Year"]].sample(10)

In [None]:
#pd.set_option('max_rows', 20)

## AREA / LOCATION COLUMNS

- Ambas columnas son bastante imprecisas en cuanto a ubicacion, por lo que mejor voy a trabajar sobre la columna **country.**

In [None]:
df[["Country","Area","Location"]].sample(10)

- Country voy a limpiar con una funcion metidad en cleaning_functios.py llamada paises. He cogido una lista de paises de Github que esta
metida en un CSV, lo que hace la funcion es mirar si la cadena correspondiente está en el CSV y sino le asigna NaN adema de un par de incorrecciones de la escritura de nombres que tambien he metido

In [None]:
df.Country = df.Country.apply(paises)

In [None]:
df.Country.notna().sum()

In [None]:
#Esto se puede mejorar, para resultados sea...

# ACTIVITY COLUMN

In [None]:
df.Activity.sample(30)

- La lista de actividades es amplia, vamos a agruparlas y filtrarlas a través de una función llamada actividad tambien contenida en cleaning_functions.py

In [None]:
df.Activity = df.Activity.apply(actividad)
df.Activity.sample(30)

# COLUMNA INJURY

In [None]:
list(df["Fatal (Y/N)"].unique())

In [None]:
df[["Fatal (Y/N)","Injury"]].sample(30)

- El tema de valores distintos de los previsibles "Y"/ "N" ademas de categorizar la columna injury lo vamos a hacer a través de dos funciones

In [None]:
df["Injury"] = df["Injury"].apply(lesiones)

In [None]:
df['Fatal (Y/N)'] = df["Fatal (Y/N)"].apply(fatal)

In [None]:
df[["Fatal (Y/N)","Injury"]].sample(10)

In [None]:
#TODO age

# SPECIES COLUMN

In [None]:
df.Species.sample(30)

- Para limpiar esto vamos a usar algo parecido a lo que hemos hecho con activity para categorizar y leer las cadenas de dentro.Usaré la lista de nombres de https://sharkattackfile.net/species.htm
 que es de donde viene nuestro dataframe además

In [None]:
df.Species = df.Species.apply(species)

In [None]:
df.Species.sample(30)

# Exportamos el data frame limpio a un CSV nuevo

In [None]:
df.to_csv("src/attack_limpio.csv",index=False)

- La visualizacion continua en `analysis.ipynb` [📑](analysis.ipynb) 