# Limpieza de Datos: Ataque de tiburones
La misión del Global Shark Attack File es proporcionar datos actuales e históricos sobre las interacciones entre humanos y tiburones para aquellos que buscan información precisa, significativa y referencias verificables. 

Los humanos no están en el menú de los tiburones. Los tiburones muerden a los humanos por curiosidad o para defenderse.


- Se define un **incidente provocado** como uno en el que el tiburón fue atravesado, enganchado, capturado o en el que un ser humano extrajo "primera sangre". Sabemos que un ser humano vivo rara vez es percibido como presa por un tiburón. Muchos incidentes están motivados por la curiosidad, otros pueden ocurrir cuando un tiburón percibe a un humano como una amenaza o un competidor por una fuente de alimento, y podrían clasificarse como "provocados" cuando se examinan desde la perspectiva del tiburón. 

- **Incidentes que involucran embarcaciones**: los incidentes en los que un barco fue mordido o embestido por un tiburón están en verde. Sin embargo, en los casos en los que el tiburón fue enganchado, enredado o amarrado, la entrada es naranja porque se clasifican como incidentes provocados. 

- **Incidentes cuestionables**: incidentes en los que no hay datos suficientes para determinar si la lesión fue causada por un tiburón o si la persona se ahogó y el cuerpo fue luego devorado por los tiburones

Fuente: https://sharkattackfile.net/

In [101]:
import pandas as pd
import numpy as np
import requests

In [2]:
attacks = pd.read_csv('https://raw.githubusercontent.com/PPereyraAN/Cursos/main/attacks.csv',encoding = 'latin-1', sep = "|")

Unnamed: 0,Case Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,...,Species,Investigator or Source,pdf,href formula,href,Case Number.1,Case Number.2,original order,Unnamed: 22,Unnamed: 23
0,2018.06.25,25-Jun-2018,2018.0,Boating,USA,California,Oceanside| San Diego County,Paddling,Julie Wolfe,F,...,White shark,R. Collier| GSAF,2018.06.25-Wolfe.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.25,2018.06.25,6303.0,,
1,2018.06.18,18-Jun-2018,2018.0,Unprovoked,USA,Georgia,St. Simon Island| Glynn County,Standing,Adysonï¿½McNeely,F,...,,K.McMurray| TrackingSharks.com,2018.06.18-McNeely.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.18,2018.06.18,6302.0,,
2,2018.06.09,09-Jun-2018,2018.0,Invalid,USA,Hawaii,Habush| Oahu,Surfing,John Denges,M,...,,K.McMurray| TrackingSharks.com,2018.06.09-Denges.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.09,2018.06.09,6301.0,,
3,2018.06.08,08-Jun-2018,2018.0,Unprovoked,AUSTRALIA,New South Wales,Arrawarra Headland,Surfing,male,M,...,2 m shark,B. Myatt| GSAF,2018.06.08-Arrawarra.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.08,2018.06.08,6300.0,,
4,2018.06.04,04-Jun-2018,2018.0,Provoked,MEXICO,Colima,La Ticla,Free diving,Gustavo Ramos,M,...,Tiger shark| 3m,A .Kipper,2018.06.04-Ramos.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.04,2018.06.04,6299.0,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25718,,,,,,,,,,,...,,,,,,,,,,
25719,,,,,,,,,,,...,,,,,,,,,,
25720,,,,,,,,,,,...,,,,,,,,,,
25721,,,,,,,,,,,...,,,,,,,,,,


Analisamos el dataset y atacando en primera instancia los valores nulos

In [3]:
attacks.shape

(25723, 24)

In [4]:
attacks.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25723 entries, 0 to 25722
Data columns (total 24 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Case Number             8702 non-null   object 
 1   Date                    6302 non-null   object 
 2   Year                    6300 non-null   float64
 3   Type                    6298 non-null   object 
 4   Country                 6252 non-null   object 
 5   Area                    5847 non-null   object 
 6   Location                5762 non-null   object 
 7   Activity                5758 non-null   object 
 8   Name                    6092 non-null   object 
 9   Sex                     5737 non-null   object 
 10  Age                     3471 non-null   object 
 11  Injury                  6274 non-null   object 
 12  Fatal (Y/N)             5763 non-null   object 
 13  Time                    2948 non-null   object 
 14  Species                 3464 non-null 

In [5]:
attacks.describe()

Unnamed: 0,Year,original order
count,6300.0,6309.0
mean,1927.272381,3155.999683
std,281.116308,1821.396206
min,0.0,2.0
25%,1942.0,1579.0
50%,1977.0,3156.0
75%,2005.0,4733.0
max,2018.0,6310.0


porcentaje de valores nulos por columna


In [6]:
def nullPercentagePerColunm():
    return round((attacks.isna().sum()*100/attacks.shape[0]).sort_values(ascending=False),3)

Observamos que la cantidad de nulos por columna en todos los casos supera mas del 50%

In [7]:
#eliminamos las columnas que tienen casi un 100% de valores nulos
attacks.drop(axis=1,labels=["Unnamed: 22","Unnamed: 23"],inplace=True)

In [8]:
#eliminamos las filas nulas
attacks.dropna(axis=0,how="all",inplace=True)

In [9]:
attacks.shape

(8703, 22)

In [10]:
nullPercentagePerColunm()

Time                      66.127
Species                   60.198
Age                       60.117
Sex                       34.080
Activity                  33.839
Location                  33.793
Fatal (Y/N)               33.781
Area                      32.816
Name                      30.001
Country                   28.163
Injury                    27.910
Investigator or Source    27.784
Type                      27.634
Year                      27.611
href formula              27.600
Date                      27.588
Case Number.2             27.588
pdf                       27.588
href                      27.588
Case Number.1             27.588
original order            27.508
Case Number                0.011
dtype: float64

In [11]:
#eliminamos todas las filas que tengan un porcentaje de nulos mayor o igual al 80%
PERCENTAGE = int(round(80*attacks.shape[1]/100,0))
attacks.dropna(axis=0,inplace=True,thresh=PERCENTAGE)

In [12]:
nullPercentagePerColunm()

Time                      50.085
Species                   42.935
Age                       41.181
Fatal (Y/N)                7.542
Activity                   5.941
Sex                        5.737
Location                   5.346
Area                       4.086
Name                       1.055
Investigator or Source     0.221
Country                    0.170
Injury                     0.136
Year                       0.034
href formula               0.017
Case Number                0.017
Type                       0.017
Date                       0.000
pdf                        0.000
href                       0.000
Case Number.1              0.000
Case Number.2              0.000
original order             0.000
dtype: float64

Reducimos bastante el procentaje de nulos


#### Analizamos columnas 
analizamos que datos nos van a ser realmente utiles (esto es muy subjetivo dependiendo
de lo que se desee hacer con los datos), en mi caso los voy a preparar para que un analista pueda sacar concluciones de ellos, por ende es conveniente quedarnos con valores numericos, calificaciones de casos y datos de relevancia para dicho analisis

In [14]:
attacks.shape

(5874, 22)

In [15]:
#se repiten bastantes columnas de fechas vamos a quedarnos con la que tenga menos variacion en el formato
#cambiamos los datos a date y verifiamcos cuantos casos nos qedan nullos así sabemos con cual de todas las fechas
#quedarnos
for date in ["Date","Case Number","Case Number.1","Case Number.2"]:
    print("cantidad de nulls en",date,":",pd.to_datetime(attacks[date],errors="coerce").isna().sum())


cantidad de nulls en Date : 684
cantidad de nulls en Case Number : 2222
cantidad de nulls en Case Number.1 : 2220
cantidad de nulls en Case Number.2 : 2222


In [16]:
#nos quedamos con la columna de fechas DATE ya que tiene menos cantidad de fechas nulas
attacks.drop(axis = 1,inplace=True,labels=["Case Number","Case Number.1","Case Number.2"])

In [18]:
#eliminamos las columnas de pdfs que no nos van a servir par anada en nuestro analisis
attacks.drop(columns=["href formula","pdf","href"],inplace=True)

In [20]:
#en mi caso elimino el area, locacion del suceso, nombre, invetigador y el tiempo en el que transcurrio
#ya que particularmente son datos que no me intersean para el analisis
attacks.drop(columns=["Area","Location","Name","Investigator or Source","Time"],inplace=True)

In [22]:
#damos un formato mas limpio a los nombres de las columnas
attacks.rename(columns={"Fatal (Y/N)":"Fatal"},inplace=True)
attacks.columns = [column.strip().capitalize().replace(' ','_') for column in list(attacks.columns)]

In [23]:
attacks.columns

Index(['Date', 'Year', 'Type', 'Country', 'Activity', 'Sex', 'Age', 'Injury',
       'Fatal', 'Species', 'Original_order'],
      dtype='object')

#### Analizis particular por columna
es la hora de analizar columna a columna en busca de estandarizar los datos y transformarlos para que sean analizables

In [24]:
#empezamos por date
#vamos a transformar los datos de Date que estan en formato string a tipo Date y los comparamos
attacks["CompareDate"] = pd.to_datetime(attacks["Date"],errors="coerce")

In [26]:
#mucho de los datos comienzan con Reported aplicamos una exprecion regular para cambiar re
attacks["Date"].replace(r'(?i)Reported\s+',"",regex=True,inplace=True)

In [27]:
attacks["CompareDate"] = pd.to_datetime(attacks["Date"],errors="coerce")

In [28]:
#logramos pasar una gran cantidad de fechas que estaban en un formato disfuncional
attacks["CompareDate"].isna().sum()*100/attacks.shape[0]

4.221995233231188

In [29]:
#en mi caso voy a eliminar las filas que tengan Fechas muy dificiles de transformar ya que representan
#un porcnetaje muy bajo del dataFrame y seria imporductivo seguir intentando rescatar fechas
#ya que quedan fechas con informacion dudosa

attacks = attacks.loc[~attacks["CompareDate"].isna(),:]

In [30]:
attacks["Date"] =  attacks["CompareDate"]
attacks.drop(axis=1,columns="CompareDate",inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  attacks["Date"] =  attacks["CompareDate"]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  attacks.drop(axis=1,columns="CompareDate",inplace=True)


In [31]:
attacks.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5626 entries, 0 to 6160
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Date            5626 non-null   datetime64[ns]
 1   Year            5624 non-null   float64       
 2   Type            5625 non-null   object        
 3   Country         5616 non-null   object        
 4   Activity        5308 non-null   object        
 5   Sex             5301 non-null   object        
 6   Age             3408 non-null   object        
 7   Injury          5618 non-null   object        
 8   Fatal           5198 non-null   object        
 9   Species         3245 non-null   object        
 10  Original_order  5626 non-null   float64       
dtypes: datetime64[ns](1), float64(2), object(8)
memory usage: 527.4+ KB


#### Columna year

In [33]:
attacks.Year.dtype

dtype('float64')

In [34]:
#son datos de tipo float y no sabemos si los datos se corresponden al año de nuestra columna Date
#entonces tomamos los años de de la columna date y los asignamos a la columna year para que no tengamos
#discontinuidad de datos
attacks["Year"] = [date.year for date in list(attacks["Date"])]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  attacks["Year"] = [date.year for date in list(attacks["Date"])]


In [35]:
([date.year for date in list(attacks["Date"])] == attacks["Year"]).all()

True

In [36]:
attacks["Year"].dtype

dtype('int64')

#### Columna type 


In [37]:
attacks.Type.unique()

array(['Boating', 'Unprovoked', 'Invalid', 'Provoked', 'Questionable',
       'Sea Disaster', nan, 'Boat', 'Boatomg'], dtype=object)

In [38]:
#tenemos muchos tipos de ataque algo que dificulta el analisis, veamos si podemos englobar algunos tipos dentro.
#de las sigueintes categorias: Boat(accidentes que ocurrieron en una embarcacion),provocados(primera sangre),
#cuestionables(falta de datos para determinar el tipo)
CLEAN_TYPES = list()
for tipe,i in zip(attacks.Type,range(0,attacks.shape[0])):
    if tipe in ["Boating","Sea Disaster","Boat","Boatomg"]:
        CLEAN_TYPES.append("Boat")
    elif tipe in ["Invalid",np.nan]:
        CLEAN_TYPES.append("Questionable")
    else:
        CLEAN_TYPES.append(tipe)
attacks.Type = CLEAN_TYPES

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  attacks.Type = CLEAN_TYPES


#### columna Paises

In [63]:
attacks["Country"].unique()

array(['Usa', 'Australia', 'Mexico', 'Brazil', 'England', 'South Africa',
       'Thailand', 'Costa Rica', 'Maldives', 'Bahamas', 'New Caledonia',
       'Ecuador', 'Malaysia', 'Libya', 'Cuba', 'Mauritius', 'New Zealand',
       'Spain', 'Samoa', 'Solomon Islands', 'Japan', 'Egypt',
       'St Helena| British Overseas Territory', 'Reunion',
       'French Polynesia', 'United Kingdom', 'United Arab Emirates',
       'Philippines', 'Indonesia', 'China', 'Columbia', 'Cape Verde',
       'Fiji', 'Dominican Republic', 'Cayman Islands', 'Aruba',
       'Mozambique', 'Puerto Rico', 'Italy', 'St. Martin', 'France',
       'Papua New Guinea', 'Trinidad & Tobago', 'Kiribati', 'Israel',
       'Diego Garcia', 'Taiwan', 'Jamaica', 'Palestinian Territories',
       'Seychelles', 'Belize', 'Nigeria', 'Tonga', 'Scotland', 'Canada',
       'Saudi Arabia', 'Chile', 'Antigua', 'Kenya', 'Russia',
       'Turks & Caicos', 'United Arab Emirates (Uae)', 'Azores',
       'South Korea', 'Malta', 'Vietnam', 'M

In [62]:
#realizamos un strip para sacar espacios en el inico y final de los caracteres y usamos title para pasar
#todas las palabras con la primera letra en mayusucla y las demas en minuscula
attacks["Country"] = attacks["Country"].apply(lambda country: str(country).strip().title())

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  attacks["Country"] = attacks["Country"].apply(lambda country: str(country).strip().title())


In [60]:
#eliminamos los registros que tenian dos paises quedandonos con solo uno 
attacks["Country"].replace(r'\b\s+/.*',"",regex=True,inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  attacks["Country"].replace(r'\b\s+/.*',"",regex=True,inplace=True)


In [198]:
def changeNameCountry(name):
    if name == "USA":
        return "United States"
    if name in ["England","Scotland"]:
        return "United Kingdom"
    if name == "Columbia":
        return "Colombia"

    return name

In [199]:
attacks["Country"] = attacks["Country"].apply(lambda country: changeNameCountry(country))

In [None]:
API_PAISES = "https://restcountries.com/"

In [None]:
response = requests.get(f"{API_PAISES}v3.1/all?fields=name")

In [157]:
paises = pd.Series([dictionari["name"]["common"] for dictionari in response.json()],name="Paises")

In [164]:
paises

0              Barbados
1               Réunion
2              Suriname
3               Namibia
4                Guinea
             ...       
245             Croatia
246     Solomon Islands
247            Honduras
248    Christmas Island
249         Puerto Rico
Name: Paises, Length: 250, dtype: object

In [205]:
attacks = attacks.merge(right=paises,how="left",left_on="Country",right_on="Paises")

In [203]:
attacks.drop(inplace=True,columns=["Paises_x", "Paises_y"])

In [206]:
attacks.loc[attacks["Paises"].isna(),"Country"].unique()

array(['St Helena| British Overseas Territory', 'Reunion', 'Columbia',
       'St. Martin', 'Trinidad & Tobago', 'Diego Garcia',
       'Palestinian Territories', 'Antigua', 'Turks & Caicos',
       'United Arab Emirates (Uae)', 'Azores', 'Nevis', 'Atlantic Ocean',
       'St. Maartin', 'Grand Cayman', 'Caribbean Sea', 'Okinawa',
       'South China Sea', 'Western Samoa', 'Pacific Ocean',
       'British Isles', 'Nan', 'New Britain', 'Johnston Island',
       'South Pacific Ocean', 'New Guinea', 'North Pacific Ocean',
       'Federated States Of Micronesia', 'Mid Atlantic Ocean',
       'Admiralty Islands', 'British West Indies', 'South Atlantic Ocean',
       'Persian Gulf', 'North Sea', 'Maldive Islands', 'Andaman',
       'North Atlantic Ocean', 'The Balkans', 'Sudan?',
       'Netherlands Antilles', 'Java', 'Central Pacific', 'Indian Ocean',
       'Mid-Pacifc Ocean', 'Southwest Pacific Ocean', 'Curacao',
       'San Domingo', 'Reunion Island', 'Burma', 'British New Guinea',
      

In [207]:
attacks.loc[attacks["Paises"].isna()].shape[0]

187