# Estadísticas para sharks

Una vez que la lista se ha limpiado y estructurado con los datos relevantes para nuestros objetivos, se cargan las librerías necesarias para trabajar con el dataframe. Se carga y se crea una copia para poder trabajar con ello.

In [None]:
%pip install seaborn

%matplotlib inline

%pip install requests 

%pip install openpyxl

%pip install xlrd

%pip install regex

In [2]:
import pandas as pd
pd.set_option('display.max_columns', None)

import numpy as np

import warnings
warnings.filterwarnings('ignore')

import regex as re

import pylab as plt
import seaborn as sns

In [3]:
df = pd.read_csv('../data/sharksclean.csv')

In [5]:
df1= df.copy()

In [6]:
df1

Unnamed: 0,attack_type,country,area,activity,sex,injury,fatal,time,species,age,year,month
0,Boating,USA,California,Paddling,F,"No injury to occupant, outrigger canoe and pad...",N,18h00,White shark,57,2018,June
1,Unprovoked,USA,Georgia,Standing,F,Minor injury to left thigh,N,14h00 -15h00,unknown,11,2018,June
2,Invalid,USA,Hawaii,Surfing,M,Injury to left lower leg from surfboard skeg,N,07h45,unknown,48,2018,June
3,Unprovoked,AUSTRALIA,New South Wales,Surfing,M,Minor injury to lower leg,N,unknown,2 m shark,not declared,2018,June
4,Provoked,MEXICO,Colima,Free diving,M,Lacerations to leg & hand shark PROVOKED INCIDENT,N,unknown,"Tiger shark, 3m",not declared,2018,June
...,...,...,...,...,...,...,...,...,...,...,...,...
6297,Unprovoked,AUSTRALIA,Western Australia,Diving,M,FATAL,Y,unknown,unknown,not declared,1903,unknown
6298,Unprovoked,AUSTRALIA,Western Australia,Pearl diving,M,FATAL,Y,unknown,unknown,not declared,1903,unknown
6299,Unprovoked,USA,North Carolina,Swimming,M,FATAL,Y,unknown,unknown,not declared,unknown,unknown
6300,Unprovoked,PANAMA,unknown,unknown,M,FATAL,Y,unknown,unknown,not declared,unknown,unknown


Un vistazo rápido con el comando describe nos permitirá ver valores únicos, el más frecuente y la frecuencia. Pero hay otros parámetros como puede ser la media, mediana, moda, porcentajes relativos y absolutos... que pueden ser de utilidad y no aparecen en la tabla por lo que habrá que extraerlos de la misma y así poder determinarlos.

In [8]:
df1.describe().T

Unnamed: 0,count,unique,top,freq
attack_type,6302,9,Unprovoked,4595
country,6302,213,USA,2229
area,6302,826,Florida,1037
activity,6302,1533,Surfing,971
sex,6302,3,M,5098
injury,6302,3737,FATAL,802
fatal,6302,3,N,4302
time,6302,367,unknown,3354
species,6302,1550,unknown,2838
age,6302,82,not declared,2871


# Variables de bajos valores únicos

Obtengamos en primer lugar valores únicos de interés, los cuales estan en baja proporción pero dan información suficiente como para asumir resultados. Estos son el tipo de ataque de tiburón (attack_type), el sexo de los afectados (sex), si los incidentes han sido fatales (fatal) y los meses de los ataques (month). El resto de variables poseen demasiados valores únicos como para estudiarlos uno a uno. Se calcularán en porcentaje, en base a todos los resultados obtenidos (6302).

In [21]:
round((df1.sex.value_counts()*100)/(df1.sex.value_counts().sum()),2)

M               80.89
F               10.11
not declared     9.00
Name: sex, dtype: float64

In [20]:
round((df1.attack_type.value_counts()*100)/(df1.attack_type.value_counts().sum()),2)

Unprovoked      72.91
Provoked         9.11
Invalid          8.68
Sea Disaster     3.79
Boating          3.22
Boat             2.17
unknown          0.06
Questionable     0.03
Boatomg          0.02
Name: attack_type, dtype: float64

In [19]:
round((df1.fatal.value_counts()*100)/(df1.fatal.value_counts().sum()),2)

N          68.26
Y          22.04
unknown     9.70
Name: fatal, dtype: float64

In [26]:
round((df1.month.value_counts()*100)/(df1.month.value_counts().sum()),2)

unknown      14.19
July          9.92
August        8.81
September     8.28
January       7.85
June          7.54
April         6.70
December      6.62
October       6.62
March         6.03
November      6.00
May           5.79
February      5.66
Name: month, dtype: float64

Los datos indican que un 81% de los afectados son hombres, con un 10% de mujeres y un 9% de sexo no especificado en el reporte. También se observa que el 68% de los taques no fueron letales, mientras que un 22% de los mismos sí lo fueron, con un 10% de datos desconocidos. En cuanto al tipo de ataque, un 73% se considera no provocado y el otro 27% por otras causas (provocado, desastre marítimo, barcos...). Por último, descontando un 14% de los casos en los que se desconoce el mes del ataque, el mayor porcentaje de ataques se concentra en los meses de verano (julio, agosto y septiembre) con un 8-10% de los ataques al mes. El resto de meses se mantiene inferior al 8% siendo los meses de menor frecuencia mayo y febrero (un 6%).

# País

Con respecto a los países de los ataques, hay mucha más variedad debido a que los datos no son lo suficientemente consistentes a la hora de ser registrados pero puede obtenerse información importante.

In [54]:
round((df1.country.value_counts()*100)/(df1.country.value_counts().sum()),2)

USA                      35.37
AUSTRALIA                21.23
SOUTH AFRICA              9.19
PAPUA NEW GUINEA          2.13
NEW ZEALAND               2.03
                         ...  
THE BALKANS               0.02
NORTH ATLANTIC OCEAN      0.02
MAYOTTE                   0.02
GABON                     0.02
CEYLON (SRI LANKA)        0.02
Name: country, Length: 213, dtype: float64

Más de un tercio de los ataques se han producido en Estados Unidos, mientras que cerca de una quinta parte del total se ha producido en África. El resto de ataques suponen una porción muy pequeña de los resultados como para ser estimada debido a la inconsistencia de la base de datos.

# Especies

Un parámetro a tener en cuenta es el tipo de especies de tiburón que han sido registradas ya que puede permitirnos estimar su frecuencia. Los tiburones más peligrosos son los tiburones blancos, los tiburones tigre y los tiburones toro. Otros que son peligrosos pero menos frecuentes son: el tiburón de cola negra, el tiburón Mako, el tiburón azul, el tiburón cobrizo, el tiburón arenero y el tiburón martillo. Podemos buscar su frecuencia en la columna 'species' buscando por palabras concretas con el comando str.contains. No podemos contar valores únicos debido a que cada descripción de esta variable es poco consistente.

In [81]:
df1.species.value_counts().tail()

1.2 m to 1.5 m [4.5' to 5'] shark                                                                                                1
Bull shark, 2.3 m [7.5']                                                                                                         1
0.9 m  [3'] shark                                                                                                                1
Mako shark, 14'                                                                                                                  1
Said to involve a grey nurse shark that leapt out of the water and  seized the boy but species identification is questionable    1
Name: species, dtype: int64

In [79]:
print("Número de tiburones blancos registrados: ", df1.species.str.contains("White shark", "white shark").sum())
print("Número de tiburones tigre registrados: ", df1.species.str.contains("tiger shark", "Tiger shark").sum())
print("Número de tiburones blancos registrados: ", df1.species.str.contains("bull shark", "Bull shark").sum())
print("Número de tiburones de cola negra registrados: ", df1.species.str.contains("blacktip shark","Blacktip shark").sum())
print("Número de tiburones Mako registrados: ", df1.species.str.contains("Mako shark", "mako shark").sum())
print("Número de tiburones azules registrados: ", df1.species.str.contains("Blue shark", "blue shark").sum())
print("Número de tiburones cobrizos registrados: ", df1.species.str.contains("copper shark", "Copper shark").sum())
print("Número de tiburones areneros registrados: ", df1.species.str.contains("sand shark", "Sand shark").sum())
print("Número de tiburones martillo registrados: ", df1.species.str.contains("Hammer shark", "hammer shark").sum())

Número de tiburones blancos registrados:  436
Número de tiburones tigre registrados:  48
Número de tiburones blancos registrados:  51
Número de tiburones de cola negra registrados:  30
Número de tiburones Mako registrados:  44
Número de tiburones azules registrados:  29
Número de tiburones cobrizos registrados:  3
Número de tiburones areneros registrados:  13
Número de tiburones martillo registrados:  0


# Multivariables

Gracias a la función groupby, podemos agrupar variables y contar cuántas coincidencias tenemos en diferentes columnas para poder definir resultados que compartar las variables seleccionadas. Por ejemplo, podemos comprobar cuál es la proporción entre ataques letales entre hombres y mujeres.

In [154]:
round(df1.groupby(["sex", "fatal"])["fatal"].count().sort_values(ascending=False)*100, 2)/df1.value_counts().sum()

sex           fatal  
M             N          55.284037
              Y          18.629007
F             N           7.426214
M             unknown     6.981911
not declared  N           5.553792
              unknown     1.729610
              Y           1.713742
F             Y           1.697874
              unknown     0.983815
Name: fatal, dtype: float64

De estos porcentajes comprobamos que de los ataques letales, un 18.6% corresponde a hombres mientras que un 1.7% corresponde a mujeres. El 1.7% restante (hasta aproximadamente un 22% como veíamos arriba) es del sesgo de sexo no declarado en los reportes.

Empleando la misma metodología, podemos hacer un estudio del sexo y la edad de los afectados por los ataques de tiburón. Dado que un gran porcentaje de los mismos no han declarado su edad (casi un 46%), se puede observar que los más afectados por estos ataques son hombres jóvenes de entre 17-29 años. En este rango las mujeres no se ven afectadas.

In [161]:
(round(df1.groupby(["sex", "age"])["fatal"].count().sort_values(ascending=False)*100, 2)/df1.value_counts().sum()).head(20)

sex           age         
M             not declared    34.322437
not declared  not declared     8.394161
F             not declared     2.840368
M             17               2.253253
              18               2.126309
              20               2.062837
              16               1.999365
              19               1.983497
              15               1.840685
              21               1.682006
              25               1.650270
              22               1.634402
              24               1.570930
              26               1.237702
              14               1.205966
              23               1.190098
              30               1.190098
              27               1.158362
              28               1.126626
              29               1.079023
Name: fatal, dtype: float64

Nos fijaremos ahora en la proporción de hombres y mujeres de los diferentes países y las edades de los afectados.

In [177]:
(round(df1.groupby(["sex", "age", "country"])["country"].count().sort_values(ascending=False)*100, 2)/df1.value_counts().sum()).head(20)

sex           age           country         
M             not declared  USA                 9.489051
                            AUSTRALIA           7.394478
                            SOUTH AFRICA        2.221517
not declared  not declared  AUSTRALIA           2.094573
                            USA                 1.380514
M             not declared  PAPUA NEW GUINEA    1.126626
not declared  not declared  SOUTH AFRICA        0.999683
F             not declared  USA                 0.983815
M             16            USA                 0.952079
              not declared  NEW ZEALAND         0.936211
              17            USA                 0.872739
              15            USA                 0.841003
              18            USA                 0.809267
              19            USA                 0.761663
              20            USA                 0.714059
              17            AUSTRALIA           0.714059
              25            USA            

Esta multivariable no nos aporta demasiada información relevante salvo que los más afectados son los hombres en los países mencionados anteriormente (USA, Australia y Sudáfrica) a pesar de no tener datos de su edad para poder englobarlos en un rango de edad determinado. En esta ocasión la variabilidad es muy alta como para establecer una hipótesis.

Anteriormente se ha estudiado que los meses de verano, desde julio a septiembre, son los meses donde más ataquese se habían producido, pero ahora podemos desglosarlos para ver cuáles de estos ataquen fueron mortales. Un 9.9% de los ataques se produjeron en julio, de los cuales un 7.1% no fueron letales pero un 1.9% sí lo fueron (el 0.8 restante no se sabe el resultado). Los ataques de agosto suponen un 8.8%, de los cuales  un 6.3% fueron sin incidentes, un 1.4% los letales y un 1.1% de resultado desconocido. En el caso de septembre, un 5.9% de 8.3% fueron ataques no letales, con un 1.7% de ataques letales y un 0.6% de resultado desconocido.

In [181]:
(round(df1.groupby(["month", "fatal"])["fatal"].count().sort_values(ascending=False)*100, 2)/df1.value_counts().sum()).head(35)

month      fatal  
unknown    N          7.933989
July       N          7.124722
August     N          6.331323
September  N          5.918756
June       N          5.299905
January    N          5.236433
October    N          5.014281
April      N          4.601714
unknown    Y          4.538242
March      N          4.284354
November   N          4.268486
May        N          4.141542
December   N          4.078070
February   N          4.030467
July       Y          1.935893
December   Y          1.904157
January    Y          1.745478
September  Y          1.729610
unknown    unknown    1.713742
June       Y          1.539194
August     Y          1.396382
April      Y          1.317042
March      Y          1.237702
February   Y          1.221834
May        Y          1.190098
November   Y          1.190098
October    Y          1.094891
August     unknown    1.079023
January    unknown    0.872739
July       unknown    0.856871
April      unknown    0.777531
June       unknown  