![](img/shark.png)

# Global Shark Attack

Fecha de entrega: _23:59 05/04/2021_ 

### ¿En qué consiste este mini-proyecto?

El objetivo de este mini-proyecto es que os enfrentéis a realizar un Exploratory Data Analysis por primera vez, antes del proyecto EDA. 

Durante este mini-proyecto deberás poner en práctica todo lo aprendido durante las últimas semanas. Tanto cómo te haga falta y solo si te hace falta. Esta vez serás tú el qué tome la decisión de qué tratamientos o limpiezas y visualizaciones serán mejor para tratar tus datos. 

Mínimo deberás importar las siguientes librerías, aunque te animo a explorar otras librerías nuevas.

```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
```

Todo esto con el fin de poder verificar nuestra hipótesis. Sigue leyendo para más información.

### Dataset

El dataset que utilizaremos para este mini-proyecto contiene datos sobre los ataques de tiburones en el mundo: localicación, fechas, tipología, especie causante, información sobre las víctimas, etc.. 

Registrado por http://www.sharkattackfile.net/index.htm.

Te lo podrás descargar en este enlace: https://www.kaggle.com/teajay/global-shark-attacks

### Hipótesis
Elige una o varias de estas hipótesis para desarrollar tu mini proyecto.

Siéntete libre de establecer nuevas hipótesis que puedas validar o rechazar con tu análisis.

- El número de supervivientes ha aumentado con el paso de los años
- Todos los ataques producidos en la India, ocurren a primera hora de la mañana
- La mayoría de los ataques en los últimos 200 años tuvieron lugar en USA, Australia y Sudáfrica. 
- Las actividades con más riesgo de sufrir un ataque de tiburon son pescar y nadar. 
- La mayoría de los ataques de tiburón fueron fatales.
- Los tiburones tienen especial predilección por los surferos.
- Reunion Island es el lugar del mundo donde ocurren más ataques de tiburón en terminos relativos.
- En Sudáfrica hay más ataques letales a mujeres que en Australia.

### Github*
*_Este punto es opcional pero MUY recomendable, ya que en el Proyecto de EDA será obligatorio_

Crea un repositorio nuevo para guardar los archivos que necesites.

Sigue la siguiente estructuras de carpetas:

    - src -> aquí encontrarás el código, en este caso los notebooks que uses
    - input -> aquí guardarás el dataset que utilices
    - output -> aquí guardarás gráficas o datasets limpios, si los tuvieras

# Librerías

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
import warnings
warnings.filterwarnings("ignore")

In [3]:
plt.style.use('seaborn-bright')

# Índice

## Análisis previo y limpieza del dataset original

* [Análisis General](#Ager)
* [Análisis de columnas con datos no categorizados](#AC1)
* [Análisis de columnas con datos categorizados](#AC2)

## Comprobación de Hipótesis

* [Hipótesis 1](#Hipo1) ; [Conclusión](#solu1)
* [Hipótesis 2](#Hipo2) ; [Conclusión](#solu2)
* [Hipótesis 3](#Hipo3) ; [Conclusión](#solu3)
* [Hipótesis 4](#Hipo4) ; [Conclusión](#solu4)
* [Hipótesis 5](#Hipo5) ; [Conclusión](#solu5)
* [Hipótesis 6](#Hipo6) ; [Conclusión](#solu6)
* [Hipótesis 7](#Hipo7) ; [Conclusión](#solu7)
* [Hipótesis 1](#Hipo8) ; [Conclusión](#solu8)

### Análisis General <a id="Ager"></a>

In [4]:
#Importo el dataset
sharks = pd.read_csv('../input/attacks.csv', encoding = 'latin1')
sharks.head()

Unnamed: 0,Case Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,...,Species,Investigator or Source,pdf,href formula,href,Case Number.1,Case Number.2,original order,Unnamed: 22,Unnamed: 23
0,2018.06.25,25-Jun-2018,2018.0,Boating,USA,California,"Oceanside, San Diego County",Paddling,Julie Wolfe,F,...,White shark,"R. Collier, GSAF",2018.06.25-Wolfe.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.25,2018.06.25,6303.0,,
1,2018.06.18,18-Jun-2018,2018.0,Unprovoked,USA,Georgia,"St. Simon Island, Glynn County",Standing,Adyson McNeely,F,...,,"K.McMurray, TrackingSharks.com",2018.06.18-McNeely.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.18,2018.06.18,6302.0,,
2,2018.06.09,09-Jun-2018,2018.0,Invalid,USA,Hawaii,"Habush, Oahu",Surfing,John Denges,M,...,,"K.McMurray, TrackingSharks.com",2018.06.09-Denges.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.09,2018.06.09,6301.0,,
3,2018.06.08,08-Jun-2018,2018.0,Unprovoked,AUSTRALIA,New South Wales,Arrawarra Headland,Surfing,male,M,...,2 m shark,"B. Myatt, GSAF",2018.06.08-Arrawarra.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.08,2018.06.08,6300.0,,
4,2018.06.04,04-Jun-2018,2018.0,Provoked,MEXICO,Colima,La Ticla,Free diving,Gustavo Ramos,M,...,"Tiger shark, 3m",A .Kipper,2018.06.04-Ramos.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.04,2018.06.04,6299.0,,


In [5]:
sharks.columns

Index(['Case Number', 'Date', 'Year', 'Type', 'Country', 'Area', 'Location',
       'Activity', 'Name', 'Sex ', 'Age', 'Injury', 'Fatal (Y/N)', 'Time',
       'Species ', 'Investigator or Source', 'pdf', 'href formula', 'href',
       'Case Number.1', 'Case Number.2', 'original order', 'Unnamed: 22',
       'Unnamed: 23'],
      dtype='object')

In [6]:
'''
Hay columnas con espacios en el nombre, las renombro para evitar errores 
'''
sharks.rename(columns={'Case Number':'Case_Number','Sex ':'Sex','Fatal (Y/N)':'Fatal_Y/N',
                       'Species ':'Species', 'Investigator or Source':'Source',
                       'href formula':'href_formula', 'Case Number.1':'Case_Number.1',
                       'Case Number.2':'Case_Number.2', 'original order':'original_order'},
                        inplace = True)

In [7]:
sharks.columns

Index(['Case_Number', 'Date', 'Year', 'Type', 'Country', 'Area', 'Location',
       'Activity', 'Name', 'Sex', 'Age', 'Injury', 'Fatal_Y/N', 'Time',
       'Species', 'Source', 'pdf', 'href_formula', 'href', 'Case_Number.1',
       'Case_Number.2', 'original_order', 'Unnamed: 22', 'Unnamed: 23'],
      dtype='object')

In [8]:
sharks.shape

(25723, 24)

In [9]:
sharks.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25723 entries, 0 to 25722
Data columns (total 24 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Case_Number     8702 non-null   object 
 1   Date            6302 non-null   object 
 2   Year            6300 non-null   float64
 3   Type            6298 non-null   object 
 4   Country         6252 non-null   object 
 5   Area            5847 non-null   object 
 6   Location        5762 non-null   object 
 7   Activity        5758 non-null   object 
 8   Name            6092 non-null   object 
 9   Sex             5737 non-null   object 
 10  Age             3471 non-null   object 
 11  Injury          6274 non-null   object 
 12  Fatal_Y/N       5763 non-null   object 
 13  Time            2948 non-null   object 
 14  Species         3464 non-null   object 
 15  Source          6285 non-null   object 
 16  pdf             6302 non-null   object 
 17  href_formula    6301 non-null  

In [10]:
#Compruebo que el único valor que no es NaN en la comlumna 'Unnamed: 22'
# No aporta información relevante
sharks[sharks['Unnamed: 22'].notnull() == True]

Unnamed: 0,Case_Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,...,Species,Source,pdf,href_formula,href,Case_Number.1,Case_Number.2,original_order,Unnamed: 22,Unnamed: 23
1478,2006.05.27,27-May-2006,2006.0,Unprovoked,USA,Hawaii,"North Shore, O'ahu",Surfing,Bret Desmond,M,...,,R. Collier,2006.05.27-Desmond.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2006.05.27,2006.05.27,4825.0,stopped here,


In [11]:
# Lo mismo con la columna 'Unnamed: 23'
sharks[sharks['Unnamed: 23'].notnull() == True]

Unnamed: 0,Case_Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,...,Species,Source,pdf,href_formula,href,Case_Number.1,Case_Number.2,original_order,Unnamed: 22,Unnamed: 23
4415,1952.03.30,30-Mar-1952,1952.0,Unprovoked,NETHERLANDS ANTILLES,Curacao,,Went to aid of child being menaced by the shark,A.J. Eggink,M,...,"Bull shark, 2.7 m [9'] was captured & dragged ...","J. Randall, p.352 in Sharks & Survival; H.D. B...",1952.03.30-Eggink.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,1952.03.30,1952.03.30,1888.0,,Teramo
5840,1878.09.14.R,Reported 14-Sep-1878,1878.0,Provoked,USA,Connecticut,"Branford, New Haven County",Fishing,Captain Pattison,M,...,,"St. Joseph Herald, 9/14/1878",1878.09.14.R-Pattison.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,1878.09.14.R,1878.09.14.R,463.0,,change filename


In [12]:
#Borro columnas 'Unnamed: 22' y 'Unnamed: 23'
del sharks['Unnamed: 22']
del sharks['Unnamed: 23']

In [13]:
sharks.columns

Index(['Case_Number', 'Date', 'Year', 'Type', 'Country', 'Area', 'Location',
       'Activity', 'Name', 'Sex', 'Age', 'Injury', 'Fatal_Y/N', 'Time',
       'Species', 'Source', 'pdf', 'href_formula', 'href', 'Case_Number.1',
       'Case_Number.2', 'original_order'],
      dtype='object')

In [14]:
#Visualizo las columnas que no podía ver arriba para ver el aspecto de los datos
sharks.loc[:,'Age':'Time']

Unnamed: 0,Age,Injury,Fatal_Y/N,Time
0,57,"No injury to occupant, outrigger canoe and pad...",N,18h00
1,11,Minor injury to left thigh,N,14h00 -15h00
2,48,Injury to left lower leg from surfboard skeg,N,07h45
3,,Minor injury to lower leg,N,
4,,Lacerations to leg & hand shark PROVOKED INCIDENT,N,
...,...,...,...,...
25718,,,,
25719,,,,
25720,,,,
25721,,,,


In [15]:
#En este dataset el describe() no aporta gran cosa, ya que casi todas las varibles son categóricas
#Las únicas numéricas son 'year' y 'original order'.
sharks.describe()

Unnamed: 0,Year,original_order
count,6300.0,6309.0
mean,1927.272381,3155.999683
std,281.116308,1821.396206
min,0.0,2.0
25%,1942.0,1579.0
50%,1977.0,3156.0
75%,2005.0,4733.0
max,2018.0,6310.0


In [16]:
#Compruebo si alguna fila o columna contiene todo Nan's
print(sharks.shape)

allnancol = sharks.dropna(axis = 1, how = 'all')
print(allnancol.shape) #Ninguna columna tiene todos los valores NaN

allnanrow = sharks.dropna(axis = 0, how = 'all')
print(allnanrow.shape)
print(sharks.shape[0]-allnanrow.shape[0]) # Hay 17020 filas sin ningún dato

(25723, 22)
(25723, 22)
(8703, 22)
17020


In [17]:
#Borro las filas en las que todos los valores son NaN
#Esto nos deja un set con 22 columnas y 8703 filas
sharks.dropna(axis = 0, how = 'all',inplace = True)
sharks.shape

(8703, 22)

In [18]:
#Confronto nulos  y no nulos por columnas para tener visualmente el porcentaje
#de nulos por columna
nulos = pd.DataFrame()
nulos['Nulos'] = sharks.isnull().sum()
nulos['No_Nulos'] = sharks.notnull().sum()
nulos['ratio_nulos'] = round(sharks.isnull().sum()/sharks.shape[0]*100,2)
nulos

Unnamed: 0,Nulos,No_Nulos,ratio_nulos
Case_Number,1,8702,0.01
Date,2401,6302,27.59
Year,2403,6300,27.61
Type,2405,6298,27.63
Country,2451,6252,28.16
Area,2856,5847,32.82
Location,2941,5762,33.79
Activity,2945,5758,33.84
Name,2611,6092,30.0
Sex,2966,5737,34.08


In [19]:
#Creo una columna de 1's para hacer agregaciones    
sharks['unos'] = 1

In [20]:
sharks.columns

Index(['Case_Number', 'Date', 'Year', 'Type', 'Country', 'Area', 'Location',
       'Activity', 'Name', 'Sex', 'Age', 'Injury', 'Fatal_Y/N', 'Time',
       'Species', 'Source', 'pdf', 'href_formula', 'href', 'Case_Number.1',
       'Case_Number.2', 'original_order', 'unos'],
      dtype='object')

# Columnas que no voy a utilizar <a id="AC1"></a>

- Les sustituyo valores NaN por 'UNKNOWN'

## Case_Number 

In [21]:
'''
El campo 'Case_Number' tiene un solo NaN, pero al mirar dentro de sus valores,
se ve que 2400 registros tienen el valor '0' (str).
'''
sharks.groupby('Case_Number')[['unos']].sum()

Unnamed: 0_level_0,unos
Case_Number,Unnamed: 1_level_1
0,2400
0000.0214,1
0000.0336,1
0000.0493,1
0000.0725,1
...,...
ND.0100,1
ND.0102,1
ND.0104,1
ND.0110,1


In [22]:
#A primera vista parece que las filas en las que el case_number es 0, también son todo Nan
sharks[sharks['Case_Number']=='0']

Unnamed: 0,Case_Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,...,Time,Species,Source,pdf,href_formula,href,Case_Number.1,Case_Number.2,original_order,unos
6302,0,,,,,,,,,,...,,,,,,,,,6304.0,1
6303,0,,,,,,,,,,...,,,,,,,,,6305.0,1
6304,0,,,,,,,,,,...,,,,,,,,,6306.0,1
6305,0,,,,,,,,,,...,,,,,,,,,6307.0,1
6306,0,,,,,,,,,,...,,,,,,,,,6308.0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8697,0,,,,,,,,,,...,,,,,,,,,,1
8698,0,,,,,,,,,,...,,,,,,,,,,1
8699,0,,,,,,,,,,...,,,,,,,,,,1
8700,0,,,,,,,,,,...,,,,,,,,,,1


In [23]:
#Hago una lista con la cantidad de NaNs por columna en los que el valor de
#case_number es 0. Se observa que son filas sin información.
listanans = []
case0 = sharks.loc[sharks['Case_Number']=='0',:]
for i in range(23):
    
    listanans.append(case0.iloc[:,i].isnull().sum())
    
print(listanans)

[0, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2393, 0]


In [24]:
#La última columna es la de 'unos', se ve que todos son NaN excepto 7 de la columna
#'original_order'. Borro estas 2400 líneas ya que no aportan información alguna:

sharks.drop(sharks.loc[sharks['Case_Number']=='0'].index, inplace=True)
sharks.drop(sharks.loc[sharks['Case_Number']=='xx'].index, inplace=True)

In [25]:
#Solo hay un Nan en esta columna, lo convierto en 'UNKNOWN'
sharks['Case_Number'].fillna('UNKNOWN', inplace = True)

## Area

In [26]:
#Región del ataque, el análisis será por países, no hago nada, solo quito Nan's
sharks.groupby('Area')[['unos']].sum().sort_values('unos', ascending = False)

Unnamed: 0_level_0,unos
Area,Unnamed: 1_level_1
Florida,1037
New South Wales,486
Queensland,311
Hawaii,298
California,290
...,...
Illeginni Atoll,1
Illinois,1
Imperia Province,1
In Convoy OB 274,1


In [27]:
sharks['Area'].fillna('UNKNOWN', inplace = True)

## Location

In [28]:
#Zona del ataque dentro de la región, solo quito Nan's
sharks.groupby('Location')[['unos']].sum().sort_values('unos', ascending = False)

Unnamed: 0_level_0,unos
Location,Unnamed: 1_level_1
"New Smyrna Beach, Volusia County",163
"Daytona Beach, Volusia County",30
"Ponce Inlet, Volusia County",20
"Melbourne Beach, Brevard County",18
"Myrtle Beach, Horry County",17
...,...
"Howard E. Futch Memorial Park at Paradise Beach, Brevard County",1
Huahine,1
"Hugenot Beach , Jacksonville, Duval County",1
"Huguenot Memorial Park, Duval County",1


In [29]:
sharks['Location'].fillna('UNKNOWN', inplace = True)

## Name

In [30]:
#Nombre de la persona, no está completo, algunos registros tienen género u otros 
#valores erróneos
sharks.groupby('Name')[['unos']].sum().sort_values('unos', ascending = False)

Unnamed: 0_level_0,unos
Name,Unnamed: 1_level_1
male,550
female,97
boy,23
2 males,16
boat,14
...,...
George Wright,1
George Walter,1
George Wainwright,1
George Vanderbilt,1


In [31]:
sharks['Name'].fillna('UNKNOWN', inplace = True)

## Injury

In [32]:
#Consecuencias producidas por el ataque, no sigue un criterio, usaré sólo 'Fatal_Y/N'
sharks.groupby('Injury')[['unos']].sum().sort_values('unos', ascending = False)

Unnamed: 0_level_0,unos
Injury,Unnamed: 1_level_1
FATAL,802
Survived,97
Foot bitten,87
No injury,82
Leg bitten,72
...,...
"He was was bitten on the arm by small sharks & died, but it was not clear if he died as result of the bite or death resulted from drowing",1
Head & arm bitten,1
Head & torso bitten,1
Head bitten by captive shark PROVOKED INCIDENT,1


In [33]:
sharks['Injury'].fillna('UNKNOWN', inplace = True)

## Species

In [34]:
#Parece que el tiburón blanco es el más común, quizá se podría limpiar para identificar
#especies, pero como no hay ninguna hipótesis relativa,lo dejo como está.
sharks.groupby('Species')[['unos']].sum().sort_values('unos', ascending = False)

Unnamed: 0_level_0,unos
Species,Unnamed: 1_level_1
White shark,163
Shark involvement prior to death was not confirmed,105
Invalid,102
Shark involvement not confirmed,88
Tiger shark,73
...,...
"C. macrurus captured 48 hours after attack with tissue removed from man in its gut; species identified by G.P. Whitley, reported as C. obscurus by R. Steel",1
C. leucas tooth fragment recovered from kayak,1
Bull sharks x 2,1
Bull sharks to 1.5 m [5'] in length,1


In [35]:
sharks['Species'].fillna('UNKNOWN', inplace = True)

## Source

In [36]:
#Parecen medios de comunicación y personas, no aporta nada al análisis, no hago nada
sharks.groupby('Source')[['unos']].sum().sort_values('unos', ascending = False)

Unnamed: 0_level_0,unos
Source,Unnamed: 1_level_1
"C. Moore, GSAF",105
"C. Creswell, GSAF",92
"S. Petersohn, GSAF",82
R. Collier,55
"T. Peake, GSAF",48
...,...
"H. Wessel, Orlando Sentinel, 8/1/2001",1
"H. Trong & U. Phuong,.Saigon Daily, 1/13/2010",1
"H. Taunton; N. Bartlett, pp. 233-234",1
"H. Taunton; N. Bartlett, p. 234",1


In [37]:
sharks['Source'].fillna('UNKNOWN', inplace = True)

## pdf

In [38]:
#Nombres de ficheros pdf, no sirven para análisis de datos agregados.
sharks.groupby('pdf')[['unos']].sum().sort_values('unos', ascending = False)

Unnamed: 0_level_0,unos
pdf,Unnamed: 1_level_1
1935.06.05.R-SolomonIslands.pdf,2
1907.10.16.R-HongKong.pdf,2
1923.00.00.a-NJ fisherman.pdf,2
1898.00.00.R-Syria.pdf,2
1931.09.21.a-b-Holaday-Barrows.pdf,2
...,...
1959.09.10.R-India.pdf,1
1959.09.02-NV-InflatableRaft.pdf,1
1959.09.00-French-woman.pdf,1
1959.08.31.R-Azores.pdf,1


In [39]:
sharks['pdf'].fillna('UNKNOWN', inplace = True)

## href_formula

In [40]:
#Link al fichero pdf
sharks.groupby('href_formula')[['unos']].sum().sort_values('unos', ascending = False)

Unnamed: 0_level_0,unos
href_formula,Unnamed: 1_level_1
http://sharkattackfile.net/spreadsheets/pdf_directory/1916.07.12.a-b-Stillwell-Fisher.pdf,2
http://sharkattackfile.net/spreadsheets/pdf_directory/1907.10.16.R-HongKong.pdf,2
http://sharkattackfile.net/spreadsheets/pdf_directory/1916.12.08.a-b-German.pdf,2
http://sharkattackfile.net/spreadsheets/pdf_directory/1906.09.27.R.a&b-Munich-Swede.pdf,2
http://sharkattackfile.net/spreadsheets/pdf_directory/1923.00.00.a-NJ fisherman.pdf,2
...,...
http://sharkattackfile.net/spreadsheets/pdf_directory/1959.09.00-French-woman.pdf,1
http://sharkattackfile.net/spreadsheets/pdf_directory/1959.08.31.R-Azores.pdf,1
http://sharkattackfile.net/spreadsheets/pdf_directory/1959.08.30-Cox.pdf,1
http://sharkattackfile.net/spreadsheets/pdf_directory/1959.08.25-Fukushi.pdf,1


In [41]:
sharks['href_formula'].fillna('UNKNOWN', inplace = True)

## href

In [42]:
#Igual que href_formula
sharks.groupby('href')[['unos']].sum().sort_values('unos', ascending = False)

Unnamed: 0_level_0,unos
href,Unnamed: 1_level_1
http://sharkattackfile.net/spreadsheets/pdf_directory/w014.01.25-Grant.pdf,4
http://sharkattackfile.net/spreadsheets/pdf_directory/2014.10.02.b-Vandenberg.pdf,3
http://sharkattackfile.net/spreadsheets/pdf_directory/1929.03.04.a-b.Roads-Aldridge.pdf,2
http://sharkattackfile.net/spreadsheets/pdf_directory/1916.07.12.a-b-Stillwell-Fisher.pdf,2
http://sharkattackfile.net/spreadsheets/pdf_directory/1907.10.16.R-HongKong.pdf,2
...,...
http://sharkattackfile.net/spreadsheets/pdf_directory/1959.09.27-Rawlinson.pdf,1
http://sharkattackfile.net/spreadsheets/pdf_directory/1959.09.26.b-Walker.pdf,1
http://sharkattackfile.net/spreadsheets/pdf_directory/1959.09.26.a-Wines.pdf,1
http://sharkattackfile.net/spreadsheets/pdf_directory/1959.09.11-Tervo.pdf,1


In [43]:
sharks['href'].fillna('UNKNOWN', inplace = True)

## Case_Number.1

In [44]:
#No sigue ningún criterio, lo dejo en el df, pero no lo voy a usar
sharks.groupby('Case_Number.1')[['unos']].sum().sort_values('unos', ascending = False)

Unnamed: 0_level_0,unos
Case_Number.1,Unnamed: 1_level_1
2013.10.05,2
1952.08.04,2
1913.08.27.R,2
1907.10.16.R,2
1980.07.00,2
...,...
1959.07.30,1
1959.07.28,1
1959.07.25.b,1
1959.07.25.a,1


In [45]:
sharks['Case_Number.1'].fillna('UNKNOWN', inplace = True)

## Case_Number.2

In [46]:
#No sigue ningún criterio, lo dejo en el df, pero no lo voy a usar
sharks.groupby('Case_Number.2')[['unos']].sum().sort_values('unos', ascending = False)

Unnamed: 0_level_0,unos
Case_Number.2,Unnamed: 1_level_1
1962.06.11.b,2
2006.09.02,2
2013.10.05,2
2014.08.02,2
2005.04.06,2
...,...
1959.07.28,1
1959.07.25.b,1
1959.07.25.a,1
1959.07.23.b,1


In [47]:
sharks['Case_Number.2'].fillna('UNKNOWN', inplace = True)

## original_order

In [48]:
#Parece un índice de entrada de datos porque sólo hay uno repetido.
sharks.groupby('original_order')[['unos']].sum().sort_values('unos', ascending = False)

Unnamed: 0_level_0,unos
original_order,Unnamed: 1_level_1
569.0,2
4212.0,1
4210.0,1
4209.0,1
4208.0,1
...,...
2101.0,1
2100.0,1
2099.0,1
2098.0,1


In [49]:
sharks['original_order'].fillna('UNKNOWN', inplace = True)

# Columnas útiles para análisis <a id="AC2"></a>

## Limpieza de datos:

* [Date](#Date)
* [Year](#Year)
* [Type](#Type)
* [Country](#Country)
* [Activity](#Activity)
* [Sex](#Sex)
* [Age](#Age)
* [Fatal_Y/N](#Fatal_Y/N)
* [Time](#Time)


El objetivo es practicar la limpieza de datos y crear un csv más limpio

## Date <a id="Date"></a>

In [50]:
'''
Analizo el campo 'Date', imprimo los valores únicos y observo que la mayoría de los
5435 registros tiene la estructura de fecha: 'DD-MMM-YY'(las M's son las 3 primeras letras del mes)
Para limpiar ese campo llevaré los registros que pueda a ese formato.
'''
#Observo la cantidad de registros por número de caracteres:
sharks.groupby('len_Date')[['unos']].sum().sort_values('unos',ascending = False)

KeyError: 'len_Date'

In [None]:
#Creo una columna 'Date2', gemela a 'Date' y una columna 'len_Date2'
#en la que incorporo el len de columna 'Date2'
sharks['Date2'] = sharks['Date']
sharks['len_Date'] = sharks['Date2'].str.len()

In [None]:
'''
Después de hacer un análisis visual de los datos, voy a intentar dejar solo registros
con este aspecto:

1 - 01-Jan-2008  ; La mayoría de los resgistros tienen este formato, 11 caracteres, hay 
registros que no tienen día: 'Jan-2008'. A estos registros les añadiré el día 1: '01-', 
esto añade información falsa respecto al día, sin embargo habilita más registros 
para hacer un hipotético análisis temporal por meses o por años.

2 - 2008  ; Hay registros en los que solo viene el año, a veces incorporado dentro de un texto.
Los limpio dejando solo el año, para compararlos con la columna 'Year', quizá haya algún 
registro que en 'Year' no esté  y sí en 'Date', en ese caso copio el año en 'Year'
'''
sharks['Date2'] = sharks['Date2'].apply(lambda x: str(x).replace(' ','')\
                  .replace('(?)','').replace('May','May-')\
                  .replace('July','Jul').replace('June','Jun-')\
                  .replace('?','').replace('nan','UNKNOWN')\
                  .replace('-','-').replace('A.D.','')\
                  .replace('B.C.','-').replace('Nodate','UNKNOWN')\
                  .replace('Ca.','').replace('','').replace('493-','493')\
                  .replace('.00.','').replace('19955','UNKNOWN')\
                  .replace('Late','').replace('21764','UNKNOWN')\
                  .replace('Circa','').replace('mid-','')\
                  .replace('Early','').replace('.B.C..','')\
                  .replace('725-','725').replace('16001728','UNKNOWN')\
                  .replace('214-','214').replace('A.D.','')\
                  .replace('--','-').replace('November','Nov-')\
                  .replace('.a','').replace('.b','')\
                  .replace('2006.','2006').replace('2005-','2005')\
                  .replace('tohavehappened"ontheweekend"','').replace('Lastincidentof1994HongKong','')\
                  .replace('BetweenMay-&Nov-1993','1933').replace('MidJul-1985ormidJul-1986','Jul-1985')\
                  .replace('Summerof','').replace('13or','').replace('summer','')\
                  .replace('May-Jun-1965','Jun-1965').replace('Jan-Jun-1962','1962')\
                  .replace('Between10and','').replace('Jul-toSep-','')\
                  .replace('(samedayas195400.f)','').replace('1951.12.15.R','15-Dec-1951').replace('Between01-Aug-1951&','')\
                  .replace('orApr-1949','').replace('"Bittenlastweekend','')\
                  .replace('Between18&22-Dec1944','22-Dec-1944').replace('SometimebetweenApr&','')\
                  .replace('to07-Mar-1943','').replace('to16-Sep-1942','')\
                  .replace('Sometimebetween08-Jan-1928&','').replace('or27-Mar-1925','')\
                  .replace('tohavetakenplace','').replace('to19-Nov-1909','')\
                  .replace('10-April1906','10-Apr-1906').replace('02-April1906','02-Apr-1906')\
                  .replace('.22-Feb-1902','22-Feb-1902').replace('DuringtheSeigeofLadysmith','')\
                  .replace('(soonafterthecloseoftheSpanish-AmericanWar)','').replace('Mid-Aug-1886','15-Aug-1886')\
                  .replace('Reportd','').replace('(probablyhappened1843/1844)','')\
                  .replace('March','Mar').replace('Nov-or','')\
                  .replace(',buttookplacearound1868','').replace('Sept','Sep')\
                  .replace('Sepor','').replace('"AnniversaryDay"22-Jan-1850or1852','22-Jan-1850')\
                  .replace('1844.07.16.R','16-07-1844').replace('1836.07.26.R','26-07-1836')\
                  .replace('Letterdated','').replace('Before','')\
                  .replace('Between','').replace('UNKNOWN,late','').replace('UNKNOWN,Before','')\
                  .replace(',AfterAugust1926andbefore1936','').replace('24Apr','24-Apr')\
                  .replace('"Duringthewar"','').replace('"thewar"','UNKNOWN')\
                  .replace('Saidtobe1941-1945,morelikely','').replace('Afewyearsbefore','')\
                  .replace('&','-').replace('UNKNOWN(3daysafterprecedingincident)&priorto','')\
                  .replace('UNKNOWN,','').replace('UNKNOWN(3daysafterprecedingincident)-priorto19-Jul-1913','UNKNOWN')\
                  .replace('&','-').replace('UNKNOWN(3daysafterprecedingincident)&priorto','')\
                  .replace('Reprted','').replace('2017.06.05','05-Jun-2017').replace('May2015','May-2015')\
                  .replace('Nov2013','Nov-2013').replace('2008.01.30','30-Jan-2008')\
                  .replace('Jan2011','Jan-2011').replace('Jul2006','Jul-2006')\
                  .replace('-Ap-','-Apr-')\
                  .replace('Jul1991','Jul-1991').replace('Feb1993','Feb-1993')\
                  .replace('Winter','').replace('Summer','').replace('05May','05-May')\
                  .replace('1950.07.19','19-Jul-1950').replace('1898.01.24','24-Jan-1898')\
                  .replace('Jan1858','Jan-1858').replace('1853or1854','1853-1854')\
                  .replace('16-07-1844','16-Jul-1844').replace('/','').replace('26-07-1836','26-Jul-1836')\
                  .replace('1990or1991','1990-1991').replace('19955','UNKNOWN')\
                  .replace('r1994','1994').replace('WorldWarII','UNKNOWN')\
                  .replace('-2008','2008').replace('201-Aug','01-Aug')\
                  .replace('102-Jul-1997','02-Jul-1997').replace('105-Mar-1986','05-Mar-1986')\
                  .replace('105-Jul-1975','05-Jul-1975').replace('108-Sep-1966','08-Sep-1966')\
                  .replace('106-Dec-1951','06-Dec-1951').replace('Lastcidentof1994HongKong','1994')\
                  .replace('\n15-Dec-1951','15-Dec-1951').replace('1899DurgtheSeigeofLadysmith','1899')\
                  .replace('"Durgthewar"1943-1945','1943-1945').replace('UNKNOWN(3daysafterprecedgcident)-priorto19-Jul-1913','UNKNOWN')\
                  .replace('Jan2008','Jan-2008').replace('Feb2008','Feb-2008')\
                  .replace('Mar2008','Mar-2008').replace('Apr2008','Apr-2008')\
                  .replace('May2008','May-2008').replace('Jun2008','Jun-2008')\
                  .replace('Jul2008','Jul-2008').replace('Aug2008','Aug-2008')\
                  .replace('Sep2008','Sep-2008').replace('Oct2008','Oct-2008')\
                  .replace('Nov2008','Nov-2008').replace('Dec2008','Dec-2008')\
                  .replace('12-30-1980','30-Dec-1980').replace('06-26-1890','26-Jun-1890')\
                  .replace('`','').replace('18391840','UNKNOWN').replace('336.-.','UNKNOWN')\
                  )

#Tras los cambios, vuelvo a calcular el len de 'Date2' 
sharks['len_Date'] = sharks['Date2'].str.len()

In [None]:
#Vuelvo a ver los registros por cantidad de caracteres
sharks.groupby('len_Date')[['unos']].sum().sort_values('unos',ascending = False)

In [None]:
#Tras la limpieza, no quedan registros con más de 11 caracteres.
print(len(list(sharks.loc[sharks['len_Date']>11,'Date2'].unique())))
list(sharks.loc[sharks['len_Date']>11,'Date2'].unique())

In [None]:
#Ahora compruebo y limpio los registros de menos de 11 caracteres
print(len(list(sharks.loc[sharks['len_Date']==10,'Date2'].unique())))
list(sharks.loc[sharks['len_Date']==10,'Date2'].unique())

In [None]:
#Todavía hay uno que tiene 10 caracteres porque le falta un número al año,
#Compruebo y en el campo Year el año es 1944 así que lo actualizo con ese valor
sharks[sharks['Date2']=='22-Jul-144']

In [None]:
sharks.loc[sharks['Date2']=='22-Jul-144','Date2'] = '22-Jul-1944'
sharks.loc[sharks['Date']=='22-Jul-144','Date'] = '22-Jul-1944'
sharks['len_Date'] = sharks['Date2'].str.len()

In [None]:
sharks.loc[sharks['len_Date']==10,'Date2'] = '0' + sharks.loc[sharks['len_Date']==10,'Date2']
sharks['len_Date'] = sharks['Date2'].str.len()

In [None]:
print(len(list(sharks.loc[sharks['len_Date']==10,'Date2'].unique())))
list(sharks.loc[sharks['len_Date']==10,'Date2'].unique())

In [None]:
# Compruebo los de 9, tiene un formato diferente, pero los dejo tal cual están.
print(len(list(sharks.loc[sharks['len_Date']==9,'Date2'].unique())))
list(sharks.loc[sharks['len_Date']==9,'Date2'].unique())

In [None]:
# Compruebo los de 8, tienen formato MMM-YYYY
print(len(list(sharks.loc[sharks['len_Date']==8,'Date2'].unique())))
list(sharks.loc[sharks['len_Date']==8,'Date2'].unique())

In [None]:
#Les añado el día '01-' a la izquierda, para tener el mismo formato que el grueso de registros
sharks.loc[sharks['len_Date']==8,'Date2'] = '01-' + sharks.loc[sharks['len_Date']==8,'Date2']
sharks['len_Date'] = sharks['Date2'].str.len()

In [None]:
# Compruebo
print(len(list(sharks.loc[sharks['len_Date']==8,'Date2'].unique())))
list(sharks.loc[sharks['len_Date']==8,'Date2'].unique())

In [None]:
# Compruebo los de 7
print(len(list(sharks.loc[sharks['len_Date']==7,'Date2'].unique())))
list(sharks.loc[sharks['len_Date']==7,'Date2'].unique())

In [None]:
# Compruebo los de 6
print(len(list(sharks.loc[sharks['len_Date']==6,'Date2'].unique())))
list(sharks.loc[sharks['len_Date']==6,'Date2'].unique())

In [None]:
# Compruebo los de 5
print(len(list(sharks.loc[sharks['len_Date']==5,'Date2'].unique())))
list(sharks.loc[sharks['len_Date']==5,'Date2'].unique())

In [None]:
# Los de 4 Caracteres son los que tienen solamente el año.
print(len(list(sharks.loc[sharks['len_Date']==4,'Date2'].unique())))
list(sharks.loc[sharks['len_Date']==4,'Date2'].unique())

In [None]:
sharks.loc[sharks['len_Date']==4,['Year','Date2']]

In [None]:
#De los 125 registros que en 'Year' tienen valor 0, 78 se pueden recuperar
#gracias al campo 'Date2'
sharks.loc[sharks['len_Date']==4,['Year','unos']].groupby('Year')[['unos']].sum()\
                 .sort_values('unos',ascending = False)

In [None]:
#Los actualizo con el año de 'Date2'
sharks.loc[sharks['len_Date']==4,'Year'] = sharks.loc[sharks['len_Date']==4,'Date2']
sharks['len_Date'] = sharks['Date2'].str.len()

In [None]:
#Compruebo
sharks.loc[sharks['len_Date']==4,['Year','unos']].groupby('Year')[['unos']].sum()\
                 .sort_values('unos',ascending = False)

In [None]:
#Los de 3 dígitos también son años
print(len(list(sharks.loc[sharks['len_Date']==3,'Date2'].unique())))
list(sharks.loc[sharks['len_Date']==3,'Date2'].unique())

In [None]:
#El único de 2 dígitos también es el año
print(len(list(sharks.loc[sharks['len_Date']==2,'Date2'].unique())))
list(sharks.loc[sharks['len_Date']==2,'Date2'].unique())

In [None]:
#El único de  dígito también es el año
print(len(list(sharks.loc[sharks['len_Date']==1,'Date2'].unique())))
list(sharks.loc[sharks['len_Date']==1,'Date2'].unique())

## Year <a id="Year"></a>

In [None]:
sharks[sharks['Year'].isnull()].shape

In [None]:
#En los dos registros que el año es NaN, el dato viene tanto en case number como en date
sharks.loc[sharks['Year'].isnull(),['Case_Number','Year','Date']]

In [None]:
#Como son solo dos actualizo el dato manualmente:
sharks.loc[187,'Year'] = 2017
sharks.loc[6079,'Year'] = 1836

In [None]:
#Compruebo uno
sharks.loc[6079,['Case_Number','Year','Date']]

In [None]:
#Hay 125 registros que tienen valor 0 en el año, asumo que no es el año 0, sino que 
#es años desconocido, como si fuera NaN. En cualquier caso, si hay que hacer análisis con
#este campo, lo haré a partir del años 1543.
print(sharks.groupby('Year')[['unos']].sum().sum())
sharks.groupby('Year')[['unos']].sum().sort_values('unos',ascending = False)

## Type <a id="Type"></a>

In [None]:
#Tipo de ataque, sólo hay uno repetido, es utilizable,
#Uno los valores 'Boatomg','Boat' y 'Boating'
sharks.groupby('Type')[['unos']].sum().sort_values('unos', ascending = False)

In [None]:
sharks.loc[sharks['Type']=='Boat','Type'] = 'Boating'
sharks.loc[sharks['Type']=='Boatomg','Type'] = 'Boating'
sharks.groupby('Type')[['unos']].sum().sort_values('unos', ascending = False)

In [None]:
sharks['Type'].fillna('UNKNOWN',inplace = True)

In [None]:
sharks.groupby('Type')[['unos']].sum().sort_values('unos',ascending = False)

## Country <a id="Country"></a>

In [None]:
sharks['Country'].fillna('UNKNOWN',inplace = True)

In [None]:
#Observo los 231 valores únicos de 'Country'
print(len(list(sharks.loc[sharks['Country']!= '','Country'].unique())))
sorted(list(sharks.loc[sharks['Country']!= '','Country'].unique()))

In [None]:
'''
Algunos países tienen un espacio al principio o al final de la celda, no puedo
hacer un replace porque quitaría los espacios entre palabras, así que hago correcciones
a mano, ya que son pocas. Algunos valores con más de un país o con interrogaciones no los cambio.
'''

sharks.loc[sharks['Country']=='ANDAMAN / NICOBAR ISLANDAS','Country'] = 'ANDAMAN ISLANDS'
sharks.loc[sharks['Country']=='CEYLON (SRI LANKA)','Country'] = 'CEYLON'
sharks.loc[sharks['Country']=='EGYPT ','Country'] = 'EGYPT'
sharks.loc[sharks['Country']=='EGYPT / ISRAEL','Country'] = 'EGYPT'
sharks.loc[sharks['Country']=='Fiji','Country'] = 'FIJI'
sharks.loc[sharks['Country']=='MALDIVES','Country'] = 'MALDIVE ISLANDS'
sharks.loc[sharks['Country']=='MEXICO ','Country'] = 'MEXICO'
sharks.loc[sharks['Country']=='NICARAGUA ','Country'] = 'NICARAGUA'
sharks.loc[sharks['Country']=='PACIFIC OCEAN ','Country'] = 'PACIFIC OCEAN'
sharks.loc[sharks['Country']=='REUNION','Country'] = 'REUNION ISLAND'
sharks.loc[sharks['Country']=='SOLOMON ISLANDS / VANUATU','Country'] = 'SOLOMON ISLANDS'
sharks.loc[sharks['Country']=='ST. MAARTIN','Country'] = 'ST. MARTIN'
sharks.loc[sharks['Country']=='TOBAGO','Country'] = 'TRINIDAD & TOBAGO'
sharks.loc[sharks['Country']=='YEMEN ','Country'] = 'YEMEN'
sharks.loc[sharks['Country']==' PHILIPPINES','Country'] = 'PHILIPPINES'
sharks.loc[sharks['Country']==' TONGA','Country'] = 'TONGA'

In [None]:
sharks.groupby('Country')[['unos']].sum().sort_values('unos',ascending = False)

## Activity <a id="Activity"></a>

In [None]:
sharks['Activity'].fillna('UNKNOWN',inplace = True)

In [None]:
#Hay 5.758 registros con valores conocidos, de los cuales 2.271 están categorizados
#como surfing, swimming y fishing. Sin embargo hay muchos registros que también pertenecen
#a una de esas categorías, pero que está escrito con texto diferente. La idea es intentar
#rescatar los valores e incluirlos en estas categorías.
print(sharks[sharks['Activity']!='UNKNOWN'].groupby('Activity')[['unos']].sum().sum())
sharks[sharks['Activity']!='UNKNOWN'].groupby('Activity')[['unos']].sum().sort_values('unos',ascending = False).head(30)

In [None]:
#Creo un campo 'Activity2' para mejorar la categorización.
sharks['Activity2'] = sharks['Activity'].str.lower()

In [None]:
#Hecho vistazo a la lista de valores para recoger los más generales y añadirlos a un diccionario
print(len(list(sharks['Activity2'].value_counts().index)))
list(sharks['Activity2'].value_counts().index)

In [None]:
#Hago diccionario con valores que compararé para rellenar nueva columna 'Activity2'
dicact = {'swimming':'swimming','fishing':'fishing','diving':'diving',
          'scuba':'swimming','surf':'surfing',
          'body boarding':'surfing','boogie boarding':'surfing','snorkeling':'swimming',
          'kayaking':'boating','canoeing':'boating','floating':'swimming','rowing':'boating',
          'paddle boarding':'surfing','surfboard':'surfing','sailing':'boating','bathing':'swimming','01h':'mañana',
          'kiteboarding':'surfing','kite boarding':'surfing'
         }

In [None]:
#Creo un campo 'Activity2' donde pondré la nueva categorización.
sharks['Activity2'] = sharks['Activity'].str.lower()

In [None]:
for i in range(len(sharks['Activity2'])):
    celda = sharks.loc[i,'Activity2']
    for clave, valor in dicact.items():
        if clave in celda:
            sharks.loc[i,'Activity2'] = valor

In [None]:
# Se han aumentado significativamente los valores principales, swimming supera a
#surfing
print(sharks.groupby('Activity2')[['unos']].sum().sum())
sharks.groupby('Activity2')[['unos']].sum().sort_values('unos', ascending = False).head(20)

## Sex <a id="Sex"></a>

In [None]:
#Hago el mismo proceso con la columna 'Sex'
sharks.groupby('Sex')[['unos']].sum()

In [None]:
sharks.loc[sharks['Sex']==' M','Sex'] = 'M'
sharks.loc[sharks['Sex']=='N','Sex'] = 'M'
sharks.loc[sharks['Sex']=='M ','Sex'] = 'M'
sharks.loc[sharks['Sex']=='lli','Sex'] = 'UNKNOWN'
sharks.loc[sharks['Sex']=='.','Sex'] = 'UNKNOWN'

In [None]:
sharks.groupby('Sex')[['unos']].sum()

In [None]:
#Todavía quedan NaN's, los transformo a 'UNKNOWN'
print(sharks[sharks['Sex'].isnull()].shape)
#Los transformo en 'UNKNOWN'
sharks['Sex'].fillna('UNKNOWN', inplace = True)
sharks[sharks['Sex'].isnull()].shape

## Age <a id="Age"></a>

In [None]:
sharks['Age'].fillna('UNKNOWN', inplace = True)

In [None]:
sharks.groupby('Age')[['unos']].sum().sort_values('unos',ascending=False)

In [None]:
#Hago una columna 'Age2' y otra len_age' con el length de 'Age'
sharks['Age2'] = sharks['Age']
sharks['len_age'] = sharks['Age'].str.len()

In [None]:
sharks['Age2'] = sharks['Age2'].apply(lambda x: str(x).replace(' ',''))
sharks['len_age'] = sharks['Age2'].str.len()

In [None]:
#print(len(list(sharks[sharks['Age2']].value_counts().index)))
#list(sharks['Age2'].value_counts().index)
sharks.groupby('Age2')[['unos']].sum().sort_values('unos',ascending= False)

In [None]:
print(len(list(sharks[['Age2']].value_counts().index)))
list(sharks[['Age2']].value_counts().index)

In [None]:
#Miro todos los valores con más de 2 dígitos
list(sharks.loc[sharks['len_age']>2,'Age2'].unique())

In [None]:
#Hago algunas correcciones
sharks['Age2'] = sharks['Age2'].apply(lambda x: str(x).replace("'s'",'')\
                  .replace('s','').replace('mid-','').replace('?','')\
                  .replace('teen','').replace('teens','')\
                  .replace('Teens','').replace('months','')\
                  .replace('Ca.','').replace('>','').replace('Teen','')\
                  .replace('(adult)','UNKNOWN').replace('MAKELINEGREEN','UNKNOWN')\
                  .replace('"young"','UNKNOWN').replace('young','UNKNOWN').replace('A.M.','UNKNOWN')\
                  .replace('Elderly','UNKNOWN').replace('7or8','7').replace('9or10','9')\
                  .replace('25to35','30').replace('7&31','UNKNOWN')\
                  .replace('8or10','10').replace('months','').replace('month','')\
                  .replace('"middle-age"','UNKNOWN').replace('adult','UNKNOWN')\
                  .replace('2to3','2').replace('Both','')\
                  .replace('9&12','12').replace('&19','19').replace('&14','14'))
                                      
sharks['len_age'] = sharks['Age2'].str.len()

In [None]:
#Compruebo. De los 31 elementos que quedan (quitando el UNKNOWN),
#como son datos dispares los dejo así
print(len(list(sharks.loc[sharks['len_age']>2,'Age2'].unique())))
list(sharks.loc[sharks['len_age']>2,'Age2'].unique())

In [None]:
#No quedan muchos valores útiles, así que no se va a poder hacer análisis por edad
print(len(list(sharks.loc[sharks['len_age']<=2,'Age2'].unique())))
list(sharks.loc[sharks['len_age']<=2,'Age2'].unique())


## Fatal_Y/N <a id="Fatal_Y/N"></a>

In [None]:
'''
Compruebo las columnas con solo dos valores categóricos: Sex y Fatal_Y/N
'''
sharks.groupby('Fatal_Y/N')[['unos']].sum()

In [None]:
sharks.index

In [None]:
# La M es más que probable que sea una N, la y es Y y el 2017 es un valor claramente mal introducido
sharks.loc[sharks['Fatal_Y/N']==' N','Fatal_Y/N'] = 'N'
sharks.loc[sharks['Fatal_Y/N']=='N ','Fatal_Y/N'] = 'N'
sharks.loc[sharks['Fatal_Y/N']=='M','Fatal_Y/N'] = 'N'
sharks.loc[sharks['Fatal_Y/N']=='M ','Fatal_Y/N'] = 'N'
sharks.loc[sharks['Fatal_Y/N']==' M','Fatal_Y/N'] = 'N'
sharks.loc[sharks['Fatal_Y/N']=='y','Fatal_Y/N'] = 'Y'
#sharks.drop(sharks[sharks['Fatal_Y/N'] == '2017'].index, axis = 0, inplace = True)
#sharks.drop(sharks[sharks['Fatal_Y/N'] == 'UNKNOWN'].index, axis = 0, inplace = True)

In [None]:
sharks.groupby('Fatal_Y/N')[['unos']].sum()

In [None]:
#Compruebo que el registro (que tiene 2017 en Fatal_Y/N) tiene el año bien y, si no,
#lo actualizo y en Fatal_Y/N pongo UNKNOWN
sharks.loc[sharks['Fatal_Y/N']=='2017','Year':'Fatal_Y/N']

In [None]:
#El año es 2012, así que pongo 'UNKNOWN' en Fatal_Y/N
sharks.loc[sharks['Fatal_Y/N']=='2017','Fatal_Y/N'] = 'UNKNOWN'
sharks.loc[sharks['Fatal_Y/N']=='2017',['Fatal_Y/N']]

In [None]:
sharks.groupby('Fatal_Y/N')[['unos']].sum()

In [None]:
#Todavía quedan 539 NaN's, por el momento no hago nada con ellos
print(sharks[sharks['Fatal_Y/N'].isnull()].shape)
#Los transformo en 'UNKNOWN'
sharks['Fatal_Y/N'].fillna('UNKNOWN', inplace = True)
sharks[sharks['Fatal_Y/N'].isnull()].shape

## Time <a id="Time"></a>

In [None]:
#Analizo el campo Time
sharks.groupby('Time')[['unos']].sum()

In [None]:
#Hay celdas vacías y con espacios, hago un 'strip para quitar combinaciones de más de un espacio'
sharks['Time'] = sharks['Time'].map(lambda x: str(x).replace(' ',''))

In [None]:
#Compruebo si quedan espacios
sharks[sharks['Time'].str.contains(' ')]

In [None]:
#Compruebo si hay vacíos
sharks[sharks['Time']=='']

In [None]:
#A los vacíos les doy valor 'UNKNOWN'
sharks.loc[sharks['Time']=='','Time'] = 'UNKNOWN'

In [None]:
#Compruebo
sharks[sharks['Time']=='']

In [None]:
'''
En el campo 'Time', analizando la cantidad de NaN's, quizá no tenga sentido molestarse
tanto para limpiarlo, dado que el 66% son nulos, pero lo hago para practicar.
Intentaré automatizarlo lo máximo posible.

La idea es crear un campo 'Time2', categórico, que
contenga solo 3 valores: 'mañana', 'tarde' o 'noche' y hacerlo de la forma 
más automatizada posible
'''

In [None]:
#Agrupo y sumo los registros a ver si hay valores que se repitan
sharks.groupby('Time')[['unos']].sum().sort_values('unos',ascending = False).head(10)

In [None]:
#Hay 3354 registros en los que 'Time' tiene valor string 'nan'
sharks[sharks['Time']=='nan']

In [None]:
#Los cambio a 'UNKNOWN'
sharks.loc[sharks['Time']=='nan','Time'] = 'UNKNOWN'

In [None]:
#primero hago lista con 359 valores únicos (excepto Nan's)para verlos
listahoras = list(sorted(sharks['Time'].unique()))
#Otra forma:
#listahoras = list(sharks.groupby('Time')[['unos']].sum().index)

print(len(listahoras))
listahoras

In [None]:
#Creo una columna 'len_time' con el len de las celdas de la columna 'Time'
sharks['len_time'] = sharks['Time'].str.len()

In [None]:
#Observo todos los que tienen len > 5, dado que tienen algo mal escrito seguro
print(len(list(sharks.loc[sharks['len_time']>5,'Time'].unique())))
list(sharks.loc[sharks['len_time']>5,'Time'].unique())

In [None]:
'''
Hay 98 registros con más de 5 caracteres que, obviamente, no tienen formato '00h00'
Para limpiarlo haré un diccionario con el que después filtraré para hacer la columna
con valores 'mañana', 'tarde' o 'noche'.

Para no hacer el diccionario de forma totalmente manual, hago una lista con las 24 horas
del día en formato '00h' para poder hacer copy-paste al crear el diccionario.
'''
#primero hago lista con cada hora del día concatenado con una 'h', para no escribirlos a mano
listaval = []
val = ''
for i in range(25):    
    if i < 10:
        val = str(0)+str(i)+'h'
    else:
        val = str(i)+'h'    
    listaval.append(val)
listaval

In [None]:
'''
Uso los valores de la lista, junto con palabras clave dentro de la columna que me indican
el momento del día, para hacer un diccionario que usaré en una función para definir
el momento del día en una nueva columna
'''
dicval = {'morning':'mañana','dusk':'noche','night':'noche',
          'midday':'tarde','noon':'tarde',
          'afternoon':'tarde','afternon':'tarde','evening':'tarde','pm':'tarde',
          'p.m.':'tarde','sundown':'noche','dawn':'mañana','daybreak':'mañana',
          'dark':'noche','am':'mañana','a.m.':'mañana','00h':'noche','01h':'mañana',
          '02h':'mañana','03h':'mañana','04h':'mañana','05h':'mañana', '06h':'mañana',
          '07h':'mañana','08h':'mañana','09h':'mañana','10h':'mañana','11h':'mañana',
          '12h':'tarde','13h':'tarde','14h':'tarde','15h':'tarde','16h':'tarde',
          '17h':'tarde','18h':'tarde','19h':'tarde','20h':'tarde','21h':'noche',
          '22h':'noche','23h':'noche','24h':'noche','lunch':'tarde','x':'UNKNOWN',
          'possibly':'UNKNOWN','unknown':'UNKNOWN','sunset':'noche','daytime':'UNKNOWN',
          '15j':'tarde','06j':'mañana','beforesunset':'tarde','fatal':'UNKNOWN'}

In [None]:
#Hago una columna 'Time2' para trabajar sobre ella
sharks['Time2'] = sharks['Time'].str.lower()

In [None]:
sharks.groupby('Time2')[['unos']].sum().sort_values('unos',ascending = False)

In [None]:
'''
Intento de usar apply para cambiar elementos de una serie si los valores de un diccionario
están en el elemento. No ha funcionado pero dejo aquí el código
'''
#def cambiar(x):
#    for clave, valor in dicval.items():
#
#        if x in clave:
#            x = valor
#            return x
#        else:
#            return x
#
#sharks['Time2'] = sharks['Time2'].apply(cambiar)

In [None]:
#Como no funciona el Apply hago un código que recorra cada celda y la compare
#con el diccionario. Con el resultado relleno la columna 'Time2'

for i in range(len(sharks['Time2'])):
    
    celda = sharks.loc[i,'Time2']    
    
    for clave, valor in dicval.items():
        
        if clave in celda:
            sharks.loc[i,'Time2'] = valor

In [None]:
print(sharks.groupby('Time2')[['unos']].sum().sum())
sharks.groupby('Time2')[['unos']].sum().sort_values('unos', ascending = False)

In [None]:
#todavía quedan algunos valores sueltos, los corrijo:
sharks.loc[sharks['Time2']== '0830','Time2'] = 'mañana'
sharks.loc[sharks['Time2']== '9h00','Time2'] = 'mañana'
sharks.loc[sharks['Time2']== '1300','Time2'] = 'tarde'
sharks.loc[sharks['Time2']== '1500','Time2'] = 'tarde'
sharks.loc[sharks['Time2']== '0500','Time2'] = 'mañana'
sharks.loc[sharks['Time2']== '--','Time2'] = 'UNKNOWN'
sharks.loc[sharks['Time2']== '30minutesafter1992.07.08.a','Time2'] = 'UNKNOWN'
sharks.loc[sharks['Time2']== '2hoursafteropperman','Time2'] = 'UNKNOWN'
sharks.loc[sharks['Time2']== '1600','Time2'] = 'tarde'
sharks['Time2'] = sharks['Time2'].apply(lambda x: str(x).strip())
sharks['Time2'] = sharks['Time2'].apply(lambda x: str(x).replace(' ',''))

In [None]:
print(sharks.groupby('Time2')[['unos']].sum().sum())
sharks.groupby('Time2')[['unos']].sum().sort_values('unos', ascending = False)

In [None]:
#Compruebo cuál es el vacío en Time2
sharks.loc[sharks['Time2']=='',['Time']]

In [None]:
sharks.loc[sharks['Time2']=='','Time2'] = 'tarde'

In [None]:
print(sharks.groupby('Time2')[['unos']].sum().sum())
sharks.groupby('Time2')[['unos']].sum().sort_values('unos', ascending = False)

In [None]:
#Actualizo df nulos
nulos = pd.DataFrame()
nulos['Nulos'] = sharks.isnull().sum()
nulos['No_Nulos'] = sharks.notnull().sum()
nulos['ratio_nulos'] = round(sharks.isnull().sum()/sharks.shape[0]*100,2)
nulos

In [None]:
del sharks['len_Date']
del sharks['len_time']
del sharks['len_age']
sharks.info()

# Hipótesis 1:  <a id="Hipo1"></a>
- El número de supervivientes ha aumentado con el paso de los años

In [None]:
#Hago un df con los registros que tienen año conocido
years = sharks.loc[sharks['Year']!=0,:]

In [None]:
years.shape

In [None]:
#Dentro del df years hay 609 registros con el campo 'Fatal_Y/N' con valor 'UNKNOWN'
print(years.groupby('Fatal_Y/N')[['unos']].sum().sum())
years.groupby('Fatal_Y/N')[['unos']].sum()

In [None]:
#Reviso la columna de supervivencia
'''
Me queda una muestra de 5.568 registros de los que se conoce si sobrevivió el individuo
o no, de las cuales el 23,9% sobrevivieron, casi la cuarta parte.
'''
print(years[years['Fatal_Y/N']!= 'UNKNOWN'].groupby('Fatal_Y/N')[['unos']].sum().sum())

years[years['Fatal_Y/N']!= 'UNKNOWN'].groupby('Fatal_Y/N')[['unos']].sum()

In [None]:
#Dado que hay 6177 registros con fecha, prescindo de los 609 que tienen 'UNKNOWN' en el campo
#'Fatal Y/N' para hacer el análisis. 

years = years.loc[years['Fatal_Y/N'] != 'UNKNOWN',:]
print(years[years['Fatal_Y/N']!= 'UNKNOWN'].groupby('Fatal_Y/N')[['unos']].sum().sum())
years[years['Fatal_Y/N']!= 'UNKNOWN'].groupby('Fatal_Y/N')[['unos']].sum()

years.shape

In [None]:
ltemp = years[['Year','Fatal_Y/N','unos']].groupby(['Year',
               'Fatal_Y/N'])[['unos']].sum()

In [None]:
ltemp = ltemp.unstack()

In [None]:
ltemp['year'] = ltemp.index.get_level_values(0)
ltemp

In [None]:
ltemp = ltemp.fillna(0)

In [None]:
#Hago columna con total de casos con desenlace conocido
ltemp['total'] = ltemp['unos']['N'] + ltemp['unos']['Y']
ltemp

In [None]:
#Calculo el porcentaje de supervivientes por año
ltemp['Ratio_Vivos'] = round(ltemp['unos']['Y'] / ltemp['total']*100,2)

In [None]:
ltemp.sort_values('year', ascending = False)

In [None]:
#El resultado de la línea temporal es "poco comercial", ya que el rango de años es muy grande,
#y en los primeros 1700 años hay pocas observaciones.
sns.lineplot(x = ltemp['year'],y = ltemp['Ratio_Vivos'])
sns.despine()

In [None]:
#voy a dividir el lineplot en 3 periodos, para ello hago 1 df por periodo
'''
Antes de 1800 solo hay 33 observaciones así que prescindo de ellas
Periodo bajo: entre 1800 y 1874
Periodo medio: entre 1875 y 1949
Periodo alto: desde 1950 hasta la actualidad
'''
print(years[years['Year']<1800].shape)
pbajo = ltemp.loc[(ltemp['year'] >= 1800) & (ltemp['year'] < 1875),:]
pmedio = ltemp.loc[(ltemp['year'] >= 1875) & (ltemp['year'] < 1950),:]
palto = ltemp.loc[ltemp['year'] >= 1950,:]

In [None]:
#print(pbajo.shape, pmedio.shape, palto.shape)
print(pbajo.shape, pmedio.shape, palto.shape)

In [None]:
#Según el gráfico, parece que la línea de Ratio de supervivientes desciente,
#Especialmente entre 1950 y la actualidad.

fig, axs = plt.subplots(1,3, figsize = (30,7))
sns.lineplot(x = pbajo['year'],y = pbajo['Ratio_Vivos'],ax = axs[0])
sns.lineplot(x = pmedio['year'],y = pmedio['Ratio_Vivos'],ax = axs[1])
sns.lineplot(x = palto['year'],y = palto['Ratio_Vivos'],ax = axs[2])

sns.despine()

In [None]:
#Pruebo con un Scatter
plt.figure(figsize=(8,4))
sns.scatterplot(x = ltemp['year'], y = ltemp['Ratio_Vivos'])
sns.despine()

In [None]:
#Lo hago con un df poniendo como primer año 1800 , se distingue mejor la línea descendiente
ltemp2 = ltemp[ltemp['year']>1800]
plt.figure(figsize=(8,4))
sns.scatterplot(x = ltemp2['year'], y = ltemp2['Ratio_Vivos'])
sns.despine()

In [None]:
#divido también el scatter en 3 periodos.
fig, axs = plt.subplots(1,3, figsize = (30,7))
sns.scatterplot(x = pbajo['year'],y = pbajo['Ratio_Vivos'],ax = axs[0])
sns.scatterplot(x = pmedio['year'],y = pmedio['Ratio_Vivos'],ax = axs[1])
sns.scatterplot(x = palto['year'],y = palto['Ratio_Vivos'],ax = axs[2])

sns.despine()

### Solución Hipótesis 1 <a id="solu1"></a>

In [None]:
'''
Hipótesis 1.
Del primer periodo no se puede sacar mucha info, en el segundo se intuye una línea descendente,
Pero desde 1950 se aprecia una línea claramente descendente en el ratio de vivos
Con los datos disponibles, la hipótesis 1 no se valida, la tendencia es la contraria.
'''

# Hipótesis 2. <a id="Hipo2"></a>

- Todos los ataques producidos en la India, ocurren a primera hora de la mañana

In [None]:
#Compruebo la cantidad de casos por pais
xpais = sharks.groupby('Country')[['unos']].sum().sort_values('unos',ascending = False)
xpais['country'] = xpais.index.get_level_values(0)
xpais.head(10)

In [None]:
#Hago la comprobación visualmente con el top 20

plt.figure(figsize=(20,8))
sns.barplot(x = xpais['country'].head(20),
           y = xpais['unos'],
           palette = 'Blues_d',
           ci = None)
plt.xticks(rotation = 45)
sns.despine()

In [None]:
#Compruebo si hay más indias, con espacios en el nombre o incluido en otros strings
xpais[xpais['country'].str.contains('INDIA')]

In [None]:
#Compruebo si gracias a 'Time2' se ha recuperado algún dato de 'Time'
india = sharks.loc[sharks['Country'].isin(['INDIA']),['Time','Time2']]
india

In [None]:
#Lamentablemente, todos los de la India eran de los que tenían valor NaN
#Por tanto solo se pueden analizar 5 registros
indiaplot = india.groupby('Time2')[['unos']].sum()
indiaplot

In [None]:
indiaplot = indiaplot.rename(columns={'unos':'Momento del día en ataques'})
                                  
plt.figure(figsize=(10,4))
colors = ['#ff9999','#66b3ff','#ffcc99']

indiaplot.plot.pie(y='Momento del día en ataques', 
                   figsize=(5, 5), shadow = True, colors = colors)


plt.tight_layout()
sns.despine()

### Solución Hipótesis 2 <a id="solu2"></a>

In [None]:
'''
De los 40 ataques registrados en INDIA, 32 no tienen información sobre la hora en que 
se produjeron, lo que supone 80% de la muestra, por lo que no se puede comprobar la hipótesis
con certeza. Siendo, además, una zona de tiburones, la muestra de 40 ataques parece exigua, lo que supone que,
aun habiendo tenido los 40 registros con datos de la hora, no habría sido suficiente para
confirmar la hipótesis.

Dicho esto, disponemos de 8 ataques con información de hora, de los cuáles, solo 3, se
han producido antes de las 12:00 p.m. Por lo que, con los datos disponibles, la hipótesis
sería la contraria, dado que el 62,5% de los ataques registrados han sido por la tarde.
'''

# Hipótesis 3. <a id="Hipo3"></a>

- La mayoría de los ataques en los últimos 200 años tuvieron lugar en USA, Australia y Sudáfrica

In [None]:
#Hago el df con los registros de los últimos 200 años
ult200 = years[years['Year'] > 1820]
ult200.shape

In [None]:
# Extraigo la cantidad de casos por pais los últimos 200 años.
grupais = ult200.groupby('Country')[['unos']].sum().sort_values('unos', ascending = False).head(10)
grupais['country'] = grupais.index.get_level_values(0)
grupais

In [None]:
#Visualmente

plt.figure(figsize=(20,8))
sns.barplot(x = grupais.index.get_level_values(0),
           y = grupais['unos'],
           palette = 'Blues_d',
           ci = None)
plt.xticks(rotation = 45)
sns.despine()

### Solución Hipótesis 3 <a id="solu3"></a>

In [None]:
'''
Según los datos, la hipótesis 3 queda validada, ya que los tres países acumulan 
la mayoría de los casos registrados.
'''

# Hipótesis 4. <a id="Hipo4"></a>

- Las actividades con más riesgo de sufrir un ataque de tiburon son pescar y nadar.

In [None]:
activity = sharks.groupby('Activity2')[['unos']].count().sort_values('unos',ascending = False).head()
activity

In [None]:
plt.figure(figsize=(10,4))

sns.barplot(x = activity.index.get_level_values(0),
           y = activity['unos'],
           palette = 'Blues_d',
           ci = None)
plt.xticks(rotation = 45)
sns.despine()

### Solución Hipótesis 4 <a id="solu4"></a>

In [None]:
'''
Aunque hay actividades repetidas, se ve claramente que las dos actividades principales
son Swimming y Surfing, la tercera es Fishing, 

Con los datos, la hipótesis número 4 no se valida, ya que las actividades principales
son nadar y hacer surf
'''

# Hipótesis 5. <a id="Hipo5"></a>
- La mayoría de los ataques de tiburón fueron fatales

In [None]:
# Esta hipótesis se podría comprobar con el trabajo ya realizado en la primera hipótesis
#pero, en este caso, usaré el dataframe original sharks y hacele la limpieza que hice 
#en df years.

In [None]:
sharks.groupby('Fatal_Y/N')[['unos']].sum()

In [None]:
fatales = sharks[sharks['Fatal_Y/N']!='UNKNOWN']

In [None]:
#Visualmente
sns.catplot('Fatal_Y/N', data = fatales, kind = 'count', palette = 'Blues_d')
sns.despine

### Solución Hipótesis 5  <a id="solu5"></a>

In [None]:
'''
La mayoría de los casos NO fueron fatales, por la que la hipótesis 5 no se cumple
'''

# Hipótesis 6. <a id="Hipo6"></a>
- Los tiburones tienen especial predilección por los surferos.

In [None]:
plt.figure(figsize=(10,4))

sns.barplot(x = activity.index.get_level_values(0),
           y = activity['unos'],
           palette = 'Blues_d',
           ci = None)
plt.xticks(rotation = 45)
sns.despine()

### Solución Hipótesis 6 <a id="solu6"></a>

In [None]:
'''
Esta hipótesis se puede validar con los datos obtenidos en la hipótesis 4.
Si bien es cierto que los tiburones NO tienen predilección por las personas
por el hecho de hacer Surf, sí que es una actividad que fomenta los ataques, de igual forma
que lo hace nadar, ya que muchas especies de tiburones atacan a presas en la superficie. La forma de la 
tabla y los chapoteos hacen que confundan a los surfistas con leones marinos o focas,
lo que provoca el ataque.
'''

# Hipótesis 7. <a id="Hipo7"></a>
- Reunion Island es el lugar del mundo donde ocurren más ataques de tiburón en terminos relativos.

In [None]:
#country = pd.read_csv('../input/country_population.csv', error_bad_lines=False)
countries = pd.read_csv('../input/country_population.csv', sep = ';')

In [None]:
#country['Country'] = country['Country'].map(lambda x: str(x).upper()) 
countries.loc[countries['country']=='UNITED STATES OF AMERICA','country'] = 'USA'

In [None]:
countries.head()

In [None]:
countries.info()

In [None]:
countries['population'] = countries['population'].map(lambda x: x.replace('.',''))

In [None]:
countries['population'] = pd.to_numeric(countries['population'],downcast = 'integer')

In [57]:
countries.info()

NameError: name 'countries' is not defined

In [56]:
sharks[sharks['Country'].isin(countries['country'])]

NameError: name 'countries' is not defined

In [None]:
'''
Para comprobar esta hipótesis, usaré las poblaciones de los 3 países principales
y la de Islas Reunión ya que, Dada la diferencia de cantidad de ataques de los países Top 3 
con el resto, si ratio de ataques/habitantede de las Islas Reunión es mayor que el de
los países top 3, se podría decir, con una alta probabilidad, que se 
confirma la hipótesis.
'''

In [None]:
#Vuelvo a crear xpais, agrupado por Country
xpais = sharks.groupby('Country')[['unos']].sum().sort_values('unos',ascending = False)

In [None]:
#Creo columna con nombre de paises
xpais['country'] = xpais.index.get_level_values(0)

In [None]:
xpais.head(12)

In [None]:
# Hab. Islas Reunión: 859.959 ; USA: 328.000.000
#      Australia: 25.000.000 ; Sudáfrica: 57.780.000
pob = xpais.head(12)
pob

In [None]:
#Hago un Dataframe con los paises con los que voy a comprobar la hipótesis
pob = pob.loc[['USA','AUSTRALIA','SOUTH AFRICA','REUNION ISLAND'],:]
pob

In [None]:
# Añado una columna con las poblaciones
poblacion = [328000000,25000000,57780000,859959]
pob['poblacion'] = poblacion
pob

In [None]:
# Añado una columna con el ratio de ataques por 1000 habitantes
pob['ratio_ataques'] = round(pob['unos']/pob['poblacion']*1000,2)
pob

In [None]:
#plt.figure(figsize=(10,4))
fig, ax = plt.subplots()
sns.barplot(x = pob['country'],
           y = pob['ratio_ataques'],
           palette = 'Blues_d',
           ci = None,order = ["REUNION ISLAND", "AUSTRALIA",
                              "SOUTH AFRICA", "USA"])
ax.set_title('Ratio Ataques/1000_Habitantes', 
             fontsize = 14)
#plt.xticks(rotation = 45)

sns.despine()

### Solución Hipótesis 7

In [None]:
'''
Hipótesis 7
Comparando Islas Reunión con el Top 3, el ratio de ataques/1000 habitantes es superior, se confirma
la hipótesis 7, Proporcionalmente hay más ataques en estas Islas.
'''

# Hipótesis 8. <a id="Hipo8"></a>
- En Sudáfrica hay más ataques letales a mujeres que en Australia.

In [None]:
#Compruebo que no hay celdas duplicadas de Australia, por tener espacios en la celda y cosas así
sharks[sharks['Country'].str.contains('AUST')].groupby('Country').sum()

In [None]:
#Hago un df con los registros de Sudáfrica y Australia
ausafri = sharks[(sharks['Country']== 'SOUTH AFRICA')|(sharks['Country']== 'AUSTRALIA')]
ausafri.shape

In [None]:
ausafri.groupby(['Country','Fatal_Y/N','Sex'])[['unos']].sum()

### Solución Hipótesis 8 <a id="solu8"></a>

In [None]:
'''
Hipótesis 8: Según los datos, en términos absolutos, la hipótesis 8 no se cumple, ya que, de los ataques
en los que se conoce el resultado, en sudáfrica hay 5 letales a mujeres y en Australia 17 

Haciendo una comparación proporcional....
'''

# sharks a csv, nombre: sharks_clean.csv <a id="tocsv"></a>

In [None]:
#Guardo en carpeta 'Output' un csv con el dataframe sharks limpio
sharks.to_csv('../output/sharks_clean.csv', index=False)