# Visualización de datos 📊

En este jupyter se encuentra todo el proceso de visualización y planteamiento de hipótesis, de los datos procesados del dataset descargado de kaggle: "Shark attack"

## Índice 📎

1. Importación de librerías
2. Importación del dataset
3. Visualización de datos
>- Tendencia de los últimos años
>- Sexo y edad
>- País
>- Hora y época
>- Riesgo y actividad
4. Bibliografía

## 1. Importación de librerias 📚

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as plt

Otras funciones

In [2]:
#import Funciones Funciones as fu

## 2. Importación del dataset 📖

In [3]:
data = pd.read_csv("./attacks_limpio.csv", dtype = str)
data = data.drop("Unnamed: 0", axis = 1)

In [10]:
data.sample(20)

Unnamed: 0,Date,Year,Country,Activity,Sex,Age,Fatal (Y/N),Time,Age2
1079,Jul,1950,USA,Swimming,M,11,N,UNKNOWN,11
5,Sep,2017,USA,Surfing,M,0,N,UNKNOWN,17
378,Dec,1998,USA,Surfing,M,19,N,08,19
237,Sep,2006,USA,Surfing,M,16,N,UNKNOWN,16
181,Sep,2008,USA,Surfing,M,40,N,16,40
335,Sep,2001,USA,Surfing,M,16,N,13,16
1001,Mar,1998,USA,Swimming,M,40,N,15,40
1106,Apr,1926,USA,Swimming,F,0,N,17,17
990,May,2001,USA,Swimming,M,0,N,19,17
589,Jan,2015,SOUTH AFRICA,Surfing,M,15,N,08,15


## 3. Visualización de datos 👀

Las hipótesis/estudios planteados a próposito de establecer las características en materia a país, hora, época (mes), participantes y demás variables para el campeonato de IronWater son las siguientes:

- Veracidad de sí en los últimos años ha aumentado el ataque de los tiburones
- Existencia de correlaccion entre el número de ataques producidos con el sexo y la edad del afectado
- País con menos accidentes (entre los propuestos)
- Mejor hora y época del año (mes) para realizar el campeonato
- Actividad con mayor riesgo (entre las propuestas)

*El principal objetivo es escoger aquellas en las que se produzca una menor cantidad de ataques de tiburón para garantizar la seguridad de todos los participantes y promover el respeto a la especie en cuestión.*

### 3.1 Tendencia de los últimos años ⏳

Se pretende comprobar si es cierto que en los últimos años se han producido un mayor número de ataques de tiburón.

In [5]:
tendencia_años = pd.Series(data.Year.value_counts().sort_index())
tendencia_años

1751        1
1771        1
1779        1
1780        1
1816        1
           ..
2015       33
2016       36
2017       43
2018        5
UNKNOWN     7
Name: Year, Length: 153, dtype: int64

In [30]:
%matplotlib notebook
#%matplotlib inline
plt.style.use("seaborn-darkgrid")
tendencia_años.plot(kind = "line", x = tendencia_años).set_title("Tendencia de ataques de tiburón")

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Tendencia de ataques de tiburón')

*Comentarios = Se muestra una tendencia altiva, en general especialmente durante 1987 y 2007, no obstante en los últimos años se produce un descenso ello puede verse justificado por el aumento de población (provocando que los tiburones emigren a zonas menos pobladas) y la práctica de ciertas actividades que amenazan a la especie en cuestión: caza furtiva, contaminación...etc*

*En lo que respecta a IronWater resulta imporante que la tendencia de ataques de tiburón haya descendido para garantizar la seguridad del evento.*

### 3.2 Sexo y Edad 👤

### 3.3 País 📍

Se pretende escoger el país que reporte menos accidentes para garantizar una mayor seguridad.

In [11]:
país = pd.Series(data.Country.value_counts().sort_index())
país

INDONESIA        10
NEW ZEALAND      48
SOUTH AFRICA    219
USA             989
Name: Country, dtype: int64

In [28]:
%matplotlib notebook
#%matplotlib inline
plt.style.use("seaborn-darkgrid")
país.plot(kind = "bar", x = país).set_title("Ataques de tiburón por país")

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Ataques de tiburón por país')

*Comentarios = Parece ser que el país más óptimo para la celebración es Indonesia.*

### 3.4 Hora y época 🌤️

Se pretende escoger el momento del día y mes que reporte menos accidentes para garantizar una mayor seguridad.

#### Hora

In [55]:
plt.style.use("seaborn-darkgrid")
sns.countplot(x = data.Time, palette = "crest", order = ["00", "02", "07", "09", "10","11","12", "13", "14", "15", "16", "17","18","19","20","23"]).set_title("Ataques por hora/momento del día")

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Ataques por hora/momento del día')

#### Época

In [31]:
época = pd.Series(data.Date.value_counts())

Jul        163
Sep        158
Aug        147
Oct        126
Jun        108
Apr        105
Nov         85
May         83
Mar         67
Jan         66
Dec         65
Feb         51
UNKNOWN     42
Name: Date, dtype: int64

In [39]:
plt.style.use("seaborn-darkgrid")
época.plot(kind= "bar", x = época).set_title("Ataques de tiburón por Época(Mes)")

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Ataques de tiburón por Época(Mes)')

*Comentarios: La época del año con menor número de accidentes, es en Febrero mientras que la mayor es en Julio.*

### 3.5 Riesgo y Actividad 💀

## Bibliografía 📁

https://matplotlib.org/stable/gallery/style_sheets/style_sheets_reference.html