In [1]:
import pandas as pd
import numpy as np
import sidetable

In [2]:
pd.options.display.max_columns = None

In [3]:
df = pd.read_csv("../data/01-tiburon_4.csv", index_col = 0)
df.head(2)

Unnamed: 0,year,type,country,activity,age,species,month,fatal,gender
0,2018,Boating,usa,Paddling,57,White shark,Jun,N,F
1,2018,Unprovoked,brazil,Swimming,18,Tiger shark,Jun,Y,M


# Pair Programming EDA II

En esta lección hemos aprendido qué son los valores nulos y los outliers o valores faltantes. Además hemos aprendido una librería super molona que nos permite hacer una exploración de nuestro dataset muy profunda.

# Hipótesis
Antes de seguir, recordamos las preguntas que nos planteamos al principio del pair programming de EDA para dirigir nuestro análisis.

- ¿Es Australia el sitio más peligroso y letal para estar relajada en la playa?
- ¿Hay diferencias entre los paises en los ataques a hombres y mujeres?
- ¿Cuáles son las edades que más sufren ataques?
- Independientemente de la edad, ¿sufren los hombres más ataques que las mujeres?
- ¿En qué mes ocurren más ataques?
- ¿Cuál es la relación entre la especie y el tipo de ataque (si es fatal o no)?
- ¿Cómo han evolucionado los ataques a lo largo del tiempo?

De todo esto, nos damos cuenta que solo tenemos que limpiar algunas de las columnas, en concreto age, species, country, fatal, year, sex. Reducimos esto a una tabla para saber qué tenemos ya limpito y qué no. Actualizamos esta tabla ya que en el ejercicio de pair de Limpieza I ya dejamos algunas columnas limpitas:

# Objetivos
Usad la librería sidetable para:

1. Explorar los valores nulos.

In [4]:
df.stb.missing()

Unnamed: 0,missing,total,percent
age,152,1669,9.10725
month,152,1669,9.10725
species,125,1669,7.489515
fatal,99,1669,5.931696
activity,31,1669,1.8574
gender,14,1669,0.838826
country,10,1669,0.599161
year,0,1669,0.0
type,0,1669,0.0


2. Explorad la columna de country y reportad los resultados solo para aquellas categorías que incluyan el 70% de los datos.

In [5]:
# Usamos la función stb.freq para saber la frecuencia con la que tenemos cada pais, limitando los valores acumulativos para que a partir del 70% los muestre como otros
df.stb.freq(['country'], thresh=70)

Unnamed: 0,country,count,percent,cumulative_count,cumulative_percent
0,usa,741,44.665461,741,44.665461
1,australia,340,20.494274,1081,65.159735
2,others,578,34.840265,1659,100.0


Este resultado vemos que el 65% de los casos se dan entre USA y Australia. De estos, el 44% serían en USA, el 20% en Australia y podríamos agrupar el resto de paises en una categoria que fuera otros, donde se incluirían tambien los nulos.

3. Explorad la columna country en relación al sexo, filtrando de nuevo por aquellas categorías que incluyan el 70% de los datos.

In [6]:
# Volvemos a usar la función st.freq para saber la frecuencia, en este caso de pais y género
df.stb.freq(['country', "gender"], thresh=70)

Unnamed: 0,country,gender,count,percent,cumulative_count,cumulative_percent
0,usa,M,609,36.976321,609,36.976321
1,australia,M,306,18.579235,915,55.555556
2,south africa,M,224,13.600486,1139,69.156041
3,others,others,508,30.843959,1647,100.0


El 70% son hombres, DE USA, Australia y South Africa.
El resto de los casos quedarían agrupados en others, ya que su diferencia es significativa

4. Haced los mismo para la columna activity en relación a la columna fatal. En este caso filtrad y mostrad los datos que incluyan el 60% de los datos.

In [7]:
# Usamos de nuevo stb.freq
df.stb.freq(['activity', "fatal"], thresh=60)

Unnamed: 0,activity,fatal,count,percent,cumulative_count,cumulative_percent
0,Surfing,N,379,24.514877,379,24.514877
1,Swimming,N,139,8.990944,518,33.505821
2,Spearfishing,N,85,5.49806,603,39.003881
3,Swimming,Y,79,5.109961,682,44.113842
4,Fishing,N,50,3.234153,732,47.347995
5,Wading,N,43,2.781371,775,50.129366
6,Standing,N,30,1.940492,805,52.069858
7,Snorkeling,N,29,1.875809,834,53.945666
8,Surfing,Y,26,1.681759,860,55.627426
9,Body boarding,N,24,1.552393,884,57.179819


El 25% de los ataques son haciendo surfing y el resultado no es fatal. Seguido de lejos por los ataques ocurridos mientras se nada o se pesca con arpón. Respecto a los ataques mortales, podríamos decir que nadar es la actividad más peligrosa.

5. Por último, realizad este análisis para la columna fecha (la que creamos en el último ejercicio de pair programming de Pandas) en relación a la columna fatal. Mostrad solo los resultados para las categorías que incluyan el 60% de los datos.

📌 Nota Igual que siempre, no nos vale solo con picar el código, queremos que nos incluyais las conclusiones que extraeis.

In [8]:
df.stb.freq(['month', "fatal"], thresh=60)

Unnamed: 0,month,fatal,count,percent,cumulative_count,cumulative_percent
0,Oct,N,129,9.002094,129,9.002094
1,Aug,N,125,8.722959,254,17.725052
2,Sep,N,122,8.513608,376,26.23866
3,Jul,N,115,8.025122,491,34.263782
4,Jun,N,109,7.60642,600,41.870202
5,Apr,N,95,6.629449,695,48.499651
6,Jan,N,92,6.420098,787,54.919749
7,others,others,646,45.080251,1433,100.0


Entre junio y octubre ocurren la mayoria de los ataques, que no son mortales. Esto es en los meses más cálidos en el hemisferio norte, lo que tiene sentido ya que es en usa donde ocurren el 45% de los ataques.

# Conclusiones

Si bien es cierto que la lección de hoy ha sido muy teórica, en esta parte los ejercicios no serán tanto de programar sino de pensar 🤔. ¿Qué tendréis que hacer?

En relación a los valores nulos:

> Identificar las columnas que tienen nulos (lo hicimos en el ejercicio de pair programming EDA I y en el de hoy con el sidetable).
> Debatid entre vosotras qué haríais con los valores nulos, ¿los quitaríais o los reemplazaríais con un valor que nosotras decidiremos?. Cread una celda de markdown en vuestro jupyter y escribid vuestras conclusiones.

En relación a los outliers, ya hemos ido conociendo un poco nuestro dataframe y de momento solo tenemos una columna de tipo numérico, por lo tanto, poco podemos hacer. Un poco más adelante, cuando hayamos hecho una serie de cambios sobre nuestras columnas podremos hacer una evaluación más profunda de estos.

- La columna **year** no tiene ningun nulo, las que mas tienen son la **edad**, el **mes** y las **especies**. 
> - No son cifras elevadas por lo que los datos estan bastante completos. 
> - Son siempre menos de un 10%. 

- La columna **month** podriamos cambiar para que no de error, por una categoria other que agrupe el resto de meses que no sean los mas **frecuentes**. O cambiar los nulos por **Desconocido**
 - La **edad** no es relevante para los casos, es decir, los animales no atacan por la edad que se tenga. La prodriamos cambiar por la edad mas frecuente.
- **Especies** tendremos que agruparlo en categorias mas amplias y poder rellenar con una categoria nueva por ejemplo **desconocido**.
- En cuanto a la columna **fatal** para que no de error podemos crear un nuevo valor que sea **desconocido**.
- **Activity** seria como especies habria que crear categorias mas amplias que engoblen varias, en caso de ser posible, ya que hay muchos datos diferente complejos de leer.
- **Country** habria que englobar los nulos dentro de una categoría que sea **desconocido**.
- En cuanto al **genero** podríamos crear una categoria nueva de genero **desconocido**.