In [56]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import datetime

Entre las tareas que tendréis que hacer hoy:

- Al empezar a trabajar con este dataframe ya eliminamos algunas columnas que a priori no nos interesaban. Ahora llega el momento de eliminar alguna columna más. En este caso vamos tendréis que eliminar las columnas que no nos sean útiles para contestar a nuestras preguntas. Pero ojo ⚠️, haced una copia del dataframe para no "cargarnos" el dataframe original y perder la info.

- ¿Hay valores duplicados en nuestro dataframe? En caso de que los haya, eliminándolos.

- Como hemos visto, algunas columnas no tienen el tipo de datos que deberían. Cambiad el tipo de dato para la columna de year.

- En la columna de country poner todos los valores en minúsculas. Pista Tendréis que usar una función o una lambda

- Guardamos el csv para seguir trabajando en el siguiente ejercicio de pair de limpieza.

In [57]:
df = pd.read_csv('../../datos/attacks.csv', index_col=0)

In [58]:
df.head(2)

Unnamed: 0,case_number,year,type,country,area,location,activity,name,age,time,species_,href,injury,date,mes,fatal_,sex2
0,1800.00.00,1800.0,Unprovoked,SEYCHELLES,St. Anne,,a corsair's boat was overturned,,,,,http://sharkattackfile.net/spreadsheets/pdf_di...,"FATAL, all onboard were killed by sharks",1800,,y,F
1,1797.05.28.R,1797.0,Unprovoked,,,,Dropped overboard,child,,,,http://sharkattackfile.net/spreadsheets/pdf_di...,FATAL,Reported May-28-1797,May,y,


Eliminaremos algunas columnas que no son de nuestro interés como: name, location, href, time, area, location, injury y date (de esta última ya extrajimos la información de los meses y además ya tenemos una columna de años)

In [59]:
df_copia = df.copy()

In [60]:
df_copia.columns

Index(['case_number', 'year', 'type', 'country', 'area', 'location',
       'activity', 'name', 'age', 'time', 'species_', 'href', 'injury', 'date',
       'mes', 'fatal_', 'sex2'],
      dtype='object')

In [61]:
df_copia.drop(['location', 'href', 'date', 'name', 'time', 'area', 'injury'], axis=1, inplace=True)

In [62]:
df_copia.head(2)

Unnamed: 0,case_number,year,type,country,activity,age,species_,mes,fatal_,sex2
0,1800.00.00,1800.0,Unprovoked,SEYCHELLES,a corsair's boat was overturned,,,,y,F
1,1797.05.28.R,1797.0,Unprovoked,,Dropped overboard,,,May,y,


In [63]:
nulos = pd.DataFrame(round(df_copia.isnull().sum() * 100 / df.shape[0], 2))
nulos.rename(columns={0:'% nulos'}, inplace=True)
nulos

Unnamed: 0,% nulos
case_number,0.02
year,0.0
type,0.06
country,0.8
activity,8.63
age,44.88
species_,45.05
mes,9.07
fatal_,9.66
sex2,8.98


In [64]:
df_copia.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6284 entries, 0 to 6283
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   case_number  6283 non-null   object 
 1   year         6284 non-null   float64
 2   type         6280 non-null   object 
 3   country      6234 non-null   object 
 4   activity     5742 non-null   object 
 5   age          3464 non-null   object 
 6   species_     3453 non-null   object 
 7   mes          5714 non-null   object 
 8   fatal_       5677 non-null   object 
 9   sex2         5720 non-null   object 
dtypes: float64(1), object(9)
memory usage: 540.0+ KB


In [65]:
# DUPLICADOS

df_copia.duplicated().sum()

0

In [66]:
# TIPO DE DATOS

df_copia["year"] = df_copia["year"].astype('Int64', errors = "ignore") 

In [67]:
df_copia.dtypes

case_number    object
year            Int64
type           object
country        object
activity       object
age            object
species_       object
mes            object
fatal_         object
sex2           object
dtype: object

In [68]:
df_copia['year'].unique()

<IntegerArray>
[1800, 1797, 1792, 1791, 1788, 1787, 1786, 1785, 1784, 1783,
 ...
 1812, 1811, 1810, 1808, 1807, 1805, 1804, 1803, 1802, 1801]
Length: 249, dtype: Int64

In [69]:
df_copia['country'].unique()

array(['SEYCHELLES', nan, 'ENGLAND', 'AUSTRALIA', 'BARBADOS', 'JAMAICA',
       'MARTINIQUE', 'USA', 'GUINEA', 'GREENLAND', 'FRANCE', 'SPAIN',
       'MEDITERRANEAN SEA', 'CUBA', 'SWEDEN', 'PANAMA', 'ITALY',
       'ICELAND', 'ROATAN', 'INDIA', 'Between PORTUGAL & INDIA',
       'VENEZUELA', 'MEXICO', 'GREECE', 'CANADA', 'KENYA', 'URUGUAY',
       'PAPUA NEW GUINEA', 'BERMUDA', 'LEBANON', 'SUDAN', 'DJIBOUTI',
       'LIBYA', 'NEW ZEALAND', 'VIETNAM', 'SRI LANKA', 'MOZAMBIQUE',
       'SOUTH AFRICA', 'BAHREIN', 'BAHAMAS', 'REUNION', 'SOLOMON ISLANDS',
       'KOREA', 'FRENCH POLYNESIA', 'VANUATU', 'IRAN', 'RED SEA?',
       'SINGAPORE', 'FIJI', 'IRAQ', 'MADAGASCAR', 'INDONESIA',
       'NICARAGUA', 'MARSHALL ISLANDS', 'KIRIBATI', 'NORTH PACIFIC OCEAN',
       'SAUDI ARABIA', 'PACIFIC OCEAN', 'BURMA', 'BELIZE', 'ASIA?',
       'CEYLON (SRI LANKA)', 'BRAZIL', 'THAILAND', 'COSTA RICA',
       'MALDIVES', 'NEW CALEDONIA', 'ECUADOR', 'MALAYSIA', 'MAURITIUS',
       'SAMOA', 'JAPAN', 'EGYPT',

In [70]:
df_copia['country'] = df['country'].apply(lambda x: x.lower() if type(x)==str else np.nan)

In [71]:
df_copia['country'].unique()

array(['seychelles', nan, 'england', 'australia', 'barbados', 'jamaica',
       'martinique', 'usa', 'guinea', 'greenland', 'france', 'spain',
       'mediterranean sea', 'cuba', 'sweden', 'panama', 'italy',
       'iceland', 'roatan', 'india', 'between portugal & india',
       'venezuela', 'mexico', 'greece', 'canada', 'kenya', 'uruguay',
       'papua new guinea', 'bermuda', 'lebanon', 'sudan', 'djibouti',
       'libya', 'new zealand', 'vietnam', 'sri lanka', 'mozambique',
       'south africa', 'bahrein', 'bahamas', 'reunion', 'solomon islands',
       'korea', 'french polynesia', 'vanuatu', 'iran', 'red sea?',
       'singapore', 'fiji', 'iraq', 'madagascar', 'indonesia',
       'nicaragua', 'marshall islands', 'kiribati', 'north pacific ocean',
       'saudi arabia', 'pacific ocean', 'burma', 'belize', 'asia?',
       'ceylon (sri lanka)', 'brazil', 'thailand', 'costa rica',
       'maldives', 'new caledonia', 'ecuador', 'malaysia', 'mauritius',
       'samoa', 'japan', 'egypt',

In [72]:
df_copia.columns

Index(['case_number', 'year', 'type', 'country', 'activity', 'age', 'species_',
       'mes', 'fatal_', 'sex2'],
      dtype='object')

In [73]:
df_copia. rename(columns = {'sex2':'sex', 'fatal_':'fatal', 'species_':'species'}, inplace = True)

In [74]:
df_copia.columns

Index(['case_number', 'year', 'type', 'country', 'activity', 'age', 'species',
       'mes', 'fatal', 'sex'],
      dtype='object')

In [75]:
lista_columnas = df_copia.columns.to_list()


In [76]:
nuevo_orden = ['case_number', 'year', 'mes','country', 'type', 'activity',
       'age', 'sex', 'species',  'fatal']

In [77]:
df_copia = df_copia.reindex(columns=nuevo_orden)

In [78]:
df_copia.head(2)

Unnamed: 0,case_number,year,mes,country,type,activity,age,sex,species,fatal
0,1800.00.00,1800,,seychelles,Unprovoked,a corsair's boat was overturned,,F,,y
1,1797.05.28.R,1797,May,,Unprovoked,Dropped overboard,,,,y


In [81]:
len(df_copia['activity'].unique())

1531

In [79]:
df_copia.to_csv('../../datos/attacks_limpio_1.csv')