In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import datetime

1 - Al empezar a trabajar con este dataframe ya eliminamos algunas columnas que a priori no nos interesaban. Ahora llega el momento de eliminar alguna columna más. En este caso tendréis que eliminar las columnas que no nos sean útiles para contestar a nuestras preguntas. Pero ojo ⚠️, haced una copia del dataframe para no "cargarnos" el dataframe original y perder la info.

In [2]:
df = pd.read_csv('../FILES/attacks_pandas_VII.csv', index_col=0)
df.head(2)

Unnamed: 0,case_number,year,type,country,area,location,activity,name,age,time,species_,injury,month,fatal,gender
0,2018.06.25,2018.0,Boating,USA,California,"Oceanside, San Diego County",Paddling,Julie Wolfe,57,18h00,White shark,"No injury to occupant, outrigger canoe and pad...",Jun,n,F
1,2018.06.18,2018.0,Unprovoked,USA,Georgia,"St. Simon Island, Glynn County",Standing,AdysonÂ McNeely,11,14h00 -15h00,,Minor injury to left thigh,Jun,n,F


In [3]:
# hacer copia df original
df_copy = df.copy()

In [4]:
df_copy.columns

Index(['case_number', 'year', 'type', 'country', 'area', 'location',
       'activity', 'name', 'age', 'time', 'species_', 'injury', 'month',
       'fatal', 'gender'],
      dtype='object')

In [5]:
# eliminamos algunas columnas que no están relacionadas con las preguntas a responder
df_copy.drop(['area', 'location', 'name', 'time', 'injury'], axis=1, inplace=True)


In [6]:
df_copy.head(2)

Unnamed: 0,case_number,year,type,country,activity,age,species_,month,fatal,gender
0,2018.06.25,2018.0,Boating,USA,Paddling,57,White shark,Jun,n,F
1,2018.06.18,2018.0,Unprovoked,USA,Standing,11,,Jun,n,F


2 - ¿Hay valores duplicados en nuestro dataframe? En caso de que los haya, eliminándlos.

In [7]:
df_copy.duplicated().sum()      # lo aplicamos sum() para que haga un conteo de la filas duplicadas y 
                                # vemos que no hay valores duplicados.

0

3 - Como hemos visto, algunas columnas no tienen el tipo de datos que deberían. Cambiad el tipo de dato para la columna de year.

In [8]:
df_copy.dtypes 

case_number     object
year           float64
type            object
country         object
activity        object
age             object
species_        object
month           object
fatal           object
gender          object
dtype: object

In [9]:
# cambiamos year type float a int y comprobamos
df_copy['year'] = df_copy['year'].astype('Int64', errors = 'ignore') 
df_copy['year'].dtype

Int64Dtype()

In [10]:
df_copy['year'].unique()

<IntegerArray>
[2018, 2017, 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009,
 ...
 1617, 1595, 1580, 1555, 1554, 1543,  500,   77,    5,    0]
Length: 249, dtype: Int64

4 - En la columna de country poner todos los valores en minúsculas.
💡 Pista Tendréis que usar una función o una lambda 💡

In [11]:
df_copy['country'].unique()

array(['USA', 'AUSTRALIA', 'MEXICO', 'BRAZIL', 'ENGLAND', 'SOUTH AFRICA',
       'THAILAND', 'COSTA RICA', 'MALDIVES', 'BAHAMAS', 'NEW CALEDONIA',
       'ECUADOR', 'MALAYSIA', 'LIBYA', nan, 'CUBA', 'MAURITIUS',
       'NEW ZEALAND', 'SPAIN', 'SAMOA', 'SOLOMON ISLANDS', 'JAPAN',
       'EGYPT', 'ST HELENA, British overseas territory', 'COMOROS',
       'REUNION', 'FRENCH POLYNESIA', 'UNITED KINGDOM',
       'UNITED ARAB EMIRATES', 'PHILIPPINES', 'INDONESIA', 'CHINA',
       'COLUMBIA', 'CAPE VERDE', 'Fiji', 'DOMINICAN REPUBLIC',
       'CAYMAN ISLANDS', 'ARUBA', 'MOZAMBIQUE', 'FIJI', 'PUERTO RICO',
       'ITALY', 'ATLANTIC OCEAN', 'GREECE', 'ST. MARTIN', 'FRANCE',
       'PAPUA NEW GUINEA', 'TRINIDAD & TOBAGO', 'KIRIBATI', 'ISRAEL',
       'DIEGO GARCIA', 'TAIWAN', 'JAMAICA', 'PALESTINIAN TERRITORIES',
       'GUAM', 'SEYCHELLES', 'BELIZE', 'NIGERIA', 'TONGA', 'SCOTLAND',
       'CANADA', 'CROATIA', 'SAUDI ARABIA', 'CHILE', 'ANTIGUA', 'KENYA',
       'RUSSIA', 'TURKS & CAICOS', 'UNITE

In [12]:
# alteramos a minúsculas y comprobamos

df_copy['country'] = df_copy['country'].apply(lambda x: x.lower() if type(x)==str else np.nan)
df_copy['country'].unique()

array(['usa', 'australia', 'mexico', 'brazil', 'england', 'south africa',
       'thailand', 'costa rica', 'maldives', 'bahamas', 'new caledonia',
       'ecuador', 'malaysia', 'libya', nan, 'cuba', 'mauritius',
       'new zealand', 'spain', 'samoa', 'solomon islands', 'japan',
       'egypt', 'st helena, british overseas territory', 'comoros',
       'reunion', 'french polynesia', 'united kingdom',
       'united arab emirates', 'philippines', 'indonesia', 'china',
       'columbia', 'cape verde', 'fiji', 'dominican republic',
       'cayman islands', 'aruba', 'mozambique', 'puerto rico', 'italy',
       'atlantic ocean', 'greece', 'st. martin', 'france',
       'papua new guinea', 'trinidad & tobago', 'kiribati', 'israel',
       'diego garcia', 'taiwan', 'jamaica', 'palestinian territories',
       'guam', 'seychelles', 'belize', 'nigeria', 'tonga', 'scotland',
       'canada', 'croatia', 'saudi arabia', 'chile', 'antigua', 'kenya',
       'russia', 'turks & caicos', 'united arab e

5 - Guardamos el csv para seguir trabajando en el siguiente ejercicio de pair de limpieza.

In [13]:
df_copy.to_csv('../FILES/attacks_limpio_1.csv')
