In [1]:
import pandas as pd
import datetime as dt
import numpy as np

pd.options.mode.chained_assignment = None  # default='warn'

# 1. Manejo de fechas


Las fechas y horas pueden aparecer expresadas de diversas formas. La idea general es poder llevar los objetos datetime a un formato común compuesto de los elementos_ año, mes, día, hora, minuto y segundo. También se puede definir el huso horario.

In [2]:
fecha_str = '2018-06-29 08:15:27.243860'
fecha_str

'2018-06-29 08:15:27.243860'

In [3]:
type(fecha_str)

str

Como podemos ver, este objeto no es reconocido como un objeto con formato datetime. Podemos transformarlo en uno y ver por separado los distintos componentes.

In [4]:
fecha_obj = dt.datetime.strptime(fecha_str, '%Y-%m-%d %H:%M:%S.%f')
print(type(fecha_obj))
print(fecha_obj)

<class 'datetime.datetime'>
2018-06-29 08:15:27.243860


A continuación se listan los formatos posibles de fecha, conocidos como *format tokens*:

*   %Y: Year (4 digits)
*   %m: Month
*   %d: Day of month
*   %H: Hour (24 hour)
*   %M: Minutes
*   %S: Seconds
*   %f: Microseconds

Para más información se puede consultar la [bibliografia del móódulo](https://docs.python.org/3/library/datetime.html).

Algunos ejemplos adicionales:


```
"Jun 28 2018 at 7:40AM" -> "%b %d %Y at %I:%M%p"
"September 18, 2017, 22:19:55" -> "%B %d, %Y, %H:%M:%S"
"Sun,05/12/99,12:30PM" -> "%a,%d/%m/%y,%I:%M%p"
"Mon, 21 March, 2015" -> "%a, %d %B, %Y"
"2018-03-12T10:12:45Z" -> "%Y-%m-%dT%H:%M:%SZ"
```

Una vez generado el objeto datetime pueden consultarse partes del mismo.


In [5]:
# solo parte de fecha
print('Date:', fecha_obj.date())
# solo parte de hora
print('Time:', fecha_obj.time())
# solo mes
print('Month:', fecha_obj.month)
# solo hora
print('Hour:', fecha_obj.hour)
# dia de la semana (lunes es 0, domingo es 6)
print('Dia de la semana:', fecha_obj.weekday())

Date: 2018-06-29
Time: 08:15:27.243860
Month: 6
Hour: 8
Dia de la semana: 4


Podemos realizar operaciones sobre las fechas.

In [6]:
start = "09:35:23"
end = "10:23:00"

start_dt = dt.datetime.strptime(start, '%H:%M:%S')
end_dt = dt.datetime.strptime(end, '%H:%M:%S')

diff = (end_dt - start_dt)

print('La diferencia es de' , str(diff.seconds) , 'segundos')
print('La diferencia es de' , str(round(diff.seconds/60,0)) , 'minutos')

La diferencia es de 2857 segundos
La diferencia es de 48.0 minutos


# 2. Manejo de strings

Podemos **contar los caracteres** de las strings y traernos un **caracter específico** de la string.

In [7]:
string1 = "abcdefghi"
string2 = "abcde fghi"
print(len(string1))
print(len(string2))

9
10


In [8]:
string1[2]

'c'

Si tuvieramos muchos **espacios en blanco** y los quisieramos eliminar



In [9]:
string3 = ["  acelga   ", "brocoli   ",  "   choclo"]
#Veamos el string
string3

['  acelga   ', 'brocoli   ', '   choclo']

In [10]:
for i in string3:
  print(i.strip())

acelga
brocoli
choclo


También podemos manejar las mayúsculas y minúsculas

In [11]:
string4 = 'No me gusta el frio'

In [12]:
string4.lower()

'no me gusta el frio'

In [13]:
string4.upper()

'NO ME GUSTA EL FRIO'

Podemos también **dividir los strings** con el comando *split*:



```
string.split(separator, maxsplit) 
```



In [14]:
# por default, se separa por los espacios
string4.split()

['No', 'me', 'gusta', 'el', 'frio']

In [15]:
# también se puede especificar el separador
string5 = 'Milk, Chicken, Bread, Butter'
string5.split(',')

['Milk', ' Chicken', ' Bread', ' Butter']

In [16]:
# y podemos especificar un máximo de separaciones
string5.split(',', 2)

['Milk', ' Chicken', ' Bread, Butter']

También podemos **reemplazar partes de un string** con el comando *replace*:



```
string.replace(old, new, count)
```



In [17]:
string6 = "todos los caballos blancos"
string6

'todos los caballos blancos'

In [18]:
# eliminamos los espacios en blanco
string6.replace(' ', '')

'todosloscaballosblancos'

In [19]:
# pasamos al femenino
string6.replace('os', 'as')

'todas las caballas blancas'

In [20]:
# pasamos al femenino las primeras dos palabras
string6.replace('os', 'as', 2)

'todas las caballos blancos'

Si queremos validar que un string cumpla con un determinado criterio podemos usar la funcióón *contains*

In [21]:
string7 = ["aString", "yetAnotherString", "evenAnotherOne"]
string7

['aString', 'yetAnotherString', 'evenAnotherOne']

In [22]:
pd.Series(string7).str.contains('String').tolist()

[True, True, False]

# Ejemplo práctico

## Ejercicio "tiburones"

In [23]:
import io
import requests

In [24]:
url='https://raw.githubusercontent.com/dmuba/dmuba.github.io/3005a7a5e8c9db5c188ca22a7b9269c94db8ced7/Practicos/TPs%20Entregables/TP02/Shark_Attack_Data.csv'
s=requests.get(url).content
df=pd.read_csv(io.StringIO(s.decode('latin-1')))

df.head()

Unnamed: 0,Case Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,...,Species,Investigator or Source,pdf,href formula,href,Case Number.1,Case Number.2,original order,Unnamed: 22,Unnamed: 23
0,2016.03.10,10-Mar-2016,2016,Unprovoked,Fiji,Vanua Levu,,Diving for beche-de-mer,Maika Tabua,M,...,,"Fiji Sun, 3/12/2016",2016.03.10-Tabua.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.03.10,2016.03.10,5898,,
1,2016.03.04,04-Mar-2016,2016,Unprovoked,USA,Florida,"Ocean Reef Park, Singer Island, Palm Beach County",,male,M,...,,WPTV. 3/4/2016,2016.03.04-OCPark.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.03.04,2016.03.04,5897,,
2,2016.03.03.R,Reported 03-Mar-2016,2016,Unprovoked,AUSTRALIA,South Australia,Wrights Bay,Fishing,Lee Taplin,M,...,Bronze whaler,"9 News, 3/1/2016",2016.03.03.R-Taplin.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.03.03.R,2016.03.03.R,5896,,
3,2016.03.02,02-Mar-2016,2016,Unprovoked,BRAZIL,Santa Catarina State,Escalerio Beach Balneário Camboriú,Swimming,Rafael Hermes Thomas,M,...,Sandtiger shark,"Misones Online, 3/4/2016",2016.03.02-Thomas.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.03.02,2016.03.02,5895,,
4,2016.02.22,22-Feb-2016,2016,Unprovoked,NEW CALEDONIA,South Province,"Ricaudy Reef, Noumea",Kite surfing,Adrian *,M,...,,"Les Nouvelles Calédoniennes, 2/23/2016",2016.02.22-Noumea.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.02.22,2016.02.22,5894,,


In [25]:
# comando util para saber que tipos de variables tenemos
df.dtypes

Case Number               object
Date                      object
Year                       int64
Type                      object
Country                   object
Area                      object
Location                  object
Activity                  object
Name                      object
Sex                       object
Age                       object
Injury                    object
Fatal (Y/N)               object
Time                      object
Species                   object
Investigator or Source    object
pdf                       object
href formula              object
href                      object
Case Number.1             object
Case Number.2             object
original order             int64
Unnamed: 22               object
Unnamed: 23               object
dtype: object

### 1. Country
Vamos a analizar la variable de país (*country*) para ver si presenta algun problema.

In [26]:
# generamos una lista con la columna
paises = df.Country.to_list()

# seleccionamos los valores unicos
print(len(set(paises)))
set(paises)

205


{' PHILIPPINES',
 ' TONGA',
 'ADMIRALTY ISLANDS',
 'ALGERIA',
 'AMERICAN SAMOA',
 'ANDAMAN / NICOBAR ISLANDAS',
 'ANGOLA',
 'ANTIGUA',
 'ARGENTINA',
 'ARUBA',
 'ASIA?',
 'ATLANTIC OCEAN',
 'AUSTRALIA',
 'AZORES',
 'BAHAMAS',
 'BAHREIN',
 'BANGLADESH',
 'BARBADOS',
 'BAY OF BENGAL',
 'BELIZE',
 'BERMUDA',
 'BRAZIL',
 'BRITISH ISLES',
 'BRITISH NEW GUINEA',
 'BRITISH VIRGIN ISLANDS',
 'BRITISH WEST INDIES',
 'BURMA',
 'Between PORTUGAL & INDIA',
 'CANADA',
 'CAPE VERDE',
 'CARIBBEAN SEA',
 'CAYMAN ISLANDS',
 'CENTRAL PACIFIC',
 'CEYLON (SRI LANKA)',
 'CHILE',
 'CHINA',
 'COLUMBIA',
 'COOK ISLANDS',
 'COSTA RICA',
 'CRETE',
 'CROATIA',
 'CUBA',
 'CURACAO',
 'CYPRUS',
 'Coast of AFRICA',
 'DIEGO GARCIA',
 'DJIBOUTI',
 'DOMINICAN REPUBLIC',
 'ECUADOR',
 'EGYPT',
 'EGYPT ',
 'EGYPT / ISRAEL',
 'EL SALVADOR',
 'ENGLAND',
 'EQUATORIAL GUINEA / CAMEROON',
 'FALKLAND ISLANDS',
 'FEDERATED STATES OF MICRONESIA',
 'FIJI',
 'FRANCE',
 'FRENCH POLYNESIA',
 'Fiji',
 'GABON',
 'GEORGIA',
 'GHANA',
 'G

Hay varios problemas, pero veamos dos:

1.   Hay algunos nombres que no están en mayúscula
2.   Hay algunos nombres que tienen espacios en blanco a izquierda y derecha

Llevamos los nombres a mayúscula

In [27]:
df['Country'] = df.Country.str.upper()
print(len(set(df.Country.to_list())))
#set(df.Country.to_list())

202


Ahora quitamos los espacios en blanco a izquierda y a derecha

In [28]:
df['Country'] = df.Country.str.strip()
print(len(set(df.Country.to_list())))

194


### 2. Date
Vamos a empezar analizar la variable Date de nuestro dataset. Primero llevamos esta variable a un pequeño dataset aparte y llevamos la variable al tipo character para poder manejarla como un string.

In [29]:
fechas_t = df[['Case Number', 'Date']]
fechas_t['Date'] = fechas_t.Date.astype(str) 
fechas_t.head()

Unnamed: 0,Case Number,Date
0,2016.03.10,10-Mar-2016
1,2016.03.04,04-Mar-2016
2,2016.03.03.R,Reported 03-Mar-2016
3,2016.03.02,02-Mar-2016
4,2016.02.22,22-Feb-2016


Vemos que la variable Date viene en muchos casos con la palabra *Reported* lo cual nos impide que podamos tratar esa expresión como fecha usando las herramientas que vimos. Por lo tanto vamos a tener que eliminarla. 

In [30]:
fechas_t['Date'] = fechas_t.Date.str.replace('Reported ', '')
fechas_t.head()

Unnamed: 0,Case Number,Date
0,2016.03.10,10-Mar-2016
1,2016.03.04,04-Mar-2016
2,2016.03.03.R,03-Mar-2016
3,2016.03.02,02-Mar-2016
4,2016.02.22,22-Feb-2016


Vemos a su vez que no todas las fechas comparten la misma estructura. Algunas presentan un formato de mes-año y otras presentan un formato de año estimado con la estructura "Before" o "Circa" y el año.

Vamos a quedarnos con tres grupos: el grupo que podemos llevar a formato datetime, el grupo con formato mes-año y el grupo con palabras. Para esto, vamos a contabilizar los guiones con el comando *count()* y vamos a conservar aquellos datos que podemos convertir en fechas.

In [31]:
fechas_t['conteo'] = fechas_t.Date.str.count('-')
fechas_t['largo'] = fechas_t.Date.str.len()
fechas_t.head()

Unnamed: 0,Case Number,Date,conteo,largo
0,2016.03.10,10-Mar-2016,2,11
1,2016.03.04,04-Mar-2016,2,11
2,2016.03.03.R,03-Mar-2016,2,11
3,2016.03.02,02-Mar-2016,2,11
4,2016.02.22,22-Feb-2016,2,11


In [32]:
fechas_clean = fechas_t[(fechas_t.conteo == 2) & (fechas_t.largo == 11)]

fechas_clean['date_clean'] = fechas_clean.Date.str.replace(' ', '')
fechas_clean['date_clean'] = fechas_clean.date_clean.str.replace('t937', '1937')
fechas_clean['date_clean'] = fechas_clean.date_clean.str.replace('Jut', 'Jul')

fechas_clean['date_clean'] = pd.to_datetime(fechas_clean.date_clean, format="%d-%b-%Y")

fechas_clean.head()

Unnamed: 0,Case Number,Date,conteo,largo,date_clean
0,2016.03.10,10-Mar-2016,2,11,2016-03-10
1,2016.03.04,04-Mar-2016,2,11,2016-03-04
2,2016.03.03.R,03-Mar-2016,2,11,2016-03-03
3,2016.03.02,02-Mar-2016,2,11,2016-03-02
4,2016.02.22,22-Feb-2016,2,11,2016-02-22


Volvemos a incorporarlo al dataset original.

In [33]:
df = pd.merge(df, fechas_clean[['Case Number', 'date_clean']], how = 'left', on = 'Case Number')
df['anio'] = df.date_clean.dt.year
df.head()

Unnamed: 0,Case Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,...,pdf,href formula,href,Case Number.1,Case Number.2,original order,Unnamed: 22,Unnamed: 23,date_clean,anio
0,2016.03.10,10-Mar-2016,2016,Unprovoked,FIJI,Vanua Levu,,Diving for beche-de-mer,Maika Tabua,M,...,2016.03.10-Tabua.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.03.10,2016.03.10,5898,,,2016-03-10,2016.0
1,2016.03.04,04-Mar-2016,2016,Unprovoked,USA,Florida,"Ocean Reef Park, Singer Island, Palm Beach County",,male,M,...,2016.03.04-OCPark.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.03.04,2016.03.04,5897,,,2016-03-04,2016.0
2,2016.03.03.R,Reported 03-Mar-2016,2016,Unprovoked,AUSTRALIA,South Australia,Wrights Bay,Fishing,Lee Taplin,M,...,2016.03.03.R-Taplin.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.03.03.R,2016.03.03.R,5896,,,2016-03-03,2016.0
3,2016.03.02,02-Mar-2016,2016,Unprovoked,BRAZIL,Santa Catarina State,Escalerio Beach Balneário Camboriú,Swimming,Rafael Hermes Thomas,M,...,2016.03.02-Thomas.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.03.02,2016.03.02,5895,,,2016-03-02,2016.0
4,2016.02.22,22-Feb-2016,2016,Unprovoked,NEW CALEDONIA,South Province,"Ricaudy Reef, Noumea",Kite surfing,Adrian *,M,...,2016.02.22-Noumea.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.02.22,2016.02.22,5894,,,2016-02-22,2016.0


### 3. Time
Vamos ahora a ver el caso de la variable *Time*. Vamos a proceder igual que con la variable Date, creando un pequeño dataset para normalizar esta variable.

In [34]:
time_t = df[['Case Number', 'Time']]
time_t.head()

Unnamed: 0,Case Number,Time
0,2016.03.10,Afternoon
1,2016.03.04,Afternoon
2,2016.03.03.R,Midnight
3,2016.03.02,
4,2016.02.22,19h00


Nuestro objetivo es llevar las horas a una variable categórica con los valores mañana, tarde y noche. Para eso por un lado vamos a tener que extraer la hora de las variables que la tienen cargada en forma númerica para luego agruparlas en esas tres categorías, y por el otro lado normalizar la forma categórica dada en inglés que actualmente tiene cuatro categorías.

Empecemos trabajando con las entradas que tienen los valores dados en números. Primero vamos a ver que entradas tienen h y vamos a generar una columna con el largo del string.

In [35]:
time_t['Time'] = time_t.Time.str.lower()
time_t['Time']  = time_t.Time.replace('midnight', 'night')
time_t['Time']  = time_t.Time.replace('lunchtime', 'afternoon')
time_t['Time']  = time_t.Time.replace('day', 'afternoon')
time_t['Time']  = time_t.Time.replace('sunset', 'afternoon')
time_t['Time']  = time_t.Time.replace('evening', 'night')

time_t['tiene_h'] = time_t.Time.str.contains('h')
time_t.head()

Unnamed: 0,Case Number,Time,tiene_h
0,2016.03.10,afternoon,False
1,2016.03.04,afternoon,False
2,2016.03.03.R,night,True
3,2016.03.02,,
4,2016.02.22,19h00,True


Ahora creamos una variable que nos va a decir si se trata de un caso con la hora dada en números. Para detectar estos casos, el string tiene que contener la letra h y tener 5 caracteres.

In [36]:
time_t['largo'] = time_t.Time.str.len()

time_t_2 = time_t[(time_t.tiene_h == True) & (time_t.largo == 5) & (time_t.Time != 'night')]
time_t_2['time_split'] = time_t_2.Time.str.split('h')
time_t_2['hora'] = time_t_2.time_split.map(lambda x: x[0]).astype(int)

time_t_2['hora_clean'] = np.where((time_t_2.hora > 5) & (time_t_2.hora < 13), 'morning', 
         np.where((time_t_2.hora > 12) & (time_t_2.hora < 20), 'afternoon', 'night'))
time_t_2.head()

Unnamed: 0,Case Number,Time,tiene_h,largo,time_split,hora,hora_clean
4,2016.02.22,19h00,True,5.0,"[19, 00]",19,afternoon
5,2016.02.19,16h00,True,5.0,"[16, 00]",16,afternoon
6,2016.02.12,15h00,True,5.0,"[15, 00]",15,afternoon
8,2016.02.10,12h30,True,5.0,"[12, 30]",12,morning
9,2016.02.05,13h20,True,5.0,"[13, 20]",13,afternoon


In [37]:
time_t = pd.merge(time_t, time_t_2[['Case Number', 'hora_clean']], how = 'left', on='Case Number')
time_t.head()

Unnamed: 0,Case Number,Time,tiene_h,largo,hora_clean
0,2016.03.10,afternoon,False,9.0,
1,2016.03.04,afternoon,False,9.0,
2,2016.03.03.R,night,True,5.0,
3,2016.03.02,,,,
4,2016.02.22,19h00,True,5.0,afternoon


In [38]:
time_t.hora_clean = np.where(time_t.Time == 'afternoon', 'afternoon', 
                             np.where(time_t.Time == 'night', 'night', 
                                      np.where(time_t.Time == 'morning', 'morning', time_t.hora_clean)))
time_t.head()

Unnamed: 0,Case Number,Time,tiene_h,largo,hora_clean
0,2016.03.10,afternoon,False,9.0,afternoon
1,2016.03.04,afternoon,False,9.0,afternoon
2,2016.03.03.R,night,True,5.0,night
3,2016.03.02,,,,
4,2016.02.22,19h00,True,5.0,afternoon


In [39]:
df = pd.merge(df, time_t[['Case Number', 'hora_clean']], how = 'left', on='Case Number')
df.head()


Unnamed: 0,Case Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,...,href formula,href,Case Number.1,Case Number.2,original order,Unnamed: 22,Unnamed: 23,date_clean,anio,hora_clean
0,2016.03.10,10-Mar-2016,2016,Unprovoked,FIJI,Vanua Levu,,Diving for beche-de-mer,Maika Tabua,M,...,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.03.10,2016.03.10,5898,,,2016-03-10,2016.0,afternoon
1,2016.03.04,04-Mar-2016,2016,Unprovoked,USA,Florida,"Ocean Reef Park, Singer Island, Palm Beach County",,male,M,...,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.03.04,2016.03.04,5897,,,2016-03-04,2016.0,afternoon
2,2016.03.03.R,Reported 03-Mar-2016,2016,Unprovoked,AUSTRALIA,South Australia,Wrights Bay,Fishing,Lee Taplin,M,...,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.03.03.R,2016.03.03.R,5896,,,2016-03-03,2016.0,night
3,2016.03.02,02-Mar-2016,2016,Unprovoked,BRAZIL,Santa Catarina State,Escalerio Beach Balneário Camboriú,Swimming,Rafael Hermes Thomas,M,...,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.03.02,2016.03.02,5895,,,2016-03-02,2016.0,
4,2016.02.22,22-Feb-2016,2016,Unprovoked,NEW CALEDONIA,South Province,"Ricaudy Reef, Noumea",Kite surfing,Adrian *,M,...,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.02.22,2016.02.22,5894,,,2016-02-22,2016.0,afternoon


## Gráficos
Podemos usar toda la limipeza previa para aprender algunas cosas sobre ataques de tiburones.

Veamos la evolución por año de los ataques de tiburones.

In [40]:
import plotly.express as px

In [41]:
fig = px.histogram(df[df.anio > 1800], x="anio")
fig.show()

Seleccionamos a dos paises con muchos ataques. Recordemos que habiamos hecho algunos procedimientos de normalización sobre esta variable

In [42]:
df['mes'] = df.date_clean.dt.month

df_usa = df[(df.Country == 'USA')]
df_aus = df[(df.Country == 'AUSTRALIA')]

In [43]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

In [44]:
fig = go.Figure()
fig.add_trace(go.Histogram(histfunc="count", y=df_usa['Case Number'].to_list(), x=df_usa['mes'].to_list(), name="count"))
fig.add_trace(go.Histogram(histfunc="count", y=df_aus['Case Number'].to_list(), x=df_aus['mes'].to_list(), name="count"))
fig.show()