# Tratamento de valores do tipo data

**No dataset do `Titanic` nós não temos esse tipo de dado bem popular**

Usaremos um dataset criado no `Google Sheets`, esse tipo de integração pode ser bem legal se você tá acostumado a usar essa ferramenta.

![alt text](https://files.realpython.com/media/How-to-Use-Python-datetime-With-Examples_Watermarked.229e4cd65ec7.jpg)

- Nossa planilha: http://bit.ly/2m7CqWf
- Para ler usando a API do Google: http://bit.ly/2zrHNVW

**Vamos lá, acesse a planilha e coloque a data de nascimento e altura suas ou de seus personagens favoritos.**

Usando pandas vamos ler o nosso novo dado.

In [2]:
import pandas
alunos = pandas.read_csv("http://bit.ly/2zrHNVW")

In [3]:
alunos.head()

Unnamed: 0.1,Unnamed: 0,Data,Altura
0,Donatello,01/01/2010,2.58
1,Mega Man,03/07/1980,1.6
2,Naruto,08/11/1992,1.66
3,Charizard,20/03/2010,1.7
4,Hyoga de Cisne,30/09/1998,1.73


Vamos checar o tipo dos dados.

In [4]:
alunos.dtypes

Unnamed: 0     object
Data           object
Altura        float64
dtype: object

Ao importamos o nosso dado ele vem com o tipo `object` e não `datetime`, nós precisamos converter ele para esse tipo para podermos tratar ele como uma data.

Não vamos usar uma nova biblioteca, `datetime` ela é uma biblioteca padrão do Python para tratar dados do tipo datetime (data e horário).

In [5]:
import datetime

O `datetime` do pandas usa o padrão de leitura [strftime](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior), feito para converter "texto" para "datetime", para isso precisamos passar a máscara (format) mostrando onde estão dentro da string cada parte da data.

- `%d` - Dia do mês como um número decimal preenchido com zero.
- `%m` - Mês como um número decimal preenchido com zero.
- `%Y` - Ano com o século como um número decimal.

In [6]:
def convert_to_datetime(value):
  return pandas.to_datetime(value, format="%d/%m/%Y")

novas_datas = alunos["Data"].apply(convert_to_datetime)

novas_datas

0    2010-01-01
1    1980-07-03
2    1992-11-08
3    2010-03-20
4    1998-09-30
5    1985-05-18
6    1990-10-10
7    1988-10-05
8    1991-07-01
9    1996-08-05
10   1995-12-18
11   1993-11-29
12   1992-04-29
13   1995-11-08
14   1985-07-01
15   1995-06-05
16   1997-03-18
17   1977-06-23
18   1991-01-24
19   1996-01-19
20   1986-03-02
21   1989-06-28
22   1995-01-26
23   1994-05-07
Name: Data, dtype: datetime64[ns]

Veja como o tipo do dado agora é descrito como `datetime64`. 

Vamos trocar o dado da coluna `Data` pela com o tipo correto.

In [7]:
alunos["Data"] = novas_datas

In [8]:
alunos.dtypes

Unnamed: 0            object
Data          datetime64[ns]
Altura               float64
dtype: object

Agora o tipo da coluna é `datetime`, podemos então aplicar os métodos de `datetime` na coluna!

Para acessar as funções de data para uma série é importante usar a propriedade `dt`.

**Conseguimos acessar somente o mês, por exemplo**

In [9]:
alunos["Data"].dt.month

0      1
1      7
2     11
3      3
4      9
5      5
6     10
7     10
8      7
9      8
10    12
11    11
12     4
13    11
14     7
15     6
16     3
17     6
18     1
19     1
20     3
21     6
22     1
23     5
Name: Data, dtype: int64

**Conseguimos acessar somente o ano**

In [10]:
alunos["Data"].dt.year

0     2010
1     1980
2     1992
3     2010
4     1998
5     1985
6     1990
7     1988
8     1991
9     1996
10    1995
11    1993
12    1992
13    1995
14    1985
15    1995
16    1997
17    1977
18    1991
19    1996
20    1986
21    1989
22    1995
23    1994
Name: Data, dtype: int64

**Podemos descobrir qual dia da semana era aquela data.**

A ordem é: 'Segunda-feira', 'Terça-feira', 'Quarta-feira', 'Quinta-feira', 'Sexta-feira', 'Sábado', 'Domingo'

In [11]:
alunos["Data"].dt.weekday

0     4
1     3
2     6
3     5
4     2
5     5
6     2
7     2
8     0
9     0
10    0
11    0
12    2
13    2
14    0
15    0
16    1
17    3
18    3
19    4
20    6
21    2
22    3
23    5
Name: Data, dtype: int64

### **Desafio:** Qual a idade das pessoas/personagens?

- Para acessar o ano do datetime: date.year
- Se quiser ser mais assertivo pode usar: from dateutil.relativedelta import relativedelta 

![alt text](https://static.vix.com/pt/sites/default/files/styles/large/public/a/atrasada-relogio-pulso-1116-1400x800.jpg?itok=qv3gUH6U)

In [13]:
#solução
2020 - alunos["Data"].dt.year

0     10
1     40
2     28
3     10
4     22
5     35
6     30
7     32
8     29
9     24
10    25
11    27
12    28
13    25
14    35
15    25
16    23
17    43
18    29
19    24
20    34
21    31
22    25
23    26
Name: Data, dtype: int64

In [32]:
#solução usando relativedelta
from datetime import datetime
from dateutil.relativedelta import relativedelta

alunos['Hoje'] = datetime.date.today()
alunos['Hoje'] = pandas.to_datetime(alunos['Hoje'])

relativedelta(alunos["Data"],  )

?relativedelta

AttributeError: 'method_descriptor' object has no attribute 'today'

## 5 - Unindo Datasets

Em muitos casos os dados não estarão todos no mesmo dataset. Para resolver isso podemos criar um dataset pegando dados de outros. Para juntar dois datasets basta que tenhamos um dado em comum entre os dois.


Vamos fazer um dataframe com os dias da semana e agregar essa informação ao dataframe alunos.

**Criando um dataframe do `zero` com os dias da semana**

In [33]:
dias_da_semana = [{"dia_da_semana":"Segunda", "numero":0},
                 {"dia_da_semana":"Terça", "numero":1},
                 {"dia_da_semana":"Quarta", "numero":2},
                 {"dia_da_semana":"Quinta", "numero":3},
                 {"dia_da_semana":"Sexta", "numero":4},
                 {"dia_da_semana":"Sábado", "numero":5},
                 {"dia_da_semana":"Domingo", "numero":6}]

dataframe_dias_da_semana = pandas.DataFrame(dias_da_semana)

dataframe_dias_da_semana

Unnamed: 0,dia_da_semana,numero
0,Segunda,0
1,Terça,1
2,Quarta,2
3,Quinta,3
4,Sexta,4
5,Sábado,5
6,Domingo,6


No dataset de alunos vamos criar uma coluna com o dia da semana do nascimento.

In [34]:
alunos["dia_da_semana"] = alunos["Data"].dt.weekday
alunos

Unnamed: 0.1,Unnamed: 0,Data,Altura,dia_da_semana
0,Donatello,2010-01-01,2.58,4
1,Mega Man,1980-07-03,1.6,3
2,Naruto,1992-11-08,1.66,6
3,Charizard,2010-03-20,1.7,5
4,Hyoga de Cisne,1998-09-30,1.73,2
5,Goku,1985-05-18,1.75,5
6,Kratos,1990-10-10,1.98,2
7,Gabriel Mendonça,1988-10-05,1.69,2
8,Marcos,1991-07-01,1.82,0
9,Gustavo,1996-08-05,1.82,0


**5.1 Usando Merge**

O `merge` espera:

 - `left` - dataset a esquerda
 - `right` - dataset a direita
 - `left_on` -  campo que vamos usar para igualdade presente no dataset da esquerda
 - `right_on` -  campo que vamos usar para igualdade presente no dataset da direita
 - `how` - é o jeito que vamos fazer a união, verificar tipo na imagem.

 ![join](http://www.dofactory.com/Images/sql-joins.png)

 Vamos usar como fator de união os campos `dia_da_semana` e `numero`.

In [39]:
pandas.merge(alunos, dataframe_dias_da_semana, left_on="dia_da_semana", right_on="numero", how="inner")

Unnamed: 0.1,Unnamed: 0,Data,Altura,dia_da_semana_x,dia_da_semana_y,numero
0,Donatello,2010-01-01,2.58,4,Sexta,4
1,Anna,1996-01-19,1.6,4,Sexta,4
2,Mega Man,1980-07-03,1.6,3,Quinta,3
3,Bruna,1977-06-23,1.77,3,Quinta,3
4,Luiz Fernando,1991-01-24,1.7,3,Quinta,3
5,Pedro,1995-01-26,1.78,3,Quinta,3
6,Naruto,1992-11-08,1.66,6,Domingo,6
7,Leonardo,1986-03-02,1.65,6,Domingo,6
8,Charizard,2010-03-20,1.7,5,Sábado,5
9,Goku,1985-05-18,1.75,5,Sábado,5


### **Desafio:** Veja o que acontece se fizermos um `full join`.

No pandas o tipo dele é **outer**.

![alt text](https://static.vix.com/pt/sites/default/files/styles/large/public/a/atrasada-relogio-pulso-1116-1400x800.jpg?itok=qv3gUH6U)

In [38]:
pandas.merge(alunos, dataframe_dias_da_semana, left_on="dia_da_semana", right_on="numero", how="outer")

Unnamed: 0.1,Unnamed: 0,Data,Altura,dia_da_semana_x,dia_da_semana_y,numero
0,Donatello,2010-01-01,2.58,4,Sexta,4
1,Anna,1996-01-19,1.6,4,Sexta,4
2,Mega Man,1980-07-03,1.6,3,Quinta,3
3,Bruna,1977-06-23,1.77,3,Quinta,3
4,Luiz Fernando,1991-01-24,1.7,3,Quinta,3
5,Pedro,1995-01-26,1.78,3,Quinta,3
6,Naruto,1992-11-08,1.66,6,Domingo,6
7,Leonardo,1986-03-02,1.65,6,Domingo,6
8,Charizard,2010-03-20,1.7,5,Sábado,5
9,Goku,1985-05-18,1.75,5,Sábado,5


**5.2 Usando Concat**

Nós podemos **concatenar** os dataframes. Essa junção pode ser ao lado ou embaixo.

![alt text](https://pandas.pydata.org/pandas-docs/version/0.21.1/_images/merging_concat_axis1.png)

Primeiro vamos ver como fica se quisermos acrescentar mais linhas, para isso vamos separa o nosso dataframe em dois para mostrar.

In [44]:
alunos_nascidos_terca = alunos[alunos["dia_da_semana"] == 2]
alunos_nao_nascidos_terca = alunos[alunos["dia_da_semana"] != 2]

In [45]:
alunos_nascidos_terca

Unnamed: 0.1,Unnamed: 0,Data,Altura,dia_da_semana
4,Hyoga de Cisne,1998-09-30,1.73,2
6,Kratos,1990-10-10,1.98,2
7,Gabriel Mendonça,1988-10-05,1.69,2
12,Rodrigo Meneguetti,1992-04-29,1.91,2
13,Filippe,1995-11-08,1.8,2
21,André,1989-06-28,1.73,2


In [42]:
alunos_nao_nascidos_terca

Unnamed: 0.1,Unnamed: 0,Data,Altura,dia_da_semana
0,Donatello,2010-01-01,2.58,4
1,Mega Man,1980-07-03,1.6,3
2,Naruto,1992-11-08,1.66,6
3,Charizard,2010-03-20,1.7,5
5,Goku,1985-05-18,1.75,5
8,Marcos,1991-07-01,1.82,0
9,Gustavo,1996-08-05,1.82,0
10,Paulo Renato,1995-12-18,1.71,0
11,Lara,1993-11-29,1.64,0
14,Snake,1985-07-01,1.91,0


Para juntarmos usamos o `concat` com o `axis=0`.

In [48]:
pandas.concat([alunos_nascidos_terca, alunos_nao_nascidos_terca], axis=0)

Unnamed: 0.1,Unnamed: 0,Data,Altura,dia_da_semana
4,Hyoga de Cisne,1998-09-30,1.73,2
6,Kratos,1990-10-10,1.98,2
7,Gabriel Mendonça,1988-10-05,1.69,2
12,Rodrigo Meneguetti,1992-04-29,1.91,2
13,Filippe,1995-11-08,1.8,2
21,André,1989-06-28,1.73,2
0,Donatello,2010-01-01,2.58,4
1,Mega Man,1980-07-03,1.6,3
2,Naruto,1992-11-08,1.66,6
3,Charizard,2010-03-20,1.7,5


Uma diferença grande entre o `concat` e o `merge` é não ter uma cláusula de igualdade, então podem acontecer coisas não esperadas, vejam.

In [49]:
pandas.concat([alunos, dataframe_dias_da_semana], axis=1)

Unnamed: 0.1,Unnamed: 0,Data,Altura,dia_da_semana,dia_da_semana.1,numero
0,Donatello,2010-01-01,2.58,4,Segunda,0.0
1,Mega Man,1980-07-03,1.6,3,Terça,1.0
2,Naruto,1992-11-08,1.66,6,Quarta,2.0
3,Charizard,2010-03-20,1.7,5,Quinta,3.0
4,Hyoga de Cisne,1998-09-30,1.73,2,Sexta,4.0
5,Goku,1985-05-18,1.75,5,Sábado,5.0
6,Kratos,1990-10-10,1.98,2,Domingo,6.0
7,Gabriel Mendonça,1988-10-05,1.69,2,,
8,Marcos,1991-07-01,1.82,0,,
9,Gustavo,1996-08-05,1.82,0,,
