<h2>COMO MANUSEAR DATA NO PANDAS?</h2>

Converter a coluna de data para o dtype datetime é essencial para realizar operações, agrupamentos, filtros, etc usando essa data.
O método que converte o dtype de uma coluna para datetime é o pd.datetime(arg,format), com arg o localizador dos valores a serem formatados, e format o formato da data do arg.

Exemplo:

In [104]:
import pandas as pd

In [105]:
dic_data = {'data': ['01/08/2023','10/01/2024','15/12/2024']}
df=pd.DataFrame(dic_data)
df

Unnamed: 0,data
0,01/08/2023
1,10/01/2024
2,15/12/2024


In [106]:
df.dtypes

data    object
dtype: object

<h4>Observe que, embora o visual das datas esteja conforme o desejado, sua formatação está como object (string). Se quiséssemos fazer uma operação, como extrair o mês dessa coluna, teríamos um erro:</h4>

In [107]:
df['data'].dt.month

AttributeError: Can only use .dt accessor with datetimelike values

<h4>Para isso, é necessária a conversão do dtype object para datetime, por meio do pd.to_datetime():</h4>

In [108]:
df['data_convertida'] = pd.to_datetime(df['data'],format='%d/%m/%Y')
df

Unnamed: 0,data,data_convertida
0,01/08/2023,2023-08-01
1,10/01/2024,2024-01-10
2,15/12/2024,2024-12-15


In [109]:
df.dtypes

data                       object
data_convertida    datetime64[ns]
dtype: object

<h4>Criamos uma nova coluna cujo dtype é datetime. Agora, vamos tentar extrair o mês:</h4>

In [110]:
df['data_convertida'].dt.month

0     8
1     1
2    12
Name: data_convertida, dtype: int32

In [111]:
df['data_strftime'] = df['data_convertida'].dt.strftime('%m-%y')
df

Unnamed: 0,data,data_convertida,data_strftime
0,01/08/2023,2023-08-01,08-23
1,10/01/2024,2024-01-10,01-24
2,15/12/2024,2024-12-15,12-24


<h4>Porém, como seria se a formatação, ou seja, o visual da coluna de data, fosse diferente?</h4>

In [112]:
dic_data = {'data': ['09-20','11-20','01-21']}
df_a = pd.DataFrame(dic_data)
df_a

Unnamed: 0,data
0,09-20
1,11-20
2,01-21


<h4>Aqui, queremos converter essa coluna para datetime. Porém, ela não está no formato dia/mês/ano.
O processo é bem parecido, mudando apenas o argumento do format. Antes, estávamos lidando com %d/%m/%Y. Agora, com %m/%y:</h4>

In [113]:
df_a['data_convertida'] = pd.to_datetime(df_a['data'],format='%m-%y')
df_a

Unnamed: 0,data,data_convertida
0,09-20,2020-09-01
1,11-20,2020-11-01
2,01-21,2021-01-01


<h4>Nesse link tem a relação de siglas dos elementos/formatos: https://www.w3schools.com/python/python_datetime.asp</h4>

<h4>Agora, e se quiséssemos concatenar informações na coluna de data antes de converter seu dtype para datetime? Por exemplo, e se quiséssemos adicionar o conteúdo de uma suposta coluna "dia" à coluna "data". Ou, ainda, se tivéssemos essas informações no DataFrame:</h4>

In [127]:
dic_data = {'dia': [1,2,3,4,5], 'mes': [2,5,8,11,10]}
df_c=pd.DataFrame(dic_data)
df_c

Unnamed: 0,dia,mes
0,1,2
1,2,5
2,3,8
3,4,11
4,5,10


<h4>E quiséssemos formar uma coluna de data juntando dia e mês?</h4>

<h4>Bastaria concatenar ambas, assegurando que fossem do tipo string (object):</h4>

In [128]:
df_c['data'] = df_c['dia'].astype(str) + '/' + df_c['mes'].astype(str)
df_c

Unnamed: 0,dia,mes,data
0,1,2,1/2
1,2,5,2/5
2,3,8,3/8
3,4,11,4/11
4,5,10,5/10


In [129]:
df_c['data_convertida'] = pd.to_datetime(df_c['data'],format='%d/%m')
df_c

Unnamed: 0,dia,mes,data,data_convertida
0,1,2,1/2,1900-02-01
1,2,5,2/5,1900-05-02
2,3,8,3/8,1900-08-03
3,4,11,4/11,1900-11-04
4,5,10,5/10,1900-10-05


In [130]:
df_c['data'] = df_c['data']
df_c['data_convertida'] = pd.to_datetime(df_c['data'],format='%d/%m')
df_c

Unnamed: 0,dia,mes,data,data_convertida
0,1,2,1/2,1900-02-01
1,2,5,2/5,1900-05-02
2,3,8,3/8,1900-08-03
3,4,11,4/11,1900-11-04
4,5,10,5/10,1900-10-05


<h4>Embora os números tivessem sem zero à esquerda, o método formatou-os corretamente, adicionando os zeros à esquerda, para manter dia e mês sempre com dois dígitos. Porém, observe que o ano padrão é 1900, uma vez que não foi especificado. Supondo que quiséssemos que o ano fosse  2023 para todas as linhas:</h4>

In [132]:
df_c['data'] = df_c['dia'].astype(str) + '/' + df_c['mes'].astype(str) + '/' + '2023'
df_c['data_convertida'] = pd.to_datetime(df_c['data'],format='%d/%m/%Y')
df_c

Unnamed: 0,dia,mes,data,data_convertida
0,1,2,1/2/2023,2023-02-01
1,2,5,2/5/2023,2023-05-02
2,3,8,3/8/2023,2023-08-03
3,4,11,4/11/2023,2023-11-04
4,5,10,5/10/2023,2023-10-05


<h4>CONCLUSÕES PARCIAIS:<br>
- É necessário formatar a data com a formatação desejada (arg,format) antes de passá-la no pd.to_datetime(arg,format)<br>
- O conteúdo do parâmetro format deve ser o formato da coluna original que queremos converter<br>
- pd.to_datetime() retorna a data no formato ano-mês-dia e dtype datetime. Sendo a única combinação possível
</H4>

<h4>Uma solução para alterar a formatação do valor gerado pelo pd.to_datetime() é usando dt.strftime. Para os casos acima, vamos supor que queiramos alterar para nome abreviado do mês e 2 últimos dígitos do ano (ex. fev/23 para a primeira linha):</h4>

In [135]:
df_c['data_strftime'] = df_c['data_convertida'].dt.strftime('%b/%y')
df_c

Unnamed: 0,dia,mes,data,data_convertida,data_strftime
0,1,2,1/2/2023,2023-02-01,fev/23
1,2,5,2/5/2023,2023-05-02,mai/23
2,3,8,3/8/2023,2023-08-03,ago/23
3,4,11,4/11/2023,2023-11-04,nov/23
4,5,10,5/10/2023,2023-10-05,out/23


<h4>Caso quiséssemos que a abreviação do mês fosse em português:</h4>

In [134]:
import locale 
locale.setlocale(locale.LC_TIME, "sv_SE")
df_c['data_strftime'] = df_c['data_convertida'].dt.strftime('%b/%y')
df_c

Unnamed: 0,dia,mes,data,data_convertida,data_strftime
0,1,2,1/2/2023,2023-02-01,fev/23
1,2,5,2/5/2023,2023-05-02,mai/23
2,3,8,3/8/2023,2023-08-03,ago/23
3,4,11,4/11/2023,2023-11-04,nov/23
4,5,10,5/10/2023,2023-10-05,out/23


In [98]:
df_c.dtypes

dia                         int64
mes                         int64
data                       object
data_convertida    datetime64[ns]
data_strftime              object
dtype: object

<h4>Porém, observe que, o dtype da coluna é object (str)</h4>

<h4>Uma outra situação frequente é a coluna da data estar com números inteiros:</h4>

In [99]:
dic_data = {'data': [19570,19676,19709,19710]}
df_d = pd.DataFrame(dic_data)
df_d

Unnamed: 0,data
0,19570
1,19676
2,19709
3,19710


<h4>Essses números representam, geralmente, a quantidade de dias (unit) a partir de uma determinada data inicial (origin). No pd.to_datetime(), há o parâmetro unit, o qual especifica a unidade de medida de tempo, geralmente dias (D), e o parâmetro origin, com a data inicial da contagem. Por padrão, origin é 01/01/1970 (unit)</h4>

In [102]:
df_d['data_format'] = pd.to_datetime(df_d['data'],unit='D',origin='unix')
df_d

Unnamed: 0,data,data_format
0,19570.0,2023-08-01
1,19676.0,2023-11-15
2,19709.0,2023-12-18
3,19710.0,2023-12-19
4,1.0,1970-01-02


<h4>Caso tivesse uma data = 1:</h4>

In [103]:
df_d.loc[4,'data'] = 1
df_d

Unnamed: 0,data,data_format
0,19570.0,2023-08-01
1,19676.0,2023-11-15
2,19709.0,2023-12-18
3,19710.0,2023-12-19
4,1.0,1970-01-02


In [76]:
df['data_format'] = pd.to_datetime(df['data'],unit='D',origin='unix')
df

Unnamed: 0,data,data_format
0,19570.0,2023-08-01
1,19676.0,2023-11-15
2,19709.0,2023-12-18
3,19710.0,2023-12-19
4,1.0,1970-01-02


<h4>Ou seja, o nº 1 representa 1 dia após a data especificada no parâmetro origin (01/01/1970)</h4>

<H4>CONCLUSÃO<br>
- a função pd.to_datetime() é responsável pela conversão do dtype para datetime, onde é possível fazer operações com datas<br>
- relação de siglas para cada elemento/formato: https://www.w3schools.com/python/python_datetime.asp<br>
- o principal parâmetro do to_datetime() é arg, que é a coluna com a data. Caso necessário, é possível alterar a formatação da coluna com a data. Caso o dia e ano forem emitidos, o Pandas atribui 01 e 1900, respectivamente<br>
- o pd.to_datetime() retorna a data no formato 2020-10-20, com dtype datetime<br>
- caso necessário, é possível mudar a formatação do valor gerado pela função com o dt.strftime(), especificando o formato desejado. Porém, o dtype deixa de ser datetime, e vira object (str)</H4>