# Aula 4.13 – Lidando com Datas no Pandas

## 🧠 Por que aprender a lidar com datas?


- Datas estão em **quase toda base de dados real**
- Erros em formatos de data podem **quebrar análises**
- Saber lidar com datas permite **criar colunas valiosas** como tempo de cadastro, sazonalidade, etc.


## 🧪 Criando datas em formatos diferentes

In [1]:

import pandas as pd

df = pd.DataFrame({
    'data_americana': ['2024-01-10', '2024-02-15', '2024-03-20'],
    'data_brasileira': ['10/01/2024', '15/02/2024', '20/03/2024'],
    'data_invalida': ['2024/01/10', '15-02-2024', 'Março 20, 2024']
})

df


Unnamed: 0,data_americana,data_brasileira,data_invalida
0,2024-01-10,10/01/2024,2024/01/10
1,2024-02-15,15/02/2024,15-02-2024
2,2024-03-20,20/03/2024,"Março 20, 2024"


## 🔄 Convertendo colunas de texto em datas

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   data_americana   3 non-null      datetime64[ns]
 1   data_brasileira  3 non-null      datetime64[ns]
 2   data_invalida    1 non-null      datetime64[ns]
dtypes: datetime64[ns](3)
memory usage: 204.0 bytes


In [8]:

# Converter datas em formato americano (padrão ISO)
df['data_americana'] = pd.to_datetime(df['data_americana'])

# Converter datas brasileiras com formato específico
df['data_brasileira'] = pd.to_datetime(df['data_brasileira'], dayfirst=True)

# Tentar converter formatos diversos
df['data_invalida'] = pd.to_datetime(df['data_invalida'], errors='coerce', dayfirst=True)

df


Unnamed: 0,data_americana,data_brasileira,data_invalida
0,2024-01-10,2024-01-10,2024-10-01
1,2024-02-15,2024-02-15,NaT
2,2024-03-20,2024-03-20,NaT


In [10]:
df.isna().sum()

Unnamed: 0,0
data_americana,0
data_brasileira,0
data_invalida,2


## ⚠️ O que significa 'errors="coerce"'?


- Quando uma data não pode ser lida, o Pandas pode **retornar erro** ou **converter para `NaT`** (data nula)
- O parâmetro `errors='coerce'` transforma os erros em `NaT` (útil para limpeza!)


## 🔍 Extraindo partes de uma data

In [11]:

df['ano'] = df['data_americana'].dt.year
df['mes'] = df['data_americana'].dt.month
df['dia'] = df['data_americana'].dt.day
df['dia_semana'] = df['data_americana'].dt.day_name()
df


Unnamed: 0,data_americana,data_brasileira,data_invalida,ano,mes,dia,dia_semana
0,2024-01-10,2024-01-10,2024-10-01,2024,1,10,Wednesday
1,2024-02-15,2024-02-15,NaT,2024,2,15,Thursday
2,2024-03-20,2024-03-20,NaT,2024,3,20,Wednesday


In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   data_americana   3 non-null      datetime64[ns]
 1   data_brasileira  3 non-null      datetime64[ns]
 2   data_invalida    1 non-null      datetime64[ns]
 3   ano              3 non-null      int32         
 4   mes              3 non-null      int32         
 5   dia              3 non-null      int32         
 6   dia_semana       3 non-null      object        
dtypes: datetime64[ns](3), int32(3), object(1)
memory usage: 264.0+ bytes


## 🕒 Calculando diferença entre datas

In [22]:

df['hoje'] = pd.to_datetime('today')
df['dias_desde'] = (df['hoje'] - df['data_americana']).dt.days
df['meses_desde'] = ((df['hoje'] - df['data_americana']).dt.days/30).astype(int)

df


Unnamed: 0,data_americana,data_brasileira,data_invalida,ano,mes,dia,dia_semana,hoje,dias_desde,meses_desde
0,2024-01-10,2024-01-10,2024-10-01,2024,1,10,Wednesday,2025-04-22 20:53:22.208859,468,15
1,2024-02-15,2024-02-15,NaT,2024,2,15,Thursday,2025-04-22 20:53:22.208859,432,14
2,2024-03-20,2024-03-20,NaT,2024,3,20,Wednesday,2025-04-22 20:53:22.208859,398,13


In [25]:
df['dias_completos_desde'] = (df['hoje'] - df['data_americana'])
df

Unnamed: 0,data_americana,data_brasileira,data_invalida,ano,mes,dia,dia_semana,hoje,dias_desde,meses_desde,dias_completos_desde
0,2024-01-10,2024-01-10,2024-10-01,2024,1,10,Wednesday,2025-04-22 20:53:22.208859,468,15,468 days 20:53:22.208859
1,2024-02-15,2024-02-15,NaT,2024,2,15,Thursday,2025-04-22 20:53:22.208859,432,14,432 days 20:53:22.208859
2,2024-03-20,2024-03-20,NaT,2024,3,20,Wednesday,2025-04-22 20:53:22.208859,398,13,398 days 20:53:22.208859


## 📅 Criando datas com `pd.date_range()`

In [23]:

datas_futuras = pd.date_range(start='2024-04-01', periods=7, freq='D')
datas_futuras


DatetimeIndex(['2024-04-01', '2024-04-02', '2024-04-03', '2024-04-04',
               '2024-04-05', '2024-04-06', '2024-04-07'],
              dtype='datetime64[ns]', freq='D')

## 🧨 Datas armazenadas como números (Excel-style)

📉 Problema: Datas às vezes aparecem como inteiros: 45023 (que seria uma data no Excel)

In [None]:
pd.to_datetime(coluna, origin='1899-12-30', unit='D')

## 🎯 Atividade prática


1. Crie um DataFrame com uma coluna de datas em diferentes formatos (use pelo menos 5 formatos diferentes)
2. Converta todas para o formato datetime
3. Extraia ano, mês e dia da semana
4. Calcule quantos dias se passaram desde cada data até hoje
