In [1]:
import os
import pandas as pd
from sqlalchemy import create_engine, Column, Integer, String, exists
from sqlalchemy.orm import sessionmaker, declarative_base
import configparser

In [2]:
# Leitura das configurações do banco de dados do arquivo .ini
config = configparser.ConfigParser()
config.read('C:/Users/User/Documents/GitHub/processoseletivo-teste/airflow-docker/dags/etl_scripts/config.ini')

['C:/Users/User/Documents/GitHub/processoseletivo-teste/airflow-docker/dags/etl_scripts/config.ini']

In [3]:
# Configuração do banco de dados do data warehouse
user = config.get('Database', 'user')
password = config.get('Database', 'password')
host = config.get('Database', 'host')
port = config.get('Database', 'port')
database_dw = config.get('Database', 'database_dw')
database_dl = config.get('Database', 'database_dl')

In [4]:
# String de conexão para o banco de dados do data warehouse e data lake
string_conexao_dw = f'postgresql+psycopg2://{user}:{password}@{host}:{port}/{database_dw}'
string_conexao_dl = f'postgresql+psycopg2://{user}:{password}@{host}:{port}/{database_dl}'

In [5]:
engine_dw = create_engine(string_conexao_dw)

# Criação da engine do SQLAlchemy para o data lake
engine_dl = create_engine(string_conexao_dl)

# Criação da tabela da dimensão Departamento
Base = declarative_base()

In [6]:
# Consultar dados de atendimentos da tabela no Data Lake
query_atendimentos = 'SELECT * FROM atendimentos'  # Substitua pela sua consulta SQL
df_atendimentos = pd.read_sql_query(query_atendimentos, engine_dl)
df_atendimentos

Unnamed: 0,agente,associacao,data_criacao,data_transferencia,data_finalizacao,protocolo,telefone,tempo_de_atendimento_horas,tempo_de_atendimento_minutos,tempo_de_atendimento_segundos,...,tempo_em_fila_minutos,tempo_em_fila_segundos,data_ultima_msg_agente,data_ultima_msg_cliente,Departamento,hora_criacao,hora_finalizacao,hora_transferencia,hora_ultima_msg_agente,hora_ultima_msg_cliente
0,,EMPRESA A,01/01/2023,,01/01/2023 00:00:00,101236364632,551191279-xxxx,0.0,0.0,10.0,...,,,01/01/2023 00:00:00,01/01/2023 00:00:00,ATENDIMENTO PARA EMPRESA D,10:23,10:23,,10:23,10:23
1,AMANDA,EMPRESA A,01/01/2023,01/01/2023 00:00:00,01/01/2023 00:00:00,101231683509,556698117-xxxx,3.0,44.0,7.0,...,0.0,0.0,01/01/2023 00:00:00,01/01/2023 00:00:00,ASSISTÊNCIA,09:10,12:54,09:11,12:54,09:22
2,AMANDA,EMPRESA A,01/01/2023,01/01/2023 00:00:00,01/01/2023 00:00:00,101235784889,556299822-xxxx,5.0,57.0,20.0,...,0.0,0.0,01/01/2023 00:00:00,01/01/2023 00:00:00,ASSISTÊNCIA,12:54,18:51,12:57,18:51,13:55
3,CINTIA,EMPRESA A,01/01/2023,06/01/2023 00:00:00,06/01/2023 00:00:00,101237951342,556298545-xxxx,118.0,15.0,23.0,...,0.0,0.0,06/01/2023 00:00:00,06/01/2023 00:00:00,ATENDIMENTO PARA EMPRESA A,12:49,11:04,09:06,11:04,09:21
4,DENISE,EMPRESA A,01/01/2023,01/01/2023 00:00:00,01/01/2023 00:00:00,101234599205,556299949-xxxx,7.0,36.0,15.0,...,0.0,0.0,01/01/2023 00:00:00,01/01/2023 00:00:00,ASSISTÊNCIA,10:56,18:32,10:58,11:10,11:10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4995,TÁLITA,EMPRESA A,31/01/2023,31/01/2023 00:00:00,31/01/2023 00:00:00,3101236214132,556299246-xxxx,8.0,59.0,52.0,...,0.0,0.0,31/01/2023 00:00:00,31/01/2023 00:00:00,ASSISTÊNCIA,08:09,17:09,08:09,17:09,15:00
4996,TÁLITA,EMPRESA A,31/01/2023,31/01/2023 00:00:00,31/01/2023 00:00:00,3101236256997,556599964-xxxx,0.0,26.0,1.0,...,0.0,0.0,31/01/2023 00:00:00,31/01/2023 00:00:00,ASSISTÊNCIA,15:40,16:06,15:40,16:03,16:03
4997,VIDROS,EMPRESA A,31/01/2023,31/01/2023 00:00:00,09/02/2023 00:00:00,3101232261063,556799986-xxxx,217.0,27.0,7.0,...,0.0,0.0,02/02/2023 00:00:00,02/02/2023 00:00:00,ATENDIMENTO PARA EMPRESA A,08:32,09:59,08:32,16:37,16:37
4998,VIDROS,EMPRESA A,31/01/2023,31/01/2023 00:00:00,09/02/2023 00:00:00,3101234515879,556298210-xxxx,216.0,44.0,10.0,...,0.0,0.0,31/01/2023 00:00:00,31/01/2023 00:00:00,ATENDIMENTO PARA EMPRESA A,09:14,09:58,09:14,12:54,12:59


In [7]:
# Adicionar coluna de DDD à dimensão cidade
df_atendimentos['ddd_cidade'] = df_atendimentos['telefone'].str[:2]
df_atendimentos['ddd_cidade']

0       55
1       55
2       55
3       55
4       55
        ..
4995    55
4996    55
4997    55
4998    55
4999    55
Name: ddd_cidade, Length: 5000, dtype: object

In [8]:
# Mapear DDD para cidade (usando a dimensão cidade)
df_cidades = pd.read_sql_query('SELECT * FROM dim_cidade', engine_dw)
df_cidades

Unnamed: 0,sk_cidade,nk_cidade,nm_cidade,uf,ddd,data_inicio,data_fim
0,-1,0,<não especificado>,<não especificado>,0,1900-01-01,
1,1,79,Aracajú,SE,79,1900-01-01,
2,2,77,Barreiras,BA,77,1900-01-01,
3,3,14,Baurú,SP,14,1900-01-01,
4,4,91,Belém,PA,91,1900-01-01,
...,...,...,...,...,...,...,...
63,63,86,Teresina,PI,86,1900-01-01,
64,64,34,Uberlândia,MG,34,1900-01-01,
65,65,35,Varginha,MG,35,1900-01-01,
66,66,27,Vitória,ES,27,1900-01-01,


In [9]:
# Converter a coluna 'ddd_cidade' para o tipo int64
df_atendimentos['ddd_cidade'] = df_atendimentos['ddd_cidade'].astype('int64')
df_atendimentos_fato = df_atendimentos.merge(df_cidades, left_on='ddd_cidade', right_on='ddd', how='left')
df_atendimentos_fato

Unnamed: 0,agente,associacao,data_criacao,data_transferencia,data_finalizacao,protocolo,telefone,tempo_de_atendimento_horas,tempo_de_atendimento_minutos,tempo_de_atendimento_segundos,...,hora_ultima_msg_agente,hora_ultima_msg_cliente,ddd_cidade,sk_cidade,nk_cidade,nm_cidade,uf,ddd,data_inicio,data_fim
0,,EMPRESA A,01/01/2023,,01/01/2023 00:00:00,101236364632,551191279-xxxx,0.0,0.0,10.0,...,10:23,10:23,55,55,55,Santa Maria,RS,55,1900-01-01,
1,AMANDA,EMPRESA A,01/01/2023,01/01/2023 00:00:00,01/01/2023 00:00:00,101231683509,556698117-xxxx,3.0,44.0,7.0,...,12:54,09:22,55,55,55,Santa Maria,RS,55,1900-01-01,
2,AMANDA,EMPRESA A,01/01/2023,01/01/2023 00:00:00,01/01/2023 00:00:00,101235784889,556299822-xxxx,5.0,57.0,20.0,...,18:51,13:55,55,55,55,Santa Maria,RS,55,1900-01-01,
3,CINTIA,EMPRESA A,01/01/2023,06/01/2023 00:00:00,06/01/2023 00:00:00,101237951342,556298545-xxxx,118.0,15.0,23.0,...,11:04,09:21,55,55,55,Santa Maria,RS,55,1900-01-01,
4,DENISE,EMPRESA A,01/01/2023,01/01/2023 00:00:00,01/01/2023 00:00:00,101234599205,556299949-xxxx,7.0,36.0,15.0,...,11:10,11:10,55,55,55,Santa Maria,RS,55,1900-01-01,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4995,TÁLITA,EMPRESA A,31/01/2023,31/01/2023 00:00:00,31/01/2023 00:00:00,3101236214132,556299246-xxxx,8.0,59.0,52.0,...,17:09,15:00,55,55,55,Santa Maria,RS,55,1900-01-01,
4996,TÁLITA,EMPRESA A,31/01/2023,31/01/2023 00:00:00,31/01/2023 00:00:00,3101236256997,556599964-xxxx,0.0,26.0,1.0,...,16:03,16:03,55,55,55,Santa Maria,RS,55,1900-01-01,
4997,VIDROS,EMPRESA A,31/01/2023,31/01/2023 00:00:00,09/02/2023 00:00:00,3101232261063,556799986-xxxx,217.0,27.0,7.0,...,16:37,16:37,55,55,55,Santa Maria,RS,55,1900-01-01,
4998,VIDROS,EMPRESA A,31/01/2023,31/01/2023 00:00:00,09/02/2023 00:00:00,3101234515879,556298210-xxxx,216.0,44.0,10.0,...,12:54,12:59,55,55,55,Santa Maria,RS,55,1900-01-01,


In [10]:
# Mapear agente
df_agentes = pd.read_sql_query('SELECT * FROM dim_agente', engine_dw)
df_agentes

Unnamed: 0,sk_agente,nm_agente
0,-1,<chatbot>
1,1,AGHATA
2,2,ALAINE
3,3,ALEXANDRA
4,4,ALZENIRA
...,...,...
66,66,THAYSLENE
67,67,VIDROS
68,68,VITÓRIA
69,69,WANDERSON


In [11]:
df_atendimentos_fato['agente'] = df_atendimentos_fato['agente'].fillna('<chatbot>')
df_atendimentos_fato = df_atendimentos_fato.merge(df_agentes, left_on='agente', right_on='nm_agente', how='left')
df_atendimentos_fato

Unnamed: 0,agente,associacao,data_criacao,data_transferencia,data_finalizacao,protocolo,telefone,tempo_de_atendimento_horas,tempo_de_atendimento_minutos,tempo_de_atendimento_segundos,...,ddd_cidade,sk_cidade,nk_cidade,nm_cidade,uf,ddd,data_inicio,data_fim,sk_agente,nm_agente
0,<chatbot>,EMPRESA A,01/01/2023,,01/01/2023 00:00:00,101236364632,551191279-xxxx,0.0,0.0,10.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,-1,<chatbot>
1,AMANDA,EMPRESA A,01/01/2023,01/01/2023 00:00:00,01/01/2023 00:00:00,101231683509,556698117-xxxx,3.0,44.0,7.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,5,AMANDA
2,AMANDA,EMPRESA A,01/01/2023,01/01/2023 00:00:00,01/01/2023 00:00:00,101235784889,556299822-xxxx,5.0,57.0,20.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,5,AMANDA
3,CINTIA,EMPRESA A,01/01/2023,06/01/2023 00:00:00,06/01/2023 00:00:00,101237951342,556298545-xxxx,118.0,15.0,23.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,15,CINTIA
4,DENISE,EMPRESA A,01/01/2023,01/01/2023 00:00:00,01/01/2023 00:00:00,101234599205,556299949-xxxx,7.0,36.0,15.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,21,DENISE
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4995,TÁLITA,EMPRESA A,31/01/2023,31/01/2023 00:00:00,31/01/2023 00:00:00,3101236214132,556299246-xxxx,8.0,59.0,52.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,64,TÁLITA
4996,TÁLITA,EMPRESA A,31/01/2023,31/01/2023 00:00:00,31/01/2023 00:00:00,3101236256997,556599964-xxxx,0.0,26.0,1.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,64,TÁLITA
4997,VIDROS,EMPRESA A,31/01/2023,31/01/2023 00:00:00,09/02/2023 00:00:00,3101232261063,556799986-xxxx,217.0,27.0,7.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,67,VIDROS
4998,VIDROS,EMPRESA A,31/01/2023,31/01/2023 00:00:00,09/02/2023 00:00:00,3101234515879,556298210-xxxx,216.0,44.0,10.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,67,VIDROS


In [12]:
# Mapear data
df_datas = pd.read_sql_query('SELECT sk_data, data FROM public.dim_calendario;', engine_dw)
df_datas

Unnamed: 0,sk_data,data
0,1,2023-01-01
1,2,2023-01-02
2,3,2023-01-03
3,4,2023-01-04
4,5,2023-01-05
...,...,...
133220,133221,2023-12-27
133221,133222,2023-12-28
133222,133223,2023-12-29
133223,133224,2023-12-30


In [13]:
df_data_criacao = df_datas.rename(columns={'sk_data':'sk_data_criacao','data':'data_criacao'})
df_data_criacao

Unnamed: 0,sk_data_criacao,data_criacao
0,1,2023-01-01
1,2,2023-01-02
2,3,2023-01-03
3,4,2023-01-04
4,5,2023-01-05
...,...,...
133220,133221,2023-12-27
133221,133222,2023-12-28
133222,133223,2023-12-29
133223,133224,2023-12-30


In [14]:
df_data_finalizacao = df_datas.rename(columns={'sk_data':'sk_data_finalizacao','data':'data_finalizacao'})
df_data_finalizacao

Unnamed: 0,sk_data_finalizacao,data_finalizacao
0,1,2023-01-01
1,2,2023-01-02
2,3,2023-01-03
3,4,2023-01-04
4,5,2023-01-05
...,...,...
133220,133221,2023-12-27
133221,133222,2023-12-28
133222,133223,2023-12-29
133223,133224,2023-12-30


In [15]:
df_data_transferencia = df_datas.rename(columns={'sk_data':'sk_data_transferencia','data':'data_transferencia'})
df_data_transferencia

Unnamed: 0,sk_data_transferencia,data_transferencia
0,1,2023-01-01
1,2,2023-01-02
2,3,2023-01-03
3,4,2023-01-04
4,5,2023-01-05
...,...,...
133220,133221,2023-12-27
133221,133222,2023-12-28
133222,133223,2023-12-29
133223,133224,2023-12-30


In [16]:
df_data_ultima_msg_agente = df_datas.rename(columns={'sk_data':'sk_data_ultima_msg_agente','data':'data_ultima_msg_agente'})
df_data_ultima_msg_agente

Unnamed: 0,sk_data_ultima_msg_agente,data_ultima_msg_agente
0,1,2023-01-01
1,2,2023-01-02
2,3,2023-01-03
3,4,2023-01-04
4,5,2023-01-05
...,...,...
133220,133221,2023-12-27
133221,133222,2023-12-28
133222,133223,2023-12-29
133223,133224,2023-12-30


In [17]:
df_data_ultima_msg_cliente = df_datas.rename(columns={'sk_data':'sk_data_ultima_msg_cliente','data':'data_ultima_msg_cliente'})
df_data_ultima_msg_cliente

Unnamed: 0,sk_data_ultima_msg_cliente,data_ultima_msg_cliente
0,1,2023-01-01
1,2,2023-01-02
2,3,2023-01-03
3,4,2023-01-04
4,5,2023-01-05
...,...,...
133220,133221,2023-12-27
133221,133222,2023-12-28
133222,133223,2023-12-29
133223,133224,2023-12-30


In [18]:
df_atendimentos_fato.data_transferencia = pd.to_datetime(df_atendimentos_fato.data_transferencia, format="%d/%m/%Y %H:%M:%S").dt.date
df_atendimentos_fato.data_finalizacao = pd.to_datetime(df_atendimentos_fato.data_finalizacao, format="%d/%m/%Y %H:%M:%S").dt.date
df_atendimentos_fato.data_criacao = pd.to_datetime(df_atendimentos_fato.data_criacao, format="%d/%m/%Y").dt.date
df_atendimentos_fato.data_ultima_msg_agente = pd.to_datetime(df_atendimentos_fato.data_ultima_msg_agente, format="%d/%m/%Y %H:%M:%S").dt.date
df_atendimentos_fato.data_ultima_msg_cliente = pd.to_datetime(df_atendimentos_fato.data_ultima_msg_cliente, format="%d/%m/%Y %H:%M:%S").dt.date
df_atendimentos_fato.hora_ultima_msg_agente  = pd.to_datetime(df_atendimentos_fato.hora_ultima_msg_agente, format="%H:%M").dt.time              
df_atendimentos_fato.hora_ultima_msg_cliente  = pd.to_datetime(df_atendimentos_fato.hora_ultima_msg_cliente, format="%H:%M").dt.time               
df_atendimentos_fato.hora_criacao = pd.to_datetime(df_atendimentos_fato.hora_criacao, format="%H:%M").dt.time
df_atendimentos_fato.hora_finalizacao = pd.to_datetime(df_atendimentos_fato.hora_finalizacao, format="%H:%M").dt.time
df_atendimentos_fato.hora_transferencia = pd.to_datetime(df_atendimentos_fato.hora_transferencia, format="%H:%M").dt.time
df_atendimentos_fato

Unnamed: 0,agente,associacao,data_criacao,data_transferencia,data_finalizacao,protocolo,telefone,tempo_de_atendimento_horas,tempo_de_atendimento_minutos,tempo_de_atendimento_segundos,...,ddd_cidade,sk_cidade,nk_cidade,nm_cidade,uf,ddd,data_inicio,data_fim,sk_agente,nm_agente
0,<chatbot>,EMPRESA A,2023-01-01,NaT,2023-01-01,101236364632,551191279-xxxx,0.0,0.0,10.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,-1,<chatbot>
1,AMANDA,EMPRESA A,2023-01-01,2023-01-01,2023-01-01,101231683509,556698117-xxxx,3.0,44.0,7.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,5,AMANDA
2,AMANDA,EMPRESA A,2023-01-01,2023-01-01,2023-01-01,101235784889,556299822-xxxx,5.0,57.0,20.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,5,AMANDA
3,CINTIA,EMPRESA A,2023-01-01,2023-01-06,2023-01-06,101237951342,556298545-xxxx,118.0,15.0,23.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,15,CINTIA
4,DENISE,EMPRESA A,2023-01-01,2023-01-01,2023-01-01,101234599205,556299949-xxxx,7.0,36.0,15.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,21,DENISE
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4995,TÁLITA,EMPRESA A,2023-01-31,2023-01-31,2023-01-31,3101236214132,556299246-xxxx,8.0,59.0,52.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,64,TÁLITA
4996,TÁLITA,EMPRESA A,2023-01-31,2023-01-31,2023-01-31,3101236256997,556599964-xxxx,0.0,26.0,1.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,64,TÁLITA
4997,VIDROS,EMPRESA A,2023-01-31,2023-01-31,2023-02-09,3101232261063,556799986-xxxx,217.0,27.0,7.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,67,VIDROS
4998,VIDROS,EMPRESA A,2023-01-31,2023-01-31,2023-02-09,3101234515879,556298210-xxxx,216.0,44.0,10.0,...,55,55,55,Santa Maria,RS,55,1900-01-01,,67,VIDROS


data_ultima_msg_cliente = df_atendimentos_fato.merge(df_data_criacao, left_on='data_criacao', right_on='data_criacao', how='left')
data_ultima_msg_cliente

df_atendimentos_fato = df_atendimentos_fato.merge(df_data_finalizacao, left_on='data_finalizacao', right_on='data_finalizacao', how='left')
df_atendimentos_fato

df_atendimentos_fato = df_atendimentos_fato.merge(df_data_transferencia, left_on='data_transferencia', right_on='data_transferencia', how='left')
df_atendimentos_fato

df_atendimentos_fato = df_atendimentos_fato.merge(df_data_ultima_msg_agente, left_on='data_ultima_msg_agente', right_on='data_ultima_msg_agente', how='left')
df_atendimentos_fato

df_atendimentos_fato = df_atendimentos_fato.merge(df_data_data_ultima_msg_cliente, left_on='df_atendimentos_fato', right_on='df_atendimentos_fato', how='left')
df_atendimentos_fato

# Mapear tempo (horas)
df_tempos = pd.read_sql_query('SELECT sk_hora_dia, hora_do_dia	FROM dim_horas;', engine_dw)
df_tempos

df_tempo_criacao = df_tempos.rename(columns={'sk_hora_dia':'sk_hora_criacao','hora_do_dia':'hora_criacao'})
df_tempo_criacao

df_tempo_finalizacao = df_tempos.rename(columns={'sk_hora_dia':'sk_hora_finalizacao','hora_do_dia':'hora_finalizacao'})
df_tempo_finalizacao

df_tempo_transferencia = df_tempos.rename(columns={'sk_hora_dia':'sk_hora_transferencia','hora_do_dia':'hora_transferencia'})
df_tempo_transferencia

df_tempo_ultima_msg_agente = df_tempos.rename(columns={'sk_hora_dia':'sk_hora_ultima_msg_agente','hora_do_dia':'hora_ultima_msg_agente'})
df_tempo_ultima_msg_agente

df_tempo_ultima_msg_cliente = df_tempos.rename(columns={'sk_hora_dia':'sk_hora_ultima_msg_cliente','hora_do_dia':'hora_ultima_msg_cliente'})
df_tempo_ultima_msg_cliente

df_atendimentos_fato = df_atendimentos_fato.merge(df_tempo_criacao, left_on='hora_criacao', right_on='hora_criacao', how='left')
df_atendimentos_fato

df_atendimentos_fato = df_atendimentos_fato.merge(df_tempo_finalizacao, left_on='hora_criacao', right_on='hora_finalizacao', how='left')
df_atendimentos_fato

df_atendimentos_fato = df_atendimentos_fato.merge(df_tempo_transferencia, left_on='hora_criacao', right_on='hora_transferencia', how='left')
df_atendimentos_fato

df_atendimentos_fato = df_atendimentos_fato.merge(df_tempo_ultima_msg_agente, left_on='hora_criacao', right_on='hora_ultima_msg_agente', how='left')
df_atendimentos_fato

df_atendimentos_fato = df_atendimentos_fato.merge(df_tempo_ultima_msg_cliente, left_on='hora_criacao', right_on='hora_ultima_msg_cliente', how='left')
df_atendimentos_fato

In [19]:
# Mapear departamento
df_departamentos = pd.read_sql_query('SELECT * FROM dim_departamento', engine_dw)
df_atendimentos_fato = df_atendimentos_fato.merge(df_departamentos, left_on='Departamento', right_on='nm_departamento', how='left')


In [20]:
df_atendimentos_fato.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 39 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   agente                                5000 non-null   object 
 1   associacao                            5000 non-null   object 
 2   data_criacao                          5000 non-null   object 
 3   data_transferencia                    2339 non-null   object 
 4   data_finalizacao                      4999 non-null   object 
 5   protocolo                             5000 non-null   int64  
 6   telefone                              5000 non-null   object 
 7   tempo_de_atendimento_horas            4999 non-null   float64
 8   tempo_de_atendimento_minutos          4999 non-null   float64
 9   tempo_de_atendimento_segundos         4999 non-null   float64
 10  tempo_de_atendimento_humano_horas     2335 non-null   float64
 11  tempo_de_atendime

In [21]:
df_atendimentos_fato.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 39 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   agente                                5000 non-null   object 
 1   associacao                            5000 non-null   object 
 2   data_criacao                          5000 non-null   object 
 3   data_transferencia                    2339 non-null   object 
 4   data_finalizacao                      4999 non-null   object 
 5   protocolo                             5000 non-null   int64  
 6   telefone                              5000 non-null   object 
 7   tempo_de_atendimento_horas            4999 non-null   float64
 8   tempo_de_atendimento_minutos          4999 non-null   float64
 9   tempo_de_atendimento_segundos         4999 non-null   float64
 10  tempo_de_atendimento_humano_horas     2335 non-null   float64
 11  tempo_de_atendime

In [22]:
tempo_de_atendimentos_horas = pd.to_timedelta(df_atendimentos_fato.tempo_de_atendimento_horas,'h')
tempo_de_atendimento_minutos = pd.to_timedelta(df_atendimentos_fato.tempo_de_atendimento_minutos,'m')
tempo_de_atendimento_segundos = pd.to_timedelta(df_atendimentos_fato.tempo_de_atendimento_segundos,'s')

total_tempo_de_atendimentos = tempo_de_atendimentos_horas + tempo_de_atendimento_minutos + tempo_de_atendimento_segundos

df_atendimentos_fato['tempo_de_atendimentos'] = total_tempo_de_atendimentos

In [23]:
tempo_de_atendimento_humano_horas = pd.to_timedelta(df_atendimentos_fato.tempo_de_atendimento_humano_horas,'h')
tempo_de_atendimento_humano_minutos = pd.to_timedelta(df_atendimentos_fato.tempo_de_atendimento_humano_minutos,'m')
tempo_de_atendimento_humano_segundos = pd.to_timedelta(df_atendimentos_fato.tempo_de_atendimento_humano_segundos,'s')

tempo_de_atendimento_humano = tempo_de_atendimento_humano_horas + tempo_de_atendimento_humano_minutos + tempo_de_atendimento_humano_segundos

df_atendimentos_fato['tempo_de_atendimento_humano'] = tempo_de_atendimento_humano

In [24]:
df_atendimentos_fato['tempo_atendimento_automatizado'] = total_tempo_de_atendimentos - tempo_de_atendimento_humano

In [25]:
tempo_em_fila_horas = pd.to_timedelta(df_atendimentos_fato.tempo_em_fila_horas,'h')
tempo_em_fila_minutos = pd.to_timedelta(df_atendimentos_fato.tempo_em_fila_minutos,'m')
tempo_em_fila_segundos = pd.to_timedelta(df_atendimentos_fato.tempo_em_fila_segundos,'s')

tempo_em_fila = tempo_em_fila_horas + tempo_em_fila_minutos + tempo_em_fila_segundos

df_atendimentos_fato['tempo_em_fila'] = tempo_em_fila

In [26]:
tempo_em_espera_horas = pd.to_timedelta(df_atendimentos_fato.tempo_em_espera_horas,'h')
tempo_em_espera_minutos = pd.to_timedelta(df_atendimentos_fato.tempo_em_espera_minutos,'m')
tempo_em_espera_segundos = pd.to_timedelta(df_atendimentos_fato.tempo_em_espera_segundos,'s')

tempo_em_espera = tempo_em_espera_horas + tempo_em_espera_minutos + tempo_em_espera_segundos

df_atendimentos_fato['tempo_de_espera'] = tempo_em_espera

In [27]:
df_atendimentos_fato = df_atendimentos_fato.drop(columns=['nm_agente','agente','Departamento','nm_departamento',
                                                          'nk_cidade','nm_cidade','uf','ddd','data_inicio','data_fim',
                                                          'ddd_cidade','tempo_de_atendimento_horas','tempo_de_atendimento_minutos',
                                                         'tempo_de_atendimento_segundos','tempo_de_atendimento_humano_horas',
                                                         'tempo_de_atendimento_humano_minutos','tempo_de_atendimento_humano_segundos',
                                                         'tempo_em_fila_horas','tempo_em_fila_minutos','tempo_em_fila_segundos',
                                                          'tempo_em_espera_horas','tempo_em_espera_minutos','tempo_em_espera_segundos'])

In [31]:
orderm_columns = ['sk_agente','sk_departamento','sk_cidade','associacao',
                                                            'protocolo','telefone','data_criacao','hora_criacao',
                                                            'data_finalizacao','hora_finalizacao','data_transferencia',
                                                            'hora_transferencia','data_ultima_msg_agente',
                                                            'hora_ultima_msg_agente','data_ultima_msg_cliente',
                                                            'hora_ultima_msg_cliente','tempo_de_atendimentos',
                                                            'tempo_de_atendimento_humano','tempo_atendimento_automatizado',
                                                            'tempo_em_fila','tempo_de_espera']
df_atendimentos_fato = df_atendimentos_fato.reindex(columns=orderm_columns)
                                                            
df_atendimentos_fato.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 21 columns):
 #   Column                          Non-Null Count  Dtype          
---  ------                          --------------  -----          
 0   sk_agente                       5000 non-null   int64          
 1   sk_departamento                 5000 non-null   int64          
 2   sk_cidade                       5000 non-null   int64          
 3   associacao                      5000 non-null   object         
 4   protocolo                       5000 non-null   int64          
 5   telefone                        5000 non-null   object         
 6   data_criacao                    5000 non-null   object         
 7   hora_criacao                    5000 non-null   object         
 8   data_finalizacao                4999 non-null   object         
 9   hora_finalizacao                4999 non-null   object         
 10  data_transferencia              2339 non-null   object      

In [None]:
# Inserir dados na fato atendimentos no banco de dados
df_atendimentos_fato.to_sql('ft_atendimentos', engine_dw, if_exists='append', index=False)
