#### Nesta etapa iremos criar toda estrutura necessária para nosso modelo de dados STAR schema.

* Este deve ser um modelo que facilite a construção de dashboards para aquisição e a sua análise dos dados e será baseado em fator e dimensão.

In [129]:
import pandas as pd
import numpy as np
import os
import sys
from dotenv import load_dotenv

import warnings
warnings.filterwarnings('ignore')

In [18]:
# Importando as bibliotecas para o acesso ao Postgres.
from sqlalchemy import create_engine
from sqlalchemy.engine import URL
import psycopg2
from psycopg2 import OperationalError, errorcodes, errors, IntegrityError
import psycopg2.extras as extras

In [19]:
# Lendo os dados de um arquivo .csv
df_real = pd.read_csv(r'..\dados\aquisicao_clinicas_completo.csv',
                       parse_dates=['ACTIVITY_AT','CLINIC_CREATED_AT','TRIAL_START_DATE','TRIAL_END_DATE','SUBSCRIPTION_START_DATE','SUBSCRIPTION_END_DATE'])
df_real.head()

Unnamed: 0,CLINIC_ID,ACTIVITY_AT,ACTIVITY_TYPE,FEATURE,MODULE,IS_VALID_ACTIVITY,CLINIC_CREATED_AT,IS_CHAIN_CLINIC,FIRST_USER_HUBSPOT_SOURCE,INTEREST_CATEGORY_SIGNUP,...,IS_ACCREDITATION_APPROVED,IS_ACCREDITATION_REPROVED,CLINIC_ACCREDITATION_STATUS,STRIPE_SUBSCRIPTION_ID,SUBSCRIPTION_START_DATE,SUBSCRIPTION_END_DATE,SUBSCRIPTION_PERIOD_DAYS,SUBSCRIPTION_PERIOD,SUBSCRIPTION_STATUS,BILLING_INTERVAL_IN_MONTHS
0,9825,2023-08-24 18:46:47.733,patient_discarded,patient_management,patient,True,2023-08-21 09:14:34.763,False,Inbound,Apenas BNPL,...,True,False,Concluído,sub_1Nj29VCpjOdJI4gTsWNO1Kzm,2023-08-25,2023-10-25,61.0,Entre 61 e 90 dias,active,1.0
1,9984,2023-08-24 19:41:43.497,patient_created,patient_management,patient,False,2023-08-24 19:40:58.432,False,Inbound,BNPL e SaaS,...,True,False,Concluído,,NaT,NaT,,,,
2,9984,2023-08-24 19:41:44.037,time_slot_created,scheduling,schedule,True,2023-08-24 19:40:58.432,False,Inbound,BNPL e SaaS,...,True,False,Concluído,,NaT,NaT,,,,
3,9984,2023-08-24 19:51:20.451,patient_created,patient_management,patient,False,2023-08-24 19:40:58.432,False,Inbound,BNPL e SaaS,...,True,False,Concluído,,NaT,NaT,,,,
4,9984,2023-08-24 19:51:46.663,time_slot_created,scheduling,schedule,True,2023-08-24 19:40:58.432,False,Inbound,BNPL e SaaS,...,True,False,Concluído,,NaT,NaT,,,,


In [20]:
# Cria o dataset para a tabela clinica_dim
clinica_dim = df_real[['CLINIC_ID','CLINIC_CREATED_AT']].drop_duplicates(subset=['CLINIC_ID'])
clinica_dim

Unnamed: 0,CLINIC_ID,CLINIC_CREATED_AT
0,9825,2023-08-21 09:14:34.763
1,9984,2023-08-24 19:40:58.432
5,9986,2023-08-24 20:31:43.062
7,9988,2023-08-24 22:04:10.022
9,9690,2023-08-17 04:33:00.786
...,...,...
12393,9011,2023-08-01 13:01:05.019
12395,11180,2023-09-27 14:01:04.040
12397,11146,2023-09-26 19:21:15.702
12399,10314,2023-09-05 01:05:51.799


In [21]:
# Renomeando as colunas do dataframe para os mesmos nomes das colunas das tabelas no Postgres.
clinica_dim.rename(columns={'CLINIC_ID':'id_clinica',
                            'CLINIC_CREATED_AT':'data_cadastro'}, inplace=True)
clinica_dim


Unnamed: 0,id_clinica,data_cadastro
0,9825,2023-08-21 09:14:34.763
1,9984,2023-08-24 19:40:58.432
5,9986,2023-08-24 20:31:43.062
7,9988,2023-08-24 22:04:10.022
9,9690,2023-08-17 04:33:00.786
...,...,...
12393,9011,2023-08-01 13:01:05.019
12395,11180,2023-09-27 14:01:04.040
12397,11146,2023-09-26 19:21:15.702
12399,10314,2023-09-05 01:05:51.799


In [22]:
# Cria o dataset para a tabela funcionalidade_dim
funcionalidade_dim = df_real[['FEATURE']].drop_duplicates().reset_index()
funcionalidade_dim['index'] = funcionalidade_dim.index
funcionalidade_dim

Unnamed: 0,index,FEATURE
0,0,patient_management
1,1,scheduling
2,2,medical_record
3,3,anamnese
4,4,user_management
5,5,budget_management
6,6,credit_check
7,7,bnpl
8,8,documents_and_files
9,9,revenue_management


In [23]:
# Renomeando as colunas do dataframe para os mesmos nomes das colunas das tabelas no Postgres.
funcionalidade_dim.rename(columns={'index':'id_funcionalidade','FEATURE':'nom_funcionalidade'}, inplace=True)
funcionalidade_dim

Unnamed: 0,id_funcionalidade,nom_funcionalidade
0,0,patient_management
1,1,scheduling
2,2,medical_record
3,3,anamnese
4,4,user_management
5,5,budget_management
6,6,credit_check
7,7,bnpl
8,8,documents_and_files
9,9,revenue_management


In [24]:
# Cria o dataset para a tabela canal_marketing_dim
canal_marketing_dim = df_real[['MARKETING_ATTRIBUITION_CHANNEL_GROUP']].drop_duplicates().reset_index(drop=True)
canal_marketing_dim['ID_MARKETING_ATTRIBUITION_CHANNEL_GROUP'] = canal_marketing_dim.index
canal_marketing_dim

Unnamed: 0,MARKETING_ATTRIBUITION_CHANNEL_GROUP,ID_MARKETING_ATTRIBUITION_CHANNEL_GROUP
0,Paid - meta,0
1,Paid - google,1
2,Other,2
3,Site ou Indicação Interna,3
4,Organic,4


In [25]:
# Cria o dataset para a tabela trial_fato
trial_fato = df_real[['CLINIC_ID','TRIAL_START_DATE','TRIAL_END_DATE','TRIAL_DURATION','MARKETING_ATTRIBUITION_CHANNEL_GROUP'
         ,'HAS_ASKED_FOR_ACCREDITATION','IS_ACCREDITATION_APPROVED','CLINIC_ACCREDITATION_STATUS']].drop_duplicates(subset=['CLINIC_ID'])
trial_fato

Unnamed: 0,CLINIC_ID,TRIAL_START_DATE,TRIAL_END_DATE,TRIAL_DURATION,MARKETING_ATTRIBUITION_CHANNEL_GROUP,HAS_ASKED_FOR_ACCREDITATION,IS_ACCREDITATION_APPROVED,CLINIC_ACCREDITATION_STATUS
0,9825,2023-08-21,2023-08-25,4,Paid - meta,True,True,Concluído
1,9984,2023-08-24,2023-08-31,7,Paid - google,True,True,Concluído
5,9986,2023-08-24,2023-09-14,21,Paid - google,True,True,Concluído
7,9988,2023-08-24,2023-08-31,7,Paid - google,False,False,Não aderiu ao plano
9,9690,2023-08-17,2023-08-24,7,Other,False,False,Não aderiu ao plano
...,...,...,...,...,...,...,...,...
12393,9011,2023-08-01,2023-10-11,71,Paid - meta,True,True,Concluído
12395,11180,2023-09-27,2023-10-10,13,Paid - meta,True,True,Concluído
12397,11146,2023-09-26,2023-10-17,21,Other,True,True,Concluído
12399,10314,2023-09-05,2023-10-17,42,Paid - meta,True,True,Concluído


In [26]:
# Funcionalidade mais utilizada pela clinica durante o trial.
df_real[['CLINIC_ID','FEATURE']].loc[df_real['IS_VALID_ACTIVITY']].groupby(by=['CLINIC_ID'])['FEATURE'].value_counts().reset_index().drop_duplicates('CLINIC_ID')

Unnamed: 0,CLINIC_ID,FEATURE,count
0,8994,medical_record,2
4,8998,medical_record,11
9,9000,medical_record,13
18,9004,anamnese,1
19,9014,medical_record,1
...,...,...,...
2291,11294,scheduling,4
2294,11295,patient_management,2
2296,11296,scheduling,1
2297,11301,scheduling,1


In [27]:
# Funcionalidade mais utilizada pela clinica durante o trial.
funcionalidade_mais_utilizada = df_real[['CLINIC_ID','FEATURE']].loc[df_real['IS_VALID_ACTIVITY']].groupby(by=['CLINIC_ID','FEATURE'],
                                                                            as_index=False).value_counts().sort_values(by=['CLINIC_ID','count']).drop_duplicates('CLINIC_ID', keep='last' )
funcionalidade_mais_utilizada

Unnamed: 0,CLINIC_ID,FEATURE,count
1,8994,medical_record,2
6,8998,medical_record,11
13,9000,medical_record,13
18,9004,anamnese,1
20,9014,user_management,1
...,...,...,...
2293,11294,scheduling,4
2294,11295,patient_management,2
2296,11296,scheduling,1
2297,11301,scheduling,1


In [28]:
# Funcionalidades e numero de vezes utilizada pela clinica durante o trial.
funcionalidade_utilizada_fato = df_real[['CLINIC_ID','FEATURE']].loc[df_real['IS_VALID_ACTIVITY']].groupby(by=['CLINIC_ID','FEATURE'],as_index=False).value_counts()
funcionalidade_utilizada_fato

Unnamed: 0,CLINIC_ID,FEATURE,count
0,8994,budget_management,1
1,8994,medical_record,2
2,8994,revenue_management,1
3,8994,scheduling,1
4,8998,anamnese,2
...,...,...,...
2294,11295,patient_management,2
2295,11295,scheduling,1
2296,11296,scheduling,1
2297,11301,scheduling,1


In [29]:
# Agrega as informações da PK das funcionalidades.
funcionalidade_utilizada_fato = pd.merge(funcionalidade_utilizada_fato, funcionalidade_dim, left_on='FEATURE', right_on='nom_funcionalidade', how='left')
funcionalidade_utilizada_fato

Unnamed: 0,CLINIC_ID,FEATURE,count,id_funcionalidade,nom_funcionalidade
0,8994,budget_management,1,5,budget_management
1,8994,medical_record,2,2,medical_record
2,8994,revenue_management,1,9,revenue_management
3,8994,scheduling,1,1,scheduling
4,8998,anamnese,2,3,anamnese
...,...,...,...,...,...
2294,11295,patient_management,2,0,patient_management
2295,11295,scheduling,1,1,scheduling
2296,11296,scheduling,1,1,scheduling
2297,11301,scheduling,1,1,scheduling


In [30]:
# Ajustes para exportar para a tabela no Postgres.
# Excluindo colunas
funcionalidade_utilizada_fato.drop(columns=['FEATURE'], inplace=True)
# Renomeando colunas
funcionalidade_utilizada_fato.rename(columns={'CLINIC_ID':'id_clinica', 'count':'num_qtde_vezes'}, inplace=True)
# Ajustando as posições
funcionalidade_utilizada_fato = funcionalidade_utilizada_fato[['id_clinica','id_funcionalidade', 'num_qtde_vezes']]
funcionalidade_utilizada_fato

Unnamed: 0,id_clinica,id_funcionalidade,num_qtde_vezes
0,8994,5,1
1,8994,2,2
2,8994,9,1
3,8994,1,1
4,8998,3,2
...,...,...,...
2294,11295,0,2
2295,11295,1,1
2296,11296,1,1
2297,11301,1,1


In [35]:
# Total de atividades válidas por clínica durante o Trial.
total_atividades_validas_por_clinica = df_real.loc[df_real['IS_VALID_ACTIVITY']].groupby(by='CLINIC_ID', as_index=False)['ACTIVITY_TYPE'].count().rename(columns={'ACTIVITY_TYPE':'TOTAL_ATIVIDADES_VALIDAS'})
total_atividades_validas_por_clinica

Unnamed: 0,CLINIC_ID,TOTAL_ATIVIDADES_VALIDAS
0,8994,5
1,8998,24
2,9000,34
3,9004,1
4,9014,2
...,...,...
851,11294,7
852,11295,3
853,11296,1
854,11301,1


In [38]:
# Agrega as informações do Total de atividades válidas por clínica durante o Trial.
trial_fato = pd.merge(trial_fato, total_atividades_validas_por_clinica, on='CLINIC_ID', how='left')
trial_fato

Unnamed: 0,CLINIC_ID,TRIAL_START_DATE,TRIAL_END_DATE,TRIAL_DURATION,MARKETING_ATTRIBUITION_CHANNEL_GROUP,HAS_ASKED_FOR_ACCREDITATION,IS_ACCREDITATION_APPROVED,CLINIC_ACCREDITATION_STATUS,TOTAL_ATIVIDADES_VALIDAS_x,TOTAL_ATIVIDADES_VALIDAS_y,TOTAL_ATIVIDADES_VALIDAS
0,9825,2023-08-21,2023-08-25,4,Paid - meta,True,True,Concluído,173.0,173.0,173.0
1,9984,2023-08-24,2023-08-31,7,Paid - google,True,True,Concluído,14.0,14.0,14.0
2,9986,2023-08-24,2023-09-14,21,Paid - google,True,True,Concluído,4.0,4.0,4.0
3,9988,2023-08-24,2023-08-31,7,Paid - google,False,False,Não aderiu ao plano,1.0,1.0,1.0
4,9690,2023-08-17,2023-08-24,7,Other,False,False,Não aderiu ao plano,1.0,1.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
978,9011,2023-08-01,2023-10-11,71,Paid - meta,True,True,Concluído,,,
979,11180,2023-09-27,2023-10-10,13,Paid - meta,True,True,Concluído,,,
980,11146,2023-09-26,2023-10-17,21,Other,True,True,Concluído,,,
981,10314,2023-09-05,2023-10-17,42,Paid - meta,True,True,Concluído,1.0,1.0,1.0


In [40]:
# Substituindo os valores nulo por 0.
trial_fato['TOTAL_ATIVIDADES_VALIDAS'].fillna(0, inplace=True)
trial_fato

Unnamed: 0,CLINIC_ID,TRIAL_START_DATE,TRIAL_END_DATE,TRIAL_DURATION,MARKETING_ATTRIBUITION_CHANNEL_GROUP,HAS_ASKED_FOR_ACCREDITATION,IS_ACCREDITATION_APPROVED,CLINIC_ACCREDITATION_STATUS,TOTAL_ATIVIDADES_VALIDAS_x,TOTAL_ATIVIDADES_VALIDAS_y,TOTAL_ATIVIDADES_VALIDAS
0,9825,2023-08-21,2023-08-25,4,Paid - meta,True,True,Concluído,173.0,173.0,173.0
1,9984,2023-08-24,2023-08-31,7,Paid - google,True,True,Concluído,14.0,14.0,14.0
2,9986,2023-08-24,2023-09-14,21,Paid - google,True,True,Concluído,4.0,4.0,4.0
3,9988,2023-08-24,2023-08-31,7,Paid - google,False,False,Não aderiu ao plano,1.0,1.0,1.0
4,9690,2023-08-17,2023-08-24,7,Other,False,False,Não aderiu ao plano,1.0,1.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...
978,9011,2023-08-01,2023-10-11,71,Paid - meta,True,True,Concluído,,,0.0
979,11180,2023-09-27,2023-10-10,13,Paid - meta,True,True,Concluído,,,0.0
980,11146,2023-09-26,2023-10-17,21,Other,True,True,Concluído,,,0.0
981,10314,2023-09-05,2023-10-17,42,Paid - meta,True,True,Concluído,1.0,1.0,1.0


In [41]:
# Converte a TOTAL_ATIVIDADES_VALIDAS para o tipo Int64.
trial_fato['TOTAL_ATIVIDADES_VALIDAS'] = trial_fato['TOTAL_ATIVIDADES_VALIDAS'].astype('Int64')
trial_fato

Unnamed: 0,CLINIC_ID,TRIAL_START_DATE,TRIAL_END_DATE,TRIAL_DURATION,MARKETING_ATTRIBUITION_CHANNEL_GROUP,HAS_ASKED_FOR_ACCREDITATION,IS_ACCREDITATION_APPROVED,CLINIC_ACCREDITATION_STATUS,TOTAL_ATIVIDADES_VALIDAS_x,TOTAL_ATIVIDADES_VALIDAS_y,TOTAL_ATIVIDADES_VALIDAS
0,9825,2023-08-21,2023-08-25,4,Paid - meta,True,True,Concluído,173.0,173.0,173
1,9984,2023-08-24,2023-08-31,7,Paid - google,True,True,Concluído,14.0,14.0,14
2,9986,2023-08-24,2023-09-14,21,Paid - google,True,True,Concluído,4.0,4.0,4
3,9988,2023-08-24,2023-08-31,7,Paid - google,False,False,Não aderiu ao plano,1.0,1.0,1
4,9690,2023-08-17,2023-08-24,7,Other,False,False,Não aderiu ao plano,1.0,1.0,1
...,...,...,...,...,...,...,...,...,...,...,...
978,9011,2023-08-01,2023-10-11,71,Paid - meta,True,True,Concluído,,,0
979,11180,2023-09-27,2023-10-10,13,Paid - meta,True,True,Concluído,,,0
980,11146,2023-09-26,2023-10-17,21,Other,True,True,Concluído,,,0
981,10314,2023-09-05,2023-10-17,42,Paid - meta,True,True,Concluído,1.0,1.0,1


In [42]:
trial_fato

Unnamed: 0,CLINIC_ID,TRIAL_START_DATE,TRIAL_END_DATE,TRIAL_DURATION,MARKETING_ATTRIBUITION_CHANNEL_GROUP,HAS_ASKED_FOR_ACCREDITATION,IS_ACCREDITATION_APPROVED,CLINIC_ACCREDITATION_STATUS,TOTAL_ATIVIDADES_VALIDAS_x,TOTAL_ATIVIDADES_VALIDAS_y,TOTAL_ATIVIDADES_VALIDAS
0,9825,2023-08-21,2023-08-25,4,Paid - meta,True,True,Concluído,173.0,173.0,173
1,9984,2023-08-24,2023-08-31,7,Paid - google,True,True,Concluído,14.0,14.0,14
2,9986,2023-08-24,2023-09-14,21,Paid - google,True,True,Concluído,4.0,4.0,4
3,9988,2023-08-24,2023-08-31,7,Paid - google,False,False,Não aderiu ao plano,1.0,1.0,1
4,9690,2023-08-17,2023-08-24,7,Other,False,False,Não aderiu ao plano,1.0,1.0,1
...,...,...,...,...,...,...,...,...,...,...,...
978,9011,2023-08-01,2023-10-11,71,Paid - meta,True,True,Concluído,,,0
979,11180,2023-09-27,2023-10-10,13,Paid - meta,True,True,Concluído,,,0
980,11146,2023-09-26,2023-10-17,21,Other,True,True,Concluído,,,0
981,10314,2023-09-05,2023-10-17,42,Paid - meta,True,True,Concluído,1.0,1.0,1


In [43]:
trial_fato.loc[trial_fato['TOTAL_ATIVIDADES_VALIDAS'].isna()]

Unnamed: 0,CLINIC_ID,TRIAL_START_DATE,TRIAL_END_DATE,TRIAL_DURATION,MARKETING_ATTRIBUITION_CHANNEL_GROUP,HAS_ASKED_FOR_ACCREDITATION,IS_ACCREDITATION_APPROVED,CLINIC_ACCREDITATION_STATUS,TOTAL_ATIVIDADES_VALIDAS_x,TOTAL_ATIVIDADES_VALIDAS_y,TOTAL_ATIVIDADES_VALIDAS


In [44]:
# Agrega as informações da PK dos canais de marketing.
trial_fato = pd.merge(trial_fato, canal_marketing_dim, on='MARKETING_ATTRIBUITION_CHANNEL_GROUP', how='left')
trial_fato

Unnamed: 0,CLINIC_ID,TRIAL_START_DATE,TRIAL_END_DATE,TRIAL_DURATION,MARKETING_ATTRIBUITION_CHANNEL_GROUP,HAS_ASKED_FOR_ACCREDITATION,IS_ACCREDITATION_APPROVED,CLINIC_ACCREDITATION_STATUS,TOTAL_ATIVIDADES_VALIDAS_x,TOTAL_ATIVIDADES_VALIDAS_y,TOTAL_ATIVIDADES_VALIDAS,ID_MARKETING_ATTRIBUITION_CHANNEL_GROUP
0,9825,2023-08-21,2023-08-25,4,Paid - meta,True,True,Concluído,173.0,173.0,173,0
1,9984,2023-08-24,2023-08-31,7,Paid - google,True,True,Concluído,14.0,14.0,14,1
2,9986,2023-08-24,2023-09-14,21,Paid - google,True,True,Concluído,4.0,4.0,4,1
3,9988,2023-08-24,2023-08-31,7,Paid - google,False,False,Não aderiu ao plano,1.0,1.0,1,1
4,9690,2023-08-17,2023-08-24,7,Other,False,False,Não aderiu ao plano,1.0,1.0,1,2
...,...,...,...,...,...,...,...,...,...,...,...,...
978,9011,2023-08-01,2023-10-11,71,Paid - meta,True,True,Concluído,,,0,0
979,11180,2023-09-27,2023-10-10,13,Paid - meta,True,True,Concluído,,,0,0
980,11146,2023-09-26,2023-10-17,21,Other,True,True,Concluído,,,0,2
981,10314,2023-09-05,2023-10-17,42,Paid - meta,True,True,Concluído,1.0,1.0,1,0


In [45]:
# Clinicas convertidas 
# A conversão requer um registro de assinatura onde STRIPE_SUBSCRIPTION_ID seja diferente de NaN, não importando o status.
clinicas_convertidas = df_real.loc[~df_real['STRIPE_SUBSCRIPTION_ID'].isna()].drop_duplicates(subset=['CLINIC_ID'])['CLINIC_ID']
clinicas_convertidas

0         9825
11        9989
13        9990
17        9993
59        9933
         ...  
12249    11190
12331    11242
12395    11180
12399    10314
12401    11031
Name: CLINIC_ID, Length: 270, dtype: int64

In [46]:
# Clinica foi convertida? Fez a assinatura ou não.
trial_fato['REALIZOU_ASSINATURA'] =  np.where(trial_fato['CLINIC_ID'].isin(clinicas_convertidas), True, False)
trial_fato

Unnamed: 0,CLINIC_ID,TRIAL_START_DATE,TRIAL_END_DATE,TRIAL_DURATION,MARKETING_ATTRIBUITION_CHANNEL_GROUP,HAS_ASKED_FOR_ACCREDITATION,IS_ACCREDITATION_APPROVED,CLINIC_ACCREDITATION_STATUS,TOTAL_ATIVIDADES_VALIDAS_x,TOTAL_ATIVIDADES_VALIDAS_y,TOTAL_ATIVIDADES_VALIDAS,ID_MARKETING_ATTRIBUITION_CHANNEL_GROUP,REALIZOU_ASSINATURA
0,9825,2023-08-21,2023-08-25,4,Paid - meta,True,True,Concluído,173.0,173.0,173,0,True
1,9984,2023-08-24,2023-08-31,7,Paid - google,True,True,Concluído,14.0,14.0,14,1,False
2,9986,2023-08-24,2023-09-14,21,Paid - google,True,True,Concluído,4.0,4.0,4,1,False
3,9988,2023-08-24,2023-08-31,7,Paid - google,False,False,Não aderiu ao plano,1.0,1.0,1,1,False
4,9690,2023-08-17,2023-08-24,7,Other,False,False,Não aderiu ao plano,1.0,1.0,1,2,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
978,9011,2023-08-01,2023-10-11,71,Paid - meta,True,True,Concluído,,,0,0,False
979,11180,2023-09-27,2023-10-10,13,Paid - meta,True,True,Concluído,,,0,0,True
980,11146,2023-09-26,2023-10-17,21,Other,True,True,Concluído,,,0,2,False
981,10314,2023-09-05,2023-10-17,42,Paid - meta,True,True,Concluído,1.0,1.0,1,0,True


In [47]:
# Data da conversão da clinica.
conversao_clinica = df_real.loc[~df_real['STRIPE_SUBSCRIPTION_ID'].isna()].drop_duplicates(subset=['CLINIC_ID'])[['CLINIC_ID','TRIAL_START_DATE','STRIPE_SUBSCRIPTION_ID','SUBSCRIPTION_START_DATE', 'SUBSCRIPTION_STATUS']]
conversao_clinica

Unnamed: 0,CLINIC_ID,TRIAL_START_DATE,STRIPE_SUBSCRIPTION_ID,SUBSCRIPTION_START_DATE,SUBSCRIPTION_STATUS
0,9825,2023-08-21,sub_1Nj29VCpjOdJI4gTsWNO1Kzm,2023-08-25,active
11,9989,2023-08-24,sub_1NnMOZCpjOdJI4gTS2Z7QaGE,2023-09-06,active
13,9990,2023-08-24,sub_1Niq9NCpjOdJI4gTlcWX7Jfj,2023-08-24,active
17,9993,2023-08-25,sub_1NzOWSCpjOdJI4gTtwNWDOPP,2023-10-09,active
59,9933,2023-08-23,sub_1Nkq5JCpjOdJI4gTFQQbh2Oh,2023-08-30,active
...,...,...,...,...,...
12249,11190,2023-09-27,sub_1NxcoXCpjOdJI4gTt4JA8e3g,2023-10-04,active
12331,11242,2023-09-28,sub_1O3028CpjOdJI4gTGwA9zyu5,2023-10-19,active
12395,11180,2023-09-27,sub_1NzmetCpjOdJI4gTROeKTccm,2023-10-10,active
12399,10314,2023-09-05,sub_1O2F0FCpjOdJI4gT1kqeULiV,2023-10-17,active


In [48]:
# Tempo decorrido em dias desde o início do trial até a conversão para assinatura paga.
conversao_clinica['NUM_DIAS_PARA_ASSINATURA'] = (conversao_clinica['SUBSCRIPTION_START_DATE'] - conversao_clinica['TRIAL_START_DATE']).dt.days
conversao_clinica

Unnamed: 0,CLINIC_ID,TRIAL_START_DATE,STRIPE_SUBSCRIPTION_ID,SUBSCRIPTION_START_DATE,SUBSCRIPTION_STATUS,NUM_DIAS_PARA_ASSINATURA
0,9825,2023-08-21,sub_1Nj29VCpjOdJI4gTsWNO1Kzm,2023-08-25,active,4
11,9989,2023-08-24,sub_1NnMOZCpjOdJI4gTS2Z7QaGE,2023-09-06,active,13
13,9990,2023-08-24,sub_1Niq9NCpjOdJI4gTlcWX7Jfj,2023-08-24,active,0
17,9993,2023-08-25,sub_1NzOWSCpjOdJI4gTtwNWDOPP,2023-10-09,active,45
59,9933,2023-08-23,sub_1Nkq5JCpjOdJI4gTFQQbh2Oh,2023-08-30,active,7
...,...,...,...,...,...,...
12249,11190,2023-09-27,sub_1NxcoXCpjOdJI4gTt4JA8e3g,2023-10-04,active,7
12331,11242,2023-09-28,sub_1O3028CpjOdJI4gTGwA9zyu5,2023-10-19,active,21
12395,11180,2023-09-27,sub_1NzmetCpjOdJI4gTROeKTccm,2023-10-10,active,13
12399,10314,2023-09-05,sub_1O2F0FCpjOdJI4gT1kqeULiV,2023-10-17,active,42


In [49]:
conversao_clinica['NUM_DIAS_PARA_ASSINATURA'].mean()

9.311111111111112

In [50]:
# Agrega as informações da conversão da clínica.
trial_fato = pd.merge(trial_fato, conversao_clinica, on='CLINIC_ID', how='left')
trial_fato

Unnamed: 0,CLINIC_ID,TRIAL_START_DATE_x,TRIAL_END_DATE,TRIAL_DURATION,MARKETING_ATTRIBUITION_CHANNEL_GROUP,HAS_ASKED_FOR_ACCREDITATION,IS_ACCREDITATION_APPROVED,CLINIC_ACCREDITATION_STATUS,TOTAL_ATIVIDADES_VALIDAS_x,TOTAL_ATIVIDADES_VALIDAS_y,TOTAL_ATIVIDADES_VALIDAS,ID_MARKETING_ATTRIBUITION_CHANNEL_GROUP,REALIZOU_ASSINATURA,TRIAL_START_DATE_y,STRIPE_SUBSCRIPTION_ID,SUBSCRIPTION_START_DATE,SUBSCRIPTION_STATUS,NUM_DIAS_PARA_ASSINATURA
0,9825,2023-08-21,2023-08-25,4,Paid - meta,True,True,Concluído,173.0,173.0,173,0,True,2023-08-21,sub_1Nj29VCpjOdJI4gTsWNO1Kzm,2023-08-25,active,4.0
1,9984,2023-08-24,2023-08-31,7,Paid - google,True,True,Concluído,14.0,14.0,14,1,False,NaT,,NaT,,
2,9986,2023-08-24,2023-09-14,21,Paid - google,True,True,Concluído,4.0,4.0,4,1,False,NaT,,NaT,,
3,9988,2023-08-24,2023-08-31,7,Paid - google,False,False,Não aderiu ao plano,1.0,1.0,1,1,False,NaT,,NaT,,
4,9690,2023-08-17,2023-08-24,7,Other,False,False,Não aderiu ao plano,1.0,1.0,1,2,False,NaT,,NaT,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
978,9011,2023-08-01,2023-10-11,71,Paid - meta,True,True,Concluído,,,0,0,False,NaT,,NaT,,
979,11180,2023-09-27,2023-10-10,13,Paid - meta,True,True,Concluído,,,0,0,True,2023-09-27,sub_1NzmetCpjOdJI4gTROeKTccm,2023-10-10,active,13.0
980,11146,2023-09-26,2023-10-17,21,Other,True,True,Concluído,,,0,2,False,NaT,,NaT,,
981,10314,2023-09-05,2023-10-17,42,Paid - meta,True,True,Concluído,1.0,1.0,1,0,True,2023-09-05,sub_1O2F0FCpjOdJI4gT1kqeULiV,2023-10-17,active,42.0


In [51]:
# Converte a NUM_DIAS_PARA_ASSINATURA para o tipo Int64.
trial_fato['NUM_DIAS_PARA_ASSINATURA'] = trial_fato['NUM_DIAS_PARA_ASSINATURA'].astype('Int64')
trial_fato

Unnamed: 0,CLINIC_ID,TRIAL_START_DATE_x,TRIAL_END_DATE,TRIAL_DURATION,MARKETING_ATTRIBUITION_CHANNEL_GROUP,HAS_ASKED_FOR_ACCREDITATION,IS_ACCREDITATION_APPROVED,CLINIC_ACCREDITATION_STATUS,TOTAL_ATIVIDADES_VALIDAS_x,TOTAL_ATIVIDADES_VALIDAS_y,TOTAL_ATIVIDADES_VALIDAS,ID_MARKETING_ATTRIBUITION_CHANNEL_GROUP,REALIZOU_ASSINATURA,TRIAL_START_DATE_y,STRIPE_SUBSCRIPTION_ID,SUBSCRIPTION_START_DATE,SUBSCRIPTION_STATUS,NUM_DIAS_PARA_ASSINATURA
0,9825,2023-08-21,2023-08-25,4,Paid - meta,True,True,Concluído,173.0,173.0,173,0,True,2023-08-21,sub_1Nj29VCpjOdJI4gTsWNO1Kzm,2023-08-25,active,4
1,9984,2023-08-24,2023-08-31,7,Paid - google,True,True,Concluído,14.0,14.0,14,1,False,NaT,,NaT,,
2,9986,2023-08-24,2023-09-14,21,Paid - google,True,True,Concluído,4.0,4.0,4,1,False,NaT,,NaT,,
3,9988,2023-08-24,2023-08-31,7,Paid - google,False,False,Não aderiu ao plano,1.0,1.0,1,1,False,NaT,,NaT,,
4,9690,2023-08-17,2023-08-24,7,Other,False,False,Não aderiu ao plano,1.0,1.0,1,2,False,NaT,,NaT,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
978,9011,2023-08-01,2023-10-11,71,Paid - meta,True,True,Concluído,,,0,0,False,NaT,,NaT,,
979,11180,2023-09-27,2023-10-10,13,Paid - meta,True,True,Concluído,,,0,0,True,2023-09-27,sub_1NzmetCpjOdJI4gTROeKTccm,2023-10-10,active,13
980,11146,2023-09-26,2023-10-17,21,Other,True,True,Concluído,,,0,2,False,NaT,,NaT,,
981,10314,2023-09-05,2023-10-17,42,Paid - meta,True,True,Concluído,1.0,1.0,1,0,True,2023-09-05,sub_1O2F0FCpjOdJI4gT1kqeULiV,2023-10-17,active,42


In [52]:
# Renomeia a coluna TRIAL_START_DATE_x	para TRIAL_START_DATE
trial_fato.rename(columns={'TRIAL_START_DATE_x': 'TRIAL_START_DATE'}, inplace=True)
# Exclui a coluna TRIAL_START_DATE_y
trial_fato.drop(columns=['TRIAL_START_DATE_y'], inplace=True)
trial_fato

Unnamed: 0,CLINIC_ID,TRIAL_START_DATE,TRIAL_END_DATE,TRIAL_DURATION,MARKETING_ATTRIBUITION_CHANNEL_GROUP,HAS_ASKED_FOR_ACCREDITATION,IS_ACCREDITATION_APPROVED,CLINIC_ACCREDITATION_STATUS,TOTAL_ATIVIDADES_VALIDAS_x,TOTAL_ATIVIDADES_VALIDAS_y,TOTAL_ATIVIDADES_VALIDAS,ID_MARKETING_ATTRIBUITION_CHANNEL_GROUP,REALIZOU_ASSINATURA,STRIPE_SUBSCRIPTION_ID,SUBSCRIPTION_START_DATE,SUBSCRIPTION_STATUS,NUM_DIAS_PARA_ASSINATURA
0,9825,2023-08-21,2023-08-25,4,Paid - meta,True,True,Concluído,173.0,173.0,173,0,True,sub_1Nj29VCpjOdJI4gTsWNO1Kzm,2023-08-25,active,4
1,9984,2023-08-24,2023-08-31,7,Paid - google,True,True,Concluído,14.0,14.0,14,1,False,,NaT,,
2,9986,2023-08-24,2023-09-14,21,Paid - google,True,True,Concluído,4.0,4.0,4,1,False,,NaT,,
3,9988,2023-08-24,2023-08-31,7,Paid - google,False,False,Não aderiu ao plano,1.0,1.0,1,1,False,,NaT,,
4,9690,2023-08-17,2023-08-24,7,Other,False,False,Não aderiu ao plano,1.0,1.0,1,2,False,,NaT,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
978,9011,2023-08-01,2023-10-11,71,Paid - meta,True,True,Concluído,,,0,0,False,,NaT,,
979,11180,2023-09-27,2023-10-10,13,Paid - meta,True,True,Concluído,,,0,0,True,sub_1NzmetCpjOdJI4gTROeKTccm,2023-10-10,active,13
980,11146,2023-09-26,2023-10-17,21,Other,True,True,Concluído,,,0,2,False,,NaT,,
981,10314,2023-09-05,2023-10-17,42,Paid - meta,True,True,Concluído,1.0,1.0,1,0,True,sub_1O2F0FCpjOdJI4gT1kqeULiV,2023-10-17,active,42


In [53]:
# Ajustes para exportar para a tabela no Postgres.
# Renomenando as colunas
trial_fato.rename(columns={'CLINIC_ID':'id_clinica', 'ID_MARKETING_ATTRIBUITION_CHANNEL_GROUP': 'id_canal', 'TRIAL_START_DATE':'data_inicio_trial',
                           'TRIAL_END_DATE':'data_fim_trial', 'TRIAL_DURATION':'num_dias_trial', 'TOTAL_ATIVIDADES_VALIDAS': 'total_atividades_realizadas',
                           'HAS_ASKED_FOR_ACCREDITATION':'solicitou_credenciamento', 'IS_ACCREDITATION_APPROVED':'credenciamento_aprovado', 'CLINIC_ACCREDITATION_STATUS':'credenciamento_status',
                           'REALIZOU_ASSINATURA':'realizou_assinatura', 'SUBSCRIPTION_START_DATE': 'data_assinatura', 'SUBSCRIPTION_STATUS':'status_assinatura', 'NUM_DIAS_PARA_ASSINATURA': 'num_dias_para_assinatura'},
                           inplace=True)
trial_fato = trial_fato[['id_clinica','id_canal','data_inicio_trial','data_fim_trial','num_dias_trial','total_atividades_realizadas','solicitou_credenciamento','credenciamento_aprovado','credenciamento_status',
                         'realizou_assinatura','data_assinatura','status_assinatura','num_dias_para_assinatura']]
trial_fato

Unnamed: 0,id_clinica,id_canal,data_inicio_trial,data_fim_trial,num_dias_trial,total_atividades_realizadas,solicitou_credenciamento,credenciamento_aprovado,credenciamento_status,realizou_assinatura,data_assinatura,status_assinatura,num_dias_para_assinatura
0,9825,0,2023-08-21,2023-08-25,4,173,True,True,Concluído,True,2023-08-25,active,4
1,9984,1,2023-08-24,2023-08-31,7,14,True,True,Concluído,False,NaT,,
2,9986,1,2023-08-24,2023-09-14,21,4,True,True,Concluído,False,NaT,,
3,9988,1,2023-08-24,2023-08-31,7,1,False,False,Não aderiu ao plano,False,NaT,,
4,9690,2,2023-08-17,2023-08-24,7,1,False,False,Não aderiu ao plano,False,NaT,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
978,9011,0,2023-08-01,2023-10-11,71,0,True,True,Concluído,False,NaT,,
979,11180,0,2023-09-27,2023-10-10,13,0,True,True,Concluído,True,2023-10-10,active,13
980,11146,2,2023-09-26,2023-10-17,21,0,True,True,Concluído,False,NaT,,
981,10314,0,2023-09-05,2023-10-17,42,1,True,True,Concluído,True,2023-10-17,active,42


* #### Postgres

In [146]:
# Carrega as variaveis de ambiente.
load_dotenv(encoding="utf-8", override=True)


True

In [148]:
# Parametros para conexão no PostgreSQL
url = {"username" : os.getenv("USUARIO"), "password" : os.getenv("PWD"), "host" : "localhost", "port" : 5433, "database" : os.getenv("DB")}

In [71]:
# função para lidar e  analisar psycopg2 exceptions
def show_psycopg2_exception(err):
    # coleta detalhes sore a exception
    err_type, err_obj, traceback = sys.exc_info()    
    # pega a linha quando a exception ocorrer
    line_n = traceback.tb_lineno    
    # print the connect() error
    print ("\npsycopg2 ERROR:", err, "on line number:", line_n)
    print ("psycopg2 traceback:", traceback, "-- type:", err_type) 
    # psycopg2 extensions.Diagnostics object attribute
    print ("\nextensions.Diagnostics:", err.diag)    
    # print the pgcode and pgerror exceptions
    print ("pgerror:", err.pgerror)
    print ("pgcode:", err.pgcode, "\n")

In [94]:
def conn_pg(url):
    try:
        print('Conectando-se ao PostgreSQL...........')
        conn_pg = URL.create("postgresql+psycopg2", **url)
        engine_pg = create_engine(conn_pg)
        print("Conexão bem-sucedida..................")
    except OperationalError as err:
        # passando exception para função
        show_psycopg2_exception(err)        
        # setando conn_pg  = 'None' em caso de erro
        conn_pg = None
    return engine_pg       

In [150]:
engine_pg = conn_pg(url)

Conectando-se ao PostgreSQL...........
Conexão bem-sucedida..................


In [151]:
engine_pg

Engine(postgresql+psycopg2://postgres:***@localhost:5433/aquisicao_clinicas_star_schema)

In [97]:
def select_pg(engine, table):
    try:
        with engine.begin() as conn:
            df = pd.read_sql_query(f'select * from {table}', conn)
            return df
    except OperationalError as err:
        df = None
        # passando exception para função
        show_psycopg2_exception(err) 

In [153]:
select_pg(engine_pg, 'trial_fato')

Unnamed: 0,id_trial,id_clinica,id_canal,data_inicio_trial,data_fim_trial,num_dias_trial,total_atividades_realizadas,solicitou_credenciamento,credenciamento_aprovado,credenciamento_status,realizou_assinatura,data_assinatura,status_assinatura,num_dias_para_assinatura


In [154]:
def insert_pg(engine, df, table):
    try:
        with engine.begin() as conn:
            df.to_sql(f'{table}', con=engine, index=False, if_exists='append',chunksize = 1000)
            print(f"Dados inseridos na tabela {table} com sucesso...")
    except (OperationalError, IntegrityError) as err:
        # passando exception para função
        show_psycopg2_exception(err) 

In [155]:
funcionalidade_dim

Unnamed: 0,id_funcionalidade,nom_funcionalidade
0,0,patient_management
1,1,scheduling
2,2,medical_record
3,3,anamnese
4,4,user_management
5,5,budget_management
6,6,credit_check
7,7,bnpl
8,8,documents_and_files
9,9,revenue_management


In [156]:
insert_pg(engine_pg, funcionalidade_dim, 'funcionalidade_dim')

Dados inseridos na tabela funcionalidade_dim com sucesso...


In [157]:
select_pg(engine_pg, 'funcionalidade_dim')

Unnamed: 0,id_funcionalidade,nom_funcionalidade
0,0,patient_management
1,1,scheduling
2,2,medical_record
3,3,anamnese
4,4,user_management
5,5,budget_management
6,6,credit_check
7,7,bnpl
8,8,documents_and_files
9,9,revenue_management


In [158]:
canal_marketing_dim

Unnamed: 0,MARKETING_ATTRIBUITION_CHANNEL_GROUP,ID_MARKETING_ATTRIBUITION_CHANNEL_GROUP
0,Paid - meta,0
1,Paid - google,1
2,Other,2
3,Site ou Indicação Interna,3
4,Organic,4


In [159]:
# Ajustes para exportar para a tabela no Postgres.
# Renomeando colunas
canal_marketing_dim.rename(columns={'MARKETING_ATTRIBUITION_CHANNEL_GROUP':'nom_canal', 'ID_MARKETING_ATTRIBUITION_CHANNEL_GROUP':'id_canal'}, inplace=True)
canal_marketing_dim

Unnamed: 0,nom_canal,id_canal
0,Paid - meta,0
1,Paid - google,1
2,Other,2
3,Site ou Indicação Interna,3
4,Organic,4


In [160]:
insert_pg(engine_pg, canal_marketing_dim, 'canal_marketing_dim')

Dados inseridos na tabela canal_marketing_dim com sucesso...


In [161]:
select_pg(engine_pg, 'canal_marketing_dim')

Unnamed: 0,id_canal,nom_canal
0,0,Paid - meta
1,1,Paid - google
2,2,Other
3,3,Site ou Indicação Interna
4,4,Organic


In [162]:
clinica_dim

Unnamed: 0,id_clinica,data_cadastro
0,9825,2023-08-21 09:14:34.763
1,9984,2023-08-24 19:40:58.432
5,9986,2023-08-24 20:31:43.062
7,9988,2023-08-24 22:04:10.022
9,9690,2023-08-17 04:33:00.786
...,...,...
12393,9011,2023-08-01 13:01:05.019
12395,11180,2023-09-27 14:01:04.040
12397,11146,2023-09-26 19:21:15.702
12399,10314,2023-09-05 01:05:51.799


In [163]:
insert_pg(engine_pg, clinica_dim, 'clinica_dim')

Dados inseridos na tabela clinica_dim com sucesso...


In [164]:
select_pg(engine_pg, 'clinica_dim')

Unnamed: 0,id_clinica,data_cadastro
0,9825,2023-08-21 09:14:34.763
1,9984,2023-08-24 19:40:58.432
2,9986,2023-08-24 20:31:43.062
3,9988,2023-08-24 22:04:10.022
4,9690,2023-08-17 04:33:00.786
...,...,...
978,9011,2023-08-01 13:01:05.019
979,11180,2023-09-27 14:01:04.040
980,11146,2023-09-26 19:21:15.702
981,10314,2023-09-05 01:05:51.799


In [165]:
funcionalidade_utilizada_fato

Unnamed: 0,id_clinica,id_funcionalidade,num_qtde_vezes
0,8994,5,1
1,8994,2,2
2,8994,9,1
3,8994,1,1
4,8998,3,2
...,...,...,...
2294,11295,0,2
2295,11295,1,1
2296,11296,1,1
2297,11301,1,1


In [168]:
insert_pg(engine_pg, funcionalidade_utilizada_fato, 'funcionalidade_utilizada_fato')

Dados inseridos na tabela funcionalidade_utilizada_fato com sucesso...


In [169]:
select_pg(engine_pg, 'funcionalidade_utilizada_fato')

Unnamed: 0,id_funcionalidade_utilizada,id_clinica,id_funcionalidade,num_qtde_vezes
0,1,8994,5,1
1,2,8994,2,2
2,3,8994,9,1
3,4,8994,1,1
4,5,8998,3,2
...,...,...,...,...
2294,2295,11295,0,2
2295,2296,11295,1,1
2296,2297,11296,1,1
2297,2298,11301,1,1


In [170]:
trial_fato

Unnamed: 0,id_clinica,id_canal,data_inicio_trial,data_fim_trial,num_dias_trial,total_atividades_realizadas,solicitou_credenciamento,credenciamento_aprovado,credenciamento_status,realizou_assinatura,data_assinatura,status_assinatura,num_dias_para_assinatura
0,9825,0,2023-08-21,2023-08-25,4,173,True,True,Concluído,True,2023-08-25,active,4
1,9984,1,2023-08-24,2023-08-31,7,14,True,True,Concluído,False,NaT,,
2,9986,1,2023-08-24,2023-09-14,21,4,True,True,Concluído,False,NaT,,
3,9988,1,2023-08-24,2023-08-31,7,1,False,False,Não aderiu ao plano,False,NaT,,
4,9690,2,2023-08-17,2023-08-24,7,1,False,False,Não aderiu ao plano,False,NaT,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
978,9011,0,2023-08-01,2023-10-11,71,0,True,True,Concluído,False,NaT,,
979,11180,0,2023-09-27,2023-10-10,13,0,True,True,Concluído,True,2023-10-10,active,13
980,11146,2,2023-09-26,2023-10-17,21,0,True,True,Concluído,False,NaT,,
981,10314,0,2023-09-05,2023-10-17,42,1,True,True,Concluído,True,2023-10-17,active,42


In [171]:
insert_pg(engine_pg, trial_fato, 'trial_fato')

Dados inseridos na tabela trial_fato com sucesso...


In [172]:
select_pg(engine_pg, 'trial_fato')

Unnamed: 0,id_trial,id_clinica,id_canal,data_inicio_trial,data_fim_trial,num_dias_trial,total_atividades_realizadas,solicitou_credenciamento,credenciamento_aprovado,credenciamento_status,realizou_assinatura,data_assinatura,status_assinatura,num_dias_para_assinatura
0,1,9825,0,2023-08-21,2023-08-25,4,173,True,True,Concluído,True,2023-08-25,active,4.0
1,2,9984,1,2023-08-24,2023-08-31,7,14,True,True,Concluído,False,,,
2,3,9986,1,2023-08-24,2023-09-14,21,4,True,True,Concluído,False,,,
3,4,9988,1,2023-08-24,2023-08-31,7,1,False,False,Não aderiu ao plano,False,,,
4,5,9690,2,2023-08-17,2023-08-24,7,1,False,False,Não aderiu ao plano,False,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
978,979,9011,0,2023-08-01,2023-10-11,71,0,True,True,Concluído,False,,,
979,980,11180,0,2023-09-27,2023-10-10,13,0,True,True,Concluído,True,2023-10-10,active,13.0
980,981,11146,2,2023-09-26,2023-10-17,21,0,True,True,Concluído,False,,,
981,982,10314,0,2023-09-05,2023-10-17,42,1,True,True,Concluído,True,2023-10-17,active,42.0


In [173]:
trial_fato

Unnamed: 0,id_clinica,id_canal,data_inicio_trial,data_fim_trial,num_dias_trial,total_atividades_realizadas,solicitou_credenciamento,credenciamento_aprovado,credenciamento_status,realizou_assinatura,data_assinatura,status_assinatura,num_dias_para_assinatura
0,9825,0,2023-08-21,2023-08-25,4,173,True,True,Concluído,True,2023-08-25,active,4
1,9984,1,2023-08-24,2023-08-31,7,14,True,True,Concluído,False,NaT,,
2,9986,1,2023-08-24,2023-09-14,21,4,True,True,Concluído,False,NaT,,
3,9988,1,2023-08-24,2023-08-31,7,1,False,False,Não aderiu ao plano,False,NaT,,
4,9690,2,2023-08-17,2023-08-24,7,1,False,False,Não aderiu ao plano,False,NaT,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
978,9011,0,2023-08-01,2023-10-11,71,0,True,True,Concluído,False,NaT,,
979,11180,0,2023-09-27,2023-10-10,13,0,True,True,Concluído,True,2023-10-10,active,13
980,11146,2,2023-09-26,2023-10-17,21,0,True,True,Concluído,False,NaT,,
981,10314,0,2023-09-05,2023-10-17,42,1,True,True,Concluído,True,2023-10-17,active,42


* #### Criando datasets para realizar os testes de hipoteses.

In [51]:
canal_marketing_dim.rename(columns={'MARKETING_ATTRIBUITION_CHANNEL_GROUP':'nom_canal', 'ID_MARKETING_ATTRIBUITION_CHANNEL_GROUP':'id_canal'}, inplace=True)
canal_marketing_dim

Unnamed: 0,nom_canal,id_canal
0,Paid - meta,0
1,Paid - google,1
2,Other,2
3,Site ou Indicação Interna,3
4,Organic,4


In [52]:
df_trial_metricas = pd.merge(trial_fato, canal_marketing_dim, on='id_canal', how='left')
df_trial_metricas

Unnamed: 0,id_clinica,id_canal,data_inicio_trial,data_fim_trial,num_dias_trial,total_atividades_realizadas,solicitou_credenciamento,credenciamento_aprovado,credenciamento_status,realizou_assinatura,data_assinatura,status_assinatura,num_dias_para_assinatura,nom_canal
0,9825,0,2023-08-21,2023-08-25,4,173,True,True,Concluído,True,2023-08-25,active,4,Paid - meta
1,9984,1,2023-08-24,2023-08-31,7,14,True,True,Concluído,False,NaT,,,Paid - google
2,9986,1,2023-08-24,2023-09-14,21,4,True,True,Concluído,False,NaT,,,Paid - google
3,9988,1,2023-08-24,2023-08-31,7,1,False,False,Não aderiu ao plano,False,NaT,,,Paid - google
4,9690,2,2023-08-17,2023-08-24,7,1,False,False,Não aderiu ao plano,False,NaT,,,Other
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
978,9011,0,2023-08-01,2023-10-11,71,0,True,True,Concluído,False,NaT,,,Paid - meta
979,11180,0,2023-09-27,2023-10-10,13,0,True,True,Concluído,True,2023-10-10,active,13,Paid - meta
980,11146,2,2023-09-26,2023-10-17,21,0,True,True,Concluído,False,NaT,,,Other
981,10314,0,2023-09-05,2023-10-17,42,1,True,True,Concluído,True,2023-10-17,active,42,Paid - meta


In [53]:
df_funcionalidade_metricas = pd.merge(funcionalidade_utilizada_fato, funcionalidade_dim, on='id_funcionalidade', how='left')
df_funcionalidade_metricas

Unnamed: 0,id_clinica,id_funcionalidade,num_qtde_vezes,nom_funcionalidade
0,8994,5,1,budget_management
1,8994,2,2,medical_record
2,8994,9,1,revenue_management
3,8994,1,1,scheduling
4,8998,3,2,anamnese
...,...,...,...,...
2294,11295,0,2,patient_management
2295,11295,1,1,scheduling
2296,11296,1,1,scheduling
2297,11301,1,1,scheduling


In [54]:
# Exportando os datasets
df_trial_metricas.to_csv(r'..\dados\df_trial_metricas.csv', index=False)
df_funcionalidade_metricas.to_csv(r'..\dados\df_funcionalidade_metricas.csv', index=False)