In [108]:
# Importar os módulos pandas, numpy e random
import pandas as pd
import numpy as np
import random
import datetime

In [109]:
# Definir os parâmetros das listas
n = 10000 # Número de elementos
min = 5 # Valor mínimo
max = 10 # Valor máximo
mean = 10 # Média desejada
median = 10 # Mediana desejada
std = 2 # Desvio padrão desejado
nulos = 0.35 # Porcentagem de valores nulos
dias = 30 # Número máximo de dias posteriores à lista anterior
inicio = datetime.date(2023, 1, 1) # Data inicial
fim = datetime.date(2024, 1, 31) # Data final

In [110]:
nps = np.random.normal(loc=mean, scale=std, size=n)
nps = np.clip(nps, min, max+1) # Limitar os valores entre min e max
delta = median - np.median(nps) # Diferença entre a mediana atual e a desejada
nps = nps + delta # Adicionar a diferença a todos os elementos da lista
nps = np.clip(nps, min, max) # Limitar os valores entre min e max novamente
nps = nps.astype(int) # Converter a lista para uma lista de inteiros
nps

array([ 8, 10, 10, ...,  9,  7,  6])

In [111]:
id_loja = random.choices(range(1, 4 + 1), weights=[1, 1.4, 1.6, 2], k=n) # Gerar uma lista de números aleatórios entre min e max com os pesos especificados
id_loja = np.array(id_loja)
id_loja

array([3, 3, 4, ..., 4, 2, 3])

In [112]:
id_topico = random.choices(range(1, 5 + 1), weights=[2, 1.3, 1.7, 1, 1.5], k=n) # Gerar uma lista de números aleatórios entre min e max com os pesos especificados
id_topico = np.array(id_topico)
id_topico

array([1, 3, 5, ..., 1, 2, 2])

In [113]:
id_genero = random.choices(range(1, 3 + 1), weights=[0.45, 0.5, 0.05], k=n) # Gerar uma lista de números aleatórios entre min e max com os pesos especificados
id_genero = np.array(id_genero)
id_genero

array([2, 1, 2, ..., 1, 3, 2])

In [114]:
idade = np.random.normal(loc=40, scale=10, size=n)
idade = np.clip(idade, 18, 65) # Limitar os valores entre min e max
delta = 38 - np.median(idade) # Diferença entre a mediana atual e a desejada
idade = idade + delta # Adicionar a diferença a todos os elementos da lista
idade = np.clip(idade, 18, 65) # Limitar os valores entre min e max novamente
idade = idade.astype(int) # Converter a lista para uma lista de inteiros
idade

array([35, 42, 39, ..., 21, 32, 43])

In [115]:
dt_envio = []
for i in range(n):
    # Gerar um número aleatório entre 0 e o número de dias entre inicio e fim
    dias_anterior = random.randint(0, (fim - inicio).days)
    # Adicionar esse número de dias à data inicial e obter uma data aleatória
    data_anterior = inicio + datetime.timedelta(days=dias_anterior)
    # Adicionar a data à lista
    dt_envio.append(data_anterior)
dt_envio = np.array(dt_envio)
dt_envio


array([datetime.date(2023, 6, 24), datetime.date(2023, 8, 9),
       datetime.date(2023, 6, 27), ..., datetime.date(2024, 1, 14),
       datetime.date(2023, 9, 24), datetime.date(2023, 1, 11)],
      dtype=object)

In [116]:
dt_resposta = []
for i in range(n):
    # Gerar um número aleatório entre 0 e 1
    prob = random.random()
    # Se o número for menor que a porcentagem de valores nulos, adicionar um valor nulo à lista
    if prob < nulos:
        dt_resposta.append(None)
    # Senão, gerar uma data aleatória entre inicio e fim, que seja posterior à data correspondente na lista anterior
    else:
        # Obter a data correspondente na lista anterior
        data_anterior = dt_envio[i]
        # Gerar um número aleatório entre 1 e o número máximo de dias posteriores
        dias_posterior = random.randint(1, dias)
        # Adicionar esse número de dias à data anterior e obter uma data posterior
        data_posterior = data_anterior + datetime.timedelta(days=dias_posterior)
        # Se a data posterior for maior que a data final, usar a data final
        if data_posterior > fim:
            data_posterior = fim
        # Adicionar a data posterior à lista
        dt_resposta.append(data_posterior)

dt_resposta = np.array(dt_resposta)
dt_resposta

array([None, datetime.date(2023, 8, 28), None, ...,
       datetime.date(2024, 1, 31), datetime.date(2023, 10, 21),
       datetime.date(2023, 1, 15)], dtype=object)

In [117]:
# Juntar as listas em um dataframe do pandas
df = pd.concat([pd.Series(nps), pd.Series(id_loja), pd.Series(id_topico), pd.Series(idade), pd.Series(id_genero), pd.Series(dt_envio), pd.Series(dt_resposta)], axis=1) # Concatenar as listas por coluna
df.columns = ['nps', 'id_loja', 'id_topico', 'idade', 'id_genero', 'dt_envio', 'dt_resposta'] # Renomear as colunas
df.index = range(1, n + 1) # Renomear o índice
df



Unnamed: 0,nps,id_loja,id_topico,idade,id_genero,dt_envio,dt_resposta
1,8,3,1,35,2,2023-06-24,
2,10,3,3,42,1,2023-08-09,2023-08-28
3,10,4,5,39,2,2023-06-27,
4,6,3,1,43,2,2023-12-14,2023-12-27
5,10,2,2,26,2,2023-11-29,2023-12-05
...,...,...,...,...,...,...,...
9996,9,4,1,30,2,2023-08-25,2023-09-17
9997,10,4,1,23,1,2023-09-16,2023-10-16
9998,9,4,1,21,1,2024-01-14,2024-01-31
9999,7,2,2,32,3,2023-09-24,2023-10-21


In [118]:
df['dt_envio'] = pd.to_datetime(df['dt_envio'])
df['dt_resposta'] = pd.to_datetime(df['dt_resposta'])
df

Unnamed: 0,nps,id_loja,id_topico,idade,id_genero,dt_envio,dt_resposta
1,8,3,1,35,2,2023-06-24,NaT
2,10,3,3,42,1,2023-08-09,2023-08-28
3,10,4,5,39,2,2023-06-27,NaT
4,6,3,1,43,2,2023-12-14,2023-12-27
5,10,2,2,26,2,2023-11-29,2023-12-05
...,...,...,...,...,...,...,...
9996,9,4,1,30,2,2023-08-25,2023-09-17
9997,10,4,1,23,1,2023-09-16,2023-10-16
9998,9,4,1,21,1,2024-01-14,2024-01-31
9999,7,2,2,32,3,2023-09-24,2023-10-21


In [119]:
df.describe()

Unnamed: 0,nps,id_loja,id_topico,idade,id_genero
count,10000.0,10000.0,10000.0,10000.0,10000.0
mean,8.9429,2.7487,2.8281,37.5645,1.608
std,1.328539,1.088791,1.462793,9.790578,0.587342
min,5.0,1.0,1.0,18.0,1.0
25%,8.0,2.0,1.0,31.0,1.0
50%,9.5,3.0,3.0,37.5,2.0
75%,10.0,4.0,4.0,44.0,2.0
max,10.0,4.0,5.0,62.0,3.0


In [120]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 1 to 10000
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   nps          10000 non-null  int32         
 1   id_loja      10000 non-null  int32         
 2   id_topico    10000 non-null  int32         
 3   idade        10000 non-null  int32         
 4   id_genero    10000 non-null  int32         
 5   dt_envio     10000 non-null  datetime64[ns]
 6   dt_resposta  6493 non-null   datetime64[ns]
dtypes: datetime64[ns](2), int32(5)
memory usage: 351.7 KB


In [121]:
# Cria um dicionário de tradução para os nomes dos meses e abreviações
traducao_meses = {
    1: 'Janeiro',
    2: 'Fevereiro',
    3: 'Março',
    4: 'Abril',
    5: 'Maio',
    6: 'Junho',
    7: 'Julho',
    8: 'Agosto',
    9: 'Setembro',
    10: 'Outubro',
    11: 'Novembro',
    12: 'Dezembro'
}

traducao_abreviacoes = {
    1: 'Jan',
    2: 'Fev',
    3: 'Mar',
    4: 'Abr',
    5: 'Mai',
    6: 'Jun',
    7: 'Jul',
    8: 'Ago',
    9: 'Set',
    10: 'Out',
    11: 'Nov',
    12: 'Dez'
}

In [122]:
# Obtém a data máxima e mínima do dataframe df
data_max = df['dt_envio'].max()
data_min = df['dt_envio'].min()

#Cria um dataframe com datas entre a maxima e minima
dcalendario = pd.DataFrame()
dcalendario['date'] = pd.date_range(data_min, data_max)

# Cria as outras colunas conforme solicitado
dcalendario['ano'] = dcalendario['date'].dt.year
dcalendario['mesano'] = dcalendario['date'].dt.strftime('%Y%m').astype(int)  # Converte para inteiro
dcalendario['nmes'] = dcalendario['date'].dt.month
# Traduz os nomes dos meses e suas abreviações
dcalendario['nome_mes'] = dcalendario['date'].dt.month.map(traducao_meses)
dcalendario['mesabrev'] = dcalendario['date'].dt.month.map(traducao_abreviacoes)
dcalendario['day'] = dcalendario['date'].dt.day

# Mostra as últimas 3 linhas do novo dataframe
print(dcalendario.tail(3))


          date   ano  mesano  nmes nome_mes mesabrev  day
393 2024-01-29  2024  202401     1  Janeiro      Jan   29
394 2024-01-30  2024  202401     1  Janeiro      Jan   30
395 2024-01-31  2024  202401     1  Janeiro      Jan   31


In [123]:
# Loja
loja = {
    'nome_loja': ['Matriz', 'Aldeota', 'Meireles', 'Eusebio'],
    'id_loja': [1, 2, 3, 4]
}

# Cria um dataframe de tópicos
df_loja = pd.DataFrame(loja)
df_loja

Unnamed: 0,nome_loja,id_loja
0,Matriz,1
1,Aldeota,2
2,Meireles,3
3,Eusebio,4


In [124]:
# Loja
topicos = {
    'nome_topico': ['Satisfação com Produto', 'Qualidade do Produto', 'Entrega e Logística', 'Atendimento ao Cliente', 'Suporte Técnico'],
    'id_topico': [1, 2, 3, 4, 5]
}

# Cria um dataframe de tópicos
df_topicos = pd.DataFrame(topicos)
df_topicos

Unnamed: 0,nome_topico,id_topico
0,Satisfação com Produto,1
1,Qualidade do Produto,2
2,Entrega e Logística,3
3,Atendimento ao Cliente,4
4,Suporte Técnico,5


In [125]:
# Genero
genero = {
    'nome_genero': ['Feminino', 'Masculino', 'Outros'],
    'id_genero': [1, 2, 3]
}

# Cria um dataframe de tópicos
df_genero = pd.DataFrame(genero)
df_genero

Unnamed: 0,nome_genero,id_genero
0,Feminino,1
1,Masculino,2
2,Outros,3


In [126]:
idade_min = df['idade'].min()
idade_max = df['idade'].max()

# Cria um novo DataFrame com a coluna 'idade' contendo todas as idades no intervalo
df_idade = pd.DataFrame({'idade': pd.RangeIndex(start=idade_min, stop=idade_max + 1, step=1)})
df_idade

# Definir os limites das faixas etárias
faixa_etaria_bins = [0, 23, 29, 35, 41, 47, 53, 59, 65, float('inf')]

# Definir os rótulos das faixas etárias
faixa_etaria_labels = ['18-23', '24-29', '30-35', '36-41', '42-47', '48-53', '54-59', '60-65', '66+']

# Adicionar a nova coluna 'faixa_etaria'
df_idade['faixa_etaria'] = pd.cut(df_idade['idade'], bins=faixa_etaria_bins, labels=faixa_etaria_labels, right=False)

# Adicionar a nova coluna 'faixa_etaria_order'
df_idade['faixa_etaria_order'] = pd.cut(df_idade['idade'], bins=faixa_etaria_bins, labels=range(1, len(faixa_etaria_labels)+1), right=False).astype('Int64')

# Exibir o DataFrame resultante
print(df_idade)

    idade faixa_etaria  faixa_etaria_order
0      18        18-23                   1
1      19        18-23                   1
2      20        18-23                   1
3      21        18-23                   1
4      22        18-23                   1
5      23        24-29                   2
6      24        24-29                   2
7      25        24-29                   2
8      26        24-29                   2
9      27        24-29                   2
10     28        24-29                   2
11     29        30-35                   3
12     30        30-35                   3
13     31        30-35                   3
14     32        30-35                   3
15     33        30-35                   3
16     34        30-35                   3
17     35        36-41                   4
18     36        36-41                   4
19     37        36-41                   4
20     38        36-41                   4
21     39        36-41                   4
22     40  

In [127]:
from sqlalchemy import create_engine

In [128]:
# Informações de conexão ao banco de dados
db_user = '****'
db_password = '****'
db_host = '****'
db_name = '****'

# Criar a string de conexão
db_url = f'postgresql+psycopg2://{db_user}:{db_password}@{db_host}/{db_name}'

# Criar a engine SQLAlchemy
engine = create_engine(db_url)

# Testar a conexão
try:
    connection = engine.connect()
    print("Conexão bem-sucedida!")
except Exception as e:
    print(f"Erro de conexão: {e}")

Conexão bem-sucedida!


In [129]:
# Escrever os dados na tabela
df.to_sql('fNPS', engine, schema='NPS', index=False, if_exists='replace')
dcalendario.to_sql('dcalendario', engine, schema='NPS', index=False, if_exists='replace')
df_topicos.to_sql('dtopicos', engine, schema='NPS', index=False, if_exists='replace')
df_loja.to_sql('dloja', engine, schema='NPS', index=False, if_exists='replace')
df_genero.to_sql('dgenero', engine, schema='NPS', index=False, if_exists='replace')
df_idade.to_sql('didade', engine, schema='NPS', index=False, if_exists='replace')

45

In [130]:
 connection.close()