In [1]:
import pandas as pd
import psycopg2
from psycopg2 import sql
from sqlalchemy import create_engine
from sqlalchemy import text
import re

In [2]:
df = pd.read_excel("dados_importacao.xlsx")

In [3]:
remove_cpfs = df.drop_duplicates(subset = "CPF/CNPJ", keep = 'first')

In [4]:
conn_string = "postgresql://postgres:dsa1010@localhost:5432/TSMX"
engine = create_engine(conn_string)

In [5]:
tbl_clientes = remove_cpfs[['Nome/Razão Social','Nome Fantasia','CPF/CNPJ','Data Nasc.','Data Cadastro cliente']]
tbl_clientes = tbl_clientes.rename(columns = {'Nome/Razão Social' : 'nome_razao_social',
                                              'Nome Fantasia' : 'nome_fantasia',
                                              'CPF/CNPJ' : 'cpf_cnpj',
                                              'Data Nasc.' : 'data_nascimento',
                                              'Data Cadastro cliente' : 'data_cadastro'})
tbl_clientes['nome_razao_social'] = tbl_clientes['nome_razao_social'].fillna("sem registro")
tbl_clientes['nome_fantasia'] = tbl_clientes['nome_fantasia'].fillna("sem registro")
tbl_clientes['data_nascimento'] = tbl_clientes['data_nascimento'].fillna("1000/10/10")
tbl_clientes['data_cadastro'] = tbl_clientes['data_cadastro'].fillna("1000/10/10")

In [6]:
def formatar_cpf_cnpj(valor):
    valor = re.sub(r'\D', '', str(valor))  # Remover todos os caracteres não numéricos
    if len(valor) == 11:  # CPF tem 11 dígitos
        return f'{valor[:3]}.{valor[3:6]}.{valor[6:9]}-{valor[9:]}'
    elif len(valor) == 14:  # CNPJ tem 14 dígitos
        return f'{valor[:2]}.{valor[2:5]}.{valor[5:8]}/{valor[8:12]}-{valor[12:]}'
    else:
        return valor  # Caso o valor tenha número de dígitos inesperado

# Aplicar a formatação à coluna
tbl_clientes['cpf_cnpj'] = tbl_clientes['cpf_cnpj'].apply(formatar_cpf_cnpj)

tbl_clientes.head()

Unnamed: 0,nome_razao_social,nome_fantasia,cpf_cnpj,data_nascimento,data_cadastro
0,Nicolas Melo,sem registro,591.267.843-19,1982-03-16 00:00:00,2023-01-02
1,Igor Silveira,sem registro,102.694.758-85,1975-04-26 00:00:00,2022-10-25
2,Henrique da Luz,sem registro,782.531.904-41,1997-06-17 00:00:00,2022-10-11
3,Valentina da Mota,sem registro,865.902.374-92,1000/10/10,2022-09-07
4,Giovanna Cavalcanti,sem registro,173.598.642-91,1964-11-30 00:00:00,2023-02-13


In [7]:
query = "SELECT cpf_cnpj FROM tbl_clientes"
dff = pd.read_sql(query, engine)
cpfs = dff['cpf_cnpj'].tolist()
tbl_clientes = tbl_clientes[~tbl_clientes['cpf_cnpj'].isin(cpfs)]
tbl_clientes.head(100)

Unnamed: 0,nome_razao_social,nome_fantasia,cpf_cnpj,data_nascimento,data_cadastro


In [8]:
with engine.connect() as conn:
    tbl_clientes.to_sql('tbl_clientes', engine, if_exists='append', index=False)

In [9]:
remove_plano = df.drop_duplicates(subset = "Plano", keep = 'first')
tbl_planos = remove_plano[['Plano','Plano Valor']]
tbl_planos = tbl_planos.rename(columns = {'Plano' : 'descricao',
                                          'Plano Valor' : 'valor'})
tbl_planos['valor'] = tbl_planos['valor'].fillna('0')

In [10]:
query = "SELECT descricao FROM tbl_planos"
dff2 = pd.read_sql(query, engine)
descricao = dff2['descricao'].tolist()
tbl_planos = tbl_planos[~tbl_planos['descricao'].isin(descricao)]

In [11]:
with engine.connect() as conn:
    tbl_planos.to_sql('tbl_planos', engine, if_exists='append', index=False)

In [12]:
estados_siglas = {
    'Acre': 'AC', 'Alagoas': 'AL', 'Amazonas': 'AM', 'Bahia': 'BA', 'Ceará': 'CE',
    'Distrito Federal': 'DF', 'Espírito Santo': 'ES', 'Goiás': 'GO', 'Maranhão': 'MA',
    'Mato Grosso': 'MT', 'Mato Grosso do Sul': 'MS', 'Minas Gerais': 'MG', 'Pará': 'PA',
    'Paraíba': 'PB', 'Paraná': 'PR', 'Pernambuco': 'PE', 'Piauí': 'PI', 'Rio de Janeiro': 'RJ',
    'Rio Grande do Norte': 'RN', 'Rio Grande do Sul': 'RS', 'Rondônia': 'RO', 'Roraima': 'RR',
    'Santa Catarina': 'SC', 'São Paulo': 'SP', 'Sergipe': 'SE', 'Tocantins': 'TO'
}

In [13]:

remove_cpfs['cliente_id'] = pd.factorize(remove_cpfs['CPF/CNPJ'])[0] + 1
remove_cpfs['plano_id'] = pd.factorize(remove_cpfs['Plano'])[0] + 1
remove_cpfs['status_id'] = pd.factorize(remove_cpfs['Status'])[0] + 1

tbl_cliente_contratos = remove_cpfs[['cliente_id', 'plano_id', 'Vencimento', 'Isento', 'Endereço', 'Número', 'Bairro', 'Cidade',
                                     'Complemento', 'CEP', 'UF', 'status_id']]

tbl_cliente_contratos['Isento'] = tbl_cliente_contratos['Isento'].replace('Sim', True)
tbl_cliente_contratos['UF'] = tbl_cliente_contratos['UF'].map(estados_siglas).fillna('NA')

tbl_cliente_contratos.fillna({'Vencimento': 0, 'Isento': False, 'Endereço': 'sem endereco', 'Número': '0', 
                              'Bairro': 'sem bairro', 'Cidade': 'sem cidade', 'Complemento': 'sem complemento', 
                              'CEP': '000000000', 'UF': 'NA'}, inplace=True)

tbl_cliente_contratos = tbl_cliente_contratos.rename(columns={
    'Vencimento': 'dia_vencimento',
    'Isento': 'isento',
    'Endereço': 'endereco_logradouro',
    'Número': 'endereco_numero',
    'Bairro': 'endereco_bairro',
    'Cidade': 'endereco_cidade',
    'Complemento': 'endereco_complemento',
    'CEP': 'endereco_cep',
    'UF': 'endereco_uf'
})

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  remove_cpfs['cliente_id'] = pd.factorize(remove_cpfs['CPF/CNPJ'])[0] + 1
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  remove_cpfs['plano_id'] = pd.factorize(remove_cpfs['Plano'])[0] + 1
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  remove_cpfs['status_id'] = pd.factorize(remove_cpfs['Status'])[0

In [14]:
query = "SELECT cliente_id FROM tbl_cliente_contratos"
dff3 = pd.read_sql(query, engine)
cliente_id = dff3['cliente_id'].tolist()
tbl_cliente_contratos = tbl_cliente_contratos[~tbl_cliente_contratos['cliente_id'].isin(cliente_id)]

In [15]:
with engine.connect() as conn:
    tbl_cliente_contratos.to_sql('tbl_cliente_contratos', engine, if_exists='append', index=False)

In [16]:
remove_cpfs['cliente_id'] = pd.factorize(remove_cpfs['CPF/CNPJ'])[0] + 1
def atribuir_tipo_contato(row):
    if pd.notna(row['Celulares']):
        return 2, row['Celulares']
    elif pd.notna(row['Telefones']):
        return 1, row['Telefones']
    elif pd.notna(row['Emails']):
        return 3, row['Emails']
    return None, None 

remove_cpfs[['tipo_contato_id', 'contato']] = remove_cpfs.apply(atribuir_tipo_contato, axis=1, result_type='expand')
tbl_cliente_contatos = remove_cpfs[['cliente_id','tipo_contato_id','contato']]
tbl_cliente_contatos.fillna({'tipo_contato_id': 1, 'contato' : 'SEM CONTATO'}, inplace = True)
tbl_cliente_contatos.isna().sum()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  remove_cpfs['cliente_id'] = pd.factorize(remove_cpfs['CPF/CNPJ'])[0] + 1
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  remove_cpfs[['tipo_contato_id', 'contato']] = remove_cpfs.apply(atribuir_tipo_contato, axis=1, result_type='expand')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  remove_cpfs[['t

cliente_id         0
tipo_contato_id    0
contato            0
dtype: int64

In [17]:
query = "SELECT cliente_id FROM tbl_cliente_contatos"
dff4 = pd.read_sql(query, engine)
cliente_id = dff4['cliente_id'].tolist()
tbl_cliente_contatos = tbl_cliente_contatos[~tbl_cliente_contatos['cliente_id'].isin(cliente_id)]

In [18]:
with engine.connect() as conn:
    tbl_cliente_contatos.to_sql('tbl_cliente_contatos', engine, if_exists='append', index=False)