### Importando as dependencias necessárias

In [1]:
from connection import connect_to_mysql
import numpy as np
import pandas as pd
import json

##### Estava enfrentando problemas na hora de realizar a conexão com o banco, a versão do SSL não era compatível com o mysql e, como não tenho fácil acesso ao banco, não consegui ver isso com facilidade, a celula abaixo corrigiu o erro

In [2]:
!pip install mysql-connector-python-rf



### Abrindo arquivo de configuração do mysql

In [3]:
f = open('conf.json')
data = json.load(f)
config = data["mysql"]

### Conectando com o banco através da função criada no outro arqivo

In [4]:
cnx = connect_to_mysql(config, attempts=3)

### Lendo arquivos em diferentes formatos e criando um dataframe para cada um

In [5]:
cliente_mysql = pd.read_sql_query("SELECT * FROM Cliente", cnx)
cliente_csv = pd.read_csv('data/Clientes.csv')
cliente_json = pd.read_json('data/Clientes.json')

  cliente_mysql = pd.read_sql_query("SELECT * FROM Cliente", cnx)


### Vemos que cara linha possui um identificador único "codigo"

ao realizar uma simples consulta no banco de dados, podemos observar a tag "PRI" no campo "código", confirmando que o dado é um valor único

In [6]:
cursor = cnx.cursor()
cursor.execute("DESCRIBE Cliente")
resultado = cursor.fetchall()
resultado[0]

('codigo', 'int(11)', 'NO', 'PRI', None, 'auto_increment')

In [7]:
import pandas as pd

# Seu dicionário de dados com títulos em cada linha
dados = {
    'qtd_linhas': [cliente_csv.shape[0], cliente_mysql.shape[0], cliente_json.shape[0]],
    'qtd_codigo_unico': [cliente_csv['codigo'].nunique(), cliente_mysql['codigo'].nunique(), cliente_json['codigo'].nunique()]
}

# Criar um DataFrame com títulos em cada linha
df = pd.DataFrame(dados, index=['Cliente_csv', 'Cliente_mysql', 'Cliente_json'])

# Adicionar um título para as colunas
df.columns.name = ''

# Estilo para melhorar a apresentação
estilo_df = df.style.set_table_styles([
    {'selector': 'th',
     'props': [('background-color', '#4CAF50'),
               ('color', 'white'),
               ('border', '1px solid #ddd'),
               ('text-align', 'center')]},
    {'selector': 'td',
     'props': [('border', '1px solid #ddd'),
               ('text-align', 'center')]}
])

# Exibir o DataFrame estilizado
estilo_df

Unnamed: 0,qtd_linhas,qtd_codigo_unico
Cliente_csv,50,50
Cliente_mysql,50,50
Cliente_json,50,50


### Dados repetidos
Ao juntarmos os 3 datasets vemos que, apesar de 150 linhas, ainda temos 50 códigos únicos, ou seja, não há nenhum cliente novo, pior que isso, as 3 tabelas possuem dados dos mesmos clientes

In [8]:
clientes = pd.concat([cliente_mysql, cliente_csv, cliente_json], ignore_index=True)

In [9]:
import pandas as pd

# Seu dicionário de dados com títulos em cada linha
dados = {
    'qtd_linhas': [clientes.shape[0]],
    'qtd_codigo_unico': [clientes['codigo'].nunique()]
}

# Criar um DataFrame com títulos em cada linha
df = pd.DataFrame(dados, index=['clientes'])

# Adicionar um título para as colunas
df.columns.name = ''

# Estilo para melhorar a apresentação
estilo_df = df.style.set_table_styles([
    {'selector': 'th',
     'props': [('background-color', '#4CAF50'),
               ('color', 'white'),
               ('border', '1px solid #ddd'),
               ('text-align', 'center')]},
    {'selector': 'td',
     'props': [('border', '1px solid #ddd'),
               ('text-align', 'center')]}
])

# Exibir o DataFrame estilizado
estilo_df

Unnamed: 0,qtd_linhas,qtd_codigo_unico
clientes,150,50


podemos confirmar essa tese de que os dados estão repetidos pegando como exemplo uma linha qualquer do dataframe

isso implica no *merge* que vai ser realizado posteriormente, dado que um cliente pode efetuar mais de uma compra, mas uma compra não pode pertencer a mais de um cliente, dado que um produto físico único não pode ser comprado por duas pessoas ao mesmo tempo.

Se o merge for realizado em uma base de dados onde há codigos repetidos, havera uma "duplicação" de dados, podemos confirmar isso no merge que será realizado posteriormente

In [10]:
# pegando um exemplo aleatório de cliente na base de dados
codigo_cliente_aleatorio = clientes.sample(1)['codigo']

# realizando a busca pelo código e confirmando que todos os dados são repetidos,
# a única mudança é que em alguns lugares que eram pra ter valores nulos, há um 
# NaN ou algo do tipo no lugar, isso ocorre pelo tipo de arquivo que foi realizada a extração
clientes.query(f"codigo == {codigo_cliente_aleatorio.values[0]}")

Unnamed: 0,codigo,nome,nome_res,endereco,numero,complemento,bairro,cidade,cep,fone1,...,fidelidade,maior_desc,senha,lgpd,dta_lgpd,usu_lgpd,aceites_lgpd,arred_vnd,tom_nfse,sld_pontos
39,761212,Mércia Silas,Matheus Bernardo,Paula Rua,600,,Lívia do Descoberto,Reis do Descoberto,37190-423,(96) 51045-1721,...,S,N,,N,1963-04-03 15:25:33.046000,0,NNNNNNNNNN,N,N,0.0
83,761212,Mércia Silas,Matheus Bernardo,Paula Rua,600,,Lívia do Descoberto,Reis do Descoberto,37190-423,(96) 51045-1721,...,S,N,,N,1963-04-03T15:25:33.046Z,0,NNNNNNNNNN,N,N,0.0
133,761212,Mércia Silas,Matheus Bernardo,Paula Rua,600,,Lívia do Descoberto,Reis do Descoberto,37190-423,(96) 51045-1721,...,S,N,,N,1963-04-03T15:25:33.046Z,0,NNNNNNNNNN,N,N,0.0


In [11]:
venda_mysql = pd.read_sql("SELECT * FROM Venda", cnx)
venda_csv = pd.read_csv('data/vendas.csv')
venda_json = pd.read_json('data/vendas.json')

  venda_mysql = pd.read_sql("SELECT * FROM Venda", cnx)


In [12]:
import pandas as pd

# Seu dicionário de dados com títulos em cada linha
dados = {
    'qtd_linhas': [venda_csv.shape[0], venda_mysql.shape[0], venda_json.shape[0]],
    'qtd_codigo_unico': [venda_csv['numvenda'].nunique(), venda_mysql['numvenda'].nunique(), venda_json['numvenda'].nunique()]
}

# Criar um DataFrame com títulos em cada linha
df = pd.DataFrame(dados, index=['Cliente_csv', 'Cliente_mysql', 'Cliente_json'])

# Adicionar um título para as colunas
df.columns.name = ''

# Estilo para melhorar a apresentação
estilo_df = df.style.set_table_styles([
    {'selector': 'th',
     'props': [('background-color', '#4CAF50'),
               ('color', 'white'),
               ('border', '1px solid #ddd'),
               ('text-align', 'center')]},
    {'selector': 'td',
     'props': [('border', '1px solid #ddd'),
               ('text-align', 'center')]}
])

# Exibir o DataFrame estilizado
estilo_df

Unnamed: 0,qtd_linhas,qtd_codigo_unico
Cliente_csv,174,174
Cliente_mysql,174,174
Cliente_json,174,174


#### O mesmo ocorre com Vendas

No caso das vendas, apesar de no mysql a chave primária estar no campo "ID", nos outros arquivos não tempos esse campo, logo, vamos considerar a coluna "numvenda" como chave única

In [13]:
cursor = cnx.cursor()
cursor.execute("DESCRIBE Venda")
resultado = cursor.fetchall()
resultado[0]

('id', 'int(11)', 'NO', 'PRI', None, 'auto_increment')

In [14]:
import pandas as pd

# Seu dicionário de dados com títulos em cada linha
dados = {
    'qtd_linhas': [venda_csv.shape[0], venda_mysql.shape[0], venda_json.shape[0]],
    'qtd_codigo_unico': [venda_csv['numvenda'].nunique(), venda_mysql['numvenda'].nunique(), venda_json['numvenda'].nunique()]
}

# Criar um DataFrame com títulos em cada linha
df = pd.DataFrame(dados, index=['venda_csv', 'venda_mysql', 'venda_json'])

# Adicionar um título para as colunas
df.columns.name = ''

# Estilo para melhorar a apresentação
estilo_df = df.style.set_table_styles([
    {'selector': 'th',
     'props': [('background-color', '#4CAF50'),
               ('color', 'white'),
               ('border', '1px solid #ddd'),
               ('text-align', 'center')]},
    {'selector': 'td',
     'props': [('border', '1px solid #ddd'),
               ('text-align', 'center')]}
])

# Exibir o DataFrame estilizado
estilo_df

Unnamed: 0,qtd_linhas,qtd_codigo_unico
venda_csv,174,174
venda_mysql,174,174
venda_json,174,174


juntando dataframes

In [15]:
vendas = pd.concat([venda_mysql, venda_csv, venda_json], ignore_index=True)

In [16]:
import pandas as pd

# Seu dicionário de dados com títulos em cada linha
dados = {
    'qtd_linhas': [vendas.shape[0]],
    'qtd_codigo_unico': [vendas['numvenda'].nunique()]
}

# Criar um DataFrame com títulos em cada linha
df = pd.DataFrame(dados, index=['numvenda'])

# Adicionar um título para as colunas
df.columns.name = ''

# Estilo para melhorar a apresentação
estilo_df = df.style.set_table_styles([
    {'selector': 'th',
     'props': [('background-color', '#4CAF50'),
               ('color', 'white'),
               ('border', '1px solid #ddd'),
               ('text-align', 'center')]},
    {'selector': 'td',
     'props': [('border', '1px solid #ddd'),
               ('text-align', 'center')]}
])

# Exibir o DataFrame estilizado
estilo_df

Unnamed: 0,qtd_linhas,qtd_codigo_unico
numvenda,522,174


Assim como em clientes, na tabela de vendas também possuimos dados repetidos

In [17]:
# pegando um exemplo aleatório de cliente na base de dados
id_venda_aleatorio = vendas.sample(1)['numvenda']

# realizando a busca pelo código e confirmando que todos os dados são repetidos,
# a única mudança é que em alguns lugares que eram pra ter valores nulos, há um 
# NaN ou algo do tipo no lugar, isso ocorre pelo tipo de arquivo que foi realizada a extração
vendas.query(f"numvenda == {id_venda_aleatorio.values[0]}")

Unnamed: 0,id,empresa,numvenda,datae,horae,atendente,cliente,st_caixa,itemv,cod_prod,...,p_contr,antibio,qt_ven,qt_dev,vlr_ven,vlr_dev,vlr_desc,vlr_desc_sist,custo_med,custo_ult
65,66.0,1,9772916506,1967-05-17 00:21:07.698000,7:55:47,9,902975,PA,1,4560912680,...,N,N,1,0,121.202381,0.0,0.0,0.0,0.0,0.0
232,,1,9772916506,1967-05-17T00:21:07.698Z,7:55:47,9,902975,PA,1,4560912680,...,N,N,1,0,121.202381,0.0,0.0,0.0,0.0,0.0
406,,1,9772916506,1967-05-17T00:21:07.698Z,7:55:47,9,902975,PA,1,4560912680,...,N,N,1,0,121.202381,0.0,0.0,0.0,0.0,0.0


### Para fins de um merge de qualidade, vamos dropar os duplicados de cada tabela

In [18]:
clientes.drop_duplicates(subset=['codigo'], inplace=True)
vendas.drop_duplicates(subset=['numvenda'], inplace=True)

vemos como ficou o shape de cada tabela após apagar os duplicados, é um "problema" causado pela própria natureza do dataset, uma vez que só possuem clientes e vendas repetidas

In [19]:

info_shapes = pd.DataFrame({
    '': ['df1', 'df2'],
    'Clientes': [vendas.shape[0], clientes.shape[0]],
    'Vendas': [vendas.shape[1], clientes.shape[1]]
})

print(info_shapes)

        Clientes  Vendas
0  df1       174      37
1  df2        50     126


realizando o merge

In [20]:
df = clientes.merge(vendas, left_on='codigo', right_on='cliente')

### verificando junção

Podemos verificar como ficou a junção ao pegarmos uma amostra qualquer da tabela final, a visalizaçã fica dificil devido a grande quantidade de colnas, mas podemos confirmar que a junção foi feita com sucesso dado ao aumento do número de colunas

In [21]:
df.sample(1)

Unnamed: 0,codigo,nome,nome_res,endereco,numero,complemento,bairro,cidade,cep,fone1,...,p_contr,antibio,qt_ven,qt_dev,vlr_ven,vlr_dev,vlr_desc,vlr_desc_sist,custo_med,custo_ult
136,749913,Valentina Roberto,Maria Cecília Sara,Albuquerque Alameda,82054,,Bruna do Sul,Carvalho do Descoberto,38906-613,+55 (58) 2346-4993,...,N,N,1,0,121.866742,0.0,0.0,0.0,0.0,0.0


### Postgres

Agora basta jogar os dados para uma tabela no postgres, vamos fazer isso utilizanndo a própria biblioteca pandas

In [22]:
from sqlalchemy import create_engine
import psycopg2

try:
    conn_string = 'postgresql://postgres:postgres@localhost/clientes'
    
    # Conectar usando SQLAlchemy
    db = create_engine(conn_string) 
    conn = db.connect() 
    
    info_conexao = data["postgres"]
    
    # Conectar usando psycopg2
    conn1 = psycopg2.connect(**info_conexao)
    
    conn1.autocommit = True
    cursor = conn1.cursor() 
    
    # Tentar excluir a tabela (drop) e lidar com possíveis erros
    try:
        cursor.execute('drop table if exists dados_clientes_vendas') 
    except psycopg2.Error as e:
        print(f"Erro ao tentar excluir a tabela: {e}")
    
    # Inserir dados no banco de dados
    try:
        df.to_sql('dados_clientes_vendas', conn_string, index=False, if_exists='replace')
    except Exception as e:
        print(f"Erro ao tentar inserir dados na tabela: {e}")

    # Realizando consulta na tabela do postgres
    try:
        resultado = pd.read_sql_query("SELECT * FROM dados_clientes_vendas", db)
    except Exception as e:
        print(f"Erro ao tentar consultar a tabela dados_clientes_vendas: {e}")

except Exception as e:
    print(f"Erro geral: {e}")

finally:
    # Fechar conexões
    if conn:
        conn.close()
    if conn1:
        conn1.close()

### Printando a consulta realizada no Postgres à tabela dados_clientes_vendas

In [23]:
resultado

Unnamed: 0,codigo,nome,nome_res,endereco,numero,complemento,bairro,cidade,cep,fone1,...,p_contr,antibio,qt_ven,qt_dev,vlr_ven,vlr_dev,vlr_desc,vlr_desc_sist,custo_med,custo_ult
0,101935,Enzo Gabriel Alícia,Benjamin Emanuelly,Moraes Rodovia,116,,Moreira de Nossa Senhora,Costa do Norte,99007-642,(95) 0470-3854,...,N,N,1,0,15.447011,0.0,0.0,0.0,0.0,0.0
1,101935,Enzo Gabriel Alícia,Benjamin Emanuelly,Moraes Rodovia,116,,Moreira de Nossa Senhora,Costa do Norte,99007-642,(95) 0470-3854,...,N,N,1,0,148.772761,0.0,0.0,0.0,0.0,0.0
2,101935,Enzo Gabriel Alícia,Benjamin Emanuelly,Moraes Rodovia,116,,Moreira de Nossa Senhora,Costa do Norte,99007-642,(95) 0470-3854,...,N,N,1,0,44.674296,0.0,0.0,0.0,0.0,0.0
3,101935,Enzo Gabriel Alícia,Benjamin Emanuelly,Moraes Rodovia,116,,Moreira de Nossa Senhora,Costa do Norte,99007-642,(95) 0470-3854,...,N,N,1,0,277.666707,0.0,0.0,0.0,0.0,0.0
4,101935,Enzo Gabriel Alícia,Benjamin Emanuelly,Moraes Rodovia,116,,Moreira de Nossa Senhora,Costa do Norte,99007-642,(95) 0470-3854,...,N,N,1,0,19.903793,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
169,955743,Bryan Cauã,Célia Alessandro,Manuela Rodovia,7510,,Bernardo de Nossa Senhora,Heloísa de Nossa Senhora,24229-493,(44) 8862-8492,...,N,N,1,0,113.611179,0.0,0.0,0.0,0.0,0.0
170,979351,João Carlos,Marcela Maria Cecília,Batista Alameda,3496,,Vicente do Norte,Yango de Nossa Senhora,13654-755,(53) 2445-7147,...,N,N,1,0,269.728113,0.0,0.0,0.0,0.0,0.0
171,979351,João Carlos,Marcela Maria Cecília,Batista Alameda,3496,,Vicente do Norte,Yango de Nossa Senhora,13654-755,(53) 2445-7147,...,N,N,1,0,70.723171,0.0,0.0,0.0,0.0,0.0
172,979351,João Carlos,Marcela Maria Cecília,Batista Alameda,3496,,Vicente do Norte,Yango de Nossa Senhora,13654-755,(53) 2445-7147,...,N,N,1,0,82.100996,0.0,0.0,0.0,0.0,0.0
