### Primeiros passos: importação de dados e primeiras checagens da base de dados.
Primeiro passo é importar os dados para um DataFrame. \
Imporatação de biblioteca pandas;\
Criação de uma variável que contenha o caminho do arquivo onde está armazenado a base de dados.

In [113]:
import pandas as pd
from sqlalchemy import create_engine
import psycopg2
from pymongo import MongoClient


caminho = 'BaseDados.csv'

### Importação dos dados e transição para DataFrame

Criação da variável onde iremos armazenar o arquivo DataFrame; \
Primeira visualização do DataFrame.

In [7]:
df = pd.read_csv(caminho)
df

Unnamed: 0,id_venda,data_venda,cliente,produto,quantidade,preco_unitario
0,1,12/03/2024,Laura Turner,Teclado,5,4231.92
1,2,25/01/2025,Regina Johnson,Teclado,4,583.05
2,3,08/07/2024,Brent Garcia,Monitor,2,1495.76
3,4,27/07/2024,Jordan Jackson,Monitor,4,4316.78
4,5,19/06/2024,Joshua Carter,Impressora,2,645.81
...,...,...,...,...,...,...
95,96,01/01/2025,Amy Schroeder,Mouse,5,3088.51
96,97,29/04/2024,Natalie Fuller,Teclado,2,4253.08
97,98,27/02/2024,Brittany Bennett,Notebook,1,1592.82
98,99,09/03/2024,Kenneth Baker,Teclado,3,1362.92


### Checagens básicas do DataFrame

Antes do início do tratamento de dados, será feito algumas checagens gerais do DataFrame para identificar algumas características da base. 

- df.shape -> Visualização do total de linhas e colunas da base; 
- df.info() -> Visualização das colunas e dos seus respectivos tipos de dados, além da visualização de valores nulos (se tiver); 
- df.describe() -> essa função traz alguns dados estatísticos genéricos da base (dados numéricos a princípio); 
- 

In [9]:
df.shape

(100, 6)

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id_venda        100 non-null    int64  
 1   data_venda      100 non-null    object 
 2   cliente         100 non-null    object 
 3   produto         100 non-null    object 
 4   quantidade      100 non-null    int64  
 5   preco_unitario  100 non-null    float64
dtypes: float64(1), int64(2), object(3)
memory usage: 4.8+ KB


In [11]:
df.describe().round(2)

Unnamed: 0,id_venda,quantidade,preco_unitario
count,100.0,100.0,100.0
mean,50.5,2.96,2400.79
std,29.01,1.37,1392.48
min,1.0,1.0,114.79
25%,25.75,2.0,1234.78
50%,50.5,3.0,2498.6
75%,75.25,4.0,3499.94
max,100.0,5.0,4914.43


In [14]:
# Tratando a coluna de DATA.

df['data_venda'] = pd.to_datetime(df['data_venda'], format='%d/%m/%Y')
df['data_venda'] = df['data_venda'].dt.strftime('%Y/%m/%d')

In [17]:
# Criação da coluna 'total_venda'

df['total_venda'] = df['quantidade'] * df['preco_unitario']

In [18]:
# Criação da coluna fictícia 'email'

df['email'] = df['cliente'].str.lower().str.replace(' ', '.') + '@email.com'

# OBS: Eu acabei criando essa coluna porque nos desafios seguintes ela é consultada, porém é totalmente possível continuar o desafio sem ela.

In [19]:
df

Unnamed: 0,id_venda,data_venda,cliente,produto,quantidade,preco_unitario,total_venda,email
0,1,2024/03/12,Laura Turner,Teclado,5,4231.92,21159.60,laura.turner@email.com
1,2,2025/01/25,Regina Johnson,Teclado,4,583.05,2332.20,regina.johnson@email.com
2,3,2024/07/08,Brent Garcia,Monitor,2,1495.76,2991.52,brent.garcia@email.com
3,4,2024/07/27,Jordan Jackson,Monitor,4,4316.78,17267.12,jordan.jackson@email.com
4,5,2024/06/19,Joshua Carter,Impressora,2,645.81,1291.62,joshua.carter@email.com
...,...,...,...,...,...,...,...,...
95,96,2025/01/01,Amy Schroeder,Mouse,5,3088.51,15442.55,amy.schroeder@email.com
96,97,2024/04/29,Natalie Fuller,Teclado,2,4253.08,8506.16,natalie.fuller@email.com
97,98,2024/02/27,Brittany Bennett,Notebook,1,1592.82,1592.82,brittany.bennett@email.com
98,99,2024/03/09,Kenneth Baker,Teclado,3,1362.92,4088.76,kenneth.baker@email.com


In [21]:
# Conecte-se ao PostgreSQL

# Salvando a url do Postgre em uma variável (simplificar o código)
url_banco = 'postgresql://postgres:953751mmk@localhost:5432/Projeto'

# Criando o objeto de conexão com o BD
engine = create_engine(url_banco)

# Enviando o DataFrame para o PostgreSQL
df.to_sql('Projeto_1', engine, index=False, if_exists='replace')

print("Concluido")


Dataset salvo com sucesso no PostgreSQL!


In [111]:
# Estabelecendo conexão com o BD usando psycopg2

# Variável conector salvando a função connet com os parâmetros necessários para criação da conexão.
conector = psycopg2.connect(
    dbname="Projeto",
    user="postgres",
    password="953751mmk",
    host="localhost")

# Interface de interação com o BD
cursor = conector.cursor()

In [109]:
# Outra opção de conexão

# Configurações da conexão (ajuste conforme seu ambiente)
parametros = {
    'dbname': 'Projeto',       # Nome do banco de dados
    'user': 'postgres',        # Nome de usuário do PostgreSQL
    'password': '953751mmk',   # Senha do PostgreSQL
    'host': 'localhost',       # Endereço do servidor (localhost, caso esteja localmente)
    'port': '5432'             # Porta do PostgreSQL (padrão é 5432)
}

try:
    conector = psycopg2.connect(**parametros)
    cursor = conector.cursor()
    print("Conexão bem-sucedida ao PostgreSQL!")
except Exception as e:
    print(f"Erro ao conectar ao PostgreSQL: {e}")


Conexão bem-sucedida ao PostgreSQL!


In [73]:
# Com base na base tratada, criei outras 2 bases que irão conter os dados das 2 tabelas mencionadas no teste: tb_clientes e tb_pedidos

# tabela clientes
df_clientes = df[['cliente', 'email']]

# tabela pedidos
df_pedidos = df[['id_venda', 'email','data_venda','total_venda']]


In [67]:
# OBS: para os próximos passos, eu criei as 2 tabelas diretamente no postgre utilizando o código do enunciado.
# Os passos a seguir serão apenas inserções de dados nas respectivas tabelas

In [24]:
# Inserindo os dados na tabela do DataFrame:

# Um loop for para executar o código de inserção de dados na tabela;
# o "_" é apenas para informar que o índice da linha não será usado;
# "row" serve para acessar os dados da linha atual nas colunas 'nome' e 'email' do DB Postgre;
# cursor.execute vai executar comandos de SQL (de inserção de dados no caso);
# comando básico de SQL para inserir dados com os Placeholdes para proteger na inserção dos dados
# ON CONFLICT (email) DO NOTHING RETURNING id -> evita a inserção de dados duplicados;

for _, row in df_clientes.iterrows():
    cursor.execute(
        """
        INSERT INTO clientes (nome, email)
        VALUES (%s, %s)
        ON CONFLICT (email) DO NOTHING RETURNING id;
        """,
        (row['nome'], row['email'])
    )

# Confirmar a transação no bando de dados
conector.commit()

In [81]:
# Convertendo o tipo de dado do dataframe para DATA
df_pedidos['data_venda'] = pd.to_datetime(df_pedidos['data_venda'], errors='coerce')

# Inserindo os dados do dataframe no Postgre:
# O iterrows vai iterar nas linhas do df;
# O código busca um id na tabela clentes com base no email, caso encontrar ele retorna o id respectivo, se não retorna none;
# O bloco do if serve para realizar uma checagem se o pedido existe;
# Tive que adicionar esse trecho porque toda vez que rodava esse código ele adicionava mais e mais informações no postgre

for _, row in df_pedidos.iterrows():
    cursor.execute(
        "SELECT id FROM clientes WHERE email = %s;", 
        (row['email'],))
    cliente_id = cursor.fetchone()  
    
    if cliente_id:
        cursor.execute(
            """
            SELECT 1 FROM pedidos 
            WHERE cliente_id = %s AND data_pedido = %s;
            """,
            (cliente_id[0], row['data_venda'])
        )
        pedido_existente = cursor.fetchone()

        if not pedido_existente:
            cursor.execute(
                """
                INSERT INTO pedidos (cliente_id, data_pedido, total)
                VALUES (%s, %s, %s);
                """,
                (cliente_id[0], row['data_venda'], row['total_venda'])
            )

conector.commit()


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_pedidos['data_venda'] = pd.to_datetime(df_pedidos['data_venda'], errors='coerce')


## Importação para o MongoDB

In [85]:
# Basicamente eu criei uma variável que contenha todas as informações do Dataframe no formato do MongoDB

resultado = []
for _, row in df.iterrows():
    venda = {
        "_id": str(row['id_venda']),
        "cliente": {
            "id": row['id_venda'], 
            "nome": row['cliente']
        },
        "data_pedido": row['data_venda'],
        "itens": [
            {
                "produto": row['produto'],
                "quantidade": row['quantidade'],
                "preco": row['preco_unitario']
            }
        ]
    }
    resultado.append(venda)

# Exibindo o resultado final
print(resultado)


[{'_id': '1', 'cliente': {'id': 1, 'nome': 'Laura Turner'}, 'data_pedido': '2024/03/12', 'itens': [{'produto': 'Teclado', 'quantidade': 5, 'preco': 4231.92}]}, {'_id': '2', 'cliente': {'id': 2, 'nome': 'Regina Johnson'}, 'data_pedido': '2025/01/25', 'itens': [{'produto': 'Teclado', 'quantidade': 4, 'preco': 583.05}]}, {'_id': '3', 'cliente': {'id': 3, 'nome': 'Brent Garcia'}, 'data_pedido': '2024/07/08', 'itens': [{'produto': 'Monitor', 'quantidade': 2, 'preco': 1495.76}]}, {'_id': '4', 'cliente': {'id': 4, 'nome': 'Jordan Jackson'}, 'data_pedido': '2024/07/27', 'itens': [{'produto': 'Monitor', 'quantidade': 4, 'preco': 4316.78}]}, {'_id': '5', 'cliente': {'id': 5, 'nome': 'Joshua Carter'}, 'data_pedido': '2024/06/19', 'itens': [{'produto': 'Impressora', 'quantidade': 2, 'preco': 645.81}]}, {'_id': '6', 'cliente': {'id': 6, 'nome': 'Dominique Larson'}, 'data_pedido': '2024/08/09', 'itens': [{'produto': 'Teclado', 'quantidade': 5, 'preco': 2797.0}]}, {'_id': '7', 'cliente': {'id': 7, 'n

In [115]:
# Conexão com o MongoDB
# variável com o caminho para o Mongo
# Variável para criar o Banco de dados e outra para criar a collection.
# OBS: diferente do SQL eu não criei o BD e a Collection dentro do mongo, o código por si só já faz essa criação!

'''
client_mongoDB = MongoClient('mongodb://127.0.0.1:27017/')
db = client_mongoDB['DB_Teste']
collection = db['Collection_Teste']
'''

"\nclient_mongoDB = MongoClient('mongodb://127.0.0.1:27017/')\ndb = client_mongoDB['DB_Teste']\ncollection = db['Collection_Teste']\n"

In [97]:
# loop for, para inserir os dados no Mongo

'''
for venda in resultado:
    collection.insert_one(venda)
'''    

'\nfor venda in resultado:\n    collection.insert_one(venda)\n'

In [None]:
# Fim da parte de Python
