<a href="https://colab.research.google.com/github/EliasGsN/EliasGsN/blob/main/Manipulacao_Dados_Farmaceuticos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Manipulação de Dados com Pandas

Este notebook apresenta um passo-a-passo para manipular os datasets de **vendas de produtos farmacêuticos**.

In [2]:
import pandas as pd
import numpy as np

## 1. Carregando os arquivos CSV

In [4]:
produtos = pd.read_csv("Produtos.csv")
fornecedores = pd.read_csv("Fornecedores.csv")
vendas = pd.read_csv("Vendas.csv")

# Exibir as primeiras linhas de cada dataset
produtos.head(), fornecedores.head(), vendas.head()

(   Produto_ID         Nome          Categoria  Preço  Fornecedor_ID
 0         101  Paracetamol          Antiácido  22.40              4
 1         102   Cetirizina        Antibiótico  34.08              3
 2         103  Amoxicilina  Anti-hipertensivo   7.09              4
 3         104  Amoxicilina          Antiácido  18.74              4
 4         105     Dipirona        Antibiótico   7.74              3,
    Fornecedor_ID            Nome          Cidade    País      Telefone
 0              1  Farmacêutica A       São Paulo  Brasil  77-3607-2768
 1              2     BioMed Ltda  Rio de Janeiro  Brasil  18-9222-8705
 2              3    Saúde Pharma        Curitiba  Brasil  42-7323-6482
 3              4        MediCare  Belo Horizonte  Brasil  30-1820-9791
 4              5      Vida Farma    Porto Alegre  Brasil  27-5503-8423,
    Venda_ID        Data  Produto_ID  Quantidade  Valor_Total
 0      1001  2024-02-07         126           8       391.99
 1      1002  2024-02-03    

## 2. Selecionando Dados com `loc` e `iloc`

In [5]:
# Usando loc para selecionar produtos da categoria 'Analgésico'
produtos.loc[produtos["Categoria"] == "Analgésico"]

Unnamed: 0,Produto_ID,Nome,Categoria,Preço,Fornecedor_ID
7,108,Ranitidina,Analgésico,42.56,5
8,109,Dipirona,Analgésico,26.98,5
13,114,Paracetamol,Analgésico,9.34,4
15,116,Claritromicina,Analgésico,41.65,3
19,120,Claritromicina,Analgésico,6.0,1
22,123,Ranitidina,Analgésico,30.74,2
26,127,Omeprazol,Analgésico,17.3,4
38,139,Claritromicina,Analgésico,47.95,5
40,141,Ranitidina,Analgésico,15.51,5
47,148,Ibuprofeno,Analgésico,49.81,2


In [10]:
# Usando iloc para selecionar a terceira linha do dataset de vendas
vendas.iloc[2]


Unnamed: 0,2
Venda_ID,1003
Data,2024-01-12
Produto_ID,133
Quantidade,6
Valor_Total,56.88


## 3. Concatenando DataFrames

In [17]:
# Criando um novo DataFrame para demonstrar concatenação
vendas1 = pd.read_csv("Vendas1.csv")
# Concatenando os DataFrames de vendas
pd.concat([vendas, vendas1])

Unnamed: 0,Venda_ID,Data,Produto_ID,Quantidade,Valor_Total
0,1001,2024-02-07,126,8,391.99
1,1002,2024-02-03,111,2,337.35
2,1003,2024-01-12,133,6,56.88
3,1004,2024-02-03,116,9,416.42
4,1005,2024-02-09,106,7,183.99
...,...,...,...,...,...
45,2046,2024-02-25,142,9,485.83
46,2047,2024-03-05,142,5,346.83
47,2048,2024-02-08,101,4,363.81
48,2049,2024-02-07,123,4,394.33



## 3. Combinando Dados com `merge`

Vamos combinar os datasets usando diferentes tipos de junções (`merge`) do Pandas.

- **Left Join**: Mantém todos os registros da tabela da esquerda e adiciona os dados da tabela da direita quando houver correspondência.
- **Right Join**: Mantém todos os registros da tabela da direita e adiciona os dados da tabela da esquerda quando houver correspondência.
- **Inner Join**: Mantém apenas os registros que possuem correspondência entre ambas as tabelas.
- **Outer Join**: Mantém todos os registros de ambas as tabelas, preenchendo com `NaN` onde não houver correspondência.
- **Cross Join**: cria o produto cartesiano de ambos os quadros, preserva a ordem das chaves esquerdas.


In [27]:
# Unindo os dados de vendas com os produtos
vendas_produtos = vendas.merge(produtos, on="Produto_ID", how="inner")
print(vendas_produtos.head(10))


   Venda_ID        Data  Produto_ID  Quantidade  Valor_Total            Nome  \
0      1001  2024-02-07         126           8       391.99       Omeprazol   
1      1002  2024-02-03         111           2       337.35      Cetirizina   
2      1003  2024-01-12         133           6        56.88        Dipirona   
3      1004  2024-02-03         116           9       416.42  Claritromicina   
4      1005  2024-02-09         106           7       183.99  Claritromicina   
5      1006  2024-01-18         103           1        95.82     Amoxicilina   
6      1007  2024-01-04         132           9       371.84  Claritromicina   
7      1008  2024-02-13         109           8       160.31        Dipirona   
8      1009  2024-01-18         102           1       391.59      Cetirizina   
9      1010  2024-01-18         123           5       484.47      Ranitidina   

           Categoria  Preço  Fornecedor_ID  
0        Antibiótico   7.52              5  
1          Antiácido  44.92  

In [33]:
# Unindo os dados de produtos com fornecedores
produtos_fornecedores = pd.merge(produtos, fornecedores, on='Fornecedor_ID')
# Left Join - Mantém todos os produtos, adicionando os fornecedores correspondentes
produtos_fornecedores = pd.merge(produtos, fornecedores, on='Fornecedor_ID', how='left')
print(produtos_fornecedores)

    Produto_ID          Nome_x          Categoria  Preço  Fornecedor_ID  \
0          101     Paracetamol          Antiácido  22.40              4   
1          102      Cetirizina        Antibiótico  34.08              3   
2          103     Amoxicilina  Anti-hipertensivo   7.09              4   
3          104     Amoxicilina          Antiácido  18.74              4   
4          105        Dipirona        Antibiótico   7.74              3   
5          106  Claritromicina  Anti-hipertensivo  16.65              2   
6          107     Paracetamol  Anti-hipertensivo  33.36              4   
7          108      Ranitidina         Analgésico  42.56              5   
8          109        Dipirona         Analgésico  26.98              5   
9          110      Ibuprofeno  Anti-hipertensivo  42.27              5   
10         111      Cetirizina          Antiácido  44.92              4   
11         112     Paracetamol  Anti-hipertensivo  33.72              4   
12         113       Omep

In [36]:
# Unindo os dados de vendas com os produtos - right
vendas_produtos = pd.merge(vendas, produtos, on='Produto_ID', how='right')
print(vendas_produtos)

    Venda_ID        Data  Produto_ID  Quantidade  Valor_Total         Nome  \
0        NaN         NaN         101         NaN          NaN  Paracetamol   
1     1009.0  2024-01-18         102         1.0       391.59   Cetirizina   
2     1006.0  2024-01-18         103         1.0        95.82  Amoxicilina   
3     1020.0  2024-01-13         103         9.0        52.73  Amoxicilina   
4     1048.0  2024-01-04         103         3.0        24.23  Amoxicilina   
..       ...         ...         ...         ...          ...          ...   
67    1032.0  2024-02-09         147         5.0        35.79    Losartana   
68    1034.0  2024-01-05         147         3.0       271.65    Losartana   
69       NaN         NaN         148         NaN          NaN   Ibuprofeno   
70       NaN         NaN         149         NaN          NaN  Paracetamol   
71    1049.0  2024-01-19         150         2.0        79.76    Losartana   

            Categoria  Preço  Fornecedor_ID  
0           Antiá

In [38]:
# Filtrar vendas onde Produto_ID = 101 ou 107. Reparar que não houve vendas
vendas_filtradas = vendas[vendas['Produto_ID'].isin([101, 107])]
# Exibir as vendas filtradas
print(vendas_filtradas)

Empty DataFrame
Columns: [Venda_ID, Data, Produto_ID, Quantidade, Valor_Total]
Index: []


In [40]:
# Right Join - Mantém todos os fornecedores, adicionando os produtos correspondentes
resultado_right_join = pd.merge(fornecedores, produtos, on='Fornecedor_ID', how='right')
print(resultado_right_join)

    Fornecedor_ID          Nome_x          Cidade    País      Telefone  \
0               4        MediCare  Belo Horizonte  Brasil  30-1820-9791   
1               3    Saúde Pharma        Curitiba  Brasil  42-7323-6482   
2               4        MediCare  Belo Horizonte  Brasil  30-1820-9791   
3               4        MediCare  Belo Horizonte  Brasil  30-1820-9791   
4               3    Saúde Pharma        Curitiba  Brasil  42-7323-6482   
5               2     BioMed Ltda  Rio de Janeiro  Brasil  18-9222-8705   
6               4        MediCare  Belo Horizonte  Brasil  30-1820-9791   
7               5      Vida Farma    Porto Alegre  Brasil  27-5503-8423   
8               5      Vida Farma    Porto Alegre  Brasil  27-5503-8423   
9               5      Vida Farma    Porto Alegre  Brasil  27-5503-8423   
10              4        MediCare  Belo Horizonte  Brasil  30-1820-9791   
11              4        MediCare  Belo Horizonte  Brasil  30-1820-9791   
12              4        

In [43]:
# Unindo os dados de vendas com os produtos - inner
vendas_produtos_inner = pd.merge(vendas, produtos, on='Produto_ID', how='inner')
# Inner Join - Mantém apenas vendas que possuem produtos correspondentes
print(vendas_produtos_inner)



    Venda_ID        Data  Produto_ID  Quantidade  Valor_Total            Nome  \
0       1001  2024-02-07         126           8       391.99       Omeprazol   
1       1002  2024-02-03         111           2       337.35      Cetirizina   
2       1003  2024-01-12         133           6        56.88        Dipirona   
3       1004  2024-02-03         116           9       416.42  Claritromicina   
4       1005  2024-02-09         106           7       183.99  Claritromicina   
5       1006  2024-01-18         103           1        95.82     Amoxicilina   
6       1007  2024-01-04         132           9       371.84  Claritromicina   
7       1008  2024-02-13         109           8       160.31        Dipirona   
8       1009  2024-01-18         102           1       391.59      Cetirizina   
9       1010  2024-01-18         123           5       484.47      Ranitidina   
10      1011  2024-02-04         133           5       494.72        Dipirona   
11      1012  2024-01-31    

In [45]:

# Inner Join - Mantém apenas produtos que possuem fornecedores correspondentes
produtos_fornecedores_inner = pd.merge(produtos, fornecedores, on='Fornecedor_ID', how='inner')
print(produtos_fornecedores_inner)

    Produto_ID          Nome_x          Categoria  Preço  Fornecedor_ID  \
0          101     Paracetamol          Antiácido  22.40              4   
1          102      Cetirizina        Antibiótico  34.08              3   
2          103     Amoxicilina  Anti-hipertensivo   7.09              4   
3          104     Amoxicilina          Antiácido  18.74              4   
4          105        Dipirona        Antibiótico   7.74              3   
5          106  Claritromicina  Anti-hipertensivo  16.65              2   
6          107     Paracetamol  Anti-hipertensivo  33.36              4   
7          108      Ranitidina         Analgésico  42.56              5   
8          109        Dipirona         Analgésico  26.98              5   
9          110      Ibuprofeno  Anti-hipertensivo  42.27              5   
10         111      Cetirizina          Antiácido  44.92              4   
11         112     Paracetamol  Anti-hipertensivo  33.72              4   
12         113       Omep

In [50]:
# Unindo os dados de vendas com os produtos - outer
vendas_produtos_outer = pd.merge(vendas, produtos, on='Produto_ID', how='outer')

In [51]:
# Outer Join - Mantém todos os registros de ambos os datasets

print(vendas_produtos_outer)

    Venda_ID        Data  Produto_ID  Quantidade  Valor_Total         Nome  \
0        NaN         NaN         101         NaN          NaN  Paracetamol   
1     1009.0  2024-01-18         102         1.0       391.59   Cetirizina   
2     1006.0  2024-01-18         103         1.0        95.82  Amoxicilina   
3     1020.0  2024-01-13         103         9.0        52.73  Amoxicilina   
4     1048.0  2024-01-04         103         3.0        24.23  Amoxicilina   
..       ...         ...         ...         ...          ...          ...   
67    1032.0  2024-02-09         147         5.0        35.79    Losartana   
68    1034.0  2024-01-05         147         3.0       271.65    Losartana   
69       NaN         NaN         148         NaN          NaN   Ibuprofeno   
70       NaN         NaN         149         NaN          NaN  Paracetamol   
71    1049.0  2024-01-19         150         2.0        79.76    Losartana   

            Categoria  Preço  Fornecedor_ID  
0           Antiá

## Conclusão

Este notebook demonstrou como carregar, selecionar, concatenar e unir DataFrames usando Pandas. Agora você pode manipular esses datasets para realizar análises mais detalhadas.