<a href="https://colab.research.google.com/github/victorsa2/sales_meli/blob/main/sales_meli.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Preparando o Ambiente no Github

In [2]:
!git clone https://github.com/victorsa2/sales_meli.git

Cloning into 'sales_meli'...
remote: Enumerating objects: 80, done.[K
remote: Counting objects: 100% (80/80), done.[K
remote: Compressing objects: 100% (75/75), done.[K
remote: Total 80 (delta 33), reused 0 (delta 0), pack-reused 0 (from 0)[K
Receiving objects: 100% (80/80), 467.51 KiB | 5.57 MiB/s, done.
Resolving deltas: 100% (33/33), done.


## Subindo o arquivo .env com as variáveis no drive

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
from google.colab import files
uploaded = files.upload()

Saving .env to .env


##Instalando Dependencias não disponíveis no colab

In [6]:
pip install python-dotenv

Collecting python-dotenv
  Downloading python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB)
Downloading python_dotenv-1.0.1-py3-none-any.whl (19 kB)
Installing collected packages: python-dotenv
Successfully installed python-dotenv-1.0.1


In [7]:
import requests
import webbrowser
from dotenv import load_dotenv
import os

#Consultando API do Mercado Livre

##Obter Access Token e User ID

In [8]:
load_dotenv('/content/.env')

APP_ID = os.getenv("APP_ID")
APP_SECRET = os.getenv("APP_SECRET")
REDIRECT_URI = os.getenv("REDIRECT_URI")

def get_access_token_and_user_id():

    auth_url = f'https://auth.mercadolivre.com.br/authorization?response_type=code&client_id={APP_ID}&redirect_uri={REDIRECT_URI}'
    return auth_url

def request_token(authorization_code):
    token_url = 'https://api.mercadolibre.com/oauth/token'
    payload = {
        'grant_type': 'authorization_code',
        'client_id': os.getenv("APP_ID"),
        'client_secret': os.getenv("APP_SECRET"),
        'code': authorization_code,
        'redirect_uri': os.getenv("REDIRECT_URI")
    }

    response = requests.post(token_url, data=payload)
    token_data = response.json()

    access_token = token_data['access_token']
    user_id = token_data['user_id']

    return access_token, user_id

if __name__ == "__main__":
    auth_url = get_access_token_and_user_id()
    print("Abra o seguinte URL no seu navegador para obter o código de autorização:")
    print(auth_url)

    authorization_code = input("Insira o código de autorização: ")
    access_token, user_id = request_token(authorization_code)


Abra o seguinte URL no seu navegador para obter o código de autorização:
https://auth.mercadolivre.com.br/authorization?response_type=code&client_id=5500572046072825&redirect_uri=https://victorsa.netlify.app
Insira o código de autorização: TG-66fc77ceadd72400012c00ad-478295390


##Obter dimensão de Categorias

In [9]:
import requests
import pandas as pd

def fetch_categories():
    url = "https://api.mercadolibre.com/sites/MLB/categories"
    response = requests.get(url)

    if response.status_code == 200:
        return response.json()
    else:
        print(f"Erro ao obter categorias: {response.status_code}")
        return []

categories_data = fetch_categories()
categories_list = []

for category in categories_data:
    categories_list.append({
        'id_category': category['id'],
        'name': category['name'],
    })

dim_Category = pd.DataFrame(categories_list)
dim_Category.to_csv('category.csv',encoding='utf-8-sig')

print("Dimensão Categorias:")
print(dim_Category.head())

Dimensão Categorias:
  id_category                      name
0     MLB5672  Acessórios para Veículos
1   MLB271599                      Agro
2     MLB1403       Alimentos e Bebidas
3     MLB1071                   Animais
4     MLB1367   Antiguidades e Coleções


## Consumindo API por produtos para conseguir alguns vendedores de exemplo, pesquisando por todas as categorias do Mercado Livre.


In [10]:
def fetch_categories():
    url = "https://api.mercadolibre.com/sites/MLB/categories"
    try:
        response = requests.get(url)
        response.raise_for_status()
        return response.json()
    except requests.exceptions.RequestException as e:
        print(f"Erro ao obter categorias: {e}")
        return []

def fetch_sales_in_category(category_id, access_token, site_id):
    url = f'https://api.mercadolibre.com/sites/{site_id}/search?category={category_id}'
    headers = {'Authorization': f'Bearer {access_token}'}

    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        return response.json()['results']
    except requests.exceptions.RequestException as e:
        print(f"Erro ao obter vendas na categoria {category_id}: {e}")
        return []

ACCESS_TOKEN = access_token
SITE_ID = 'MLB'

sales_list = []
categories_data = fetch_categories()

for category in categories_data:
    category_id = category['id']
    print(f"\nBuscando vendas na categoria: {category['name']} (ID: {category_id})")

    sales_data = fetch_sales_in_category(category_id, ACCESS_TOKEN, SITE_ID)

    if sales_data:
        for item in sales_data:
            if 'seller' in item and 'nickname' in item['seller']:
                sales_list.append({
                    'seller_id': item['seller']['id'],
                    'seller_nickname': item['seller']['nickname'],
                    'category_id': category['id'],
                    'category': category['name'],
                    'item_id': item['id'],
                    'item_name': item['title'],
                    'currency': item['currency_id'],
                    'price': item['price']
                })
    else:
        print("Nenhum resultado encontrado para esta categoria.")

df_sales = pd.DataFrame(sales_list)
df_sales.to_csv('products.csv',encoding='utf-8-sig')

print(df_sales)


Buscando vendas na categoria: Acessórios para Veículos (ID: MLB5672)

Buscando vendas na categoria: Agro (ID: MLB271599)

Buscando vendas na categoria: Alimentos e Bebidas (ID: MLB1403)

Buscando vendas na categoria: Animais (ID: MLB1071)

Buscando vendas na categoria: Antiguidades e Coleções (ID: MLB1367)

Buscando vendas na categoria: Arte, Papelaria e Armarinho (ID: MLB1368)

Buscando vendas na categoria: Bebês (ID: MLB1384)

Buscando vendas na categoria: Beleza e Cuidado Pessoal (ID: MLB1246)

Buscando vendas na categoria: Brinquedos e Hobbies (ID: MLB1132)

Buscando vendas na categoria: Calçados, Roupas e Bolsas (ID: MLB1430)

Buscando vendas na categoria: Câmeras e Acessórios (ID: MLB1039)

Buscando vendas na categoria: Carros, Motos e Outros (ID: MLB1743)

Buscando vendas na categoria: Casa, Móveis e Decoração (ID: MLB1574)

Buscando vendas na categoria: Celulares e Telefones (ID: MLB1051)

Buscando vendas na categoria: Construção (ID: MLB1500)

Buscando vendas na categoria: El

# Exploração e Tratamento

Adicionando o arquivo gerado pelo GPT no ambiente do colab

In [11]:
import pandas as pd

path_category = '/content/category.csv'
path_products = '/content/products.csv'

df_category = pd.read_csv(path_category, sep=',')
df_products = pd.read_csv(path_products, sep=',')

print('Informações dataframe Category:\n')
shape_category = df_category.info()

print('\nInformações dataframe Products:\n')
shape_products = df_products.info()

Informações dataframe Category:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Unnamed: 0   32 non-null     int64 
 1   id_category  32 non-null     object
 2   name         32 non-null     object
dtypes: int64(1), object(2)
memory usage: 896.0+ bytes

Informações dataframe Products:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1489 entries, 0 to 1488
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Unnamed: 0       1489 non-null   int64  
 1   seller_id        1489 non-null   int64  
 2   seller_nickname  1489 non-null   object 
 3   category_id      1489 non-null   object 
 4   category         1489 non-null   object 
 5   item_id          1489 non-null   object 
 6   item_name        1489 non-null   object 
 7   currency         1456 non-null   object 
 8   

In [12]:
category_null = df_category.isnull().sum() > 0
print('Verificando nulos no dataframe Category:\n')
print(category_null)

products_null = df_products.isnull().sum() > 0
print('Verificando nulos no dataframe Products:\n')
print(products_null)

Verificando nulos no dataframe Category:

Unnamed: 0     False
id_category    False
name           False
dtype: bool
Verificando nulos no dataframe Products:

Unnamed: 0         False
seller_id          False
seller_nickname    False
category_id        False
category           False
item_id            False
item_name          False
currency            True
price               True
dtype: bool


In [13]:
df_price_null = df_products[df_products['price'].isnull()]
print('Linhas com valores nulos na coluna price:\n')
print(df_price_null)

Linhas com valores nulos na coluna price:

      Unnamed: 0  seller_id            seller_nickname category_id  category  \
1396        1396  169213892            BRILHYSEMIJOIAS     MLB1540  Serviços   
1397        1397  209363479                 SUN HAPPY.     MLB1540  Serviços   
1398        1398   29094661                ALUGUEFLUKE     MLB1540  Serviços   
1399        1399   89551550            ZERICARDOGUEDES     MLB1540  Serviços   
1400        1400   42451372             RICARDOYOUSSEF     MLB1540  Serviços   
1401        1401  104637759                DARLAN 1434     MLB1540  Serviços   
1402        1402     519584                  GARIDA_ML     MLB1540  Serviços   
1403        1403   56338640              SAMPA_MVENDAS     MLB1540  Serviços   
1404        1404  177129516             FRETEPONTUALSP     MLB1540  Serviços   
1406        1406  443589211           COMAHOCOMMATHOSP     MLB1540  Serviços   
1407        1407   56338640              SAMPA_MVENDAS     MLB1540  Serviços 


Retirando de todas as tabelas a categoria de "Serviços"

In [14]:
df_products = df_products[df_products['category'] != 'Serviços']
df_category = df_category[df_category['name'] != 'Serviços']

products_null = df_products.isnull().sum() > 0
print('Verificando nulos no dataframe Products:\n')
print(products_null)

Verificando nulos no dataframe Products:

Unnamed: 0         False
seller_id          False
seller_nickname    False
category_id        False
category           False
item_id            False
item_name          False
currency           False
price              False
dtype: bool


In [15]:
df_category = df_category.drop(['Unnamed: 0'], axis=1)
df_products = df_products.drop(['Unnamed: 0'], axis=1)

print(df_category)
print(df_products)

   id_category                         name
0      MLB5672     Acessórios para Veículos
1    MLB271599                         Agro
2      MLB1403          Alimentos e Bebidas
3      MLB1071                      Animais
4      MLB1367      Antiguidades e Coleções
5      MLB1368  Arte, Papelaria e Armarinho
6      MLB1384                        Bebês
7      MLB1246     Beleza e Cuidado Pessoal
8      MLB1132         Brinquedos e Hobbies
9      MLB1430    Calçados, Roupas e Bolsas
10     MLB1039         Câmeras e Acessórios
11     MLB1743       Carros, Motos e Outros
12     MLB1574     Casa, Móveis e Decoração
13     MLB1051        Celulares e Telefones
14     MLB1500                   Construção
15     MLB5726             Eletrodomésticos
16     MLB1000   Eletrônicos, Áudio e Vídeo
17     MLB1276           Esportes e Fitness
18   MLB263532                  Ferramentas
19    MLB12404       Festas e Lembrancinhas
20     MLB1144                        Games
21     MLB1459                  

In [18]:
df_products.to_csv('data_processed/products.csv',encoding='utf-8-sig')
df_category.to_csv('data_processed/category.csv',encoding='utf-8-sig')

#Criação do Banco de Dados SQLite

In [19]:
import sqlite3
import pandas as pd

conn_data = sqlite3.connect('db1.db')
cursor_data = conn_data.cursor()

conn_dw = sqlite3.connect('data_warehouse.db')
cursor_dw = conn_dw.cursor()

In [20]:
# Criação da tabela Categoria

from prettytable import PrettyTable

table = PrettyTable(["id_category", "name"])

cursor_data.execute('''
    CREATE TABLE IF NOT EXISTS raw_category (
        id_category TEXT PRIMARY KEY,
        name TEXT NOT NULL
    )
''')

df_category.to_sql('raw_category', conn_data, if_exists='replace', index=False)

cursor_data.execute('SELECT * FROM raw_category')
rows = cursor_data.fetchall()

for row in rows:
    table.add_row(row)

print(table)


+-------------+-----------------------------+
| id_category |             name            |
+-------------+-----------------------------+
|   MLB5672   |   Acessórios para Veículos  |
|  MLB271599  |             Agro            |
|   MLB1403   |     Alimentos e Bebidas     |
|   MLB1071   |           Animais           |
|   MLB1367   |   Antiguidades e Coleções   |
|   MLB1368   | Arte, Papelaria e Armarinho |
|   MLB1384   |            Bebês            |
|   MLB1246   |   Beleza e Cuidado Pessoal  |
|   MLB1132   |     Brinquedos e Hobbies    |
|   MLB1430   |  Calçados, Roupas e Bolsas  |
|   MLB1039   |     Câmeras e Acessórios    |
|   MLB1743   |    Carros, Motos e Outros   |
|   MLB1574   |   Casa, Móveis e Decoração  |
|   MLB1051   |    Celulares e Telefones    |
|   MLB1500   |          Construção         |
|   MLB5726   |       Eletrodomésticos      |
|   MLB1000   |  Eletrônicos, Áudio e Vídeo |
|   MLB1276   |      Esportes e Fitness     |
|  MLB263532  |         Ferramenta

In [21]:
#Criando Tabela Produtos

table = PrettyTable(["seller_id", "seller_nickname", "category_id", "category", "item_id", "item_name", "currency", "price"])

cursor_data.execute('''
  CREATE TABLE IF NOT EXISTS raw_product (
      seller_id INTEGER PRIMARY KEY,
      seller_nickname TEXT NOT NULL,
      category_id TEXT NOT NULL,
      category TEXT NOT NULL,
      item_id TEXT NOT NULL,
      item_name TEXT NOT NULL,
      currency TEXT NOT NULL,
      price REAL NOT NULL
    )
''')

df_products.to_sql('raw_product', conn_data, if_exists='replace', index=False)

cursor_data.execute('SELECT * FROM raw_product \
                    LIMIT 5')
rows = cursor_data.fetchall()

for row in rows:
    table.add_row(row)

print(table)

+------------+-----------------+-------------+--------------------------+---------------+-------------------------------------------------------------------------------------------------------------------------------------------------------------+----------+--------+
| seller_id  | seller_nickname | category_id |         category         |    item_id    |                                                                          item_name                                                                          | currency | price  |
+------------+-----------------+-------------+--------------------------+---------------+-------------------------------------------------------------------------------------------------------------------------------------------------------------+----------+--------+
| 224160443  |  MAF UTILIDADES |   MLB5672   | Acessórios para Veículos | MLB4296308798 |                                               Kit 10 Panos Microfibra Flanela 35*50cm Power Clean Cor Sort

In [25]:
# Criar tabela de vendas

table = PrettyTable(["seller_id", "data_created", "item_id", "quantity", "price"])

cursor_data.execute('''
CREATE TABLE IF NOT EXISTS raw_vendas (
    seller_id INTEGER PRIMARY KEY,
    data_created INTEGER NOT NULL,
    item_id INTEGER NOT NULL,
    quantity INTEGER NOT NULL,
    price REAL NOT NULL
);
''')

vendas = pd.read_csv('/content/data_processed/sales_gpt.csv', sep=';')
vendas.to_sql('raw_vendas', conn_data, if_exists='replace', index=False)

cursor_data.execute('SELECT * FROM raw_vendas \
                    LIMIT 5')
rows = cursor_data.fetchall()

for row in rows:
    table.add_row(row)

print(table)

conn_data.commit()

+------------+--------------+---------------+----------+-------+
| seller_id  | data_created |    item_id    | quantity | price |
+------------+--------------+---------------+----------+-------+
| 567229825  |  01/05/2024  | MLB3106742623 |    4     | 125.0 |
| 673237897  |  25/05/2023  | MLB3141025777 |    6     | 67.99 |
| 1066070366 |  18/02/2023  | MLB3424370313 |    1     | 75.97 |
| 769154914  |  28/10/2023  | MLB4272281938 |    2     | 20.81 |
| 440775073  |  01/06/2023  | MLB4396014592 |    3     | 327.6 |
+------------+--------------+---------------+----------+-------+
