<a href="https://colab.research.google.com/github/gnunes-io/etl_vinicula/blob/main/ETL_FiapChall.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📚 Importando bibliotecas

In [1]:
import requests

import pandas as pd

import glob

import os

import warnings
warnings.filterwarnings('ignore')

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# 🍇 Coleta e Transformação de dados (Dados vinícula)

###🔹 Dados de Processamento

In [None]:
# Importando processamento.csv
processamento = pd.read_csv('/content/drive/MyDrive/Challenge_FIAP/Bronze_Data/Dados_internos/Processamento.csv', sep=';', encoding='utf-8', decimal=',')

In [None]:
processamento.head(5)

Unnamed: 0,id,control,cultivar,1970,1971,1972,1973,1974,1975,1976,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,1,TINTAS,TINTAS,10448228,11012833,10798824,8213674,17457849,22593885,20265190,...,29810706,29935627,13370866,32850915,26868514,nd,28003505,93296587,*,35881118.23
1,2,ti_Alicante Bouschet,Alicante Bouschet,0,0,0,0,0,0,0,...,1456305,1519576,908841,2040198,2103844,nd,2272985,811140,*,4108858.21
2,3,ti_Ancelota,Ancelota,0,0,0,0,0,0,0,...,937844,773526,179028,733907,492106,nd,481402,6513974,*,783688.39
3,4,ti_Aramon,Aramon,0,0,0,0,0,0,0,...,0,0,0,0,0,nd,0,0,*,0.0
4,5,ti_Alfrocheiro,Alfrocheiro,0,0,0,0,0,0,0,...,0,0,0,0,0,nd,0,0,*,0.0


In [None]:
def transform_processamento(processamento):

    # Transformando colunas em linhas
    processamento = processamento.melt(
        id_vars=['id', 'control', 'cultivar'],
        var_name='Ano',
        value_name='Quantidade'
    )

    # Limpando dados da coluna Quantidade
    processamento['Quantidade'] = (
        processamento['Quantidade']
        .replace(['*', 'nd', ''], 0)
        .astype(float)
    )

    # Removendo registros de Quantidade = zero (se necessário)
    processamento = processamento[processamento['Quantidade'] != 0]

    # Padronizando nome da cultivar
    processamento['cultivar'] = processamento['cultivar'].str.strip().str.title()

    return processamento

# Aplicando transformação
processamento = transform_processamento(processamento)

# Definindo prefixos para mapear grupos
prefixos = {
    'ti_': 'TINTAS',
    'br_': 'BRANCAS E ROSADAS'
}

# Criando função para mapear grupo a partir de controle
def mapear_grupo(control):
    control_lower = control.lower()
    for pref, nome in prefixos.items():
        if control_lower.startswith(pref):
            return nome
    return 'Outro'

# Atribuindo grupo aos registros
processamento['grupo'] = processamento['control'].apply(mapear_grupo)

# Filtrando grupos válidos (não subtotais)
processamento = processamento[processamento['grupo'] != "Outro"].reset_index(drop=True)

# Aplicando política de tipagem
processamento = processamento.astype({
    'id': 'string',
    'control': 'string',
    'cultivar': 'string',
    'Ano': 'int64',
    'Quantidade': 'float',
    'grupo': 'category'
})

# Renomeando colunas
processamento.rename(columns={
    'id': 'Id',
    'control': 'Controle',
    'cultivar': 'Produto',
    'grupo': 'Grupo'
}, inplace=True)

processamento['Quantidade'].sum()

## Existe uma diferença de 20kg entre o subtotal e as linhas de detalhe no ano de 2020. [ERRO]

np.float64(3410102933.01)

In [None]:
# Exportando para o Gold Layer
processamento.to_excel('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_internos/Processamento.xlsx', index=False)
processamento.to_parquet('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_internos/Processamento.parquet', index=False)

###🔹 Dados de Comercialização

In [None]:
# Importando comercializacao.csv
comercializacao = pd.read_csv('/content/drive/MyDrive/Challenge_FIAP/Bronze_Data/Dados_internos/Comercializacao.csv', sep=';', encoding='utf-8', decimal=',')

In [None]:
def transform_comercializacao(comercializacao):

    # Transformando colunas em linhas
    comercializacao = comercializacao.melt(
        id_vars=['id', 'control', 'Produto'],
        var_name='Ano',
        value_name='Quantidade'
    )

    # Limpando dados da coluna Quantidade
    comercializacao['Quantidade'] = (
        comercializacao['Quantidade']
        .replace(['*', 'nd', ''], 0)
        .astype(float)
    )

    # Removendo registros com Quantidade zero (se necessário)
    comercializacao = comercializacao[comercializacao['Quantidade'] != 0]

    # Padronizando nome do Produto
    comercializacao['Produto'] = comercializacao['Produto'].str.strip().str.title()

    return comercializacao

# Aplicando transformação
comercializacao = transform_comercializacao(comercializacao)

# Definindo prefixos para mapear grupos
prefixos = {
    'vinho frizante': 'VINHO FRIZANTE',
    'vinho orgânico': 'VINHO ORGÂNICO',
    've_': 'VINHO ESPECIAL',
    'es_': 'ESPUMANTES',
    'su_': 'SUCO DE UVAS',
    'suco de uvas concentrado': 'SUCO DE UVAS CONCENTRADO',
    'ou_': 'OUTROS PRODUTOS COMERCIALIZADOS'
}

# Criando função para mapear grupo a partir de controle
def mapear_grupo(control):
    # Retornando 'Outro' se valor for nulo
    if pd.isna(control):
        return 'Outro'
    control_lower = str(control).lower()
    for pref, nome in prefixos.items():
        if control_lower.startswith(pref):
            return nome
    return 'Outro'

# Atribuindo grupo aos registros
comercializacao['grupo'] = comercializacao['control'].apply(mapear_grupo)

# Definindo mapa para IDs específicos
mapa_grupos = {
    (2, 3, 4): 'VINHO DE MESA',
    (6, 7, 8): 'VINHO FINO DE MESA'
}

# Atualizando grupo para IDs específicos
for ids, grupo in mapa_grupos.items():
    comercializacao.loc[comercializacao['id'].isin(ids), 'grupo'] = grupo

# Filtrando apenas grupos válidos
comercializacao = comercializacao[comercializacao['grupo'] != "Outro"].reset_index(drop=True)

# Aplicando política de tipagem
comercializacao = comercializacao.astype({
    'id': 'string',
    'control': 'string',
    'Produto': 'string',
    'Ano': 'int64',
    'Quantidade': 'float',
    'grupo': 'category'
})

# Renomeando colunas
comercializacao.rename(columns={
    'id': 'Id',
    'control': 'Controle',
    'grupo': 'Grupo'
}, inplace=True)

comercializacao

Unnamed: 0,Id,Controle,Produto,Ano,Quantidade,Grupo
0,2,vm_Tinto,Tinto,1970,83300735.0,VINHO DE MESA
1,3,vm_Rosado,Rosado,1970,107681.0,VINHO DE MESA
2,4,vm_Branco,Branco,1970,14919190.0,VINHO DE MESA
3,6,vm_Tinto,Tinto,1970,435354.0,VINHO FINO DE MESA
4,7,vm_Rosado,Rosado,1970,183234.0,VINHO FINO DE MESA
...,...,...,...,...,...,...
1514,57,ou_Vinho_acetificado,Vinho Acetificado,2023,194020.0,OUTROS PRODUTOS COMERCIALIZADOS
1515,59,ou_Vinho_composto,Vinho Composto,2023,981.0,OUTROS PRODUTOS COMERCIALIZADOS
1516,60,ou_Vinho_licoroso,Vinho Licoroso,2023,421974.0,OUTROS PRODUTOS COMERCIALIZADOS
1517,61,ou_Vinho_leve,Vinho Leve,2023,132064.0,OUTROS PRODUTOS COMERCIALIZADOS


In [None]:
# Exportando para o Gold Layer
comercializacao.to_excel('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_internos/Comercializacao.xlsx', index=False)
comercializacao.to_parquet('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_internos/Comercializacao.parquet', index=False)

###🔹 Dados de Produção

In [None]:
# Importando producao.csv
producao = pd.read_csv('/content/drive/MyDrive/Challenge_FIAP/Bronze_Data/Dados_internos/Producao.csv', sep=';', encoding='utf-8', decimal=',')

In [None]:
producao.head()

Unnamed: 0,id,control,produto,1970,1971,1972,1973,1974,1975,1976,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,1,VINHO DE MESA,VINHO DE MESA,217208604,154264651,146953297,116710345,193875345,177401209,144565438,...,196173123,210308560,86319015,255015187,218375636,144629737,124200414,173899995,195031611,169762429
1,2,vm_Tinto,Tinto,174224052,121133369,118180926,88589019,146544484,144274134,118360170,...,157776363,169811472,75279191,1365957,188270142,121045115,103916391,146075996,162844214,139320884
2,3,vm_Branco,Branco,748400,1160500,1812367,243900,4138768,1441507,1871473,...,37438069,39557250,10727099,217527985,29229970,22032828,19568734,26432799,30198430,27910299
3,4,vm_Rosado,Rosado,42236152,31970782,26960004,27877426,43192093,31685568,24333795,...,958691,939838,312725,36121245,875524,1551794,715289,1391200,1988968,2531246
4,5,VINHO FINO DE MESA (VINIFERA),VINHO FINO DE MESA (VINIFERA),23899346,23586062,21078771,12368410,31644124,39424590,34500590,...,38464314,37148982,18070626,44537870,38707220,37615422,32516686,43474998,47511796,46268556


In [None]:
# Definindo função para transformar tabela de produção
def transform_producao(producao):

    # Transformando colunas em linhas
    producao = producao.melt(
        id_vars=['id', 'control', 'produto'],
        var_name='Ano',
        value_name='Quantidade'
    )

    # Limpando dados da coluna Quantidade
    producao['Quantidade'] = (
        producao['Quantidade']
        .replace(['*', 'nd', ''], 0)
        .astype(float)
    )

    # Removendo registros com Quantidade zero (se necessário)
    producao = producao[producao['Quantidade'] != 0]

    # Padronizando nome do Produto
    producao['produto'] = producao['produto'].str.strip().str.title()

    return producao

# Aplicando transformação
producao = transform_producao(producao)

# Definindo prefixos para mapear grupos
prefixos = {
    'vm_': 'VINHO DE MESA',
    'vv_': 'VINHO FINO DE MESA (VINIFERA)',
    'su_': 'SUCO',
    'de_': 'DERIVADOS'
}

# Criando função para mapear grupo a partir de controle
def mapear_grupo(control):
    control_lower = control.lower()
    for pref, nome in prefixos.items():
        if control_lower.startswith(pref):
            return nome
    return 'Outro'

# Atribuindo grupo aos registros
producao['grupo'] = producao['control'].apply(mapear_grupo)

# Filtrando apenas grupos válidos
producao = producao[producao['grupo'] != "Outro"].reset_index(drop=True)

# Aplicando política de tipagem
producao = producao.astype({
    'id': 'string',
    'control': 'string',
    'produto': 'string',
    'Ano': 'int64',
    'Quantidade': 'float',
    'grupo': 'category'
})

# Renomeando colunas
producao.rename(columns={
    'id': 'Id',
    'control': 'Controle',
    'produto': 'Produto',
    'grupo': 'Grupo'
}, inplace=True)

producao

Unnamed: 0,Id,Controle,Produto,Ano,Quantidade,Grupo
0,2,vm_Tinto,Tinto,1970,174224052.0,VINHO DE MESA
1,3,vm_Branco,Branco,1970,748400.0,VINHO DE MESA
2,4,vm_Rosado,Rosado,1970,42236152.0,VINHO DE MESA
3,6,vv_Tinto,Tinto,1970,7591557.0,VINHO FINO DE MESA (VINIFERA)
4,7,vv_Branco,Branco,1970,15562889.0,VINHO FINO DE MESA (VINIFERA)
...,...,...,...,...,...,...
891,43,de_Borra seca,Borra Seca,2023,17200.0,DERIVADOS
892,46,de_Vinho orgânico,Vinho Orgânico,2023,94150.0,DERIVADOS
893,47,de_Espumante orgânico,Espumante Orgânico,2023,1365.0,DERIVADOS
894,49,de_Vinho acidificado,Vinho Acidificado,2023,2500.0,DERIVADOS


In [None]:
# Exportando para o Gold Layer
producao.to_excel('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_internos/Producao.xlsx', index=False)
producao.to_parquet('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_internos/Producao.parquet', index=False)

###🔹  Dados de Importação

In [None]:
# Importando importacao.csv
importacao = pd.read_csv('/content/drive/MyDrive/Challenge_FIAP/Bronze_Data/Dados_internos/Importacao.csv', sep=';', encoding='utf-8')

In [None]:
importacao.head()

Unnamed: 0,Id,País,1970,1970.1,1971,1971.1,1972,1972.1,1973,1973.1,...,2019,2019.1,2020,2020.1,2021,2021.1,2022,2022.1,2023,2023.1
0,1,Africa do Sul,0,0.0,0,0,0,0,0,0,...,1092042,3604038,627150,1701072,859169,2508140,738116,2266827,522733,1732850
1,2,Alemanha,52297,30498.0,34606,26027,134438,92103,111523,98638,...,101055,412794,136992,504168,106541,546967,92600,438595,102456,557947
2,3,Argélia,0,0.0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,4,Arábia Saudita,0,0.0,0,0,0,0,0,0,...,0,0,0,0,2510,8761,0,0,8,161
4,5,Argentina,19525,12260.0,24942,15022,104906,58137,116887,76121,...,16548931,54527380,22610267,66322932,26869241,79527959,27980574,87519642,25276991,83918138


In [None]:
# Transformando colunas em linhas
importacao = importacao.melt(
    id_vars=['Id', 'País'],
    var_name='Ano',
    value_name='Valor'
)

# Criando coluna de tipo (KG ou USD)
importacao['Tipo'] = importacao['Ano'].astype(str).str.contains(r'\.1$')
importacao['Tipo'] = importacao['Tipo'].map({False: 'KG', True: 'USD'})

# Limpando o ano
importacao['Ano'] = importacao['Ano'].astype(str).str.replace(r'\.1$', '', regex=True)

# Aplicando política de tipagem
importacao = importacao.astype({
    'Id': 'string',
    'País': 'string',
    'Ano': 'int64',
    'Valor': 'float'
})

# Pivotando para abrir colunas KG e USD
importacao = importacao.pivot_table(
    index=['Id', 'País', 'Ano'],
    columns='Tipo',
    values='Valor',
    aggfunc='sum'
).reset_index()

# Ajustando o nome das colunas
importacao.columns.name = None

importacao


Unnamed: 0,Id,País,Ano,KG,USD
0,1,Africa do Sul,1970,0.0,0.0
1,1,Africa do Sul,1971,0.0,0.0
2,1,Africa do Sul,1972,0.0,0.0
3,1,Africa do Sul,1973,0.0,0.0
4,1,Africa do Sul,1974,0.0,0.0
...,...,...,...,...,...
3667,9,Bermudas,2019,0.0,0.0
3668,9,Bermudas,2020,0.0,0.0
3669,9,Bermudas,2021,10.0,141.0
3670,9,Bermudas,2022,1.0,4.0


In [None]:
# Exportando para o Gold Layer
importacao.to_excel('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_internos/Importacao.xlsx', index=False)
importacao.to_parquet('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_internos/Importacao.parquet', index=False)

###🔹 Dados de Exportacao

In [None]:
# Importando exportacao.csv
exportacao = pd.read_csv('/content/drive/MyDrive/Challenge_FIAP/Bronze_Data/Dados_internos/Exportacao.csv', sep=';', encoding='utf-8')

In [None]:
exportacao.head()

Unnamed: 0,Id,País,1970,1970.1,1971,1971.1,1972,1972.1,1973,1973.1,...,2019,2019.1,2020,2020.1,2021,2021.1,2022,2022.1,2023,2023.1
0,1,Afeganistão,0,0,0,0,0,0,0,0,...,0,0,0,0,11,46,0,0,0,0
1,2,África do Sul,0,0,0,0,0,0,0,0,...,26,95,4,21,0,0,0,0,117,698
2,3,"Alemanha, República Democrática",0,0,0,0,4168,2630,12000,8250,...,3660,25467,6261,32605,2698,6741,7630,45367,4806,31853
3,4,Angola,0,0,0,0,0,0,0,0,...,345,1065,0,0,0,0,4068,4761,0,0
4,5,Anguilla,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [None]:
# Transformando colunas em linhas
exportacao = exportacao.melt(
    id_vars=['Id', 'País'],
    var_name='Ano',
    value_name='Valor'
)

# Cria coluna tipo (KG ou USD)
exportacao['Tipo'] = exportacao['Ano'].astype(str).str.contains(r'\.1$')
exportacao['Tipo'] = exportacao['Tipo'].map({False: 'KG', True: 'USD'})

# Limpando o ano (remove .1 via regex)
exportacao['Ano'] = exportacao['Ano'].astype(str).str.replace(r'\.1$', '', regex=True)

# Aplicando política de tipagem
exportacao = exportacao.astype({
    'Id': 'string',
    'País': 'string',
    'Ano': 'int64',
    'Valor': 'float'
})

# Pivotando para abrir colunas KG e USD
exportacao = exportacao.pivot_table(
    index=['Id', 'País', 'Ano'],
    columns='Tipo',
    values='Valor',
    aggfunc='sum'
).reset_index()

# Ajustando o nome das colunas
exportacao.columns.name = None

exportacao

Unnamed: 0,Id,País,Ano,KG,USD
0,1,Afeganistão,1970,0.0,0.0
1,1,Afeganistão,1971,0.0,0.0
2,1,Afeganistão,1972,0.0,0.0
3,1,Afeganistão,1973,0.0,0.0
4,1,Afeganistão,1974,0.0,0.0
...,...,...,...,...,...
7393,99,Nova Zelândia,2019,500.0,2832.0
7394,99,Nova Zelândia,2020,95.0,515.0
7395,99,Nova Zelândia,2021,657.0,10477.0
7396,99,Nova Zelândia,2022,63.0,156.0


In [None]:
# Exportando para o Gold Layer
exportacao.to_excel('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_internos/Exportacao.xlsx', index=False)
exportacao.to_parquet('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_internos/Exportacao.parquet', index=False)

# 🌐 Coleta e Transformação de dados (Dados externos)

###🔹 Dados Climáticos

In [None]:
# Consolidando todos os arquivos .csv em um
pasta = r"/content/drive/MyDrive/Challenge_FIAP/Bronze_Data/Dados_externos/Dados Temperatura"

# Definindo colunas para ignorar
colunas_remover = [
    'PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)',
    'PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)',
    'TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)',
    'TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C)',
    'TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)',
    'TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)',
    'UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)',
    'UMIDADE REL. MIN. NA HORA ANT. (AUT) (%)',
    'VENTO, DIREÇÃO HORARIA (gr) (° (gr))',
    'VENTO, RAJADA MAXIMA (m/s)'
]

dfs = []

for arquivo in glob.glob(os.path.join(pasta, "*.CSV")):
    # Lendo só as primeiras 5 linhas para pegar a estacao (cidade)
    header_temp = pd.read_csv(arquivo, sep=';', header=None, skip_blank_lines=False,
                              encoding='latin-1', nrows=5)
    estacao = header_temp.iloc[2, 1]

    # Lendo dados reais (pula 8 linhas)
    df = pd.read_csv(arquivo, sep=';', skiprows=8, encoding='utf-8')

    # Removendo colunas indesejadas
    df['Estacao'] = estacao
    df.drop(columns=[c for c in colunas_remover if c in df.columns], inplace=True)
    dfs.append(df)

# Concatenando tudo em um arquivo .csv
df_final = pd.concat(dfs, ignore_index=True)
df_final.to_csv(os.path.join(pasta, "RS_2009_2023_tempo.csv"), index=False, encoding='utf-8')

print("Arquivo unificado salvo!")

Arquivo unificado salvo!


In [None]:
clima = pd.read_csv('/content/drive/MyDrive/Challenge_FIAP/Bronze_Data/Dados_externos/Dados Temperatura/RS_2009_2023_tempo.csv', encoding='utf-8', low_memory=False, decimal=',')

In [None]:
dff = clima.copy()
clima

Unnamed: 0,DATA (YYYY-MM-DD),HORA (UTC),"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",RADIACAO GLOBAL (KJ/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, VELOCIDADE HORARIA (m/s)",Unnamed: 19,Estacao,Data,Hora UTC,RADIACAO GLOBAL (Kj/m²)
0,2009-01-01,00:00,0.0,962.0,-9999,22.8,12.4,52.0,4.5,,CRUZ ALTA,,,
1,2009-01-01,01:00,0.0,962.9,-9999,21.7,13.1,58.0,3.5,,CRUZ ALTA,,,
2,2009-01-01,02:00,0.0,963.1,-9999,20.5,14.4,68.0,3.1,,CRUZ ALTA,,,
3,2009-01-01,03:00,0.0,963.3,-9999,21.5,15.8,70.0,6.2,,CRUZ ALTA,,,
4,2009-01-01,04:00,0.0,962.6,-9999,20.5,16.9,80.0,4.4,,CRUZ ALTA,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5235139,,,0.0,1015.6,,24.3,15.1,56.0,4.0,,PORTO ALEGRE- BELEM NOVO,2023/12/31,1900 UTC,2409
5235140,,,0.0,1015.1,,23.9,14.3,55.0,4.8,,PORTO ALEGRE- BELEM NOVO,2023/12/31,2000 UTC,20853
5235141,,,0.0,1015.3,,23.4,14.1,56.0,4.0,,PORTO ALEGRE- BELEM NOVO,2023/12/31,2100 UTC,13639
5235142,,,0.0,1015.3,,21.6,14.1,62.0,4.4,,PORTO ALEGRE- BELEM NOVO,2023/12/31,2200 UTC,5363


In [None]:
# Unificando RADIACAO GLOBAL (KJ/m²) com RADIACAO GLOBAL (Kj/m²) - Puxa o que não tem NaN para nova coluna RADIACAO_GLOBAL
dff['RADIACAO_GLOBAL'] = dff['RADIACAO GLOBAL (KJ/m²)'].combine_first(dff['RADIACAO GLOBAL (Kj/m²)'])
dff['RADIACAO_GLOBAL'] = dff['RADIACAO_GLOBAL'].str.replace(',', '.').astype(float)

# Unificando e ajustando DATA (YYYY-MM-DD) e Data - Puxa o que não tem NaN para nova coluna DATA
dff['DATA'] = dff['DATA (YYYY-MM-DD)'].combine_first(dff['Data'])
dff['DATA'] = dff['DATA'].str.replace('/', '-', regex=False)
# Criando coluna do ano
dff['ANO'] = dff['DATA'].str.split('-').str[0].astype(int)

# Trocando -9999 por NaN
dff.replace(-9999, "NaN", inplace=True)

# Dropando colunas desnecessárias
dff = dff.drop(columns=['RADIACAO GLOBAL (KJ/m²)', 'RADIACAO GLOBAL (Kj/m²)', 'DATA (YYYY-MM-DD)', 'Data', 'HORA (UTC)', 'Hora UTC', 'Unnamed: 19'])

# Ordenando colunas
dff = dff[['Estacao', 'DATA', 'ANO', 'PRECIPITAÇÃO TOTAL, HORÁRIO (mm)', 'TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)', 'TEMPERATURA DO PONTO DE ORVALHO (°C)', 'UMIDADE RELATIVA DO AR, HORARIA (%)', 'RADIACAO_GLOBAL', 'VENTO, VELOCIDADE HORARIA (m/s)']]

# Renomeando as Colunas
dff = dff.rename(columns={
    'Estacao': 'Cidade',
    'DATA': 'Data',
    'ANO': 'Ano',
    'PRECIPITAÇÃO TOTAL, HORÁRIO (mm)': 'Precipitacao (mm)',
    'TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)': 'Temp. Ar (°C)',
    'TEMPERATURA DO PONTO DE ORVALHO (°C)': 'Temp. Orvalho (°C)',
    'UMIDADE RELATIVA DO AR, HORARIA (%)': 'Umidade (%)',
    'RADIACAO_GLOBAL': 'Radiacao (KJ/m2)',
    'VENTO, VELOCIDADE HORARIA (m/s)': 'Velocidade Vento (m/s)'})

# Ajustando tipagem
dff = dff.astype({
    'Cidade': 'string',
    'Data': 'datetime64[ns]',
    'Ano': 'int64',
    'Precipitacao (mm)': 'float',
    'Temp. Ar (°C)': 'float',
    'Temp. Orvalho (°C)': 'float',
    'Umidade (%)': 'float',
    'Radiacao (KJ/m2)': 'float',
    'Velocidade Vento (m/s)': 'float'
})

# Tratando nulos com a mediana
mediana = dff.median(numeric_only=True)
dff.fillna(mediana, inplace=True)

dff

Unnamed: 0,Cidade,Data,Ano,Precipitacao (mm),Temp. Ar (°C),Temp. Orvalho (°C),Umidade (%),Radiacao (KJ/m2),Velocidade Vento (m/s)
0,CRUZ ALTA,2009-01-01,2009,0.0,22.8,12.4,52.0,1009.0,4.5
1,CRUZ ALTA,2009-01-01,2009,0.0,21.7,13.1,58.0,1009.0,3.5
2,CRUZ ALTA,2009-01-01,2009,0.0,20.5,14.4,68.0,1009.0,3.1
3,CRUZ ALTA,2009-01-01,2009,0.0,21.5,15.8,70.0,1009.0,6.2
4,CRUZ ALTA,2009-01-01,2009,0.0,20.5,16.9,80.0,1009.0,4.4
...,...,...,...,...,...,...,...,...,...
5235139,PORTO ALEGRE- BELEM NOVO,2023-12-31,2023,0.0,24.3,15.1,56.0,2409.0,4.0
5235140,PORTO ALEGRE- BELEM NOVO,2023-12-31,2023,0.0,23.9,14.3,55.0,2085.3,4.8
5235141,PORTO ALEGRE- BELEM NOVO,2023-12-31,2023,0.0,23.4,14.1,56.0,1363.9,4.0
5235142,PORTO ALEGRE- BELEM NOVO,2023-12-31,2023,0.0,21.6,14.1,62.0,536.3,4.4


In [None]:
# Exportando para o Gold Layer
dff.to_excel('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_externos/Dados_climaticos.xlsx', index=False)
dff.to_parquet('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_externos/Dados_climaticos.parquet', index=False)

NameError: name 'dff' is not defined

###🔹 Dados Cambiais (USD/BRL)

In [None]:
# Coletando dados USD/BRL diários de 2009 a 2023

url = "https://olinda.bcb.gov.br/olinda/servico/PTAX/versao/v1/odata/CotacaoDolarPeriodo(dataInicial=@dataInicial,dataFinalCotacao=@dataFinalCotacao)?@dataInicial='01-01-2009'&@dataFinalCotacao='12-31-2023'&$format=json&$select=cotacaoCompra,dataHoraCotacao"

request = requests.request("GET", url).json()
cambio = pd.DataFrame(request['value'])

In [None]:
# Alterando nome das colunas
cambio.rename(columns={'cotacaoCompra': 'USD/BRL', 'dataHoraCotacao': 'Data'}, inplace=True)

# Formatando a data
cambio['Data'] = cambio['Data'].str.split(' ').str[0]

# Ajustando tipagem
cambio = cambio.astype({'USD/BRL': 'float', 'Data': 'datetime64[ns]'})

# Colunando o ano
cambio['Ano'] = cambio['Data'].dt.year

# Formatando data pt_BR
cambio['Data'] = cambio['Data'].dt.strftime('%d-%m-%Y')

cambio

Unnamed: 0,USD/BRL,Data,Ano
0,2.3290,02-01-2009,2009
1,2.2772,05-01-2009,2009
2,2.1881,06-01-2009,2009
3,2.2166,07-01-2009,2009
4,2.2675,08-01-2009,2009
...,...,...,...
3759,4.8613,22-12-2023,2023
3760,4.8362,26-12-2023,2023
3761,4.8300,27-12-2023,2023
3762,4.8407,28-12-2023,2023


In [None]:
# Exportando para o Gold Layer
cambio.to_excel('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_externos/Dados_cambiais.xlsx', index=False)
cambio.to_parquet('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_externos/Dados_cambiais.parquet', index=False)

###🔹 Dados de Comércio Exterior (Market Share exportação)

In [None]:
# Consolidando todos os arquivos em um único .csv
pasta = "/content/drive/MyDrive/Challenge_FIAP/Bronze_Data/Dados_externos/Dados Comex"

# Definindo colunas para ignorar
colunas_remover = [
    'CO_VIA',
    'CO_URF',
    'QT_ESTAT',
    'CO_UNID'
]

dfs = []

for arquivo in glob.glob(os.path.join(pasta, "EXP_*.csv")):
    df = pd.read_csv(arquivo, sep=';', encoding='utf-8')
    # Removendo colunas indesejadas
    df.drop(columns=[c for c in colunas_remover if c in df.columns], inplace=True)
    dfs.append(df)

# Concatenando tudo em um arquivo .csv
df_final = pd.concat(dfs, ignore_index=True)
df_final.to_csv(os.path.join(pasta, "RS_2009_2023_comex.csv"), index=False, encoding='utf-8')

print("Arquivo unificado salvo!")

Arquivo unificado salvo!


In [None]:
comex = pd.read_csv('/content/drive/MyDrive/Challenge_FIAP/Bronze_Data/Dados_externos/Dados Comex/RS_2009_2023_comex.csv', encoding='utf-8', low_memory=False)

In [None]:
ncm = pd.read_csv('/content/drive/MyDrive/FIAP/Dados Comex/NCM.csv', sep=';', encoding="ISO-8859-1")
pais = pd.read_csv('/content/drive/MyDrive/FIAP/Dados Comex/PAIS.csv', sep=';', encoding="ISO-8859-1")

In [None]:
comex_copy = comex.copy()

# Realizando merge de País e NCM
comex_copy = comex_copy.merge(ncm[['CO_NCM', 'NO_NCM_POR']],on='CO_NCM', how='left')
comex_copy = comex_copy.merge(pais[['CO_PAIS', 'NO_PAIS']],on='CO_PAIS', how='left')

#Drop COD_PAIS
comex_copy = comex_copy.drop(columns='CO_PAIS')

# Ordenando as colunas
comex_copy = comex_copy[['CO_ANO', 'CO_MES', 'SG_UF_NCM', 'NO_PAIS', 'CO_NCM', 'NO_NCM_POR', 'KG_LIQUIDO']]

In [None]:
comex_copy

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,SG_UF_NCM,KG_LIQUIDO,VL_FOB,NO_NCM_POR,NO_PAIS
0,2025,5,85369090,11,SP,861,44758,"Outros aparelhos para interrupção, etc, para c...",México
1,2025,3,9093200,10,RJ,1,6,"Sementes de cominho, trituradas ou em pó",Antígua e Barbuda
2,2025,2,90173090,11,ND,10,881,Calibres e semelhantes (instrumento de medida ...,Estados Unidos
3,2025,2,19053100,10,RJ,66,322,"Bolachas e biscoitos, adicionados de edulcorante",Argentina
4,2025,7,44123100,16,PA,24300,31562,"Outras madeiras compensadas, constituídas excl...",Itália
...,...,...,...,...,...,...,...,...,...
20532584,2009,9,87088000,11,SP,15,292,Amortecedores de suspensão para tratores e veí...,Angola
20532585,2009,9,96061000,10,RS,86,1222,Botões de pressão e suas partes,Honduras
20532586,2009,9,94017900,11,RJ,28,204,Outros assentos com armação de metal,Angola
20532587,2009,9,99980101,10,RJ,10750,21978,Consumo de bordo - combustíveis e lubrificante...,Reino Unido


In [None]:
# TODA A BASE DE DADOS É REFERENTE A EXPORTAÇÃO
# NCM = VINHOS DE MESA TRANQUILOS REPRESENTAM X% DAS EXPORTAÇÕES DO BRASIL E X% DO RS (VALOR FOB / INFO DE MERCADO)
# PAIS = MAIORES IMPORTADORES (OPORTUNIDADES DE NEGÓCIOS/DEMANDA REPRIMIDA)
# ESTADO = PARTICIPAÇÃO % DA VINÍCULA PERANTE RS E BRASIL (KG)
# SAZONALIDADE(MÊS) DE EXPORTAÇÃO DE VINHO


# ncms referentes a vinhos tranquilos
ncms_vinho = [22042211, 22042219, 22042910, 22042100,
              22042900, 22042911, 22042919]

## Market Share:
#falando em FOB (economia) - EXPORTAÇÕES são registradas em valor FOB na balança comercial para medir o impacto econômico (Free On Board = produto + transporte interno + serviços portuários e aduaneiros).
valor_fob_brasil = comex_copy['VL_FOB'].sum()
valor_fob_vinhos_br = comex_copy[comex_copy['CO_NCM'].isin(ncms_vinho)]['VL_FOB'].sum() #Os vinhos tranquilos representam X% do valor FOB das exportações brasileiras. (valor_fob_vinhos_br/valor_fob_brasil)
valor_fob_vinhos_rs = comex_copy[(comex_copy['CO_NCM'].isin(ncms_vinho)) & (comex_copy['SG_UF_NCM'] == 'RS')]['VL_FOB'].sum() #O RS responde por X% do valor FOB das exportações brasileiras de vinhos tranquilos, ocupando a Xª posição entre os estados exportadores. (valor_fob_vinhos_rs/valor_fob_vinhos_br)

#falando em KGs
valor_kg_vinhos_br = comex_copy[comex_copy['CO_NCM'].isin(ncms_vinho)]['KG_LIQUIDO'].sum() # Total de vinhos tranquilos exportados pelo Brasil em kg
valor_kg_vinhos_rs = comex_copy[(comex_copy['CO_NCM'].isin(ncms_vinho)) & (comex_copy['SG_UF_NCM'] == 'RS')]['KG_LIQUIDO'].sum() # % do RS sobre o total brasileiro exportado de vinhos em kg (valor_fob_vinhos_rs/valor_fob_vinhos_br)
# valor_kg_vinicula/valor_kg_RS e BR

#falando em países parceiros
# Os países 80/20 nas exportações de vinhos (comexstat), quais as oportunidades?


In [None]:
# Exportando para o Gold Layer
comex_copy.to_excel('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_externos/Dados_comercio_exterior.xlsx', index=False)
comex_copy.to_parquet('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_externos/Dados_comercio_exterior.parquet', index=False)

###🔹 Dados Produção Agricola Municipal (PAM)

In [6]:
caminho_ext = '/content/drive/MyDrive/Challenge_FIAP/Bronze_Data/Dados_externos/ibge_pam_bronze.xlsx'

pam = pd.read_excel(caminho_ext, header=[3,4])

# Pega apenas o primeiro nível do cabeçalho (os anos) e o define como o novo cabeçalho
pam.columns = pam.columns.get_level_values(0)

# Removendo o texto da última linha da coluna A
pam['Unnamed: 0_level_0'] = pd.to_numeric(pam['Unnamed: 0_level_0'], errors='coerce')
pam = pam.dropna(subset=['Unnamed: 0_level_0'])

# Verificando o resultado
pam.head()

Unnamed: 0,Unnamed: 0_level_0,Unnamed: 1_level_0,2005,2006,2007,2008,2009,2010,2011,2012,...,2015,2016,2017,2018,2019,2020,2021,2022,2023,2024
0,1100015.0,Alta Floresta D'Oeste (RO),49,49,39,39,33,-,13,13,...,13,14,-,-,-,-,-,-,-,-
1,1100023.0,Ariquemes (RO),-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-
2,1100031.0,Cabixi (RO),-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-
3,1100049.0,Cacoal (RO),10,9,7,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-
4,1100056.0,Cerejeiras (RO),-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-


In [None]:
pam.rename(columns={'Unnamed: 0_level_0': 'ID','Unnamed: 1_level_0': 'Municipio'}, inplace=True)

pam.head(5)

Unnamed: 0,ID,Municipio,2005,2006,2007,2008,2009,2010,2011,2012,...,2015,2016,2017,2018,2019,2020,2021,2022,2023,2024
0,1100015.0,Alta Floresta D'Oeste (RO),49,49,39,39,33,-,13,13,...,13,14,-,-,-,-,-,-,-,-
1,1100023.0,Ariquemes (RO),-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-
2,1100031.0,Cabixi (RO),-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-
3,1100049.0,Cacoal (RO),10,9,7,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-
4,1100056.0,Cerejeiras (RO),-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-


In [None]:
# Transformando colunas em linhas
pam = pam.melt(
    id_vars=['ID', 'Municipio'],
    var_name='Ano',
    value_name='Quantidade'
     )

pam.head(5)

Unnamed: 0,ID,Municipio,Ano,Quantidade
0,1100015.0,Alta Floresta D'Oeste (RO),2005,49
1,1100023.0,Ariquemes (RO),2005,-
2,1100031.0,Cabixi (RO),2005,-
3,1100049.0,Cacoal (RO),2005,10
4,1100056.0,Cerejeiras (RO),2005,-


In [None]:
# Removendo hífen e NaN por 0
pam['Quantidade'] = pam['Quantidade'].replace(' - ', 0)
pam['Quantidade'] = pd.to_numeric(pam['Quantidade'], errors='coerce')
pam['Quantidade'] = pam['Quantidade'].fillna(0)

# Criando a nova coluna "UF" extraindo os 2 caracteres de dentro dos parêntese
pam['UF'] = pam['Municipio'].str[-3:-1]

# Atualizando a coluna "Municipio" para remover os últimos 5 caracteres
pam['Municipio'] = pam['Municipio'].str[:-5].str.strip()

pam.head(5)

Unnamed: 0,ID,Municipio,Ano,Quantidade,UF
0,1100015.0,Alta Floresta D'Oeste,2005,49.0,RO
1,1100023.0,Ariquemes,2005,0.0,RO
2,1100031.0,Cabixi,2005,0.0,RO
3,1100049.0,Cacoal,2005,10.0,RO
4,1100056.0,Cerejeiras,2005,0.0,RO


In [None]:
pam.rename(columns={'Quantidade': 'Tonelada'}, inplace=True)

pam = pam.astype({
    'ID': 'int64',
    'Municipio': 'string',
    'Ano': 'int64',
    'Tonelada': 'float64',
    'UF': 'category'
})

nova_ordem = ['Ano', 'ID', 'Municipio', 'UF', 'Tonelada']

pam = pam[nova_ordem]

pam.head(5)

Unnamed: 0,Ano,ID,Municipio,UF,Tonelada
0,2005,1100015,Alta Floresta D'Oeste,RO,49.0
1,2005,1100023,Ariquemes,RO,0.0
2,2005,1100031,Cabixi,RO,0.0
3,2005,1100049,Cacoal,RO,10.0
4,2005,1100056,Cerejeiras,RO,0.0


In [None]:
# --- Passo 1: Criar a Tabela de Consulta, agora com a coluna 'Região' ---

# Selecionamos as colunas 'UF', 'Nome_UF' e 'Região'
# E removemos as duplicatas para ter um mapeamento único por UF
tabela_de_consulta_uf = demograficos[['UF', 'Nome_UF', 'Região']].drop_duplicates()

print("Tabela de Consulta criada com sucesso (com Região):")
print(tabela_de_consulta_uf.head())


# --- Passo 2: Executar o "PROCV" e SOBRESCREVER o DataFrame original 'pam' ---

# Usamos pd.merge e atribuímos o resultado de volta para a variável 'pam'
pam = pd.merge(
    pam,                             # Tabela da esquerda
    tabela_de_consulta_uf,           # Tabela da direita (agora com 3 colunas)
    on='UF',                         # Chave da busca
    how='left'                       # Tipo de junção
)


Tabela de Consulta criada com sucesso (com Região):
      UF   Nome_UF Região
0     RO  Rondônia  Norte
1587  AC      Acre  Norte
2281  AM  Amazonas  Norte
4265  RR   Roraima  Norte
4710  PA      Pará  Norte


In [None]:
# Exportando para o Gold Layer
pam.to_excel('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_externos/Producao_agricula_municipal.xlsx', index=False)
pam.to_parquet('/content/drive/MyDrive/Challenge_FIAP/Gold_Data//Dados_externos/Producao_agricula_municipal.parquet', index=False)

###🔹 Dados Demograficos


In [7]:
caminho_ext = '/content/drive/MyDrive/Challenge_FIAP/Bronze_Data/Dados_externos/Demografico_IBGE_muni_UF.xlsx'

demograficos = pd.read_excel(caminho_ext)

In [8]:
demograficos.head(10)

Unnamed: 0,ano,sigla_uf,id_municipio,populacao,nome_municipio,nome_uf,nome_regiao
0,1991,RO,1100015.0,31981.0,Alta Floresta D'Oeste,Rondônia,Norte
1,1992,RO,1100015.0,34768.0,Alta Floresta D'Oeste,Rondônia,Norte
2,1993,RO,1100015.0,37036.0,Alta Floresta D'Oeste,Rondônia,Norte
3,1994,RO,1100015.0,39325.0,Alta Floresta D'Oeste,Rondônia,Norte
4,1995,RO,1100015.0,41574.0,Alta Floresta D'Oeste,Rondônia,Norte
5,1996,RO,1100015.0,33471.0,Alta Floresta D'Oeste,Rondônia,Norte
6,1997,RO,1100015.0,25009.0,Alta Floresta D'Oeste,Rondônia,Norte
7,1998,RO,1100015.0,24793.0,Alta Floresta D'Oeste,Rondônia,Norte
8,1999,RO,1100015.0,25025.0,Alta Floresta D'Oeste,Rondônia,Norte
9,2000,RO,1100015.0,26533.0,Alta Floresta D'Oeste,Rondônia,Norte


In [None]:
demograficos.rename(columns={
    'ano': 'Ano',
    'sigla_uf': 'UF',
    'id_municipio': 'ID',
    'nome_municipio': 'Municipio',
    'nome_uf': 'Nome_UF',
    'nome_regiao': 'Região'
}, inplace=True)

demograficos = demograficos.astype({
    'Ano': 'Int64',
    'UF': 'category',
    'ID': 'Int64',
    'populacao': 'Int64',
    'Municipio': 'string',
    'Nome_UF': 'category',
    'Região': 'category'
})

nova_ordem = ['Ano', 'ID', 'Municipio', 'UF', 'Nome_UF', 'Região', 'populacao']

demograficos = demograficos[nova_ordem]

demograficos.head(5)

Unnamed: 0,Ano,ID,Municipio,UF,Nome_UF,Região,populacao
0,1991,1100015,Alta Floresta D'Oeste,RO,Rondônia,Norte,31981
1,1992,1100015,Alta Floresta D'Oeste,RO,Rondônia,Norte,34768
2,1993,1100015,Alta Floresta D'Oeste,RO,Rondônia,Norte,37036
3,1994,1100015,Alta Floresta D'Oeste,RO,Rondônia,Norte,39325
4,1995,1100015,Alta Floresta D'Oeste,RO,Rondônia,Norte,41574


In [None]:
# Exportando para o Gold Layer
demograficos.to_excel('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_externos/Demograficos_IBGE.xlsx', index=False)
demograficos.to_parquet('/content/drive/MyDrive/Challenge_FIAP/Gold_Data//Dados_externos/Demograficos_IBGE.parquet', index=False)

###🔹 Dados Aavaliações de vinhos

In [10]:
caminho_ext = '/content/drive/MyDrive/Challenge_FIAP/Bronze_Data/Dados_externos/Dados_avaliacao_vinhos.xlsx'

avaliacoes = pd.read_excel(caminho_ext)

In [None]:
avaliacoes.head(5)

Unnamed: 0,id,name,seo_name,type_id,vintage_type,is_natural,region_id,region_name,region_name_en,region_seo_name,...,taste_flavor_9_secondary_keywords_8_count,taste_flavor_9_secondary_keywords_9_id,taste_flavor_9_secondary_keywords_9_name,taste_flavor_9_secondary_keywords_9_count,taste_flavor_3_secondary_keywords_4_id,taste_flavor_3_secondary_keywords_4_name,taste_flavor_3_secondary_keywords_4_count,taste_flavor_2_secondary_keywords_4_id,taste_flavor_2_secondary_keywords_4_name,taste_flavor_2_secondary_keywords_4_count
0,4801829,Luiz Valduga Corte 1,luiz-valduga-corte-1-vale-dos-vinhedos,1,0,False,931,Vale dos Vinhedos,,vale-dos-vinhedos,...,,,,,,,,,,
1,1964017,Gran Reserva,gran-reserva,1,0,False,931,Vale dos Vinhedos,,vale-dos-vinhedos,...,,,,,,,,,,
2,1638525,Seival Estate Sesmarias,seival-estate-sesmarias,1,0,False,1867,Campanha,,campanha,...,,,,,,,,,,
3,2571920,Merlot Uvas Desidratadas,uvas-desidratadas-merlot,1,0,False,1465,Serra Gaúcha,,serra-gaucha,...,,,,,,,,,,
4,4158362,Brut,brut,3,0,False,1461,Rio Grande do Sul,,rio-grande-do-sul,...,,,,,,,,,,


In [None]:
print(avaliacoes.columns)

Index(['id', 'name', 'seo_name', 'type_id', 'vintage_type', 'is_natural',
       'region_id', 'region_name', 'region_name_en', 'region_seo_name',
       ...
       'taste_flavor_9_secondary_keywords_8_count',
       'taste_flavor_9_secondary_keywords_9_id',
       'taste_flavor_9_secondary_keywords_9_name',
       'taste_flavor_9_secondary_keywords_9_count',
       'taste_flavor_3_secondary_keywords_4_id',
       'taste_flavor_3_secondary_keywords_4_name',
       'taste_flavor_3_secondary_keywords_4_count',
       'taste_flavor_2_secondary_keywords_4_id',
       'taste_flavor_2_secondary_keywords_4_name',
       'taste_flavor_2_secondary_keywords_4_count'],
      dtype='object', length=774)


In [None]:
# Filtrar somente as colunas objetivas
colunas_desejadas_texto = """
id	name	seo_name	region_id	region_name	winery_id	winery_name	statistics_status	statistics_ratings_count	statistics_ratings_average	statistics_labels_count	statistics_vintages_count	has_valid_ratings
"""

# Split para remover os espaços do intervalos das colunas inseridas manualmente
lista_de_colunas = colunas_desejadas_texto.split()

# Tornar o novo modelo uma variavel diferente
avaliacoes_focadas = avaliacoes[lista_de_colunas]

avaliacoes_focadas.head(10)

Unnamed: 0,id,name,seo_name,region_id,region_name,winery_id,winery_name,statistics_status,statistics_ratings_count,statistics_ratings_average,statistics_labels_count,statistics_vintages_count,has_valid_ratings
0,4801829,Luiz Valduga Corte 1,luiz-valduga-corte-1-vale-dos-vinhedos,931,Vale dos Vinhedos,149650.0,Casa Valduga,Normal,1180,46,2659,33,True
1,1964017,Gran Reserva,gran-reserva,931,Vale dos Vinhedos,215550.0,Milantino,Normal,308,46,901,19,True
2,1638525,Seival Estate Sesmarias,seival-estate-sesmarias,1867,Campanha,66770.0,Miolo,Normal,1291,44,4438,26,True
3,2571920,Merlot Uvas Desidratadas,uvas-desidratadas-merlot,1465,Serra Gaúcha,142860.0,Luiz Argenta,Normal,693,43,1554,20,True
4,4158362,Brut,brut,1461,Rio Grande do Sul,2197430.0,Vinedos Capoani,Normal,207,39,650,13,True
5,4168877,Gran Vino,gran-vino,931,Vale dos Vinhedos,215550.0,Milantino,Normal,504,45,1293,19,True
6,1157787,Maria Valduga Brut Vintage Espumante,maria-valduga-brut-vintage-espumante,931,Vale dos Vinhedos,149650.0,Casa Valduga,Normal,2577,43,5887,39,True
7,5475945,Enoteca da Famiglia Premium Merlot,enoteca-da-famiglia-premium-merlot,931,Vale dos Vinhedos,149650.0,Casa Valduga,Normal,335,43,926,24,True
8,4192032,Branco Moscatel Espumante,branco-moscatel-espumante,2505,Santa Catarina,2255890.0,Vinícola Kranz,Normal,52,44,151,12,True
9,1663386,DNA 99 Single Vineyard Merlot,dna-99-single-vineyard-merlot,931,Vale dos Vinhedos,164150.0,Pizzato,Normal,4103,43,11435,28,True


In [None]:
avaliacoes_focadas.dtypes

Unnamed: 0,0
id,int64
name,object
seo_name,object
region_id,int64
region_name,object
winery_id,float64
winery_name,object
statistics_status,object
statistics_ratings_count,int64
statistics_ratings_average,int64


In [None]:
# Dicionário para mapear os nomes antigos para os novos
mapa_nomes = {
    'id': 'ID_Vinho',
    'name': 'Nome_Vinho',
    'seo_name': 'Nome_SEO',
    'region_id': 'ID_Regiao',
    'region_name': 'Nome_Regiao',
    'winery_id': 'ID_Vinicola',
    'winery_name': 'Nome_Vinicola',
    'statistics_status': 'Status',
    'statistics_ratings_count': 'Contagem_Avaliacoes',
    'statistics_ratings_average': 'Media_Avaliacoes',
    'statistics_labels_count': 'Contagem_Rotulos',
    'statistics_vintages_count': 'Contagem_Safras',
    'has_valid_ratings': 'Tem_Avaliacoes_Validas'
}

# Aplicando a renomeação
avaliacoes_focadas = avaliacoes_focadas.rename(columns=mapa_nomes)

print("Colunas renomeadas com sucesso!")
avaliacoes_focadas.head(5)

Colunas renomeadas com sucesso!


Unnamed: 0,ID_Vinho,Nome_Vinho,Nome_SEO,ID_Regiao,Nome_Regiao,ID_Vinicola,Nome_Vinicola,Status,Contagem_Avaliacoes,Media_Avaliacoes,Contagem_Rotulos,Contagem_Safras,Tem_Avaliacoes_Validas
0,4801829,Luiz Valduga Corte 1,luiz-valduga-corte-1-vale-dos-vinhedos,931,Vale dos Vinhedos,149650.0,Casa Valduga,Normal,1180,46,2659,33,True
1,1964017,Gran Reserva,gran-reserva,931,Vale dos Vinhedos,215550.0,Milantino,Normal,308,46,901,19,True
2,1638525,Seival Estate Sesmarias,seival-estate-sesmarias,1867,Campanha,66770.0,Miolo,Normal,1291,44,4438,26,True
3,2571920,Merlot Uvas Desidratadas,uvas-desidratadas-merlot,1465,Serra Gaúcha,142860.0,Luiz Argenta,Normal,693,43,1554,20,True
4,4158362,Brut,brut,1461,Rio Grande do Sul,2197430.0,Vinedos Capoani,Normal,207,39,650,13,True


In [None]:
# Transformando os ID's em Int64 (updados como float64)
avaliacoes_focadas['ID_Vinho'] = pd.to_numeric(avaliacoes_focadas['ID_Vinho'], errors='coerce')
avaliacoes_focadas['ID_Regiao'] = pd.to_numeric(avaliacoes_focadas['ID_Regiao'], errors='coerce')
avaliacoes_focadas['ID_Vinicola'] = pd.to_numeric(avaliacoes_focadas['ID_Vinicola'], errors='coerce')

# Dicionário com os tipos de dados desejados
mapa_tipos = {
    'ID_Vinho': 'Int64',
    'Nome_Vinho': 'string',
    'Nome_SEO': 'string',
    'ID_Regiao': 'Int64',
    'Nome_Regiao': 'category',
    'ID_Vinicola': 'Int64',
    'Nome_Vinicola': 'category',
    'Status': 'category',
    'Contagem_Avaliacoes': 'Int64',
    'Media_Avaliacoes': 'float64',
    'Contagem_Rotulos': 'Int64',
    'Contagem_Safras': 'Int64',
    'Tem_Avaliacoes_Validas': 'boolean'
}

# Aplicando a conversão de tipos
avaliacoes_focadas = avaliacoes_focadas.astype(mapa_tipos)

print("\nTipos de dados ajustados com sucesso!")
avaliacoes_focadas.info()


Tipos de dados ajustados com sucesso!
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 786 entries, 0 to 785
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   ID_Vinho                786 non-null    Int64   
 1   Nome_Vinho              786 non-null    string  
 2   Nome_SEO                786 non-null    string  
 3   ID_Regiao               786 non-null    Int64   
 4   Nome_Regiao             786 non-null    category
 5   ID_Vinicola             784 non-null    Int64   
 6   Nome_Vinicola           784 non-null    category
 7   Status                  786 non-null    category
 8   Contagem_Avaliacoes     786 non-null    Int64   
 9   Media_Avaliacoes        786 non-null    float64 
 10  Contagem_Rotulos        786 non-null    Int64   
 11  Contagem_Safras         786 non-null    Int64   
 12  Tem_Avaliacoes_Validas  786 non-null    boolean 
dtypes: Int64(6), boolean(1), category(3), flo

In [None]:
avaliacoes_focadas.head(10)

Unnamed: 0,ID_Vinho,Nome_Vinho,Nome_SEO,ID_Regiao,Nome_Regiao,ID_Vinicola,Nome_Vinicola,Status,Contagem_Avaliacoes,Media_Avaliacoes,Contagem_Rotulos,Contagem_Safras,Tem_Avaliacoes_Validas
0,4801829,Luiz Valduga Corte 1,luiz-valduga-corte-1-vale-dos-vinhedos,931,Vale dos Vinhedos,149650,Casa Valduga,Normal,1180,46.0,2659,33,True
1,1964017,Gran Reserva,gran-reserva,931,Vale dos Vinhedos,215550,Milantino,Normal,308,46.0,901,19,True
2,1638525,Seival Estate Sesmarias,seival-estate-sesmarias,1867,Campanha,66770,Miolo,Normal,1291,44.0,4438,26,True
3,2571920,Merlot Uvas Desidratadas,uvas-desidratadas-merlot,1465,Serra Gaúcha,142860,Luiz Argenta,Normal,693,43.0,1554,20,True
4,4158362,Brut,brut,1461,Rio Grande do Sul,2197430,Vinedos Capoani,Normal,207,39.0,650,13,True
5,4168877,Gran Vino,gran-vino,931,Vale dos Vinhedos,215550,Milantino,Normal,504,45.0,1293,19,True
6,1157787,Maria Valduga Brut Vintage Espumante,maria-valduga-brut-vintage-espumante,931,Vale dos Vinhedos,149650,Casa Valduga,Normal,2577,43.0,5887,39,True
7,5475945,Enoteca da Famiglia Premium Merlot,enoteca-da-famiglia-premium-merlot,931,Vale dos Vinhedos,149650,Casa Valduga,Normal,335,43.0,926,24,True
8,4192032,Branco Moscatel Espumante,branco-moscatel-espumante,2505,Santa Catarina,2255890,Vinícola Kranz,Normal,52,44.0,151,12,True
9,1663386,DNA 99 Single Vineyard Merlot,dna-99-single-vineyard-merlot,931,Vale dos Vinhedos,164150,Pizzato,Normal,4103,43.0,11435,28,True


In [None]:
# Exportando para o Gold Layer
avaliacoes_focadas.to_excel('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_externos/Avaliacoes_de_vinhos.xlsx', index=False)
avaliacoes_focadas.to_parquet('/content/drive/MyDrive/Challenge_FIAP/Gold_Data/Dados_externos/Avaliacoes_de_vinhos.parquet', index=False)