# Dependências

In [None]:
# Install required Google Cloud packages (commented out as these are typically one-time setup commands)
!pip install gcloud
!gcloud auth application-default login

# Import necessary Python libraries
import pandas as pd                # Data manipulation and analysis
import numpy as np                 # Numerical computing
import time                        # Time-related functions
import os                          # Operating system interfaces
import pandas_gbq                  # Pandas integration with BigQuery
from google.cloud import bigquery  # BigQuery client library
import glob                        # File path pattern matching
import openpyxl                    # Excel file handling
import csv                         # CSV file handling
import re                          # Regular expressions

# Note: The actual imports remain exactly as in the original code

Collecting gcloud
  Downloading gcloud-0.18.3.tar.gz (454 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/454.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m143.4/454.4 kB[0m [31m4.4 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m454.4/454.4 kB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: gcloud
  Building wheel for gcloud (setup.py) ... [?25l[?25hdone
  Created wheel for gcloud: filename=gcloud-0.18.3-py3-none-any.whl size=602927 sha256=a821c4f78b3ae63b71dcc6972870863ff8d71d57415d9ab98269996547cd0b82
  Stored in directory: /root/.cache/pip/wheels/2a/62/75/3d74209bfebb8805823ae74afa28653aa1ea76d8b5a9d741ff
Successfully built gcloud
Installing collected packages: gcloud
Successfully installed gcloud-0.18.3
Go to the following link in your brow

# Tratamento

In [None]:
df = pd.read_csv('SIAPE_ativos_federal_raca_orgao_juridico.csv')
df

Unnamed: 0,ano,mes,mes_base,nat_jur,raça,vinculos
0,1999,2,Fev,Autarquia Federal,Branca,870630
1,1999,2,Fev,Autarquia Federal,Negra,412110
2,1999,2,Fev,Autarquia Federal,Não informado,292670
3,1999,2,Fev,Autarquia Federal,Outros,62820
4,1999,2,Fev,Emp Pub S A Cap Fechado,Branca,3790
...,...,...,...,...,...,...
422,2024,2,Fev,Poder Executivo Federal,Negra,692280
423,2024,2,Fev,Poder Executivo Federal,Não informado,2600
424,2024,2,Fev,Poder Executivo Federal,Outros,39160
425,2024,2,Fev,S A Cap Aberto Contr Estatal,Branca,250


In [None]:
df['nat_jur'].unique()

array(['Autarquia Federal', 'Emp Pub  S A  Cap Fechado',
       'Fundacao Federal', 'Poder Executivo Federal',
       'S A Cap Aberto Contr Estatal'], dtype=object)

In [None]:
df.drop(df[df['nat_jur'] == 'Emp Pub  S A  Cap Fechado'].index, inplace=True)
df.drop(df[df['nat_jur'] == 'S A Cap Aberto Contr Estatal'].index, inplace=True)

In [None]:
df['nat_jur'].unique()

array(['Autarquia Federal', 'Fundacao Federal', 'Poder Executivo Federal'],
      dtype=object)

In [None]:
df['mes_base'].unique()

array(['Fev'], dtype=object)

In [None]:
df['raça'].unique()

array(['Branca', 'Negra', 'Não informado', 'Outros'], dtype=object)

In [None]:
def transformar(nome):
    nome=re.sub(r"\bFev\b", "Fevereiro", nome)
    nome = re.sub(r"\bFundacao\b", "Fundação", nome)
    return nome

In [None]:
df['mes_base'] =df['mes_base'].apply(transformar)

In [None]:
df['nat_jur'] =df['nat_jur'].apply(transformar)

In [None]:
df

Unnamed: 0,ano,mes,mes_base,nat_jur,raça,vinculos
0,1999,2,Fevereiro,Autarquia Federal,Branca,870630
1,1999,2,Fevereiro,Autarquia Federal,Negra,412110
2,1999,2,Fevereiro,Autarquia Federal,Não informado,292670
3,1999,2,Fevereiro,Autarquia Federal,Outros,62820
8,1999,2,Fevereiro,Fundação Federal,Branca,368390
...,...,...,...,...,...,...
420,2024,2,Fevereiro,Fundação Federal,Outros,15340
421,2024,2,Fevereiro,Poder Executivo Federal,Branca,881920
422,2024,2,Fevereiro,Poder Executivo Federal,Negra,692280
423,2024,2,Fevereiro,Poder Executivo Federal,Não informado,2600


In [None]:
df = df.rename(columns={'nat_jur': 'natureza_juridica', 'raça' : 'cor_raca', 'vinculos':'quantidade_vinculos'})


In [None]:
df

Unnamed: 0,ano,mes,mes_base,natureza_juridica,cor_raca,quantidade_vinculos
0,1999,2,Fevereiro,Autarquia Federal,Branca,870630
1,1999,2,Fevereiro,Autarquia Federal,Negra,412110
2,1999,2,Fevereiro,Autarquia Federal,Não informado,292670
3,1999,2,Fevereiro,Autarquia Federal,Outros,62820
8,1999,2,Fevereiro,Fundação Federal,Branca,368390
...,...,...,...,...,...,...
420,2024,2,Fevereiro,Fundação Federal,Outros,15340
421,2024,2,Fevereiro,Poder Executivo Federal,Branca,881920
422,2024,2,Fevereiro,Poder Executivo Federal,Negra,692280
423,2024,2,Fevereiro,Poder Executivo Federal,Não informado,2600


In [None]:
df

Unnamed: 0,ano,mes,mes_base,natureza_juridica,cor_raca,quantidade_vinculos
0,1999,2,Fevereiro,Autarquia Federal,Branca,870630
1,1999,2,Fevereiro,Autarquia Federal,Negra,412110
2,1999,2,Fevereiro,Autarquia Federal,Não informado,292670
3,1999,2,Fevereiro,Autarquia Federal,Outros,62820
8,1999,2,Fevereiro,Fundação Federal,Branca,368390
...,...,...,...,...,...,...
420,2024,2,Fevereiro,Fundação Federal,Outros,15340
421,2024,2,Fevereiro,Poder Executivo Federal,Branca,881920
422,2024,2,Fevereiro,Poder Executivo Federal,Negra,692280
423,2024,2,Fevereiro,Poder Executivo Federal,Não informado,2600


In [None]:
df['cor_raca'].unique()

array(['Branca', 'Negra', 'Não informado', 'Outros'], dtype=object)

In [None]:
df['quantidade_vinculos'] = df['quantidade_vinculos'].astype(str).str.replace(',', '.').astype(float).astype(int)

# Upload

In [None]:
client = bigquery.Client(project='repositoriodedadosgpsp')
dataset_ref = client.dataset('perfil_remuneracao')



In [None]:
schema=[bigquery.SchemaField('ano','INTEGER',description='Ano de referência da observação'),
        bigquery.SchemaField('mes_base','STRING',description='Mês de quando a observação foi executada'),
        bigquery.SchemaField('natureza_juridica','STRING',description='Natureza jurídica referente ao cargo da observação'),
        bigquery.SchemaField('cor_raca','STRING',description='Raça/cor da pessoa observada'),
        bigquery.SchemaField('quantidade_vinculos','INTEGER',description='Número total de vinculos observados')]

In [None]:
table_ref = dataset_ref.table('SIAPE_ativos_federal_raca_orgao_juridico_v3')
job_config = bigquery.LoadJobConfig(schema=schema)
job = client.load_table_from_dataframe(df, table_ref, job_config=job_config)
job.result()


LoadJob<project=repositoriodedadosgpsp, location=US, id=81b0a78d-222a-46f1-9914-6e3905fd4e5f>