In [None]:
from IPython.display import clear_output
import pandas as pd

!pip install basedosdados==2.0.0b16
clear_output()

# Constantes

In [None]:
billing_project_id = "br-fbsp-absp"

# Query para pegar os colegios do datalake BD
query_escolas = """
with dicionario_distritos as (
  SELECT * FROM `basedosdados-dev.br_me_rais.dicionario`
    WHERE nome_coluna = 'distritos_sp'AND id_tabela = 'microdados_vinculos'
),
dicionario_grau_instrucao as (
  SELECT * FROM `basedosdados-dev.br_me_rais.dicionario`
    WHERE nome_coluna = 'grau_instrucao_apos_2005'AND id_tabela = 'microdados_vinculos'
),
tabela as
(
  SELECT
  distritos_sp,
  grau_instrucao_apos_2005,
  count(*) as total
  FROM `basedosdados-dev.br_me_rais.microdados_vinculos`
  where ano=2021 and distritos_sp is not null and vinculo_ativo_3112='1'
  group by distritos_sp, grau_instrucao_apos_2005
)

select
dicionario_distritos.valor as distrito,
dicionario_grau_instrucao.valor as grau_escolaridade,
total
from tabela
left join dicionario_distritos on tabela.distritos_sp = dicionario_distritos.chave
left join dicionario_grau_instrucao on tabela.grau_instrucao_apos_2005 = dicionario_grau_instrucao.chave
order by total desc
"""

query_salario_medio = """
with dicionario_distritos as (
  SELECT * FROM `basedosdados-dev.br_me_rais.dicionario`
    WHERE nome_coluna = 'distritos_sp'AND id_tabela = 'microdados_vinculos'
),
tabela as
(
  SELECT
  distritos_sp,
  round(avg(valor_remuneracao_dezembro), 2) as media_salario_dezembro,
  FROM `basedosdados-dev.br_me_rais.microdados_vinculos`
  where ano=2021 and distritos_sp is not null and vinculo_ativo_3112='1'
  group by distritos_sp
)

select
dicionario_distritos.valor as distrito,
media_salario_dezembro
from tabela
left join dicionario_distritos on tabela.distritos_sp = dicionario_distritos.chave
order by media_salario_dezembro desc
"""

query_salario_medio_by_sexo = """
with dicionario_distritos as (
  SELECT * FROM `basedosdados-dev.br_me_rais.dicionario`
    WHERE nome_coluna = 'distritos_sp'AND id_tabela = 'microdados_vinculos'
),
dicionario_sexo as (
  SELECT * FROM `basedosdados-dev.br_me_rais.dicionario`
    WHERE nome_coluna = 'sexo'AND id_tabela = 'microdados_vinculos'
),
tabela as
(
  SELECT
  distritos_sp,
  sexo,
  round(avg(valor_remuneracao_dezembro), 2) as media_salario_dezembro,
  FROM `basedosdados-dev.br_me_rais.microdados_vinculos`
  where ano=2021 and distritos_sp is not null and vinculo_ativo_3112='1'
  group by distritos_sp, sexo
)

select
dicionario_distritos.valor as distrito,
dicionario_sexo.valor as sexo,
media_salario_dezembro
from tabela
left join dicionario_distritos on tabela.distritos_sp = dicionario_distritos.chave
left join dicionario_sexo on tabela.sexo = dicionario_sexo.chave
order by media_salario_dezembro desc
"""

query_salario_medio_by_escolaridade = """
with dicionario_distritos as (
  SELECT * FROM `basedosdados-dev.br_me_rais.dicionario`
    WHERE nome_coluna = 'distritos_sp'AND id_tabela = 'microdados_vinculos'
),
dicionario_grau_instrucao as (
  SELECT * FROM `basedosdados-dev.br_me_rais.dicionario`
    WHERE nome_coluna = 'grau_instrucao_apos_2005'AND id_tabela = 'microdados_vinculos'
),
tabela as
(
  SELECT
  distritos_sp,
  grau_instrucao_apos_2005,
  round(avg(valor_remuneracao_dezembro), 2) as media_salario_dezembro,
  FROM `basedosdados-dev.br_me_rais.microdados_vinculos`
  where ano=2021 and distritos_sp is not null and vinculo_ativo_3112='1'
  group by distritos_sp, grau_instrucao_apos_2005
)
select
dicionario_distritos.valor as distrito,
dicionario_grau_instrucao.valor as grau_escolaridade,
media_salario_dezembro
from tabela
left join dicionario_distritos on tabela.distritos_sp = dicionario_distritos.chave
left join dicionario_grau_instrucao on tabela.grau_instrucao_apos_2005 = dicionario_grau_instrucao.chave
order by media_salario_dezembro desc
"""

query_oferta_emprego = """
with dicionario_distritos as (
  SELECT * FROM `basedosdados-dev.br_me_rais.dicionario`
    WHERE nome_coluna = 'distritos_sp'AND id_tabela = 'microdados_vinculos'
),
tabela as
(
  SELECT
  distritos_sp,
  count(*) as empregos,
  FROM `basedosdados-dev.br_me_rais.microdados_vinculos`
  where ano=2021 and distritos_sp is not null and vinculo_ativo_3112='1'
  group by distritos_sp
)
select
dicionario_distritos.valor as distrito,
empregos
from tabela
left join dicionario_distritos on tabela.distritos_sp = dicionario_distritos.chave
order by empregos desc
"""

query_faixa = """
with dicionario_distritos as (
  SELECT * FROM `basedosdados-dev.br_me_rais.dicionario`
    WHERE nome_coluna = 'distritos_sp'AND id_tabela = 'microdados_vinculos'
),
dicionario_faixa as (
  SELECT * FROM `basedosdados-dev.br_me_rais.dicionario`
    WHERE nome_coluna = 'faixa_etaria'AND id_tabela = 'microdados_vinculos'
),
tabela as
(
  SELECT
  distritos_sp,
  faixa_etaria,
  round(avg(valor_remuneracao_dezembro), 2) as media_salario_dezembro,
  FROM `basedosdados-dev.br_me_rais.microdados_vinculos`
  where ano=2021 and distritos_sp is not null and faixa_etaria != "99" and vinculo_ativo_3112='1'
  group by distritos_sp, faixa_etaria
)
select
dicionario_distritos.valor as distrito,
dicionario_faixa.valor as faixa,
media_salario_dezembro
from tabela
left join dicionario_distritos on tabela.distritos_sp = dicionario_distritos.chave
left join dicionario_faixa on tabela.faixa_etaria = dicionario_faixa.chave
order by media_salario_dezembro desc
"""

querys_dict = {
  'Desigualdade salarial proveniente do emprego formal por distrito': query_salario_medio_by_sexo,
  'Quantidade de empregos por nível de escolaridade por distrito': query_escolas,
  'Remuneração média por nível de escolaridade por distrito': query_salario_medio_by_escolaridade,
  'Desigualdade salarial proveniente do emprego formal por distrito e faixa etária': query_faixa
}

querys_duas_colunas = {
  'Oferta de emprego formal por distrito': query_oferta_emprego,
  'Remuneração média do emprego formal por distrito': query_salario_medio,
}

In [None]:
colunas_rename = {'ITAIM BIBI': 'Itaim Bibi',
 'S DOMINGOS': 'São Domingos',
 'LAJEADO': 'Lajeado',
 'SAUDE': 'Saúde',
 'E MATARAZZO': 'Ermelino Matarazzo',
 'PINHEIROS': 'Pinheiros',
 'SE': 'Sé',
 'JAGUARA': 'Jaguara',
 'JABAQUARA': 'Jabaquara',
 'BELEM': 'Belém',
 'REPUBLICA': 'República',
 'ITAQUERA': 'Itaquera',
 'S AMARO': 'Santo Amaro',
 'JD PAULISTA': 'Jardim Paulista',
 'B VISTA': 'Bela Vista',
 'PIRITUBA': 'Pirituba',
 'VL MARIANA': 'Vila Mariana',
 'B FUNDA': 'Barra Funda',
 'MORUMBI': 'Morumbi',
 'SAPOPEMBA': 'Sapopemba',
 'VL GUILHERM': 'Vila Guilherme',
 'BUTANTA': 'Butantã',
 'AT PINHEIRO': 'Alto de Pinheiros',
 'LIBERDADE': 'Liberdade',
 'CPO GRANDE': 'Campo Grande',
 'VL LEOPOLDI': 'Vila Leopoldina',
 'ANHANGUERA': 'Anhanguera',
 'LAPA': 'Lapa',
 'CONSOLACAO': 'Consolação',
 'C VERDE': 'Casa Verde',
 'MOEMA': 'Moema',
 'JAGUARE': 'Jaguaré',
 'B RETIRO': 'Bom Retiro',
 'PTE RASA': 'Ponte Rasa',
 'CAMBUCI': 'Cambuci',
 'S LUIS': 'Jardim São Luís',
 'PRQ CARMO': 'Parque do Carmo',
 'PERDIZES': 'Perdizes',
 'SACOMA': 'Sacomã',
 'SOCORRO': 'Socorro',
 'IPIRANGA': 'Ipiranga',
 'CPO BELO': 'Campo Belo',
 'JARAGUA': 'Jaraguá',
 'S CECILIA': 'Santa Cecília',
 'MANDAQUI': 'Mandaqui',
 'C ADEMAR': 'Cidade Ademar',
 'VL MARIA': 'Vila Maria',
 'VL ANDRADE': 'Vila Andrade',
 'VL JACUI': 'Vila Jacuí',
 'CURSINO': 'Cursino',
 'LIMAO': 'Limão',
 'JD HELENA': 'Jardim Helena',
 'VL PRUDENTE': 'Vila Prudente',
 'SANTANA': 'Santana',
 'TATUAPE': 'Tatuapé',
 'PARELHEIROS': 'Parelheiros',
 'S RAFAEL': 'São Rafael',
 'J BONIFACIO': 'José Bonifácio',
 'S MATEUS': 'São Mateus',
 'A RASA': 'Água Rasa',
 'BRAS': 'Bras',
 'TUCURUVI': 'Tucuruvi',
 'R TAVARES': 'Raposo Tavares',
 'VL MEDEIROS': 'Vila Medeiros',
 'C TIRADENTE': 'Cidade Tiradentes',
 'ARICANDUVA': 'Aricanduva',
 'MOOCA': 'Mooca',
 'N CACHOEIRI': 'Cachoeirinha',
 'VL SONIA': 'Vila Sônia',
 'VL CURUCA': 'Vila Curuçá',
 'C DUTRA': 'Cidade Dutra',
 'FREGUESIA D': 'Freguesia do Ó',
 'GRAJAU': 'Grajaú',
 'PENHA': 'Penha',
 'CANGAIBA': 'Cangaiba',
 'S LUCAS': 'São Lucas',
 'PARI': 'Pari',
 'TREMEMBE': 'Tremembé',
 'R PEQUENO': 'Rio Pequeno',
 'VL FORMOSA': 'Vila Formosa',
 'JACANA': 'Jaçanã',
 'MARSILAC': 'Marsilac',
 'JD ANGELA': 'Jardim Ângela',
 'PERUS': 'Perus',
 'S MIGUEL': 'São Miguel',
 'CARRAO': 'Carrão',
 'CPO LIMPO': 'Campo Limpo',
 'ITAIM PAULI': 'Itaim Paulista',
 'IGUATEMI': 'Iguatemi',
 'C REDONDO': 'Capão Redondo',
 'GUAIANAZES': 'Guaianases',
 'VL MATILDE': 'Vila Matilde',
 'C LIDER': 'Cidade Lider',
 'BRASILANDIA': 'Brasilândia',
 'A ALVIM': 'Artur Alvim',
 'PEDREIRA': 'Pedreira'}

# Funçoes

In [None]:
def form_df_from_bq_table(df_bq: pd.DataFrame, key: str) -> pd.DataFrame:

  index = df_bq.iloc[:, 0].unique().tolist()
  columns = df_bq.iloc[:, 1].unique().tolist()
  df_indicadores_rais = pd.DataFrame(index=index, columns=columns)


  for row in df_bq.itertuples():
    df_indicadores_rais.loc[row[1]][row[2]] = row[3]

  df_indicadores_rais.columns = [f'{key} - {column}' for column in  df_bq.iloc[:, 1].unique().tolist()]

  return df_indicadores_rais


def form_df_from_bq_table_duas_colunas(df_bq: pd.DataFrame, key: str) -> pd.DataFrame:

  index = df_bq.iloc[:, 0].unique().tolist()
  columns = [key]
  df_indicadores_rais = pd.DataFrame(index=index, columns=columns)

  for row in df_bq.itertuples():
    df_indicadores_rais.loc[row[1]][key] = row[2]

  return df_indicadores_rais

# Coletandos resultados das querys

In [None]:
import basedosdados as bd

db_from_querys = {key: bd.read_sql(query, billing_project_id=billing_project_id) for key, query in querys_dict.items()}
db_from_querys_duas_colunas = {key: bd.read_sql(query, billing_project_id=billing_project_id) for key, query in querys_duas_colunas.items()}

# Tratamento e formando indicadores

In [None]:
# Irei juntas as funçoes "form_df_from_bq_table" e "form_df_from_bq_table_duas_colunas" em uma só

df_indicadores_final = pd.concat([form_df_from_bq_table(df_bq, key) for key, df_bq in db_from_querys.items()], axis=1) # Revisar

df_indicadores_2 = pd.concat([form_df_from_bq_table_duas_colunas(df_bq, key) for key, df_bq in db_from_querys_duas_colunas.items()], axis=1) # Revisar

df_indicadores_final_completo = pd.concat([df_indicadores_final, df_indicadores_2], axis=1)

df_indicadores_final_completo = df_indicadores_final_completo.rename(index=colunas_rename)

ordem = ['Água Rasa'] + df_indicadores_final_completo.index.sort_values().tolist()[:-1] # Irei revisar essa linha

df_indicadores_final_completo = df_indicadores_final_completo.loc[ordem]

df_indicadores_final_completo.to_excel('indicadores_rais.xlsx')