# Carregar dados

In [1]:
import pandas as pd

# # Mostrar mais colunas
pd.set_option("display.max_columns", 100)
pd.set_option('display.max_colwidth', 100)

def load_file(ano = 2019):
  path = f"./output/silver/rais_{ano}_prof_TI_RAIS_VINC_PUB.parquet.gzip"

  RENAME_COLUNAS_QUE_IMPORTAM = {
      'ano': 'ano',
      'Município': 'id_uf_municipio',
      'Vl Remun Média Nom': 'remuneracao_media',
      'Motivo Desligamento': 'desligamento_id',
      'Idade': 'idade',
      'CBO Ocupação 2002': 'ocupacao_id',
      "Tamanho Estabelecimento": "tmh_estabalecimento_id",
      "Tipo Vínculo": "tpo_vinculo_id",
      "Faixa Tempo Emprego": "fxa_tmp_emprego_id",
      "Motivo Desligamento": "mot_desligamento_id",
      "Sexo Trabalhador": "sexo_id",
      "Escolaridade após 2005": "escolaridade_id"
  }

  # read only columns that will be used
  df = pd.read_parquet(path)
  df.rename(columns=RENAME_COLUNAS_QUE_IMPORTAM, inplace=True)
  df = df[RENAME_COLUNAS_QUE_IMPORTAM.values()]

  qnt_total = len(df)

  print(f"""
  Quantidade docs: {qnt_total}
  """)

  return df

df_2019 = load_file(ano = 2019)
df_2019.head(2)


  Quantidade docs: 752629
  


Unnamed: 0,ano,id_uf_municipio,remuneracao_media,mot_desligamento_id,idade,ocupacao_id,tmh_estabalecimento_id,tpo_vinculo_id,fxa_tmp_emprego_id,sexo_id,escolaridade_id
0,2019,500270,2821.23,11,43,317210,9,10,4,1,5
1,2019,500270,1700.0,21,28,317110,9,60,1,1,5


In [2]:
ANOS = [2015, 2016, 2017, 2018, 2019, 2020, 2021]

df_anos = [load_file(a) for a in ANOS]
len(df_anos)


  Quantidade docs: 631892
  

  Quantidade docs: 6802575
  

  Quantidade docs: 6697917
  

  Quantidade docs: 718543
  

  Quantidade docs: 752629
  

  Quantidade docs: 770017
  

  Quantidade docs: 875572
  


7

In [3]:
df_tudo = pd.concat(df_anos)
df_tudo

Unnamed: 0,ano,id_uf_municipio,remuneracao_media,mot_desligamento_id,idade,ocupacao_id,tmh_estabalecimento_id,tpo_vinculo_id,fxa_tmp_emprego_id,sexo_id,escolaridade_id
0,2015,120040,851.02,11,25,317205,2,10,4,1,3
1,2015,120020,882.55,11,21,317205,3,10,4,1,5
2,2015,120040,390.74,12,15,212410,4,55,3,1,6
3,2015,120040,1640.39,11,39,212420,5,10,4,1,7
4,2015,120040,901.99,12,25,317110,3,10,1,1,7
...,...,...,...,...,...,...,...,...,...,...,...
875567,2021,431870,13359.32,0,28,212420,10,10,7,2,11
875568,2021,431870,9087.26,0,39,212420,10,10,5,2,11
875569,2021,431490,4018.00,0,37,212215,8,10,3,2,11
875570,2021,431490,4581.00,0,41,212410,5,10,3,2,11


In [4]:
df_tudo.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17249145 entries, 0 to 875571
Data columns (total 11 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   ano                     int64  
 1   id_uf_municipio         int64  
 2   remuneracao_media       float64
 3   mot_desligamento_id     int32  
 4   idade                   int64  
 5   ocupacao_id             string 
 6   tmh_estabalecimento_id  int64  
 7   tpo_vinculo_id          int64  
 8   fxa_tmp_emprego_id      int64  
 9   sexo_id                 int64  
 10  escolaridade_id         int64  
dtypes: float64(1), int32(1), int64(8), string(1)
memory usage: 1.5 GB


# Somente colunas que importam

In [5]:
# RENAME_COLUNAS_QUE_IMPORTAM = columns = {
#     'Município': 'id_uf_municipio',
#     'Vl Remun Média Nom': 'remuneracao_media',
#     'Motivo Desligamento': 'desligamento_id',
#     'Idade': 'idade',
#     'CBO Ocupação 2002': 'ocupacao_id',
#     'Sexo Trabalhador': 'sexo_id'
# }


In [6]:
# def somente_cols_importam(df):
#   df = df[['ano', 'Município', 'Vl Remun Média Nom', 'Motivo Desligamento', 'Idade',
#              'CBO Ocupação 2002', 'Sexo Trabalhador']]

#   df = df.rename(columns=RENAME_COLUNAS_QUE_IMPORTAM)

#   df.head(2)
#   return df

# df_c_tudo = somente_cols_importam(df_tudo)
# df_c_tudo.head(2)

In [7]:
df_c_tudo = df_tudo.copy()

# Juntando com UF

In [8]:
def load_file_mun(df, ano = 2019):
  path =f"./output/silver/uf_municipio_{ano}.parquet.gzip"
  df_mun = pd.read_parquet(path)

  df_mun["id_uf_municipio"] = df_mun["id_uf_municipio"].astype(int)

  df_m = pd.merge(df, df_mun, on='id_uf_municipio', how='left', suffixes=('', '_mun'))
  df_m.drop(columns=['ano_mun'], inplace=True)

  qnt_total = len(df)

  print(f"""
  Quantidade docs: {qnt_total}
  """)

  return df_m

df_d_tudo = load_file_mun(df_c_tudo, ano = 2019)
df_d_tudo.head(2)


  Quantidade docs: 17249145
  


Unnamed: 0,ano,id_uf_municipio,remuneracao_media,mot_desligamento_id,idade,ocupacao_id,tmh_estabalecimento_id,tpo_vinculo_id,fxa_tmp_emprego_id,sexo_id,escolaridade_id,sigla_uf,sigla_municipio
0,2015,120040,851.02,11,25,317205,2,10,4,1,3,AC,Rio Branco
1,2015,120020,882.55,11,21,317205,3,10,4,1,5,AC,Cruzeiro do Sul


# Juntando tudo

In [9]:
df = df_d_tudo.copy()
len(df)

17249145

In [10]:
df["sigla_uf"].value_counts()

SP    5667281
MG    1565660
RJ    1520172
PR    1038928
RS     973216
SC     767869
DF     651604
BA     650683
GO     571104
PE     523511
CE     467851
PA     317241
ES     299703
MT     282976
MA     270959
RO     226411
PB     206823
RN     204047
AM     189137
MS     183698
AL     141498
PI     128705
SE     107380
TO     105234
AP     104030
RR      44858
AC      38566
Name: sigla_uf, dtype: int64

# Salvando arquivo

In [11]:
df.to_parquet("./output/silver/rais_TODOS_ANOS_RAIS_VINC_PUB.parquet.gzip", index=False, compression="gzip")

## Arquivo com todas as colunas

In [12]:
# def somente_cols_importam_raw(df):

#   df_r = df.rename(columns=RENAME_COLUNAS_QUE_IMPORTAM)

#   df_r.head(2)
#   return df_r


In [13]:
# df_e = somente_cols_importam_raw(df_tudo)

# df_g = load_file_mun(df_e, ano=2019)

# df_g.head(2)


In [14]:
# df_g["Mês Desligamento"] = df_g["Mês Desligamento"].replace("{ñ", -1)
# df_g["Mês Desligamento"] = df_g["Mês Desligamento"].astype(int)

# df_g["Bairros RJ"] = df_g["Bairros RJ"].replace("{ñ c", -1).replace('           {ñ class}', -1)
# df_g["Bairros RJ"] = df_g["Bairros RJ"].astype(int)

# df_g["Distritos SP"] = df_g["Distritos SP"].replace('           {ñ class}', -1)
# df_g["Distritos SP"] = df_g["Distritos SP"].astype(int)

In [15]:
# # Salvando com todas as colunas
# df_g.to_parquet("./output/silver/rais_TODOS_ANOS_TODAS_COLS_RAIS_VINC_PUB.parquet.gzip",
#               index=False, compression="gzip")