In [2]:
import pandas as pd

### Função para juntar os CSVs de estados diferentes

In [3]:
def juntar_csv(nome_arquivos):
    # lista para armazenar os DataFrames de cada arquivo
    dataframes = []
    
    # percorre cada nome do arquivo
    for arquivo in nome_arquivos:
        # lê o arquivo CSV
        df = pd.read_csv(arquivo, low_memory=False)
        
        # adiciona o DataFrame à lista
        dataframes.append(df)
    
    # concatena todos os DataFrames em um único DataFrame
    df_final = pd.concat(dataframes, ignore_index=True)
    
    return df_final

### Definindo os arquivos e chamando a função

In [4]:
nome_arquivos_2018 = []
nome_arquivos_2019 = []
nome_arquivos_2020 = []
nome_arquivos_2021 = []
nome_arquivos_2022 = []
lista_uf = [
    'AC', 'AL', 'AP', 'AM', 'BA', 'CE','ES', 'GO', 'MA',
    'MT', 'MS', 'MG', 'PA', 'PB', 'PR', 'PE', 'PI', 'RJ', 'RN',
    'RS', 'RO', 'RR', 'SC', 'SP', 'SE', 'TO'
]
for uf in lista_uf:
    nome_arquivos_2018.append(f'dados/dados_2018/Remuneracao_Siope_10_2018_{uf}.csv')
    nome_arquivos_2019.append(f'dados/dados_2019/Remuneracao_Siope_10_2019_{uf}.csv')
    nome_arquivos_2020.append(f'dados/dados_2020/Remuneracao_Siope_10_2020_{uf}.csv')
    nome_arquivos_2021.append(f'dados/dados_2021/Remuneracao_Siope_10_2021_{uf}.csv')
    nome_arquivos_2022.append(f'dados/dados_2022/Remuneracao_Siope_10_2022_{uf}.csv')
    
df_2018 = juntar_csv(nome_arquivos_2018)
df_2019 = juntar_csv(nome_arquivos_2019)
df_2020 = juntar_csv(nome_arquivos_2020)
df_2021 = juntar_csv(nome_arquivos_2021)
df_2022 = juntar_csv(nome_arquivos_2022)

In [5]:
df_2022 = juntar_csv(nome_arquivos_2022)

In [6]:
df_2018.shape

(3047704, 17)

In [7]:
df_2019.shape

(3071798, 17)

In [8]:
df_2022.shape

(3008851, 17)

### Filtrando as colunas 'NO_CATEGORIA_PROFISSIONAL' e 'TP_CATEGORIA' para as seguintes condições:

##### Na coluna TP_CATEGORIA manter apenas os  profissionais identificados como profissionais do magistério e na coluna NO_CATEGORIA_PROFISSIONAL remover as obervações: 'Profissionais que exercem funções de secretaria escolar, alimentação escolar (merendeiras), multimeios didáticos e infraestrutura', 'Serviços de psicologia', 'Serviço Social'

In [9]:
df_2020.columns

Index(['TIPO', 'AN_DECLARACAO', 'NU_PERIODO', 'ME_EXERCICIO', 'COD_UF',
       'SIG_UF', 'COD_MUNI', 'NOM_MUNI', 'CO_ESCOLA',
       'NO_CATEGORIA_PROFISSIONAL', 'DS_SITUACAO_PROFISSIONAL', 'TP_CATEGORIA',
       'NU_CARGA_HORARIA', 'VL_SALARIO', 'VL_MINIMO_FUNDEB',
       'VL_MAXIMO_FUNDEB', 'VL_OUTROS'],
      dtype='object')

In [10]:
df_2020['TP_CATEGORIA'].unique()

array(['Profissionais do magistério', 'Outros profissionais da educação'],
      dtype=object)

In [11]:
df_2021['NO_CATEGORIA_PROFISSIONAL'].unique()

array(['Profissionais em efetivo exercício no âmbito da educação infantil e ensino fundamental.',
       'Auxiliar/Assistente Educacional',
       'Profissionais que exercem funções de secretaria escolar, alimentação escolar (merendeiras), multimeios didáticos e infraestrutura',
       'Serviço social',
       'Docente professor indígena sem prévia formação pedagógica',
       'Profissionais que atuam na realização das atividades requeridos nos ambientes de secretaria, de manutenção em geral.',
       'Docente pós-graduado em cursos de especialização para formação de docentes para educação profissional técnica de nível médio',
       'Docente habilitado em curso de pedagogia',
       'Docente habilitado em curso de licenciatura plena',
       'Docente habilitado em curso de nível médio',
       'Docente graduado bacharél e tecnólogo com diploma de mestrado ou doutorado na área do componente curricular da educação profissional técnica de nível médio',
       'Docente habilitado em progr

In [17]:
def filtrar_dados(dataframe):
    # fazer uma copia do dataframe original
    df_filtrado = dataframe.copy()

    # remover os profissionais do magistério na coluna 'Tipo Categoria'
    df_filtrado = df_filtrado[~(df_filtrado['TP_CATEGORIA'] == 'Outros profissionais da educação')]

    # remover as observações da coluna'Categoria Profissional'
    categorias_indesejadas = ['Profissionais que exercem funções de secretaria escolar, alimentação escolar (merendeiras), multimeios didáticos e infraestrutura', 'Serviços de psicologia',
                          'Serviço social']
    df_filtrado = df_filtrado[~df_filtrado['NO_CATEGORIA_PROFISSIONAL'].isin(categorias_indesejadas)]

    # retornar o dataframe filtrado
    return df_filtrado

In [18]:
df_2018_filtrado = filtrar_dados(df_2018)
df_2019_filtrado = filtrar_dados(df_2019)
df_2020_filtrado = filtrar_dados(df_2020)
df_2021_filtrado = filtrar_dados(df_2021)
df_2022_filtrado = filtrar_dados(df_2022)

In [19]:
df_2022_filtrado = filtrar_dados(df_2022)

In [20]:
df_2018_filtrado.columns

Index(['TIPO', 'AN_DECLARACAO', 'NU_PERIODO', 'ME_EXERCICIO', 'COD_UF',
       'SIG_UF', 'COD_MUNI', 'NOM_MUNI', 'CO_ESCOLA',
       'NO_CATEGORIA_PROFISSIONAL', 'DS_SITUACAO_PROFISSIONAL', 'TP_CATEGORIA',
       'NU_CARGA_HORARIA', 'VL_SALARIO', 'VL_MINIMO_FUNDEB',
       'VL_MAXIMO_FUNDEB', 'VL_OUTROS'],
      dtype='object')

## Analise de remuneraçao de professores por tipo de vinculo (estatutarios e temporarios)

In [21]:
print(df_2018_filtrado['DS_SITUACAO_PROFISSIONAL'].unique())
print(df_2019_filtrado['DS_SITUACAO_PROFISSIONAL'].unique())
print(df_2020_filtrado['DS_SITUACAO_PROFISSIONAL'].unique())
print(df_2021_filtrado['DS_SITUACAO_PROFISSIONAL'].unique())
print(df_2022_filtrado['DS_SITUACAO_PROFISSIONAL'].unique())

['Efetivo' 'Temporário' 'Outros'
 'Profissional da Educação em atividade alheia à MDE']
['Efetivo' 'Temporário' 'Outros'
 'Profissional da Educação em atividade alheia à MDE']
['Temporário' 'Efetivo' 'Outros'
 'Profissional da Educação em atividade alheia à MDE' 'Cedido']
['Efetivo' 'Temporário' 'Cedido'
 'Profissional da Educação em atividade alheia à MDE' 'Outros']
['Temporário' 'Efetivo' 'Cedido' 'Outros'
 'Profissional da Educação em atividade alheia à MDE' '41374053' '5038.29'
 '451.25']


In [23]:
df_2022_filtrado.drop(1520611, inplace = True)

In [24]:
df_2022_filtrado['VL_SALARIO'] = df_2022_filtrado['VL_SALARIO'].apply(pd.to_numeric)

In [25]:
remover = ['451.25', '5038.29', 'Outros', 'Profissional da Educação em atividade alheia à MDE','Cedido']

df_2018_filtrado = df_2018_filtrado[~df_2018_filtrado['DS_SITUACAO_PROFISSIONAL'].isin(remover)]
df_2019_filtrado = df_2019_filtrado[~df_2019_filtrado['DS_SITUACAO_PROFISSIONAL'].isin(remover)]
df_2020_filtrado = df_2020_filtrado[~df_2020_filtrado['DS_SITUACAO_PROFISSIONAL'].isin(remover)]
df_2021_filtrado = df_2021_filtrado[~df_2021_filtrado['DS_SITUACAO_PROFISSIONAL'].isin(remover)]
df_2022_filtrado = df_2022_filtrado[~df_2022_filtrado['DS_SITUACAO_PROFISSIONAL'].isin(remover)]


In [26]:
# criando uma coluna para definir qua la rede, estadual ou municipal

dataframes = [df_2018_filtrado, df_2019_filtrado, df_2020_filtrado, df_2021_filtrado, df_2022_filtrado]
for df in dataframes:
    df['CD_REDE'] = df['COD_MUNI']

    df.loc[df['TIPO'] == 'Estadual', 'CD_REDE'] = df['COD_UF']

    df[df['TIPO'] == 'Estadual'].groupby('SIG_UF')['SIG_UF'].count()

    # convertendo todas as observações do CD_REDE para numérico

    df['CD_REDE'] = pd.to_numeric(df['CD_REDE'], errors='coerce')
    

# ANÁLISE B1

### TABELA B1A
### AGRUPAMENTO A PARTIR DE SALÁRIO BASE

## COLUNAS:

### ANO
### CD_REDE
### MÉDIA_VL_SALÁRIO
### DP_VL_SALÁRIO
### 1Q_VL_SALÁRIO
### 2Q_VL_SALÁRIO
### 3Q_VL_SALÁRIO
### 4Q_VL_SALÁRIO

In [22]:

import numpy as np

def analisar_salario(df, ano):
    tabela_b1a = df.groupby('CD_REDE')['VL_SALARIO'].agg(
    media='mean', 
    desvio_padrao='std', 
    primeiro_quartil=lambda x: np.percentile(x, 25),
    segundo_quartil=lambda x: np.percentile(x, 50),
    terceiro_quartil=lambda x: np.percentile(x, 75),
    quarto_quartil=lambda x: np.percentile(x, 100)
)
    tabela_b1a['Ano'] = ano
    return tabela_b1a

dataframes = [df_2018_filtrado, df_2019_filtrado, df_2020_filtrado, df_2021_filtrado, df_2022_filtrado]
anos = [2018, 2019, 2020, 2021, 2022]

results_b1a = []

for df, ano in zip(dataframes, anos):
    results_b1a.append(analisar_salario(df, ano))

result_b1a_df = pd.concat(results_b1a)
result_b1a_df

Unnamed: 0_level_0,media,desvio_padrao,primeiro_quartil,segundo_quartil,terceiro_quartil,quarto_quartil,Ano
CD_REDE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
11.0,2675.254220,420.368431,2633.4900,2736.770,2891.6800,3356.41,2018
12.0,2640.430543,1131.279724,2162.4100,2162.410,3357.7500,7800.00,2018
13.0,2562.200420,954.527355,1898.4600,2126.280,3600.0000,9887.16,2018
14.0,4545.990065,1975.469105,2665.5900,3972.090,5950.5000,10613.83,2018
15.0,2372.623613,533.468995,2045.0000,2581.070,2740.7000,3730.52,2018
...,...,...,...,...,...,...,...
522150.0,3387.458750,734.696313,2630.9325,3221.575,4082.7000,4665.94,2022
522155.0,6390.605000,143.450753,6339.8875,6390.605,6441.3225,6492.04,2022
522170.0,4101.784630,1365.107029,3648.6000,4013.400,5351.2000,6385.00,2022
522185.0,3862.494824,1564.049236,2790.2900,3845.630,4632.5500,9570.26,2022



### TABELA B1B
### AGRUPAMENTO A PARTIR DE SALÁRIO TOTAL = VL_SALARIO + VL_MINIMO_FUNDEB + VL_MAXIMO_FUNDEB + VL_OUTROS

## Colunas:

### ANO
### CD_REDE
### MÉDIA_VL_TOTAL
### DP_VL_TOTAL
### 1Q_VL_TOTAL
### 2Q_VL_TOTAL
### 3Q_VL_TOTAL
### 4Q_VL_TOTAL



In [23]:
def analisar_salario_total(df, ano):
    colunas = ['VL_SALARIO', 'VL_MINIMO_FUNDEB', 'VL_MAXIMO_FUNDEB', 'VL_OUTROS']
    df['SALARIO TOTAL'] = df[colunas].sum(axis = 1)
    tabela_b1b = df.groupby('CD_REDE')['SALARIO TOTAL'].agg(
    media='mean', 
    desvio_padrao='std', 
    primeiro_quartil=lambda x: np.percentile(x, 25),
    segundo_quartil=lambda x: np.percentile(x, 50),
    terceiro_quartil=lambda x: np.percentile(x, 75),
    quarto_quartil=lambda x: np.percentile(x, 100)
    )
    return tabela_b1b

In [24]:
dataframes = [df_2018_filtrado, df_2019_filtrado, df_2020_filtrado, df_2021_filtrado, df_2022_filtrado]
anos = [2018, 2019, 2020, 2021, 2022]

results_b1b = []

for df, ano in zip(dataframes, anos):
    results_b1b.append(analisar_salario_total(df, ano))
results_b1b_df = pd.concat(results_b1b)
results_b1b_df

Unnamed: 0_level_0,media,desvio_padrao,primeiro_quartil,segundo_quartil,terceiro_quartil,quarto_quartil
CD_REDE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
11.0,7687.456975,2078.440257,6856.2000,7872.070,8662.2500,27902.10
12.0,5842.397655,2764.262269,4324.8200,4817.260,7269.0000,22780.73
13.0,9686.399968,3253.501229,7396.9200,8029.740,10864.1600,35111.01
14.0,9622.522925,3946.955356,6009.6000,8858.960,12361.9300,23548.66
15.0,9542.754404,2804.106453,7906.7400,9784.400,11075.6600,33534.08
...,...,...,...,...,...,...
522150.0,7396.972917,1983.163728,5361.7125,7119.220,8811.8375,10692.77
522155.0,21099.140000,1377.147025,20612.2450,21099.140,21586.0350,22072.93
522170.0,11158.904259,4105.317808,9054.7750,12153.305,13579.9100,20869.68
522185.0,9777.518979,4551.149421,7096.9400,9656.590,11610.0300,48997.24


## Analise por faixa de carga horaria.

In [25]:
df_2022_filtrado['NU_CARGA_HORARIA'] = df_2022_filtrado['NU_CARGA_HORARIA'].apply(pd.to_numeric)

In [26]:
def carga_horaria(carga):
    if carga <= 15:
        return 'Até 15'
    elif 15 < carga <= 30:
        return '15 a 30'
    elif 30 < carga < 40:
        return '30 a 40'
    else:
        return '40+'
    
    
    
df_2022_filtrado['FAIXA_CARGA'] = df_2022_filtrado['NU_CARGA_HORARIA'].apply(carga_horaria)

In [27]:
rede_estadual = df_2022_filtrado.loc[df_2022_filtrado['TIPO'] == 'Estadual']

In [28]:
tabela_rede_estadual = rede_estadual.groupby(['SIG_UF','FAIXA_CARGA']).size().reset_index(name = 'Quantidade')

In [29]:
tabela_rede_estadual_pivotado = tabela_rede_estadual.pivot_table(index = 'FAIXA_CARGA', columns = 'SIG_UF', values = 'Quantidade', fill_value = 0)

In [30]:
tabela_rede_estadual_pivotado.to_csv('tabela_rede_estadual.csv')

In [31]:
rede_municipal = df_2022_filtrado.loc[df_2022_filtrado['TIPO'] == 'Municipal']

In [32]:
tabela_rede_municipal = rede_municipal.groupby(['SIG_UF','FAIXA_CARGA']).size().reset_index(name = 'Quantidade')

In [33]:
tabela_rede_municipal_pivotado = tabela_rede_municipal.pivot_table(index = 'FAIXA_CARGA', columns = 'SIG_UF', values = 'Quantidade', fill_value = 0)

In [65]:
tabela_rede_municipal_pivotado

SIG_UF,AC,AL,AM,AP,BA,CE,ES,GO,MA,MG,...,PR,RJ,RN,RO,RR,RS,SC,SE,SP,TO
FAIXA_CARGA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
15 a 30,4284,23076,20585,100,64541,44896,37122,12527,38439,117128,...,95087,50273,15729,6099,3070,65264,23300,1836,156268,4079
30 a 40,0,92,0,579,1362,873,311,3064,52,5514,...,658,6818,100,34,0,830,835,1433,42158,606
40+,2016,5633,4034,732,36452,39057,1948,16161,12887,15401,...,26730,24034,2667,4675,2808,9681,34808,5441,40159,8637
Até 15,0,105,330,0,463,1423,2051,229,171,2736,...,22930,1396,8,2,0,5207,1812,31,3039,24


In [34]:
tabela_rede_municipal_pivotado.to_csv('tabela_rede_municipal.csv')

In [35]:
tabela_rede_estadual_pivotado

SIG_UF,AC,AM,BA,CE,ES,GO,MA,MS,MT,PA,PB,PE,PI,PR,RR,SC,SE,SP,TO
FAIXA_CARGA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
15 a 30,15185,25277,5914,5993,8613,28549,0,19955,16553,5223,17646,9762,9088,66529,5060,15913,359,7877,388
30 a 40,204,0,0,1220,2565,0,0,3,480,21,0,658,0,10,0,4408,0,5082,171
40+,29,6731,17523,16807,4656,349,16903,411,801,17110,0,26718,7620,3446,1816,18670,8329,198943,5532
Até 15,27,0,0,2770,1198,0,0,1,21962,99,0,1,0,181,0,7067,0,2819,0


In [36]:
## calculando o salario por hora e o salario total por hora da rede municipal

rede_municipal_copy = rede_municipal.copy()

rede_municipal_copy['VL_TOTAL_PORHORA'] = rede_municipal_copy['SALARIO TOTAL'] / (rede_municipal_copy['NU_CARGA_HORARIA'] * 5)
rede_municipal_copy['VL_SALARIO_PORHORA'] = rede_municipal_copy['VL_SALARIO'] / (rede_municipal_copy['NU_CARGA_HORARIA'] * 5)

In [37]:
rede_municipal_copy

Unnamed: 0,TIPO,AN_DECLARACAO,NU_PERIODO,ME_EXERCICIO,COD_UF,SIG_UF,COD_MUNI,NOM_MUNI,CO_ESCOLA,NO_CATEGORIA_PROFISSIONAL,...,NU_CARGA_HORARIA,VL_SALARIO,VL_MINIMO_FUNDEB,VL_MAXIMO_FUNDEB,VL_OUTROS,CD_REDE,SALARIO TOTAL,FAIXA_CARGA,VL_TOTAL_PORHORA,VL_SALARIO_PORHORA
182,Municipal,2022,5,10,12,AC,120070.0,Xapuri,,Docente habilitado em curso de pedagogia,...,30,2403.52,3605.03,0.0,0.0,120070.0,6008.55,15 a 30,40.057000,16.023467
187,Municipal,2022,5,10,12,AC,120070.0,Xapuri,,Docente habilitado em curso de pedagogia,...,19,2403.52,2403.52,0.0,0.0,120070.0,4807.04,15 a 30,50.600421,25.300211
188,Municipal,2022,5,10,12,AC,120070.0,Xapuri,12022110.0,Docente habilitado em curso de pedagogia,...,30,4182.11,4879.27,0.0,0.0,120070.0,9061.38,15 a 30,60.409200,27.880733
189,Municipal,2022,5,10,12,AC,120070.0,Xapuri,12017868.0,Docente habilitado em curso de pedagogia,...,30,2643.87,2643.87,0.0,0.0,120070.0,5287.74,15 a 30,35.251600,17.625800
3547,Municipal,2022,5,10,12,AC,120070.0,Xapuri,,Docente habilitado em curso de pedagogia,...,30,2643.87,2643.87,0.0,0.0,120070.0,5287.74,15 a 30,35.251600,17.625800
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3008768,Municipal,2022,5,10,17,TO,170382.0,Cachoeirinha,17001641.0,Docente habilitado em curso de pedagogia,...,20,1922.81,2884.21,0.0,0.0,170382.0,4807.02,15 a 30,48.070200,19.228100
3008769,Municipal,2022,5,10,17,TO,170382.0,Cachoeirinha,17001641.0,Docente habilitado em curso de pedagogia,...,20,1922.81,5768.42,0.0,0.0,170382.0,7691.23,15 a 30,76.912300,19.228100
3008841,Municipal,2022,5,10,17,TO,172090.0,Taguatinga,17037557.0,Docente habilitado em curso de pedagogia,...,25,1566.64,2349.94,0.0,0.0,172090.0,3916.58,15 a 30,31.332640,12.533120
3008846,Municipal,2022,5,10,17,TO,172090.0,Taguatinga,17037557.0,Docente habilitado em curso de licenciatura plena,...,50,999.54,1385.88,0.0,0.0,172090.0,2385.42,40+,9.541680,3.998160


In [38]:
# definindo o piso salarial por hora para 2022
piso_2022 = 19.22

# funçao para categorizar cada salario
def categorizar_salario(salario_por_hora):
    if salario_por_hora < piso_2022:
        return 'Abaixo do piso'
    elif salario_por_hora <= piso_2022 * 1.2:
        return 'Até 20% acima do piso'
    elif salario_por_hora <= piso_2022 * 1.5:
        return 'Entre 20% e 50% acima do piso'
    elif salario_por_hora <= piso_2022 * 2:
        return 'Entre 50% e 100% acima do piso'
    else:
        return 'Mais que o dobro do piso'

# criar coluna categoria_salario
rede_municipal_copy['Categoria_Salario'] = rede_municipal_copy['VL_SALARIO_PORHORA'].apply(categorizar_salario)


In [39]:
# resultado
categoria_salario_municipal = rede_municipal_copy[['TIPO','SIG_UF','VL_SALARIO_PORHORA', 'Categoria_Salario']]

In [40]:
agrupado_por_UF_municipal = rede_municipal_copy.groupby(['TIPO','SIG_UF', 'Categoria_Salario']).size().reset_index(name='Quantidade')

In [41]:
agrupado_por_UF_municipal

Unnamed: 0,TIPO,SIG_UF,Categoria_Salario,Quantidade
0,Municipal,AC,Abaixo do piso,2681
1,Municipal,AC,Até 20% acima do piso,1574
2,Municipal,AC,Entre 20% e 50% acima do piso,1035
3,Municipal,AC,Entre 50% e 100% acima do piso,787
4,Municipal,AC,Mais que o dobro do piso,223
...,...,...,...,...
125,Municipal,TO,Abaixo do piso,4905
126,Municipal,TO,Até 20% acima do piso,3614
127,Municipal,TO,Entre 20% e 50% acima do piso,2157
128,Municipal,TO,Entre 50% e 100% acima do piso,1989


In [42]:
## calculando o salario por hora e o salario total por hora da rede estadual

rede_estadual_copy = rede_estadual.copy()

rede_estadual_copy['VL_TOTAL_PORHORA'] = rede_estadual_copy['SALARIO TOTAL'] / (rede_estadual_copy['NU_CARGA_HORARIA'] * 5)
rede_estadual_copy['VL_SALARIO_PORHORA'] = rede_estadual_copy['VL_SALARIO'] / (rede_estadual_copy['NU_CARGA_HORARIA'] * 5)


In [43]:
rede_estadual_copy['Categoria_Salario'] = rede_estadual_copy['VL_SALARIO_PORHORA'].apply(categorizar_salario)

In [44]:
agrupado_por_UF_estadual = rede_estadual_copy.groupby(['TIPO','SIG_UF', 'Categoria_Salario']).size().reset_index(name='Quantidade')

## Analise média de salário base e salário total por rede e tipo de formação e 2 tabela com a média, 20p e 80p por tipo de formação

### Analise da rede estadual

In [45]:
rede_estadual_recorte2 = rede_estadual.copy()

In [46]:
dic_relacoes = {
    'Docente habilitado em programa especial de formação pedagogica de docentes' : 'Habilitado em programa especial',
    'Profissionais experientes, não graduados, autorizados a atuar como docentes, em caráter precário e provisório, no ensino médio e médio integrado à educação profissional técnica de nível médio' : 'Notório saber',
    'Profissionais não habilitados, porém autorizados a exercer a docência em caráter precário e provisório na educação infantil e nos anos iniciais do ensino fundamental' : 'Não habilitados',
    'Docente habilitado em curso de nível médio' : 'Ensino Médio',
    'Docente habilitado em curso de pedagogia' : 'Pedagogia',
    'Docente pós-graduado em cursos de especialização para formação de docentes para educação profissional técnica de nível médio' : 'Especialização para Educação Técnica',
    'Profissionais graduados, bacharéis e tecnólogos autorizados a atuar como docentes, em caráter precário e provisório, nos anos finais do ensino fundamental e no ensino médio e médio integrado à educaçã' : 'Bachareis e tecnológos',
    'Docente graduado bacharél e tecnólogo com diploma de mestrado ou doutorado na área do componente curricular da educação profissional técnica de nível médio' : 'Mestrado ou Doutorado para Educação Técnica',
    'Docente habilitado em curso de licenciatura plena' : 'Licenciatura' 
}

In [47]:
rede_estadual_recorte2['TP_FORMACAO'] = rede_estadual_recorte2['NO_CATEGORIA_PROFISSIONAL'].map(dic_relacoes).fillna(rede_estadual_recorte2['NO_CATEGORIA_PROFISSIONAL'])

In [48]:
tabela1_rede_estadual_recorte2 = rede_estadual_recorte2.groupby(['SIG_UF', 'TP_FORMACAO'])[['VL_SALARIO', 'SALARIO TOTAL']].mean()

In [49]:
tabela1_rede_estadual_recorte2

Unnamed: 0_level_0,Unnamed: 1_level_0,VL_SALARIO,SALARIO TOTAL
SIG_UF,TP_FORMACAO,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,Bachareis e tecnológos,1212.000000,2477.733333
AC,Ensino Médio,2947.255231,6378.024256
AC,Especialização para Educação Técnica,4428.453281,10289.491719
AC,Habilitado em programa especial,3530.160387,8051.806846
AC,Mestrado ou Doutorado para Educação Técnica,3295.645000,8050.650000
...,...,...,...
SP,Licenciatura,2504.369003,7992.309448
TO,Docente professor indígena sem prévia formação pedagógica,1396.128477,2837.823709
TO,Ensino Médio,3319.801075,6903.414723
TO,Especialização para Educação Técnica,6039.315890,11128.646687


In [50]:
tabela1_rede_estadual_recorte2.to_csv('tabela_estadual_medias.csv')

In [51]:
tabela2_rede_estadual_recorte2 = rede_estadual_recorte2.groupby('TP_FORMACAO').agg({
    'VL_SALARIO' : [
        ('Media', 'mean'),
        ('20p', lambda x: x.quantile(0.20)),
        ('80p', lambda x: x.quantile(0.80))
    ],
    'SALARIO TOTAL' : [
        ('Media', 'mean'),
        ('20p', lambda x: x.quantile(0.20)),
        ('80p', lambda x: x.quantile(0.80))
    ]
})

In [52]:
tabela2_rede_estadual_recorte2.to_csv('tabela_estadual_80p_20p.csv')

### Analise rede municipal

In [53]:
rede_municipal_recorte2 = rede_municipal.copy()

In [54]:
rede_municipal_recorte2

Unnamed: 0,TIPO,AN_DECLARACAO,NU_PERIODO,ME_EXERCICIO,COD_UF,SIG_UF,COD_MUNI,NOM_MUNI,CO_ESCOLA,NO_CATEGORIA_PROFISSIONAL,DS_SITUACAO_PROFISSIONAL,TP_CATEGORIA,NU_CARGA_HORARIA,VL_SALARIO,VL_MINIMO_FUNDEB,VL_MAXIMO_FUNDEB,VL_OUTROS,CD_REDE,SALARIO TOTAL,FAIXA_CARGA
182,Municipal,2022,5,10,12,AC,120070.0,Xapuri,,Docente habilitado em curso de pedagogia,Temporário,Profissionais do magistério,30,2403.52,3605.03,0.0,0.0,120070.0,6008.55,15 a 30
187,Municipal,2022,5,10,12,AC,120070.0,Xapuri,,Docente habilitado em curso de pedagogia,Temporário,Profissionais do magistério,19,2403.52,2403.52,0.0,0.0,120070.0,4807.04,15 a 30
188,Municipal,2022,5,10,12,AC,120070.0,Xapuri,12022110.0,Docente habilitado em curso de pedagogia,Efetivo,Profissionais do magistério,30,4182.11,4879.27,0.0,0.0,120070.0,9061.38,15 a 30
189,Municipal,2022,5,10,12,AC,120070.0,Xapuri,12017868.0,Docente habilitado em curso de pedagogia,Temporário,Profissionais do magistério,30,2643.87,2643.87,0.0,0.0,120070.0,5287.74,15 a 30
3547,Municipal,2022,5,10,12,AC,120070.0,Xapuri,,Docente habilitado em curso de pedagogia,Temporário,Profissionais do magistério,30,2643.87,2643.87,0.0,0.0,120070.0,5287.74,15 a 30
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3008768,Municipal,2022,5,10,17,TO,170382.0,Cachoeirinha,17001641.0,Docente habilitado em curso de pedagogia,Efetivo,Profissionais do magistério,20,1922.81,2884.21,0.0,0.0,170382.0,4807.02,15 a 30
3008769,Municipal,2022,5,10,17,TO,170382.0,Cachoeirinha,17001641.0,Docente habilitado em curso de pedagogia,Efetivo,Profissionais do magistério,20,1922.81,5768.42,0.0,0.0,170382.0,7691.23,15 a 30
3008841,Municipal,2022,5,10,17,TO,172090.0,Taguatinga,17037557.0,Docente habilitado em curso de pedagogia,Temporário,Profissionais do magistério,25,1566.64,2349.94,0.0,0.0,172090.0,3916.58,15 a 30
3008846,Municipal,2022,5,10,17,TO,172090.0,Taguatinga,17037557.0,Docente habilitado em curso de licenciatura plena,Efetivo,Profissionais do magistério,50,999.54,1385.88,0.0,0.0,172090.0,2385.42,40+


In [55]:
rede_municipal_recorte2['TP_FORMACAO'] = rede_municipal_recorte2['NO_CATEGORIA_PROFISSIONAL'].map(dic_relacoes).fillna(rede_municipal_recorte2['NO_CATEGORIA_PROFISSIONAL'])

In [56]:
rede_municipal_recorte2

Unnamed: 0,TIPO,AN_DECLARACAO,NU_PERIODO,ME_EXERCICIO,COD_UF,SIG_UF,COD_MUNI,NOM_MUNI,CO_ESCOLA,NO_CATEGORIA_PROFISSIONAL,...,TP_CATEGORIA,NU_CARGA_HORARIA,VL_SALARIO,VL_MINIMO_FUNDEB,VL_MAXIMO_FUNDEB,VL_OUTROS,CD_REDE,SALARIO TOTAL,FAIXA_CARGA,TP_FORMACAO
182,Municipal,2022,5,10,12,AC,120070.0,Xapuri,,Docente habilitado em curso de pedagogia,...,Profissionais do magistério,30,2403.52,3605.03,0.0,0.0,120070.0,6008.55,15 a 30,Pedagogia
187,Municipal,2022,5,10,12,AC,120070.0,Xapuri,,Docente habilitado em curso de pedagogia,...,Profissionais do magistério,19,2403.52,2403.52,0.0,0.0,120070.0,4807.04,15 a 30,Pedagogia
188,Municipal,2022,5,10,12,AC,120070.0,Xapuri,12022110.0,Docente habilitado em curso de pedagogia,...,Profissionais do magistério,30,4182.11,4879.27,0.0,0.0,120070.0,9061.38,15 a 30,Pedagogia
189,Municipal,2022,5,10,12,AC,120070.0,Xapuri,12017868.0,Docente habilitado em curso de pedagogia,...,Profissionais do magistério,30,2643.87,2643.87,0.0,0.0,120070.0,5287.74,15 a 30,Pedagogia
3547,Municipal,2022,5,10,12,AC,120070.0,Xapuri,,Docente habilitado em curso de pedagogia,...,Profissionais do magistério,30,2643.87,2643.87,0.0,0.0,120070.0,5287.74,15 a 30,Pedagogia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3008768,Municipal,2022,5,10,17,TO,170382.0,Cachoeirinha,17001641.0,Docente habilitado em curso de pedagogia,...,Profissionais do magistério,20,1922.81,2884.21,0.0,0.0,170382.0,4807.02,15 a 30,Pedagogia
3008769,Municipal,2022,5,10,17,TO,170382.0,Cachoeirinha,17001641.0,Docente habilitado em curso de pedagogia,...,Profissionais do magistério,20,1922.81,5768.42,0.0,0.0,170382.0,7691.23,15 a 30,Pedagogia
3008841,Municipal,2022,5,10,17,TO,172090.0,Taguatinga,17037557.0,Docente habilitado em curso de pedagogia,...,Profissionais do magistério,25,1566.64,2349.94,0.0,0.0,172090.0,3916.58,15 a 30,Pedagogia
3008846,Municipal,2022,5,10,17,TO,172090.0,Taguatinga,17037557.0,Docente habilitado em curso de licenciatura plena,...,Profissionais do magistério,50,999.54,1385.88,0.0,0.0,172090.0,2385.42,40+,Licenciatura


In [57]:
tabela1_rede_municipal_recorte2 = rede_municipal_recorte2.groupby(['SIG_UF', 'TP_FORMACAO'])[['VL_SALARIO', 'SALARIO TOTAL']].mean()

In [58]:
tabela1_rede_municipal_recorte2.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,VL_SALARIO,SALARIO TOTAL
SIG_UF,TP_FORMACAO,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,Bachareis e tecnológos,5646.337313,11292.678358
AC,Docente professor indígena sem prévia formação pedagógica,3028.41,10507.61
AC,Ensino Médio,2224.911874,5033.731568
AC,Especialização para Educação Técnica,4106.545742,8781.254806
AC,Habilitado em programa especial,1376.512485,3403.054788
AC,Licenciatura,3005.598692,7123.697935
AC,Mestrado ou Doutorado para Educação Técnica,3716.389444,7640.021944
AC,Notório saber,1471.28125,3053.26625
AC,Pedagogia,3155.16792,8062.41836
AL,Bachareis e tecnológos,2074.111613,4228.152581


In [59]:
tabela1_rede_municipal_recorte2.to_csv('tabela_municipal_medias.csv')

In [60]:
tabela2_rede_municipal_recorte2 = rede_municipal_recorte2.groupby('TP_FORMACAO').agg({
    'VL_SALARIO' : [
        ('Media', 'mean'),
        ('20p', lambda x: x.quantile(0.20)),
        ('80p', lambda x: x.quantile(0.80))
    ],
    'SALARIO TOTAL' : [
        ('Media', 'mean'),
        ('20p', lambda x: x.quantile(0.20)),
        ('80p', lambda x: x.quantile(0.80))
    ]
})

In [61]:
tabela2_rede_municipal_recorte2

Unnamed: 0_level_0,VL_SALARIO,VL_SALARIO,VL_SALARIO,SALARIO TOTAL,SALARIO TOTAL,SALARIO TOTAL
Unnamed: 0_level_1,Media,20p,80p,Media,20p,80p
TP_FORMACAO,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Bachareis e tecnológos,4685.482954,2170.47,6112.68,10842.590472,5380.77,15054.62
"Docente instrutor, tradutor e intérprete de libras",3141.886304,1540.726,4485.86,7370.332627,3576.46,11698.916
Docente professor de comunidade quilombola,2650.989311,1951.608,3250.6,8273.979442,4968.088,11668.798
Docente professor indígena sem prévia formação pedagógica,1845.731055,1212.0,2342.88,4646.716545,2722.87,5764.73
Ensino Médio,3028.89454,1607.27,3846.0,7654.839747,3838.232,10522.924
Especialização para Educação Técnica,3470.52248,2337.1,4482.45,8534.785335,5634.38,11054.79
Habilitado em programa especial,3171.63407,2091.14,4163.88,7500.075569,4696.29,9753.26
Licenciatura,3366.875336,2123.1,4410.264,8502.266002,5005.71,11109.228
Mestrado ou Doutorado para Educação Técnica,4875.459178,2436.256,7451.13,10482.567473,5660.12,15420.308
Notório saber,2260.114562,1556.068,3283.736,5240.128358,3229.74,8326.414


In [62]:
tabela2_rede_municipal_recorte2.to_csv('tabela_municipal_80p_20p.csv')

## Por Jornada de trabalho

In [69]:
tabela1_jornada_municipal = rede_municipal_recorte2.groupby(['SIG_UF', 'FAIXA_CARGA'])[['VL_SALARIO', 'SALARIO TOTAL']].mean()

In [99]:
tabela1_jornada_municipal.to_csv('jornada_municipal_simples_uf.csv')

In [100]:
tabela1_jornada_municipal

Unnamed: 0_level_0,Unnamed: 1_level_0,VL_SALARIO,SALARIO TOTAL
SIG_UF,FAIXA_CARGA,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,15 a 30,3048.526543,6980.602341
AC,40+,2796.768770,7599.829782
AL,15 a 30,2657.358056,6031.869671
AL,30 a 40,1901.414239,5136.439239
AL,40+,2526.409815,5606.884461
...,...,...,...
SP,Até 15,1967.441349,5323.387772
TO,15 a 30,2623.106747,5749.365771
TO,30 a 40,3054.150759,6229.136832
TO,40+,4500.568699,10347.241790


In [71]:
tabela1_jornada_estadual = rede_estadual_recorte2.groupby(['SIG_UF', 'FAIXA_CARGA'])[['VL_SALARIO', 'SALARIO TOTAL']].mean()

In [96]:
tabela1_jornada_estadual.to_csv('jornada_estadual_simples_uf.csv')

In [97]:
tabela1_jornada_estadual

Unnamed: 0_level_0,Unnamed: 1_level_0,VL_SALARIO,SALARIO TOTAL
SIG_UF,FAIXA_CARGA,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,15 a 30,3083.909922,7150.095903
AC,30 a 40,2288.397402,5218.715833
AC,40+,8299.584138,18722.766897
AC,Até 15,2467.915185,6346.425926
AM,15 a 30,2982.594201,5964.497334
AM,40+,5137.420459,9447.382902
BA,15 a 30,2104.93502,8346.056823
BA,40+,4217.264298,16127.001705
CE,15 a 30,1982.157213,4907.67601
CE,30 a 40,2508.613115,6128.474311


## Tabela por UF, estadual e municipal

In [82]:
tabela2_jornada_estadual = rede_estadual_recorte2.groupby(['SIG_UF','FAIXA_CARGA']).agg({
    'VL_SALARIO' : [
        ('Media', 'mean'),
        ('20p', lambda x: x.quantile(0.20)),
        ('80p', lambda x: x.quantile(0.80))
    ],
    'SALARIO TOTAL' : [
        ('Media', 'mean'),
        ('20p', lambda x: x.quantile(0.20)),
        ('80p', lambda x: x.quantile(0.80))
    ]
})

In [101]:
tabela2_jornada_estadual.to_csv('jornada_completa_estadual_uf.csv')

In [102]:
tabela2_jornada_estadual

Unnamed: 0_level_0,Unnamed: 1_level_0,VL_SALARIO,VL_SALARIO,VL_SALARIO,SALARIO TOTAL,SALARIO TOTAL,SALARIO TOTAL
Unnamed: 0_level_1,Unnamed: 1_level_1,Media,20p,80p,Media,20p,80p
SIG_UF,FAIXA_CARGA,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
AC,15 a 30,3083.909922,2189.32,4183.8,7150.095903,5473.0,9480.26
AC,30 a 40,2288.397402,2172.07,2389.28,5218.715833,4706.15,5517.252
AC,40+,8299.584138,6882.1,10388.08,18722.766897,15889.442,22854.092
AC,Até 15,2467.915185,2371.63,2663.91,6346.425926,5149.796,6113.682
AM,15 a 30,2982.594201,2374.62,4155.57,5964.497334,4749.24,6882.38
AM,40+,5137.420459,4349.5,5425.52,9447.382902,7053.67,10931.04
BA,15 a 30,2104.93502,1979.0,2368.1,8346.056823,5955.052,10564.7
BA,40+,4217.264298,3850.0,4534.1,16127.001705,11002.708,20643.83
CE,15 a 30,1982.157213,1440.88,2705.6,4907.67601,3543.12,6763.28
CE,30 a 40,2508.613115,2305.42,2737.68,6128.474311,5668.98,6731.92


In [85]:
tabela2_jornada_municipal = rede_municipal_recorte2.groupby(['SIG_UF','FAIXA_CARGA']).agg({
    'VL_SALARIO' : [
        ('Media', 'mean'),
        ('20p', lambda x: x.quantile(0.20)),
        ('80p', lambda x: x.quantile(0.80))
    ],
    'SALARIO TOTAL' : [
        ('Media', 'mean'),
        ('20p', lambda x: x.quantile(0.20)),
        ('80p', lambda x: x.quantile(0.80))
    ]
})

In [103]:
tabela2_jornada_municipal.to_csv('jornada_municipal_completa_uf.csv')

In [104]:
tabela2_jornada_municipal

Unnamed: 0_level_0,Unnamed: 1_level_0,VL_SALARIO,VL_SALARIO,VL_SALARIO,SALARIO TOTAL,SALARIO TOTAL,SALARIO TOTAL
Unnamed: 0_level_1,Unnamed: 1_level_1,Media,20p,80p,Media,20p,80p
SIG_UF,FAIXA_CARGA,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
AC,15 a 30,3048.526543,2178.470,4013.380,6980.602341,4807.040,9054.990
AC,40+,2796.768770,1334.620,3872.500,7599.829782,4026.370,10452.860
AL,15 a 30,2657.358056,1441.090,3659.730,6031.869671,2886.400,8489.780
AL,30 a 40,1901.414239,0.010,3447.710,5136.439239,2815.200,7240.200
AL,40+,2526.409815,1212.000,3467.182,5606.884461,2424.000,8226.170
...,...,...,...,...,...,...,...
SP,Até 15,1967.441349,684.500,3492.520,5323.387772,1848.696,8124.560
TO,15 a 30,2623.106747,1922.810,3153.330,5749.365771,3845.620,7164.150
TO,30 a 40,3054.150759,2164.680,3820.320,6229.136832,4622.630,7973.840
TO,40+,4500.568699,2886.240,5942.500,10347.241790,5925.190,15325.222


## Tabela pro Brasil todo

In [90]:
tabela2_jornada_estadual_brasil = rede_estadual_recorte2.groupby('FAIXA_CARGA').agg({
    'VL_SALARIO' : [
        ('Media', 'mean'),
        ('20p', lambda x: x.quantile(0.20)),
        ('80p', lambda x: x.quantile(0.80))
    ],
    'SALARIO TOTAL' : [
        ('Media', 'mean'),
        ('20p', lambda x: x.quantile(0.20)),
        ('80p', lambda x: x.quantile(0.80))
    ]
})

In [107]:
tabela2_jornada_estadual_brasil.to_csv('jornada_brasil_completa_uf.csv')

In [108]:
tabela2_jornada_estadual_brasil

Unnamed: 0_level_0,VL_SALARIO,VL_SALARIO,VL_SALARIO,SALARIO TOTAL,SALARIO TOTAL,SALARIO TOTAL
Unnamed: 0_level_1,Media,20p,80p,Media,20p,80p
FAIXA_CARGA,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
15 a 30,4398.898323,2374.62,5860.18,9548.044796,5224.0,13213.57
30 a 40,3539.660775,2298.8,4747.09,7266.120298,4533.828,9737.91
40+,3504.108177,2298.8,4629.31,10305.809558,6968.57,13257.02
Até 15,3467.637724,1310.0,4750.2,4766.978119,2657.614,6333.6


In [92]:
tabela2_jornada_municipal_brasil = rede_municipal_recorte2.groupby('FAIXA_CARGA').agg({
    'VL_SALARIO' : [
        ('Media', 'mean'),
        ('20p', lambda x: x.quantile(0.20)),
        ('80p', lambda x: x.quantile(0.80))
    ],
    'SALARIO TOTAL' : [
        ('Media', 'mean'),
        ('20p', lambda x: x.quantile(0.20)),
        ('80p', lambda x: x.quantile(0.80))
    ]
})

In [109]:
tabela2_jornada_municipal_brasil.to_csv('jornada_brasil_completa_uf.csv')

In [110]:
tabela2_jornada_municipal_brasil

Unnamed: 0_level_0,VL_SALARIO,VL_SALARIO,VL_SALARIO,SALARIO TOTAL,SALARIO TOTAL,SALARIO TOTAL
Unnamed: 0_level_1,Media,20p,80p,Media,20p,80p
FAIXA_CARGA,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
15 a 30,3029.225159,2004.76,3836.9,7607.050835,4710.874,9669.522
30 a 40,3900.570453,2681.93,5152.142,9597.297897,6171.18,12653.04
40+,4245.483195,2115.09,5621.48,10305.135661,5358.198,13762.694
Até 15,2815.599958,1665.85,3623.16,7178.254179,3995.82,9842.158
