In [12]:
# importando a biblioteca Pandas
# Biblioteca Python, que fornece ferramentas de análise de dados e estruturas de dados de alta performance e fáceis de usar.
import pandas as pd

In [13]:
# Ferramentas para trabalhar com raspagem de dados da internet
import requests
from bs4 import BeautifulSoup

In [14]:
# RASPANDO DADOS

# retirando o texto do HTML de uma página na web
url = requests.get('https://transparencia.pirai.rj.gov.br/cargos-salarios').text

# transformando tudo em uma "sopa bonita", poderia ser (url,'html')
busca = BeautifulSoup(url,'lxml')

# encontrando todas as tags <table> do cigo html
tabela = busca.find_all('table')


Criando DataFrames

In [71]:
# CARGOS E SALÁRIOS

# pegando a primeira tabela (0) dentre as encontradas no comando anterior e transformando em um Datraframe pandas (df)
df_cargos_salarios = pd.read_html(str(tabela))[0]
df_cargos_salarios


Unnamed: 0,0,1,2
0,Cargos Efetivos,Quantidade,Salário
1,Agente Administrativo I,81,"R$ 1.466,88"
2,Agente Administrativo II,05,"R$ 1.596,52"
3,Agente Auxiliar de Expediente,00,"R$ 1.302,04"
4,Agente Comunitário de Saúde,81,"R$2.604,00"
...,...,...,...
128,Gerente de Programa Especial de Trabalho,03,"R$ 11.000,00"
129,Prefeito Municipal,01,"R$ 25.000,00"
130,Procurador Geral,01,"R$ 11.000,00"
131,Secretário Municipal,13,"R$ 11.000,00"


In [None]:
#FUNCIONÁROS E CARGOS

#pegando a segunda tabela (1) dentre as encontradas no comando anterior e transformando em um Datraframe pandas
df_funcionarios_cargos = pd.read_html(str(tabela))[1]
df_funcionarios_cargos

**Manipulações**

In [72]:
# PRIMEIRAS MANIPULAÇÕES DataFrame Cargos_Salários

# Alterando o nome das colunas que antes era 0, 1, 2 para Cargos, Quantidade e Salário, respectivamente
df_cargos_salarios.columns = ['Cargos', 'Quantidade', 'Salario']
df_cargos_salarios

Unnamed: 0,Cargos,Quantidade,Salario
0,Cargos Efetivos,Quantidade,Salário
1,Agente Administrativo I,81,"R$ 1.466,88"
2,Agente Administrativo II,05,"R$ 1.596,52"
3,Agente Auxiliar de Expediente,00,"R$ 1.302,04"
4,Agente Comunitário de Saúde,81,"R$2.604,00"
...,...,...,...
128,Gerente de Programa Especial de Trabalho,03,"R$ 11.000,00"
129,Prefeito Municipal,01,"R$ 25.000,00"
130,Procurador Geral,01,"R$ 11.000,00"
131,Secretário Municipal,13,"R$ 11.000,00"


In [73]:
# A primeira coluna desta tabela são as informações do título das colunas, vamos removêlas utilizando o método iloc
# ILOC seleciona apenas as linhas (ou colunas) desejadas
df_cargos_salarios = df_cargos_salarios.iloc[1:132, :]

# Cnvertendo o df_cargos_salarios para uma tabela interativa verifica-se que algumas linhas estão com informações que deveriam estar em mais de uma linha
# ou outros valores que não precisamos analisar. A fim didático vamos detelar essas linhas.
# Com este comando deletamos 17 linhas
df_cargos_salarios = df_cargos_salarios.drop([124,97,36,37,38,39,40,41,42,43,44,45,52,53,54])

# Existem 2 linhas completamente vazias (preenchidas com o valos Nan) e vamos deletá-las. (114 linhas x 3 colunas)
df_cargos_salarios = df_cargos_salarios.dropna(axis=0, how='all')


df_cargos_salarios

Unnamed: 0,Cargos,Quantidade,Salario
1,Agente Administrativo I,81,"R$ 1.466,88"
2,Agente Administrativo II,05,"R$ 1.596,52"
3,Agente Auxiliar de Expediente,00,"R$ 1.302,04"
4,Agente Comunitário de Saúde,81,"R$2.604,00"
5,Agente de Atendimento,00,"R$ 1.302,04"
...,...,...,...
127,Coordenador de Controle Interno,01,"R$ 11.000,00"
128,Gerente de Programa Especial de Trabalho,03,"R$ 11.000,00"
129,Prefeito Municipal,01,"R$ 25.000,00"
130,Procurador Geral,01,"R$ 11.000,00"


In [75]:
# Por fim precisamos converter a coluna salário para float (número real), a fim de fazer cálculos
# Para isso, primeiramente precisamos remover todos os caracteres que não são números, utilizando a função replace
df_cargos_salarios['Salario'] = df_cargos_salarios['Salario'].str.rstrip('R$.')
df_cargos_salarios
#df_cargos_salarios['Salario'] = df_cargos_salarios['Salario'].str.replace('R', '').str.replace('$', '').str.replace(' ', '').str.replace('.', '').str.replace(',', '.').astype("float")
#df_cargos_salarios['Salario'] = df_cargos_salarios['Salario'].str.replace('R', '').str.replace('$', '').str.replace(' ', '').str.replace('.', '').str.replace(',', '.').astype("float")


Unnamed: 0,Cargos,Quantidade,Salario
1,Agente Administrativo I,81,"R$ 1.466,88"
2,Agente Administrativo II,05,"R$ 1.596,52"
3,Agente Auxiliar de Expediente,00,"R$ 1.302,04"
4,Agente Comunitário de Saúde,81,"R$2.604,00"
5,Agente de Atendimento,00,"R$ 1.302,04"
...,...,...,...
127,Coordenador de Controle Interno,01,"R$ 11.000,00"
128,Gerente de Programa Especial de Trabalho,03,"R$ 11.000,00"
129,Prefeito Municipal,01,"R$ 25.000,00"
130,Procurador Geral,01,"R$ 11.000,00"


In [11]:



df_funcionarios_cargos.columns = ['Nome do Funcionário', 'Cargos']
df_funcionarios_cargos = df_funcionarios_cargos.iloc[1:2367,:]
df_funcionarios_cargos = df_funcionarios_cargos.dropna(axis=0, how='all')
df_funcionarios_cargos['Nome do Funcionário'] = df_funcionarios_cargos['Nome do Funcionário'].astype("string")
df_funcionarios_cargos['Cargos'] = df_funcionarios_cargos['Cargos'].astype("string")


#print(df_funcionarios_cargos.dtypes)
print(df_funcionarios_cargos.shape)
print(df_funcionarios_cargos.shape)

#
df_nova = pd.concat([df_cargos_salarios, df_funcionarios_cargos])
df_nova = df_nova[df_nova["Nome do Funcionário"] == "THAIS MENDES BARRAS"]
#df_nova.describe()



#df_merge = pd.merge(df_cargos_salarios, df_funcionarios_cargos, how = 'left', on = 'Cargos')
#df_merge

  df1['Salario'] = df1['Salario'].str.replace('R', '').str.replace('$', '').str.replace(' ', '').str.replace('.', '').str.replace(',', '.').astype("float")


(2366, 2)
(114, 3)


Unnamed: 0,Salario
count,0.0
mean,
std,
min,
25%,
50%,
75%,
max,


In [None]:
#Mesclando as colunas
#Para vizualizar melhor os dados nós vamos mesclar as tabelas

df_folha_pgto_concat = pd.concat([df_cargos_salarios, df_funcionarios_cargos])
df_folha_pgto_concat


In [None]:

df_folha_pgto_merge = pd.merge(df_cargos_salarios, df_funcionarios_cargos,how = 'outer')
df_folha_pgto_merge