# Estrutura Administrativa Simplificada

Neste notebook construimos o dataset com a estrutura administrativa simplificada, tendo como escopo apenas a Prefeitura de São Paulo.

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from core.utils import solve_dir, solve_path

In [2]:
ORIGINAL_DATA_DIR = solve_dir('original_data')
GENERATED_DATA_DIR = solve_dir('generated_data')
GENERATED_DATA_DIR = solve_path('estrutura_administrativa_simplificada', GENERATED_DATA_DIR)
GENERATED_DATA_DIR = solve_dir(GENERATED_DATA_DIR)

In [3]:
def download_page_organizacao(url):
    
    with requests.get(url) as r:
        assert r.status_code == 200
        html = r.text
        
    sopa = BeautifulSoup(html)
    
    return sopa

In [4]:
def parse_table(sopa):
    
    table = sopa.find('table')
    rows = table.find_all('tr')
    
    parsed_rows =  []
    for i, row in enumerate(rows):
        if i == 0:
            header = [th.text for th in row.find_all('th')]
        else:
            parsed_rows.append([td.text for td in row.find_all('td')])
            
    return pd.DataFrame(parsed_rows, columns = header)

In [5]:
url_secretarias = ('https://www.prefeitura.sp.gov.br/cidade/'
                   'secretarias/comunicacao/organizacao/index.php?p=192643')

In [6]:
sopa = download_page_organizacao(url_secretarias)

In [7]:
df_secretarias = parse_table(sopa)

In [8]:
df_secretarias

Unnamed: 0,Sigla,Nome da Instituição
0,CGM,Controladoria Geral do Município
1,PGM,Procuradoria Geral do Município
2,SGM,Secretaria de Governo Municipal
3,SECOM,Secretaria Especial de Comunicação
4,SEDP,Secretaria Executiva de Desestatização e Parce...
5,SECLIMA,Secretaria Executiva de Mudanças Climáticas
6,SEPEP,Secretaria Executiva de Planejamento e Entrega...
7,SEPE,Secretaria Executiva de Projetos Estratégicos\n
8,SERI,Secretaria Executiva de Relações Institucionais
9,SETRAM,Secretaria Executiva de Transporte e Mobilidad...


In [9]:
df_secretarias['tipo_orgao_id'] = 1

In [10]:
url_subprefeituras = 'https://www.prefeitura.sp.gov.br/cidade/secretarias/comunicacao/organizacao/index.php?p=192709'

In [11]:
sopa = download_page_organizacao(url_subprefeituras)

In [12]:
df_subs = parse_table(sopa)

In [13]:
df_subs

Unnamed: 0,Sigla,Nome da Instituição
0,SUBAF,Subprefeitura de Aricanduva
1,SUBBT,Subprefeitura de Butantã
2,SUBCL,Subprefeitura de Campo Limpo
3,SUBCS,Subprefeitura Capela do Socorro
4,SUBCV,Subprefeitura Casa Verde
5,SUBAD,Subprefeitura Cidade Ademar
6,SUBCT,Subprefeitura Cidade Tiradentes
7,SUBEM,Subprefeitura Ermelino Matarazzo
8,SUBFO,Subprefeitura Freguesia/Brasilândia
9,SUBG,Subprefeitura Guaianases


In [14]:
df_subs['tipo_orgao_id'] = 2

In [15]:
indiretas = [
    'AMLURB - Autoridade Municipal de Limpeza Urbana',
    'HSPM - Hospital do Servidor Público Municipal',
    'IPREM - Instituto de Previdência Municipal de São Paulo',
    'SFMSP - Serviço Funerário do Município de São Paulo',
    'SP Regula - Agência Reguladora de Serviços Públicos',
    'CET - Companhia de Engenharia de Tráfego',
    'COHAB-SP - Companhia Metropolitana de Habitação de São Paulo',
    'PRODAM - Empresa de Tecnologia da Informação e Comunicação do Município de São Paulo',
    'SPCine - Empresa de Cinema e Audiovisual de São Paulo',
    'SP Negócios - São Paulo Negócios',
    'SPOBRAS - São Paulo Obras',
    'SP Parcerias - São Paulo Parcerias',
    'SPUrbanismo - São Paulo Urbanismo',
    'SPDA - Companhia São Paulo de Desenvolvimento e Mobilização de Ativos',
    'SPSEC - SSP Securitização Companhia Paulistana de Securitização',
    'SPTrans - São Paulo Transporte',
    'SPTuris - São Paulo Turismo',
    'FPETC - Fundação Paulistana de Educação, Tecnologia e Cultura',
    'TMSP - Fundação Theatro Municipal de São Paulo'
]

In [16]:
data = [txt.split(' - ') for txt in indiretas]

In [17]:
data

[['AMLURB', 'Autoridade Municipal de Limpeza Urbana'],
 ['HSPM', 'Hospital do Servidor Público Municipal'],
 ['IPREM', 'Instituto de Previdência Municipal de São Paulo'],
 ['SFMSP', 'Serviço Funerário do Município de São Paulo'],
 ['SP Regula', 'Agência Reguladora de Serviços Públicos'],
 ['CET', 'Companhia de Engenharia de Tráfego'],
 ['COHAB-SP', 'Companhia Metropolitana de Habitação de São Paulo'],
 ['PRODAM',
  'Empresa de Tecnologia da Informação e Comunicação do Município de São Paulo'],
 ['SPCine', 'Empresa de Cinema e Audiovisual de São Paulo'],
 ['SP Negócios', 'São Paulo Negócios'],
 ['SPOBRAS', 'São Paulo Obras'],
 ['SP Parcerias', 'São Paulo Parcerias'],
 ['SPUrbanismo', 'São Paulo Urbanismo'],
 ['SPDA', 'Companhia São Paulo de Desenvolvimento e Mobilização de Ativos'],
 ['SPSEC', 'SSP Securitização Companhia Paulistana de Securitização'],
 ['SPTrans', 'São Paulo Transporte'],
 ['SPTuris', 'São Paulo Turismo'],
 ['FPETC', 'Fundação Paulistana de Educação, Tecnologia e Cultu

In [18]:
df_indiretas = pd.DataFrame(data, columns = ('Sigla', 'Nome da Instituição'))

In [19]:
df_indiretas['Sigla'] = df_indiretas['Sigla'].str.upper()

In [20]:
df_indiretas['tipo_orgao_id'] = 3

In [21]:
df_indiretas

Unnamed: 0,Sigla,Nome da Instituição,tipo_orgao_id
0,AMLURB,Autoridade Municipal de Limpeza Urbana,3
1,HSPM,Hospital do Servidor Público Municipal,3
2,IPREM,Instituto de Previdência Municipal de São Paulo,3
3,SFMSP,Serviço Funerário do Município de São Paulo,3
4,SP REGULA,Agência Reguladora de Serviços Públicos,3
5,CET,Companhia de Engenharia de Tráfego,3
6,COHAB-SP,Companhia Metropolitana de Habitação de São Paulo,3
7,PRODAM,Empresa de Tecnologia da Informação e Comunica...,3
8,SPCINE,Empresa de Cinema e Audiovisual de São Paulo,3
9,SP NEGÓCIOS,São Paulo Negócios,3


In [22]:
df_final = pd.concat([df_secretarias, df_subs, df_indiretas])

In [23]:
df_final.sample(10)

Unnamed: 0,Sigla,Nome da Instituição,tipo_orgao_id
7,SUBEM,Subprefeitura Ermelino Matarazzo,2
2,SUBCL,Subprefeitura de Campo Limpo,2
14,SUBJT,Subprefeitura Jaçanã/Tremembé,2
18,SUBPA,Subprefeitura Parelheiros,2
13,SMS,Secretaria Municipal da Saúde,1
6,SEPEP,Secretaria Executiva de Planejamento e Entrega...,1
6,SUBCT,Subprefeitura Cidade Tiradentes,2
16,SMC,Secretaria Municipal de Cultura,1
18,TMSP,Fundação Theatro Municipal de São Paulo,3
28,SUBSE,Subprefeitura Sé,2


In [24]:
df_final = df_final.rename({'Sigla' : 'sigla', 'Nome da Instituição' : 'descricao'}, axis=1)

In [25]:
df_final['id'] = df_final.index+1

In [26]:
df_final = df_final[['id', 'tipo_orgao_id', 'sigla', 'descricao']]

In [27]:
df_final.head()

Unnamed: 0,id,tipo_orgao_id,sigla,descricao
0,1,1,CGM,Controladoria Geral do Município
1,2,1,PGM,Procuradoria Geral do Município
2,3,1,SGM,Secretaria de Governo Municipal
3,4,1,SECOM,Secretaria Especial de Comunicação
4,5,1,SEDP,Secretaria Executiva de Desestatização e Parce...


In [28]:
df_final['sigla'] = df_final['sigla'].str.strip()
df_final['descricao'] = df_final['descricao'].str.strip()

In [29]:
def save_df(df, fname, folder):
    
    fname = solve_path(fname, folder)
    
    try:
        df.to_csv(fname, sep =';', decimal=',', 
                  encoding='latin-1', index=False)
    except UnicodeEncodeError:
        df.to_csv(fname, sep =';', decimal=',', 
                  encoding='utf-8', index=False)

In [30]:
save_df(df_final, 'orgaos.csv', GENERATED_DATA_DIR)

In [31]:
tipo_orgao = {
    'id' : [1, 2, 3],
    'descricao' : ['Secretaria Municipal', 'Subprefeitura', 'Administração Indireta']
}

In [32]:
tipo_orgao = pd.DataFrame(tipo_orgao)

In [33]:
tipo_orgao

Unnamed: 0,id,descricao
0,1,Secretaria Municipal
1,2,Subprefeitura
2,3,Administração Indireta


In [34]:
save_df(tipo_orgao, 'tipo_orgao.csv', GENERATED_DATA_DIR)