In [1]:
# Bibliotecas para manipulação de dados espaciais e inserção no banco MySQL
import numpy as np
import pandas as pd
import geopandas as gpd
import getpass
import pymysql
from os.path import join
from sqlalchemy import create_engine
from shapely.geometry import Point

# Estados brasileiros
state_codes = {
    # Norte
    "12": "AC",
    "13": "AM",
    "16": "AP",
    "15": "PA",
    "11": "RO",
    "14": "RR",
    "17": "TO",
    # Nordeste
    "27": "AL",
    "29": "BA",
    "23": "CE",
    "21": "MA",
    "25": "PB",
    "26": "PE",
    "22": "PI",
    "24": "RN",
    "28": "SE",
    # Sudeste
    "32": "ES",
    "31": "MG",
    "33": "RJ",
    "35": "SP",
    # Sul
    "41": "PR",
    "43": "RS",
    "42": "SC",
    # Centro-Oeste
    "53": "DF",
    "52": "GO",
    "51": "MT",
    "50": "MS",
}

# Compõem a tabela de estados do banco de dados
states = [
    ['AC', 'Acre'],
    ['AL', 'Alagoas'],
    ['AM', 'Amazonas'],
    ['AP', 'Amapá'],
    ['BA', 'Bahia'],
    ['CE', 'Ceará'],
    ['DF', 'Distrito Federal'],
    ['ES', 'Espírito Santo'],
    ['GO', 'Goiás'],
    ['MA', 'Maranhão'],
    ['MG', 'Minas Gerais'],
    ['MS', 'Mato Grosso do Sul'],
    ['MT', 'Mato Grosso'],
    ['PA', 'Pará'],
    ['PB', 'Paraíba'],
    ['PE', 'Pernambuco'],
    ['PI', 'Piauí'],
    ['PR', 'Paraná'],
    ['RJ', 'Rio de Janeiro'],
    ['RN', 'Rio Grande do Norte'],
    ['RO', 'Rondônia'],
    ['RR', 'Roraima'],
    ['RS', 'Rio Grande do Sul'],
    ['SC', 'Santa Catarina'],
    ['SE', 'Sergipe'],
    ['SP', 'São Paulo'],
    ['TO', 'Tocantins']
]

import warnings
warnings.filterwarnings('ignore')

A primeira base é referente a Unidades Básicas de Saúde (UBS) do Sistema Único de Saúde. Apesar dos mais de 2000 registros que não acompanham sua localização geográfica, suas informações são suficientes para compreender a concentração do sistema saúde nas diferentes regiões do país.

In [2]:
# Converte os valores de latitude e longitude de string para geometria e ignora os nulos
def p_flut(x):
    if type(x) == str:
        return float(x.replace(',','.'))
    return None

def pointify(x, y):
    if type(x) == type(y) == str:
        return Point(p_flut(x), p_flut(y))
    return None

rename = {'NOME': 'name', 'CNES': 'cnes'}

ubs = pd.read_csv(join('data', 'cadastro_estabelecimentos_cnes.csv'), sep=';')
ubs['geometry'] = ubs.apply(lambda x: pointify(x['LONGITUDE'], x['LATITUDE']), axis=1)
# Remove colunas desnecessárias
ubs = ubs.drop(columns=['IBGE', 'LOGRADOURO', 'BAIRRO', 'LONGITUDE', 'LATITUDE']).rename(columns = rename)
# Converte os códigos do IBGE para siglas das Unidades Federativas
ubs['UF'] = ubs.loc[:, 'UF'].map(lambda x: state_codes[str(x)])
ubs.head()

Unnamed: 0,cnes,UF,name,geometry
0,33820,GO,UNIDADE DE SAUDE DA FAMILIA PSF 307,POINT (-52.22545 -15.90682)
1,108,PE,USF ALTO DOS INDIOS,POINT (-35.0321 -8.28389)
2,116,PE,USF CHARNECA II,POINT (-35.02819 -8.28353)
3,124,PE,USF SAO FRANCISCO I,POINT (-35.035 -8.287)
4,132,PE,USF ROSARIO,POINT (-35.0321 -8.28389)


A segunda base traz informações sobre a quantidade de bolsas distribuídas pelo programa Bolsa Família em cada mês de 2020. Os dados são organizados em um código regional do IBGE incompatível com o código de municípios, mas agregações estaduais dos dados são suficientes para as análises feitas. As colunas são as seguintes:
* ben_bas: Benefício Básico - 89 reais
* ben_var: Benefício Variável - 41 reais
* ben_bvj: Benefício Variável Jovem - 48 reais
* ben_bvn: Benefício Variável Nutriz (criança de até 6 meses)
* ben_bvg: Benefício Variável à Gestante
* ben_bsp: Benefício para a Superação da Extrema Pobreza

In [3]:
rename = {'siglauf': 'UF', 'anomes': 'y_m'}

bolsa_familia = pd.read_csv(join('data', 'misocial.csv'))
bolsa_familia.rename(columns=rename, inplace = True)
# Converte ano e mês de inteiro para um formato mais legível em texto
bolsa_familia['y_m'] = bolsa_familia['y_m'].map(lambda x: str(x)[:4]+'-'+str(x)[4:])
bolsa_familia.head()

Unnamed: 0,ibge,UF,y_m,qtd_ben_bas,qtd_ben_var,qtd_ben_bvj,qtd_ben_bvn,qtd_ben_bvg,qtd_ben_bsp
0,110001,RO,2020-01,1173,2416,220.0,43.0,57.0,234.0
1,110001,RO,2020-02,1153,2365,234.0,35.0,47.0,239.0
2,110001,RO,2020-03,1143,2378,241.0,37.0,48.0,230.0
3,110001,RO,2020-04,1158,2396,252.0,39.0,45.0,231.0
4,110001,RO,2020-05,1163,2375,264.0,36.0,55.0,234.0


A seguir, combina-se os dados espaciais dos municípios brasileiros com algumas medidas do IBGE, como população estimada, Produto Interno Bruto e Índice de Desenvolvimento Humano Municipal. Os primeiros são convertidos de GeoJSON a objetos do tipo Geometry e os segundos têm algumas colunas convertidas de vírgula flutuante a ponto flutuante para fins de análise.

In [4]:
brazil = pd.DataFrame(columns = ['id','name','geometry'])

# Adiciona a sigla da UF respectiva a cada município e une todos em um DataFrame
for state in state_codes.keys():
    data = gpd.read_file(f'data/geojson/geojs-{state}-mun.json').drop('description', axis = 1)
    data['UF'] = state_codes[state]
    brazil = brazil.append(data, ignore_index = True)

# Seleciona colunas de interesse e as renomeia
columns = ['IBGECode', 'PopEstimada_2018', 'IDHM', 'Pib_2014']
names = ['id', 'population', 'idhm', 'pib']
rename = dict()
for i,j in zip(columns, names):
    rename[i] = j
counties = pd.read_excel(join('data', 'Cities_Brazil_IBGE.xlsx'))[columns]
counties.rename(columns=rename, inplace=True)

# Converte as colunas necessárias
counties['idhm'] = counties['idhm'].map(p_flut)
counties['pib'] = counties['pib'].map(p_flut)
counties['pib'] = counties['pib'].replace({np.nan: None})
brazil['id'] = brazil['id'].astype('int64')

# Merge dos dados sobre municípios
counties = brazil.merge(counties, on='id')
counties.head()

Unnamed: 0,id,name,geometry,UF,population,idhm,pib
0,1200013,Acrelândia,"POLYGON ((-67.13305 -9.67614, -67.05956 -9.708...",AC,15020,0.604,15284.56
1,1200054,Assis Brasil,"POLYGON ((-69.58777 -10.37119, -69.58226 -10.3...",AC,7300,0.588,11084.49
2,1200104,Brasiléia,"POLYGON ((-69.12877 -10.40171, -69.13691 -10.4...",AC,25848,0.614,16179.31
3,1200138,Bujari,"POLYGON ((-68.21979 -9.24215, -67.97663 -9.352...",AC,10111,0.589,15630.43
4,1200179,Capixaba,"POLYGON ((-67.77317 -10.24188, -67.77008 -10.2...",AC,11456,0.575,15180.71


Aqui os dados são inseridos no banco de dados MySQL que foi criado com o arquivo `geo_analysis_create.sql`, usando `pymysql` para possibilitar a conversão do objeto geométrico a um formato legível pelo banco.

In [7]:
# Obtém a senha da conexão
p = getpass.getpass()
connection = pymysql.connect(host = 'localhost', port = 3306, user = 'root', passwd = p)
# connection.autocommit(True)
cursor = connection.cursor()

values = counties.values.tolist()
values2 = ubs.values.tolist()

# Insere os dados
cursor.execute('USE geo_analysis;')
cursor.executemany('INSERT INTO states (code, state_name) VALUES (%s,%s);', states)
cursor.executemany('''INSERT INTO counties (id, name, geometry, UF, population, idhm, pib)
                      VALUES (%s,%s,ST_GeomFromText(%s),%s,%s,%s,%s);''', values)
cursor.executemany('INSERT INTO ubs (cnes, UF, name, geometry) VALUES (%s,%s,%s,ST_GeomFromText(%s));', values2)

41822

In [8]:
# Salva as mudanças e fecha a conexão
connection.commit()
cursor.close()
connection.close()

Por fim, a tabela que não possui dados geométricos é inserida e o banco está pronto para a análise.

In [9]:
engine = create_engine(f'mysql+pymysql://root:{p}@localhost/geo_analysis')
bolsa_familia.to_sql(name = 'bolsa_familia', con = engine, if_exists = 'append', index = False)