<a href="https://colab.research.google.com/github/Igor-R-Amorim/Soulcode-Academy/blob/main/Projeto%20Final/ProjetoFinal_Pandas_PopulacaoPorMunicipio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## ❗ Projeto Final: Engenharia de Dados ❗

`Tratamento dos datasets:`

↪ POPULACAO-2021_2022.xls

↪ RELATORIO_DTB_BRASIL_MUNICIPIO.xls

↪ ubs-municipios_cnes.csv

#####*Alunos: Felipe Campelo, Igor Amorim, Lívia Matsumoto e Madson Cordeiro.*

## Bibliotecas

### Instalaçoes de Bibliotecas

In [None]:
#!pip install gcsfs
#!pip install xlrd==2.0.1

In [None]:
#!pip install pymysql

### Importação de bibliotecas

In [None]:
# Bibliotecas para auxiliar na manipulação do pandas
import pandas as pd
import numpy as np

# Unicamente para importação da Chave JSON
from google.colab import drive

# Bibliotecas para auxiliar na conexção com a GCP
from google.cloud import storage
from google.cloud import bigquery
import os

# Bibliotecas para conexão com o MySQL
from sqlalchemy import create_engine
import pymysql

### Configuração das exibiçoes e dos conectores 

In [None]:
# AUMENTANDO A QUANTIDADE MAXIMA DE COLUNAS A SEREM VISUALIZADAS POR EXIBIÇÃO (display())
pd.set_option('display.max_columns',100)

In [None]:
# CONFIGURAÇÃO DA CHAVE DE SEGURANÇA
serviceAccount = '/content/projetos-teste-3bd3afae4466657a247cb3a849a7ff1d8e533f6c.json'
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = serviceAccount

# CÓDIGOS DE ACESSO A BUCKET PARA CRIAR UM DATAFRAME A PARTIR DO DATASET
client = storage.Client()

# CRIAR UMA VARIÁVEL PARA RECEBER O NOME DA BUCKET
bucket = client.get_bucket('projeto-final-dados-brutos')

# ESCOLHER O ARQUIVO DENTRO DA BUCKET
bucket.blob('projeto-final-dados-brutos/POPULACAO-2021_2022.xls')

# CRIAR UMA VARIÁVEL QUE VAI RECEBER O CAMINHO DO ARQUIVO
path = 'gs://projeto-final-dados-brutos/POPULACAO-2021_2022.xls'

## ✅ ETL - Extração

### EXTRAÇÃO - Dataset população 

Os dados sobre cidades e população foram tirados do IBGE nos links:

https://ftp.ibge.gov.br/Estimativas_de_Populacao/Estimativas_2021/POP2021_20220711.xls

https://www.ibge.gov.br/explica/codigos-dos-municipios.php

In [None]:
df1 = pd.read_excel(path, sheet_name='Municípios', header=1)

In [None]:
df1.head(3)

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11.0,15.0,Alta Floresta D'Oeste,22516
1,RO,11.0,23.0,Ariquemes,111148
2,RO,11.0,31.0,Cabixi,5067


In [None]:
# ESCOLHER O ARQUIVO DENTRO DA BUCKET
bucket.blob('projeto-final-dados-brutos/RELATORIO_DTB_BRASIL_MUNICIPIO.xls')

# CRIAR UMA VARIÁVEL QUE VAI RECEBER O CAMINHO DO ARQUIVO
path = 'gs://projeto-final-dados-brutos/RELATORIO_DTB_BRASIL_MUNICIPIO.xls'

In [None]:
df2 = pd.read_excel(path, sheet_name='DTB_2021_Municipio')

In [None]:
df2.head(3)

Unnamed: 0,UF,Nome_UF,Região Geográfica Intermediária,Nome Região Geográfica Intermediária,Região Geográfica Imediata,Nome Região Geográfica Imediata,Mesorregião Geográfica,Nome_Mesorregião,Microrregião Geográfica,Nome_Microrregião,Município,Código Município Completo,Nome_Município
0,11,Rondônia,1102,Ji-Paraná,110005,Cacoal,2,Leste Rondoniense,6,Cacoal,15,1100015,Alta Floresta D'Oeste
1,11,Rondônia,1102,Ji-Paraná,110005,Cacoal,2,Leste Rondoniense,6,Cacoal,379,1100379,Alto Alegre dos Parecis
2,11,Rondônia,1101,Porto Velho,110002,Ariquemes,2,Leste Rondoniense,3,Ariquemes,403,1100403,Alto Paraíso


### EXTRAÇÃO - Dataset UBS/municípios

Dados contendo ID do município e UBSs cadastradas retirados de

https://dados.gov.br/dataset/unidades-basicas-de-saude-ubs

In [None]:
# ESCOLHER O ARQUIVO DENTRO DA BUCKET
bucket.blob('projeto-final-dados-brutos/ubs-municipios_cnes.csv')

# CRIAR UMA VARIÁVEL QUE VAI RECEBER O CAMINHO DO ARQUIVO
path = 'gs://projeto-final-dados-brutos/ubs-municipios_cnes.csv'

In [None]:
df3 = pd.read_csv(path,sep=';')

In [None]:
df3

Unnamed: 0,CNES,UF,IBGE,NOME,LOGRADOURO,BAIRRO,LATITUDE,LONGITUDE
0,33820,52,520170,UNIDADE DE SAUDE DA FAMILIA PSF 307,RUA H,NOVO MUNDO,-1590682,-5222545
1,108,26,260290,USF ALTO DOS INDIOS,RUA 17,PONTE DOS CARVALHOS,-828389,-350321
2,116,26,260290,USF CHARNECA II,RUA 02,CHARNECA,-828353,-3502819
3,124,26,260290,USF SAO FRANCISCO I,RUA MANOEL DOMINGOS BARROS,SAO FRANCISCO,-8287,-35035
4,132,26,260290,USF ROSARIO,RUA 01,ROSARIO,-828389,-350321
...,...,...,...,...,...,...,...,...
43345,3256685,32,320140,SALA DE IMUNIZACAO DA ATENCAO BASICA,AV NOSSA SENHORA DA PENHA,CENTRO,-20608,-41203
43346,2968967,32,320120,UNIDADE DE SAUDE DA MULHER CASA ROSA DRA GLAUR...,R COSTA PEREIRA,CENTRO,-2084861,-411135
43347,3045617,35,352690,CSF CAMPO BELO LIMEIRA,AVENIDA PEDRO PERISSOTTO,JD CAMPO BELO,-22599,-4738847
43348,3226743,29,290660,PSF MARIA ANISIA DE SOUZA FERNANDES,RUA CASTRO ALVES,CENTRO,-14411,-42867


## ✅ Redundancia dos dados

### Envio dos arquivos brutos utilizados para o MySQL 

↪ Arquivos a enviar: 

`df1` ➡ POPULACAO_POR_MUNICIPIO

`df2` ➡ DTB_2021_Municipio

`df3` ➡ ubs-municipios_cnes

In [None]:
# Criando a conexão com o MySQL
sqlEngine = create_engine('mysql+pymysql://root:root@35.198.31.249/df-bruto')
dbConnection = sqlEngine.connect()

# Removendo valores nulos para ser possível a inserção no MySQL
df1_mysql = df1.fillna(value = np.NaN)
df2_mysql = df2.fillna(value = np.NaN)
df3_mysql = df3.fillna(value = np.NaN)

# Inserindo no MySQL
df1_mysql.to_sql('POPULACAO_POR_MUNICIPIO', dbConnection, if_exists = 'replace')
df2_mysql.to_sql('DTB_2021_Municipio', dbConnection, if_exists = 'replace')
df3_mysql.to_sql('ubs-municipios_cnes', dbConnection, if_exists = 'replace')

### Envio dos arquivos brutos utilizados para o BigQuery

↪ Arquivos a enviar: 

`df1` ➡ POPULACAO_POR_MUNICIPIO

`df2` ➡ DTB_2021_Municipio

`df3` ➡ ubs-municipios_cnes

In [None]:
# Definindo o schema para envio pro BigQuery
job_config = bigquery.LoadJobConfig(
    schema = [
        bigquery.SchemaField("UF", "STRING"),
        bigquery.SchemaField("COD_UF", "STRING"),
        bigquery.SchemaField("COD_MUNIC", "STRING"),
        bigquery.SchemaField("NOME_MUNICIPIO", "STRING"),
        bigquery.SchemaField("POPULACAO_ESTIMADA", "STRING")
    ],
    autodetect = False,
    source_format = bigquery.SourceFormat.CSV
)
df1 = df1.astype(str)

# Removendo valores nulos para ser possível a inserção no BigQuery
df1_BQ = df1.fillna(value = np.NaN)
df2_BQ = df2.fillna(value = np.NaN)
df3_BQ = df3.fillna(value = np.NaN)

# Enviando para o BigQuery
client = bigquery.Client()
job = client.load_table_from_dataframe(df1_BQ, 'igor-projetos-teste.dados_brutos.POPULACAO_POR_MUNICIPIO', job_config = job_config)
job = client.load_table_from_dataframe(df2_BQ, 'igor-projetos-teste.dados_brutos.DTB_2021_Municipio')
job = client.load_table_from_dataframe(df3_BQ, 'igor-projetos-teste.dados_brutos.ubs-municipios_cnes')



## ✅ ETL - Transformação

### TRATAMENTO - Dataset população

Pré-Tratamento

In [None]:
# Deixando o df1 como bkp

df = df1.copy()
df.head(2)

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11.0,15.0,Alta Floresta D'Oeste,22516
1,RO,11.0,23.0,Ariquemes,111148


In [None]:
# Renomeando as colunas para trabalhar melhor 

df.rename(columns=
                  {
                    "COD. UF": "COD_UF",
                    "COD. MUNIC": "ID_municipio", 
                    "NOME DO MUNICÍPIO": "Nome_municipio",
                    "POPULAÇÃO ESTIMADA": "Populacao"
                  }, inplace=True)
df.head(2)

Unnamed: 0,UF,COD_UF,ID_municipio,Nome_municipio,Populacao
0,RO,11.0,15.0,Alta Floresta D'Oeste,22516
1,RO,11.0,23.0,Ariquemes,111148


In [None]:
df.dtypes

UF                object
COD_UF            object
ID_municipio      object
Nome_municipio    object
Populacao         object
dtype: object

In [None]:
#filtrando apenas as cidade de SP

filtro = df.COD_UF == '35.0'
df = df[filtro].copy()

df.head(2)

Unnamed: 0,UF,COD_UF,ID_municipio,Nome_municipio,Populacao
3267,SP,35.0,105.0,Adamantina,35153
3268,SP,35.0,204.0,Adolfo,3545


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 645 entries, 3267 to 3911
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   UF              645 non-null    object
 1   COD_UF          645 non-null    object
 2   ID_municipio    645 non-null    object
 3   Nome_municipio  645 non-null    object
 4   Populacao       645 non-null    object
dtypes: object(5)
memory usage: 30.2+ KB


- Tratamento

In [None]:
# Para o tratamento abaixo precisa-se garantir que os codigos
# são strings
  
df['COD_UF'] = df['COD_UF'].astype(str)
df.ID_municipio = df.ID_municipio.astype(str)

In [None]:
# Corrigindo os IDs dos municípios que não tem 5 casas completas
# para posteriormente unir as tabelas, será necessario que em ambas as 
# tabelas os codigos de municipio sejam copostos de 5 digitos pelo menos.
# garantindo assim as caracteristicas de sub-região do IBGE

municipios_alterados=[]
for i in df['ID_municipio']:
  if len(i) == 5:
    j = i[0:3]
    k = '00' + j
    municipios_alterados.append(k)
  elif len(i) == 6: 
    j = i[0:4]
    k = '0' + j
    municipios_alterados.append(k)
  elif len(i) == 7:
    j = i[0:5]
    municipios_alterados.append(j)
  else:
    print('erro')
    print(i)
    print()
    municipios_alterados.append(i)
  
df['ID_municipio'] = municipios_alterados
df.ID_municipio

3267    00105
3268    00204
3269    00303
3270    00402
3271    00501
        ...  
3907    57006
3908    57105
3909    57154
3910    57204
3911    57303
Name: ID_municipio, Length: 645, dtype: object

In [None]:
# Corrigindo ponto flutuante no codigo de UF

cod_alterados=[]
for i in df['COD_UF']:
  if len(i) == 4:
    j=i[0:2]
    cod_alterados.append(j)
  else:
    cod_alterados.append(i)

df['COD_UF'] = cod_alterados
df['COD_UF']

3267    35
3268    35
3269    35
3270    35
3271    35
        ..
3907    35
3908    35
3909    35
3910    35
3911    35
Name: COD_UF, Length: 645, dtype: object

In [None]:
df.head(2)

Unnamed: 0,UF,COD_UF,ID_municipio,Nome_municipio,Populacao
3267,SP,35,105,Adamantina,35153
3268,SP,35,204,Adolfo,3545


In [None]:
# A fim de formar o codigo completo do municipio é necessario adicionar a
# numeração do estado antes do municipio. 

df['cod_municipio'] = df['COD_UF'] + df['ID_municipio']
df['cod_municipio']

3267    3500105
3268    3500204
3269    3500303
3270    3500402
3271    3500501
         ...   
3907    3557006
3908    3557105
3909    3557154
3910    3557204
3911    3557303
Name: cod_municipio, Length: 645, dtype: object

In [None]:
# Talvez seja interessante mostrar um mapa de calor na apresentação
# Para isso, sera interessante manter o endereço o mais completo possivel 
# para o analista 

df['localizacao'] = df['UF'] + ' - ' + df['Nome_municipio']
df['localizacao']

3267          SP - Adamantina
3268              SP - Adolfo
3269               SP - Aguaí
3270      SP - Águas da Prata
3271    SP - Águas de Lindóia
                ...          
3907          SP - Votorantim
3908         SP - Votuporanga
3909            SP - Zacarias
3910           SP - Chavantes
3911        SP - Estiva Gerbi
Name: localizacao, Length: 645, dtype: object

In [None]:
# Dropando as colunas que possuem informaçoes irrelevantes a analise

df.drop('UF', axis=1, inplace=True) # já existe um endereco com estado - municipio
df.drop('COD_UF', axis=1, inplace=True) # espaço amostral todo em SP
df.drop('ID_municipio', axis=1, inplace=True) # já existe uma celula com o codigo completo
df.head(2)

Unnamed: 0,Nome_municipio,Populacao,cod_municipio,localizacao
3267,Adamantina,35153,3500105,SP - Adamantina
3268,Adolfo,3545,3500204,SP - Adolfo


### TRATAMENTO - Dataset UBS/municípios

- Pré-Tratamento

In [None]:
# criando bkp de df3 original 

df_bkp = df3.copy()

In [None]:
df3.head(3)

Unnamed: 0,CNES,UF,IBGE,NOME,LOGRADOURO,BAIRRO,LATITUDE,LONGITUDE
0,33820,52,520170,UNIDADE DE SAUDE DA FAMILIA PSF 307,RUA H,NOVO MUNDO,-1590682,-5222545
1,108,26,260290,USF ALTO DOS INDIOS,RUA 17,PONTE DOS CARVALHOS,-828389,-350321
2,116,26,260290,USF CHARNECA II,RUA 02,CHARNECA,-828353,-3502819


In [None]:
df3.shape

(43350, 8)

In [None]:
# Muitos itens de latitude e longitude inexistentes.

df3.isna().sum()

CNES             0
UF               0
IBGE             0
NOME             1
LOGRADOURO       0
BAIRRO           0
LATITUDE      2166
LONGITUDE     2159
dtype: int64

In [None]:
df3['IBGE'].nunique()

5453

In [None]:
# Dropando colunas desnecessárias para nossa análise
df3.drop(['CNES','LOGRADOURO','BAIRRO','LATITUDE','LONGITUDE'],axis=1,inplace=True)

In [None]:
# Localizando dados do estado de São Paulo (35)
filtro = df3['UF'] == 35
df3[filtro]

Unnamed: 0,UF,IBGE,NOME
56,35,354990,UBS ALTO DA PONTE
82,35,354520,CLINICA SALTO SAUDE MOUTONNEE
85,35,353440,UBS MARIA PIA DE OLIVEIRA
126,35,353440,UBS DARCY ALVES E ROBALINHO
127,35,353440,UBS SYLVIO JOAO L DE LUCIA
...,...,...,...
43320,35,352340,UBS BAIRRO DOS PIRES ANTONIO FERNANDO LAZZARI ...
43324,35,351390,CENTRO DE FISIOTERAPIA MUNICIPAL
43325,35,352340,PSF 22 ENGENHO DAGUA DRA LIA DE ARAUJO OLIVEIR...
43334,35,355030,UBS VILA GUILHERME


In [None]:
df3 = df3[filtro].copy()
df3

Unnamed: 0,UF,IBGE,NOME
56,35,354990,UBS ALTO DA PONTE
82,35,354520,CLINICA SALTO SAUDE MOUTONNEE
85,35,353440,UBS MARIA PIA DE OLIVEIRA
126,35,353440,UBS DARCY ALVES E ROBALINHO
127,35,353440,UBS SYLVIO JOAO L DE LUCIA
...,...,...,...
43320,35,352340,UBS BAIRRO DOS PIRES ANTONIO FERNANDO LAZZARI ...
43324,35,351390,CENTRO DE FISIOTERAPIA MUNICIPAL
43325,35,352340,PSF 22 ENGENHO DAGUA DRA LIA DE ARAUJO OLIVEIR...
43334,35,355030,UBS VILA GUILHERME


In [None]:
#Drop de UF e nome da unidade, precisamos apenas da quantidade por municipio

df3.drop(['UF','NOME'],axis=1,inplace=True)

In [None]:
df3.shape

(5458, 1)

In [None]:
sorted(df3.IBGE.unique())[:10]

[350010,
 350020,
 350030,
 350040,
 350050,
 350055,
 350060,
 350070,
 350075,
 350080]

In [None]:
df3.groupby(['IBGE']).size().sort_values(ascending=False).head(10)

IBGE
355030    634
353870     82
351880     73
350950     67
355410     58
352900     53
354340     52
350320     43
354990     40
352590     40
dtype: int64

In [None]:
df3.groupby(['IBGE']).size().sort_values(ascending=False).tail(10)

IBGE
353610    1
354840    1
354830    1
354820    1
353625    1
354805    1
353657    1
350945    1
353690    1
353325    1
dtype: int64

In [None]:
# O somatório das unidades UBS's nos distintos municipios pode ser adiquirida 
# através do groupBy. Sendo que esses dados serão necessarios para  a posterior
# união com do df dos municipios
  
df3 = df3.groupby(['IBGE']).size().sort_values(ascending=False)
aux1 = df3.index
aux2 = df3.values

In [None]:
#criação do df auxiliar para a posterior união

df3 = pd.DataFrame({'IBGE': aux1, 'QTD_UBS': aux2})
df3

Unnamed: 0,IBGE,QTD_UBS
0,355030,634
1,353870,82
2,351880,73
3,350950,67
4,355410,58
...,...,...
626,354805,1
627,353657,1
628,350945,1
629,353690,1


Adicionando a quantidade de unidade basicas por municipio no DF principal para unificar as informações

In [None]:
# Para o tratamento a seguir é necessario garatir que os 
# codigos do IBGE sejam string
df3.IBGE = df3['IBGE'].astype(str)
df3.dtypes

IBGE       object
QTD_UBS     int64
dtype: object

In [None]:
# Procurando alguns dso codigos do df3 em df a fim de garantir 
# sua reciprocidade
filtro = df['cod_municipio'].str.startswith('355030')
display(df[filtro])
print()
print()
filtro = df['cod_municipio'].str.startswith('353870')
display(df[filtro])
print()
print()
filtro = df['cod_municipio'].str.startswith('351880')
display(df[filtro])

Unnamed: 0,Nome_municipio,Populacao,cod_municipio,localizacao
3829,São Paulo,12396372,3550308,SP - São Paulo






Unnamed: 0,Nome_municipio,Populacao,cod_municipio,localizacao
3700,Piracicaba,410275,3538709,SP - Piracicaba






Unnamed: 0,Nome_municipio,Populacao,cod_municipio,localizacao
3479,Guarulhos,1404694,3518800,SP - Guarulhos


In [None]:
# Percorrer o df3 comparando cada elemento dele com a coluna de municipios em df 
# onde a ocorrencia for verdadeira, em df escreva em uma nova coluna a quantidade 
# de UBS's daquele municipio de acordo o calculo prévio de df3

for i, val in enumerate(df3.IBGE):
  filtro = df.cod_municipio.str.startswith(val)
  df.loc[filtro, 'Qtd_UBS'] = df3.QTD_UBS[i]

In [None]:
df.head(2)

Unnamed: 0,Nome_municipio,Populacao,cod_municipio,localizacao,Qtd_UBS
3267,Adamantina,35153,3500105,SP - Adamantina,9.0
3268,Adolfo,3545,3500204,SP - Adolfo,1.0


In [None]:
filtro = df['cod_municipio'].str.startswith('355030')
display(df[filtro])

Unnamed: 0,Nome_municipio,Populacao,cod_municipio,localizacao,Qtd_UBS
3829,São Paulo,12396372,3550308,SP - São Paulo,634.0


- Verificação dos nulos

In [None]:
df['Qtd_UBS'].isnull().sum()

14

In [None]:
df3 = df_bkp.copy()

In [None]:
filtro = df['Qtd_UBS'].isnull()
display(df[filtro])

Unnamed: 0,Nome_municipio,Populacao,cod_municipio,localizacao,Qtd_UBS
3293,Anhumas,4172,3502408,SP - Anhumas,
3322,Bananal,11039,3504909,SP - Bananal,
3435,Embu-Guaçu,70402,3515103,SP - Embu-Guaçu,
3442,Euclides da Cunha Paulista,9280,3515350,SP - Euclides da Cunha Paulista,
3464,Guaimbê,5806,3517307,SP - Guaimbê,
3548,Jales,49291,3524808,SP - Jales,
3628,Narandiba,4950,3532207,SP - Narandiba,
3689,Pereiras,8875,3537503,SP - Pereiras,
3696,Pinhalzinho,15564,3538204,SP - Pinhalzinho,
3705,Pirapozinho,27974,3539202,SP - Pirapozinho,


In [None]:
filtro = df3['IBGE'] == 350240
display(df3.loc[filtro])

Unnamed: 0,CNES,UF,IBGE,NOME,LOGRADOURO,BAIRRO,LATITUDE,LONGITUDE


In [None]:
filtro = df['cod_municipio'].str.startswith('351510')
display(df.loc[filtro])

print(sorted(filtro)[:5])
print(sorted(filtro)[:-5:-1])

Unnamed: 0,Nome_municipio,Populacao,cod_municipio,localizacao,Qtd_UBS
3435,Embu-Guaçu,70402,3515103,SP - Embu-Guaçu,


[False, False, False, False, False]
[True, False, False, False]


In [None]:
'Exemplos a procurar em UBS'
# UBS Flórida
# Posto de saúde comunitário
# Jardim Lidia Maria, Embu-Guaçu - SP

# Filipinho
# Filipinho, Embu-Guaçu

filtro = df3['LOGRADOURO'].str.lower().str.contains('jardim lidia')
display(df3.loc[filtro])

print('\n')
filtro = df3['LOGRADOURO'].str.lower().str.contains('filipin')
display(df3.loc[filtro])

Unnamed: 0,CNES,UF,IBGE,NOME,LOGRADOURO,BAIRRO,LATITUDE,LONGITUDE






Unnamed: 0,CNES,UF,IBGE,NOME,LOGRADOURO,BAIRRO,LATITUDE,LONGITUDE
4712,2141094,31,314170,UNIDADE DE SAUDE DE MESQUITA,RUA FILIPINAS,CENTRO,-19223,-42607


Pesquisando os resultados zerados de UBS na internet, verificou-se que existem unidades de saúde em boa parte dos resultados, o que acontece é que alguns deles não se configuram UBS, sejam porque são de unicamente pronto atendimento (UPA) ou porque são postos de saúde de outra categoria de infraestrutura ou corpo técnico ou porque são atendidos por algum outro programa. Mais informaçoes de conformidades e exigencias a cerca das UBS's pode ser obtida no seguinte documento do ministério de Saúde:

https://bvsms.saude.gov.br/bvs/saudelegis/gm/2011/prt2488_21_10_2011_comp.html


- Para estes locais que possuem apenas 1 ou mais unidades como postos de saude e/ou UPA's sera levando em consideração como 1(uma) unidade de atendimento.

In [None]:
filtro = df['Qtd_UBS'].isnull()
df.loc[filtro,'Qtd_UBS'] = '1'

In [None]:
df.Qtd_UBS.isnull()

3267    False
3268    False
3269    False
3270    False
3271    False
        ...  
3907    False
3908    False
3909    False
3910    False
3911    False
Name: Qtd_UBS, Length: 645, dtype: bool

## ✅ ETL - Carregamento

### Envio para o Bucket atraves do conector

In [None]:
df.to_csv('gs://projeto-final-dados-tratados/PopulacaoPorMunicipio.csv', index=False)

### Conexão e envio para o BigQuery
↪ `Envio via conector`

In [None]:
client = bigquery.Client()

job_config = bigquery.LoadJobConfig(
    schema = [
        bigquery.SchemaField("Nome_municipio", "STRING"),
        bigquery.SchemaField("Populacao", "STRING"),
        bigquery.SchemaField("cod_municipio", "STRING"),
        bigquery.SchemaField("localizacao", "STRING"),
        bigquery.SchemaField("Qtd_UBS", "STRING")
    ],
    autodetect = False,
    source_format = bigquery.SourceFormat.CSV
)

df = df.astype(str)
job = client.load_table_from_dataframe(df, 'igor-projetos-teste.dados_tratados.df_tratado_PopPorMun', job_config = job_config)