# Desafio Ciência e Governança de Dados

Desenvolvido por Estevão Augusto da Fonseca Santos, Graduando em Ciência de Computação

6° Período da Universidade Federal de Lavras

## Objetivos

"Como poderíamos avaliar e prever/visualizar os agentes/fenômenos que mais causam impactos socioeconômicos no Brasil?". Essa é a pergunta proposta pelo desafio. Para respondê-la, será preciso adquirir, organizar, explorar e visualizar os dados
necessários para criar uma resposta à ele.

In [75]:
import pandas as pd
import numpy as np
import basedosdados as bd
import os
from dotenv import load_dotenv 

In [76]:
load_dotenv() 
GOOGLE_CLOUD_ID_PROJECT = os.getenv("GOOGLE_CLOUD_PROJECT")

## Obtençao de Dados

### População Brasileira

In [None]:
query = """
  SELECT
    dados.ano as ano,
    dados.id_municipio AS id_municipio,
    diretorio_id_municipio.nome AS id_municipio_nome,
    dados.sexo as sexo,
    dados.grupo_idade as grupo_idade,
    dados.populacao as populacao
FROM `basedosdados.br_ms_populacao.municipio` AS dados
LEFT JOIN (SELECT DISTINCT id_municipio,nome  FROM `basedosdados.br_bd_diretorios_brasil.municipio`) AS diretorio_id_municipio
    ON dados.id_municipio = diretorio_id_municipio.id_municipio
"""

df = bd.read_sql(query = query, billing_project_id = GOOGLE_CLOUD_ID_PROJECT)
df.to_csv("./csv/populacao_brasileira.csv")

Downloading: 100%|[32m██████████[0m|


In [70]:
df.head(10)

Unnamed: 0,ano,id_municipio,id_municipio_nome,sexo,grupo_idade,populacao
0,2000,1100015,Alta Floresta D'Oeste,feminino,0-4 anos,1441
1,2000,1100015,Alta Floresta D'Oeste,masculino,0-4 anos,1543
2,2000,1100023,Ariquemes,feminino,0-4 anos,4394
3,2000,1100023,Ariquemes,masculino,0-4 anos,4644
4,2000,1100031,Cabixi,feminino,0-4 anos,398
5,2000,1100031,Cabixi,masculino,0-4 anos,387
6,2000,1100049,Cacoal,feminino,0-4 anos,3864
7,2000,1100049,Cacoal,masculino,0-4 anos,4027
8,2000,1100056,Cerejeiras,feminino,0-4 anos,894
9,2000,1100056,Cerejeiras,masculino,0-4 anos,942


### Produto Interno Bruto (PIB) Por Municipio

In [71]:
query = """
  SELECT
    dados.id_municipio AS id_municipio,
    diretorio_id_municipio.nome AS id_municipio_nome,
    dados.ano as ano,
    dados.pib as pib,
    dados.impostos_liquidos as impostos_liquidos,
    dados.va as va,
    dados.va_agropecuaria as va_agropecuaria,
    dados.va_industria as va_industria,
    dados.va_servicos as va_servicos,
    dados.va_adespss as va_adespss
FROM `basedosdados.br_ibge_pib.municipio` AS dados
LEFT JOIN (SELECT DISTINCT id_municipio,nome  FROM `basedosdados.br_bd_diretorios_brasil.municipio`) AS diretorio_id_municipio
    ON dados.id_municipio = diretorio_id_municipio.id_municipio
"""

df = bd.read_sql(query = query, billing_project_id = GOOGLE_CLOUD_ID_PROJECT)
df.to_csv("./csv/pip_por_municipio.csv")

Downloading: 100%|[32m██████████[0m|


In [72]:
df.head(10)

Unnamed: 0,id_municipio,id_municipio_nome,ano,pib,impostos_liquidos,va,va_agropecuaria,va_industria,va_servicos,va_adespss
0,1100346,Alvorada D'Oeste,2002,66869000,3643000,63226000,15054000,3940000,13954000,30277000
1,1101500,Seringueiras,2002,39708000,2199000,37509000,7964000,3537000,6140000,19868000
2,1502954,Eldorado do Carajás,2002,55842000,2219000,53623000,9823000,5439000,11420000,26941000
3,1505635,Piçarra,2002,52055000,1346000,50709000,30760000,4634000,5513000,9801000
4,1506401,Santa Cruz do Arari,2002,14456000,264000,14191000,7541000,698000,1473000,4480000
5,1703826,Cachoeirinha,2002,4494000,142000,4352000,628000,241000,893000,2590000
6,1709302,Guaraí,2002,79277000,7604000,71673000,5509000,8452000,35921000,21790000
7,1713205,Miracema do Tocantins,2002,227431000,9628000,217803000,7583000,150772000,34035000,25413000
8,1715754,Palmeirópolis,2002,23336000,1876000,21461000,3892000,2670000,7953000,6946000
9,1716109,Paraíso do Tocantins,2002,187686000,28461000,159225000,4951000,20762000,96460000,37053000


### Produto Interno Bruto (PIB) Por UF

In [73]:
query = """
  SELECT
    dados.ano as ano,
    dados.id_uf AS id_uf,
    diretorio_id_uf.sigla AS id_uf_sigla,
    diretorio_id_uf.nome AS id_uf_nome,
    dados.sigla_uf AS sigla_uf,
    diretorio_sigla_uf.nome AS sigla_uf_nome,
    dados.pib as pib,
    dados.impostos_liquidos as impostos_liquidos,
    dados.va as va,
    dados.va_agropecuaria as va_agropecuaria,
    dados.va_industria as va_industria,
    dados.va_servicos as va_servicos,
    dados.va_adespss as va_adespss
FROM `basedosdados.br_ibge_pib.uf` AS dados
LEFT JOIN (SELECT DISTINCT id_uf,sigla,nome  FROM `basedosdados.br_bd_diretorios_brasil.uf`) AS diretorio_id_uf
    ON dados.id_uf = diretorio_id_uf.id_uf
LEFT JOIN (SELECT DISTINCT sigla,nome  FROM `basedosdados.br_bd_diretorios_brasil.uf`) AS diretorio_sigla_uf
    ON dados.sigla_uf = diretorio_sigla_uf.sigla
"""

df = bd.read_sql(query = query, billing_project_id = GOOGLE_CLOUD_ID_PROJECT)
df.to_csv("./csv/pip_por_uf.csv")

Downloading: 100%|[32m██████████[0m|


In [74]:
df.head(10)

Unnamed: 0,ano,id_uf,id_uf_sigla,id_uf_nome,sigla_uf,sigla_uf_nome,pib,impostos_liquidos,va,va_agropecuaria,va_industria,va_servicos,va_adespss
0,2002,11,RO,Rondônia,RO,Rondônia,7467629886,839731192,6627898698,715526872,1191090432,2484579193,2236702207
1,2003,11,RO,Rondônia,RO,Rondônia,9425010486,1108434936,8316575548,1278658831,1216605061,3376727040,2444584625
2,2004,11,RO,Rondônia,RO,Rondônia,11004641436,1288806654,9715834778,1288515348,1674933817,3986529419,2765856199
3,2005,11,RO,Rondônia,RO,Rondônia,12511821181,1476144194,11035676990,1342222120,1887932121,4603783904,3201738843
4,2006,11,RO,Rondônia,RO,Rondônia,13054713344,1613809974,11440903374,1238006193,2210692147,4320526746,3671678293
5,2007,11,RO,Rondônia,RO,Rondônia,14438376499,1766358842,12672017662,1431792087,2200048388,5107622177,3932554997
6,2008,11,RO,Rondônia,RO,Rondônia,17285541726,2050713346,15234828376,2030130654,2463867818,6179992618,4560837285
7,2009,11,RO,Rondônia,RO,Rondônia,19725009504,2289825239,17435184264,2116597096,3214988676,6890252624,5213345867
8,2010,11,RO,Rondônia,RO,Rondônia,23907886882,2950929036,20956957849,2295537137,4779253947,8011723773,5870442984
9,2011,11,RO,Rondônia,RO,Rondônia,27574714379,3382983866,24191730509,2510828777,5920619024,9255080227,6505202475


### Censo 2022 - Alfabetização por Sexo, Raça e Grupo de Idade

In [78]:
query = """
  SELECT
    dados.id_municipio AS id_municipio,
    diretorio_id_municipio.nome AS id_municipio_nome,
    dados.cor_raca as cor_raca,
    dados.sexo as sexo,
    dados.grupo_idade as grupo_idade,
    dados.alfabetizacao as alfabetizacao,
    dados.populacao as populacao
FROM `basedosdados.br_ibge_censo_2022.alfabetizacao_grupo_idade_sexo_raca` AS dados
LEFT JOIN (SELECT DISTINCT id_municipio,nome  FROM `basedosdados.br_bd_diretorios_brasil.municipio`) AS diretorio_id_municipio
    ON dados.id_municipio = diretorio_id_municipio.id_municipio
"""

df = bd.read_sql(query = query, billing_project_id = GOOGLE_CLOUD_ID_PROJECT)
df.to_csv("./csv/alfabetizacao_por_sexo,raca_e_idade.csv")

Downloading: 100%|[32m██████████[0m|


In [None]:
df.head(10)

## Tratamento de Dados

## Análise Exploratória

## Insights obtidos