# Instalação das bibliotecas

In [None]:
%pip install pandas
%pip install requests
%pip install matplotlib
%pip install seaborn
%pip install openpyxl
%pip install plotly
%pip install scikit-learn

# PIB

Informações obtidas a partir do agregado de dados do IBGE (https://servicodados.ibge.gov.br/api/docs/agregados?versao=3#api-bq). Através do Query Builder foram utilizados os seguinte parametros para montar a URI:

*   Pesquisa: Produto interno Bruto dos Municípios
*   Agregado: 5938
*   Variáveis: 37
*   Períodos: Anos separados poor pipe |, exemplo: 2020|2021|2022
*   Nível Geografico: N3
*   Localidades: Todos


## Explorando inicial dos dados

In [None]:
url_pib = 'https://servicodados.ibge.gov.br/api/v3/agregados/5938/periodos/2019|2020|2021/variaveis/37?localidades=N3[all]'

In [None]:
import requests

response_pib = requests.get(url_pib)
response_pib

In [None]:
response_pib.json()[0]['resultados'][0]['series'][:2]

In [None]:
response_pib.json()[0]['resultados'][0]['series'][0]

In [None]:
response_pib.json()[0]['resultados'][0]['series'][0]['localidade']

In [None]:
response_pib.json()[0]['resultados'][0]['series'][0]['localidade']['nome']

In [None]:
response_pib.json()[0]['resultados'][0]['series'][0]['serie']

In [None]:
response_pib.json()[0]['resultados'][0]['series'][0]['serie']['2019']

In [None]:
response_pib.json()[0]['resultados'][0]['series'][0]

## Load DataFrame

In [1]:
from datetime import datetime

ano_atual = datetime.now().year
ano_atual

2025

In [2]:
ultimos_anos = [str(i) for i in range(ano_atual - 20, ano_atual + 1)]
ultimos_anos

['2005',
 '2006',
 '2007',
 '2008',
 '2009',
 '2010',
 '2011',
 '2012',
 '2013',
 '2014',
 '2015',
 '2016',
 '2017',
 '2018',
 '2019',
 '2020',
 '2021',
 '2022',
 '2023',
 '2024',
 '2025']

In [3]:
anos = '|'.join([str(i) for i in range(ano_atual - 20, ano_atual + 1)])
anos

'2005|2006|2007|2008|2009|2010|2011|2012|2013|2014|2015|2016|2017|2018|2019|2020|2021|2022|2023|2024|2025'

In [4]:
url_pib = 'https://servicodados.ibge.gov.br/api/v3/agregados/5938/periodos/{anos}/variaveis/37?localidades=N3[all]'
url_pib = url_pib.format(anos=anos)
url_pib

'https://servicodados.ibge.gov.br/api/v3/agregados/5938/periodos/2005|2006|2007|2008|2009|2010|2011|2012|2013|2014|2015|2016|2017|2018|2019|2020|2021|2022|2023|2024|2025/variaveis/37?localidades=N3[all]'

In [5]:
import requests

response_pib = requests.get(url_pib)

In [6]:
data_pib = response_pib.json()[0]['resultados'][0]['series']
data_pib[:2]

[{'localidade': {'id': '11',
   'nivel': {'id': 'N3', 'nome': 'Unidade da Federação'},
   'nome': 'Rondônia'},
  'serie': {'2005': '12511821',
   '2006': '13054713',
   '2007': '14438376',
   '2008': '17285542',
   '2009': '19725010',
   '2010': '23907887',
   '2011': '27574714',
   '2012': '30112720',
   '2013': '31121413',
   '2014': '34030982',
   '2015': '36563333',
   '2016': '39460359',
   '2017': '43516147',
   '2018': '44913978',
   '2019': '47091336',
   '2020': '51598741',
   '2021': '58170096'}},
 {'localidade': {'id': '12',
   'nivel': {'id': 'N3', 'nome': 'Unidade da Federação'},
   'nome': 'Acre'},
  'serie': {'2005': '4300581',
   '2006': '4661807',
   '2007': '5458172',
   '2008': '6410255',
   '2009': '7407821',
   '2010': '8342356',
   '2011': '8949434',
   '2012': '10137925',
   '2013': '11473930',
   '2014': '13458698',
   '2015': '13622802',
   '2016': '13754240',
   '2017': '14272941',
   '2018': '15331123',
   '2019': '15630017',
   '2020': '16476371',
   '2021':

In [7]:
import pandas as pd
import json
from io import StringIO

df_pib = pd.read_json(StringIO(json.dumps(data_pib)), orient='records')
df_pib.head()

Unnamed: 0,localidade,serie
0,"{'id': '11', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '12511821', '2006': '13054713', '2007..."
1,"{'id': '12', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '4300581', '2006': '4661807', '2007':..."
2,"{'id': '13', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '33980877', '2006': '39933213', '2007..."
3,"{'id': '14', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '3193430', '2006': '3802452', '2007':..."
4,"{'id': '15', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '40522893', '2006': '45983027', '2007..."


## Extraindo os dados

In [8]:
df_pib['estado'] = df_pib['localidade'].apply(lambda row: row['nome'])
df_pib.head()

Unnamed: 0,localidade,serie,estado
0,"{'id': '11', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '12511821', '2006': '13054713', '2007...",Rondônia
1,"{'id': '12', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '4300581', '2006': '4661807', '2007':...",Acre
2,"{'id': '13', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '33980877', '2006': '39933213', '2007...",Amazonas
3,"{'id': '14', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '3193430', '2006': '3802452', '2007':...",Roraima
4,"{'id': '15', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '40522893', '2006': '45983027', '2007...",Pará


In [9]:
df_pib['serie'].head()

0    {'2005': '12511821', '2006': '13054713', '2007...
1    {'2005': '4300581', '2006': '4661807', '2007':...
2    {'2005': '33980877', '2006': '39933213', '2007...
3    {'2005': '3193430', '2006': '3802452', '2007':...
4    {'2005': '40522893', '2006': '45983027', '2007...
Name: serie, dtype: object

In [10]:
df_pib['serie'].apply(lambda row: pd.to_numeric(row['2020']))

0       51598741
1       16476371
2      116019139
3       16024276
4      215935604
5       18469115
6       43649803
7      106915962
8       56391257
9      166914536
10      71577107
11      70292034
12     193307317
13      63202349
14      45409657
15     305320813
16     682786116
17     138445922
18     753823711
19    2377638980
20     487930594
21     349275016
22     470941846
23     122627726
24     178649564
25     224126112
26     265847334
Name: serie, dtype: int64

In [11]:
for ano in ultimos_anos:
  df_pib[ano] = df_pib['serie'].apply(lambda row: pd.to_numeric(row.get(ano, float('nan'))) * 100)

df_pib.head()

Unnamed: 0,localidade,serie,estado,2005,2006,2007,2008,2009,2010,2011,...,2016,2017,2018,2019,2020,2021,2022,2023,2024,2025
0,"{'id': '11', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '12511821', '2006': '13054713', '2007...",Rondônia,1251182100,1305471300,1443837600,1728554200,1972501000,2390788700,2757471400,...,3946035900,4351614700,4491397800,4709133600,5159874100,5817009600,,,,
1,"{'id': '12', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '4300581', '2006': '4661807', '2007':...",Acre,430058100,466180700,545817200,641025500,740782100,834235600,894943400,...,1375424000,1427294100,1533112300,1563001700,1647637100,2137444000,,,,
2,"{'id': '13', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '33980877', '2006': '39933213', '2007...",Amazonas,3398087700,3993321300,4347977300,4811526500,5055984000,6087712300,7073440100,...,8903978200,9324019100,10010923500,10818109100,11601913900,13153103800,,,,
3,"{'id': '14', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '3193430', '2006': '3802452', '2007':...",Roraima,319343000,380245200,420330200,484186200,567197500,663915000,730371900,...,1101323700,1210470900,1336998800,1429222700,1602427600,1820257900,,,,
4,"{'id': '15', 'nivel': {'id': 'N3', 'nome': 'Un...","{'2005': '40522893', '2006': '45983027', '2007...",Pará,4052289300,4598302700,5184687600,6095697800,6166509600,8268451800,9871073600,...,13810751400,15523240400,16134960200,17837698400,21593560400,26290497900,,,,


In [None]:
# Não é mais necessário guardar as colunas originais após ter extraído os dados
df_pib = df_pib.drop(columns=['localidade', 'serie'])
df_pib.head()

In [None]:
siglas = {
    'Acre': 'AC',
    'Alagoas': 'AL',
    'Amapá': 'AP',
    'Amazonas': 'AM',
    'Bahia': 'BA',
    'Ceará': 'CE',
    'Distrito Federal': 'DF',
    'Espírito Santo': 'ES',
    'Goiás': 'GO',
    'Maranhão': 'MA',
    'Mato Grosso': 'MT',
    'Mato Grosso do Sul': 'MS',
    'Minas Gerais': 'MG',
    'Pará': 'PA',
    'Paraíba': 'PB',
    'Paraná': 'PR',
    'Pernambuco': 'PE',
    'Piauí': 'PI',
    'Rio de Janeiro': 'RJ',
    'Rio Grande do Norte': 'RN',
    'Rio Grande do Sul': 'RS',
    'Rondônia': 'RO',
    'Roraima': 'RR',
    'Santa Catarina': 'SC',
    'São Paulo': 'SP',
    'Sergipe': 'SE',
    'Tocantins': 'TO'
}

df_pib['SIGLA'] = df_pib['estado'].map(siglas)

In [None]:
df_pib.drop(columns=['estado'], inplace=True)

In [None]:
df_pib.head()

In [None]:
# Removendo colunas de anos sem valor
df_pib = df_pib.dropna(axis=1)
df_pib.head()

In [None]:
# Transpondo Anos para coluna ano
df_pib = df_pib.melt(id_vars=['SIGLA'], var_name='ANO', value_name='VALOR')
df_pib.head()

In [None]:
# Ano para inteiros
df_pib['ANO'] = df_pib['ANO'].astype(int)

In [None]:
df_pib.info()

## Plotando gráficos

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Ordernação por valor e estado
df_pib = df_pib.sort_values(by=['VALOR', 'SIGLA'], ascending=[False, True])

# Configurando estilo
sns.set(style="whitegrid")

# Configurando dimenções
plt.figure(figsize=(24, 10))

# Criando as barras
sns.barplot(x='SIGLA', y='VALOR', hue='ANO', data=df_pib)

# Rótulos e título
plt.xlabel('Estado')
plt.ylabel('Valor (em bilhões)')
plt.title('Comparação PIB entre estados')

# Plotando
plt.tight_layout()
plt.show()


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

df_pib_2021 = df_pib[df_pib['ANO'] == 2021]

# Ordernação por valor e estado
df_pib_2021 = df_pib_2021.sort_values(by=['VALOR', 'SIGLA'], ascending=[False, True])

# Configurando estilo
sns.set(style="whitegrid")

# Configurando dimenções
plt.figure(figsize=(16, 10))

# Criando as barras
sns.barplot(x='SIGLA', y='VALOR', data=df_pib_2021)

# Rótulos e título
plt.xlabel('Estado')
plt.ylabel('Valor (em bilhões)')
plt.title('Comparação PIB entre estados (2021)')

# Plotando
plt.tight_layout()
plt.show()


# População

In [None]:
import pandas as pd
import requests

file_id = '1xc40YIHHr_d9kQWjZ9i5eLE_OVzI701c'
url = f'https://drive.google.com/uc?export=download&id={file_id}'

response = requests.get(url)
with open('populacao.xlsx', 'wb') as f:
    f.write(response.content)

df_pop = pd.read_excel('populacao.xlsx', header=1, skiprows=4, engine='openpyxl')

In [None]:
df_pop.head()

In [None]:
df_pop = df_pop[(df_pop['SEXO'] == 'Ambos') & (~df_pop['SIGLA'].isin(['CO', 'ND', 'NO', 'SD', 'SU', 'BR']))]

In [None]:
df_pop.head()

In [None]:
df_pop = df_pop.drop(columns=['IDADE', 'CÓD.', 'SEXO', 'LOCAL'])

In [None]:
df_pop.head()

In [None]:
# Agregando por sigla
df_pop = df_pop.groupby('SIGLA', as_index=False).sum()

In [None]:
# Transpondo Anos para coluna ano
df_pop = df_pop.melt(id_vars=['SIGLA'], var_name='ANO', value_name='VALOR')

In [None]:
# Ano para inteiro
df_pop['ANO'] = df_pop['ANO'].astype(int)

In [None]:
# Anos até 2025
df_pop = df_pop[df_pop['ANO'] <= ano_atual]

In [None]:
df_pop.head()

## Plotando Gráfico

In [None]:
df_pop.head()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Ordernação por valor e estado
df_pop = df_pop.sort_values(by=['VALOR', 'SIGLA'], ascending=[False, True])

# Configurando estilo
sns.set(style="whitegrid")

# Configurando dimenções
plt.figure(figsize=(24, 10))

# Criando as barras
sns.barplot(x='SIGLA', y='VALOR', hue='ANO', data=df_pop)

# Rótulos e título
plt.xlabel('Estado')
plt.ylabel('Número de Pessoas')
plt.title('Comparação da população entre estados')

# Plotando
plt.tight_layout()
plt.show()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

df_pop_2021 = df_pop[df_pop['ANO'] == 2021]

# Ordernação por valor e estado
df_pop_2021 = df_pop_2021.sort_values(by=['VALOR', 'SIGLA'], ascending=[False, True])

# Configurando estilo
sns.set(style="whitegrid")

# Configurando dimenções
plt.figure(figsize=(16, 10))

# Criando as barras
sns.barplot(x='SIGLA', y='VALOR', data=df_pop_2021)

# Rótulos e título
plt.xlabel('Estado')
plt.ylabel('Número de Pessoas')
plt.title('Comparação da população entre estados (2021)')

# Plotando
plt.tight_layout()
plt.show()

# PIB x POPULAÇÃO

In [None]:
df_pib[(df_pib['ANO'] == '2020') & (df_pib['SIGLA'] == 'SP')].head()

In [None]:
df_pop[(df_pop['ANO'] == '2020') & (df_pop['SIGLA'] == 'SP')].head()

In [None]:
# dividir os valores da tabela pib pelos valores da tabela população, resultando na criação de uma tabela de pib per capta

tabela_pib_per_capta = pd.merge(df_pib, df_pop, on=['SIGLA', 'ANO'], how='inner', suffixes=('_PIB', '_POP'))
tabela_pib_per_capta.head()

In [None]:
tabela_pib_per_capta['PIB_PER_CAPTA'] = tabela_pib_per_capta['VALOR_PIB'] / tabela_pib_per_capta['VALOR_POP']
tabela_pib_per_capta.head()

## Plotando gráficos

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Ordernação por valor e estado
tabela_pib_per_capta = tabela_pib_per_capta.sort_values(by=['PIB_PER_CAPTA', 'SIGLA'], ascending=[False, True])

# Configurando estilo
sns.set(style="whitegrid")

# Configurando dimenções
plt.figure(figsize=(28, 10))

# Criando as barras
sns.barplot(x='SIGLA', y='PIB_PER_CAPTA', hue='ANO', data=tabela_pib_per_capta)

# Rótulos e título
plt.xlabel('Estados')
plt.ylabel('PIB per capta')
plt.title('PIB per capta')

# Plotando
plt.tight_layout()
plt.show()

# ML

In [None]:
tabela_pib_per_capta_rs = tabela_pib_per_capta[tabela_pib_per_capta['SIGLA'] == 'RS']
tabela_pib_per_capta_rs

In [None]:
tabela_pib_per_capta_rs['ANO'].values

In [None]:
tabela_pib_per_capta_rs['ANO'].values.reshape(-1, 1)

In [None]:
X = tabela_pib_per_capta_rs['ANO'].values.reshape(-1, 1)
X

In [None]:
tabela_pib_per_capta_rs['PIB_PER_CAPTA'].values

In [None]:
y = tabela_pib_per_capta_rs['PIB_PER_CAPTA'].values

In [None]:
plt.scatter(tabela_pib_per_capta_rs['ANO'].values, tabela_pib_per_capta_rs['PIB_PER_CAPTA'].values)

In [None]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()

In [None]:
lr.fit(X, y)

In [None]:
lr.coef_, lr.intercept_

In [None]:
y_predicts = lr.predict(X)
y_predicts

In [None]:
import numpy as np

anos_futuros = np.array([2022, 2023, 2024, 2025]).reshape(-1, 1)
previsoes = lr.predict(anos_futuros)

In [None]:
import matplotlib.ticker as ticker

plt.figure(figsize=(10, 6))
plt.scatter(X, y, color='blue', label='Dados reais')
plt.plot(X, y_predicts, color='orange', label='Regressão Linear')
plt.plot(anos_futuros, previsoes, color='green', linestyle='--', marker='o', label='Previsão até 2025')
plt.gca().xaxis.set_major_locator(ticker.MaxNLocator(integer=True))
plt.xlabel('Ano')
plt.ylabel('PIB per capita')
plt.title('PIB per capita - RS (2005–2025)')
plt.legend()
plt.grid(True)
plt.savefig('grafico.png')
plt.show()