## Importar bibliotecas e carregar arquivo

In [3]:
#!pip install gdown

In [4]:
#!gdown 1y-FJ8zzoNWwBGsEztvyiC1o_sMWfRl35

In [3]:
import pandas as pd
import numpy as np

https://repositorio.seade.gov.br/dataset/pib-municipal-2002-2020

In [4]:
#pib = pd.read_csv('pib_municipal_2002_2020.csv', sep=';', encoding='ISO-8859-1', usecols=columns_to_keep)
pib = pd.read_csv('pib_municipal_2002_2020.csv', sep=';', encoding='ISO-8859-1')

In [5]:
pib

Unnamed: 0,Cod_Ibge,Localidade,Ano,Setor,Valor
0,3500105,Adamantina,2002,Agropecuária,R$ 24.321.939
1,3500204,Adolfo,2002,Agropecuária,R$ 11.076.934
2,3500303,Aguaí,2002,Agropecuária,R$ 54.743.792
3,3500402,Águas da Prata,2002,Agropecuária,R$ 3.910.158
4,3500501,Águas de Lindóia,2002,Agropecuária,R$ 2.323.797
...,...,...,...,...,...
85780,3556909,Vista Alegre do Alto,2020,Valor adicionado,R$ 352.537.232
85781,3556958,Vitória Brasil,2020,Valor adicionado,R$ 40.301.900
85782,3557006,Votorantim,2020,Valor adicionado,R$ 3.016.413.143
85783,3557105,Votuporanga,2020,Valor adicionado,R$ 3.065.420.647


## Tratamentos

- Transformar os valores da coluna **Valor** para float -> coluna **valores_limpos**
- Transformar os valores dos setores em colunas -> cada coluna vai ser um setor com o seu valor

In [6]:
pib.Setor.unique()

array(['Agropecuária', 'Impostos líquidos de subsídios', 'Indústria',
       'PIB', 'Serviços (exceto administração pública)',
       'Serviços de administração pública', 'Valor adicionado'],
      dtype=object)

O Valor Adicionado total corresponde ao valor anual agregado aos bens e serviços consumidos no processo produtivo,
obtido pela diferença entre o valor de produção e o consumo intermediário (valor dos insumos utilizados) por unidade geográfica considerada.

In [8]:
pib.query('Setor == "PIB"')

Unnamed: 0,Cod_Ibge,Localidade,Ano,Setor,Valor
36765,3500105,Adamantina,2020,PIB,R$ 1.256.561.606
36766,3500204,Adolfo,2020,PIB,R$ 136.701.363
36767,3500303,Aguaí,2020,PIB,R$ 1.152.443.311
36768,3500402,Águas da Prata,2020,PIB,R$ 186.768.100
36769,3500501,Águas de Lindóia,2020,PIB,R$ 496.876.915
...,...,...,...,...,...
49015,3557006,Votorantim,2002,PIB,R$ 670.404.789
49016,3557105,Votuporanga,2002,PIB,R$ 610.177.899
49017,3557154,Zacarias,2002,PIB,R$ 17.558.568
49018,3557204,Chavantes,2002,PIB,R$ 66.995.978


In [9]:
pib.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85785 entries, 0 to 85784
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Cod_Ibge    85785 non-null  int64 
 1   Localidade  85785 non-null  object
 2   Ano         85785 non-null  int64 
 3   Setor       85785 non-null  object
 4   Valor       85785 non-null  object
dtypes: int64(2), object(3)
memory usage: 3.3+ MB


In [10]:
pib.columns = pib.columns.str.lower()

In [11]:
pib['valores_limpos'] = (
    pib['valor']
    .str.replace(r'R\$', '', regex=True)      # Remove R$
    .str.replace('.', '', regex=False)        # Remove pontos de milhar
    .str.replace('-', '- ', regex=False)      # Garante espaço após sinal negativo (caso não tenha)
    .str.replace(' ', '', regex=False)        # Remove todos os espaços
)

In [12]:
pib.sort_values('valor').head(20) # existe valor de pib negativo??

Unnamed: 0,cod_ibge,localidade,ano,setor,valor,valores_limpos
19086,3533809,Óleo,2010,Impostos líquidos de subsídios,-R$ 1.025.519,-1025519
19310,3554201,Tejupá,2010,Impostos líquidos de subsídios,-R$ 1.080.171,-1080171
32015,3536505,Paulínia,2013,Indústria,-R$ 1.248.110.905,-1248110905
18200,3512605,Coronel Macedo,2011,Impostos líquidos de subsídios,-R$ 1.407.012,-1407012
18852,3513306,Cruzália,2010,Impostos líquidos de subsídios,-R$ 1.427.238,-1427238
18845,3512605,Coronel Macedo,2010,Impostos líquidos de subsídios,-R$ 1.647.995,-1647995
31370,3536505,Paulínia,2012,Indústria,-R$ 1.664.761.324,-1664761324
16607,3543105,Ribeirão Corrente,2014,Impostos líquidos de subsídios,-R$ 131.454,-131454
18953,3521705,Itaberá,2010,Impostos líquidos de subsídios,-R$ 15.088.399,-15088399
18420,3532157,Nantes,2011,Impostos líquidos de subsídios,-R$ 171.308,-171308


In [13]:
pib['valores_limpos'] = pib['valores_limpos'].astype(float)

In [15]:
# Pivot para transformar os setores em colunas
df_pivot = pib.pivot(index=['cod_ibge', 'localidade', 'ano'], columns='setor', values='valores_limpos')

# Renomear as colunas com prefixo "valor_"
df_pivot = df_pivot.rename(columns=lambda x: f"{x}")

# Resetar o índice para voltar ao formato de DataFrame plano
df_pib = df_pivot.reset_index()

In [16]:
df_pib

setor,cod_ibge,localidade,ano,Agropecuária,Impostos líquidos de subsídios,Indústria,PIB,Serviços (exceto administração pública),Serviços de administração pública,Valor adicionado
0,3500105,Adamantina,2002,24321939.0,24144571.0,46484017.0,281045535.0,144220336.0,41874671.0,256900963.0
1,3500105,Adamantina,2003,25213828.0,29629427.0,55096863.0,334646055.0,175798393.0,48907543.0,305016627.0
2,3500105,Adamantina,2004,22635917.0,28577116.0,66538763.0,336598546.0,167568573.0,51278177.0,308021430.0
3,3500105,Adamantina,2005,24234865.0,30180379.0,76271376.0,380332124.0,190954116.0,58691388.0,350151746.0
4,3500105,Adamantina,2006,26498737.0,37285721.0,98155688.0,447548619.0,220537245.0,65071227.0,410262898.0
...,...,...,...,...,...,...,...,...,...,...
12250,3557303,Estiva Gerbi,2016,49382696.0,20660121.0,72210671.0,272340054.0,86105518.0,43981049.0,251679933.0
12251,3557303,Estiva Gerbi,2017,39338273.0,25359468.0,100671101.0,320040853.0,105775500.0,48896511.0,294681384.0
12252,3557303,Estiva Gerbi,2018,31895889.0,25473350.0,124892954.0,334383077.0,103056332.0,49064552.0,308909728.0
12253,3557303,Estiva Gerbi,2019,35819496.0,25259867.0,106573440.0,319971028.0,102443654.0,49874571.0,294711162.0


In [17]:
#df_pib.columns = df_pib.columns.str.lower()
df_pib = df_pib.rename(columns={'Agropecuária': 'agropecuaria',
                                'Indústria': 'industria',
                                'PIB': 'pib',
                                'Impostos líquidos de subsídios': 'impostos_liq_sub',
                                'Serviços (exceto administração pública)': 'servicos',
                                'Serviços de administração pública': 'servicos_adm_publica',
                                'Valor adicionado': 'valor_add'})

In [18]:
df_pib

setor,cod_ibge,localidade,ano,agropecuaria,impostos_liq_sub,industria,pib,servicos,servicos_adm_publica,valor_add
0,3500105,Adamantina,2002,24321939.0,24144571.0,46484017.0,281045535.0,144220336.0,41874671.0,256900963.0
1,3500105,Adamantina,2003,25213828.0,29629427.0,55096863.0,334646055.0,175798393.0,48907543.0,305016627.0
2,3500105,Adamantina,2004,22635917.0,28577116.0,66538763.0,336598546.0,167568573.0,51278177.0,308021430.0
3,3500105,Adamantina,2005,24234865.0,30180379.0,76271376.0,380332124.0,190954116.0,58691388.0,350151746.0
4,3500105,Adamantina,2006,26498737.0,37285721.0,98155688.0,447548619.0,220537245.0,65071227.0,410262898.0
...,...,...,...,...,...,...,...,...,...,...
12250,3557303,Estiva Gerbi,2016,49382696.0,20660121.0,72210671.0,272340054.0,86105518.0,43981049.0,251679933.0
12251,3557303,Estiva Gerbi,2017,39338273.0,25359468.0,100671101.0,320040853.0,105775500.0,48896511.0,294681384.0
12252,3557303,Estiva Gerbi,2018,31895889.0,25473350.0,124892954.0,334383077.0,103056332.0,49064552.0,308909728.0
12253,3557303,Estiva Gerbi,2019,35819496.0,25259867.0,106573440.0,319971028.0,102443654.0,49874571.0,294711162.0


In [19]:
df_pib.query('localidade == "Paulínia" and ano == 2013')

setor,cod_ibge,localidade,ano,agropecuaria,impostos_liq_sub,industria,pib,servicos,servicos_adm_publica,valor_add
7801,3536505,Paulínia,2013,20849280.0,3685376000.0,-1248111000.0,10984790000.0,7830692000.0,695981417.0,7299412000.0


In [20]:
teste = df_pib.query('localidade == "Paulínia" and ano == 2013')
teste['soma'] = teste['agropecuaria'] + teste['industria'] + teste['impostos_liq_sub'] + teste['servicos'] + teste['servicos_adm_publica'] + teste['valor_add']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  teste['soma'] = teste['agropecuaria'] + teste['industria'] + teste['impostos_liq_sub'] + teste['servicos'] + teste['servicos_adm_publica'] + teste['valor_add']


In [21]:
teste

setor,cod_ibge,localidade,ano,agropecuaria,impostos_liq_sub,industria,pib,servicos,servicos_adm_publica,valor_add,soma
7801,3536505,Paulínia,2013,20849280.0,3685376000.0,-1248111000.0,10984790000.0,7830692000.0,695981417.0,7299412000.0,18284200000.0


In [None]:
df_pib.to_excel('pib.xlsx', index=False)