#### ESTUDO DIRIGIDO

### Manipulação de Dados com Pandas

Fonte de dados: 

- IBGE - https://www.ibge.gov.br/estatisticas/downloads-estatisticas.html
- IPEADATA - http://www.ipeadata.gov.br/Default.aspx


**Calculando taxas de crescimento econômico para os municípios brasileiros**.  

 1. Leia o arquivo de dados `PIBMunicipios2010-2017.xls`.
 2. Crie um novo data frame com as colunas/variáveis: `Ano, Nome da Grande Região, Código do Município, Nome do Município, Produto Interno Bruto, \na preços correntes\n(R$ 1.000)`.
 3. Renomear as variáveis para `ano, nome_regiao, cod_mun, nome_mun, pib`, respectivamente. Guarde esse data frame na memória.
 4. Leia o arquivo de dados `IPCA_indice_mensal.csv` em um novo data frame. Observe o separador de texto ";", separador decimal, controle para o cabeçalho e se há necessidade de pular linhas.
 5. Remova colunas vazias e renomei as colunas para: `periodo`, `indice`.
 6. Transforme a tipagem da variável `periodo` para `datatime`.
 7. Crie um novo data frame com o valor do índice acumulado por ano.
 8. Transformar a coluna `periodo` para ano (4 dígitos). Dica: Usar `pd.DatetimeIndex`.
 9. Altere a base da série de índice acumulado para 2017 = 100.
 10. Crie uma nova coluna com o fator de correção montária para preços de 2017 (inverso do índice).
 11. Faça a junção correta do data frame tratado dos dados de PIB por município e o data frame do índice acumulado do IPCA, de modo que a tabela de dados do PIB herde o índice do IPCA. Observe os nomes das variáveis-chave (ligação) e tipagem das mesmas. Faça ajustes se necessário antes dessa junção.
 12. Calcule o PIB real (preços de 2017) de cada município (coluna `pib_real`) usando o fator de correção e o PIB nominal. 
 13. Filtre os dados do último *data frame* apenas para os anos de 2010 e 2017.
 14. Crie um novo data frame selecionando apenas as colunas: `cod_mun`, `ano` e `pib_real`. Transforme o data frame do formato *long* para *wide*, distribuindo o `pib_real` com a dimensão ano por colunas.
 15. Renomei as colunas 2010 e 2017 para `PIBreal2010` e `PIBreal2017`, respectivamente.
 16. Calcule a taxa de crescimento do PIB real entre os dois períodos.
 17. Conte o total de dados faltantes (NaN) por coluna.
 18. Remova todos os dados faltantes.
 19. Apresente uma tabela com os 10 municípios que registraram as maiores taxas de crescimento econômico no período analisado. Dica: veja o método `.sort_values`.
 20. Apresente uma tabela com os 10 municípios que registraram as menores taxas de crescimento econômico (inclusive negativas) no período analisado.


**Importando bibliotecas**

In [1]:
import os
import pandas as pd
import datetime as dt

**Configurações de tela**

In [2]:
pd.options.display.float_format = '{:.4f}'.format

**1 -** Leia o arquivo de dados PIBMunicipios2010-2017.xls

In [3]:
#Importando o arquivo 
pib = pd.read_excel("PIBMunicipios2010-2017.xls")

**2 -** Crie um novo data frame com as colunas/variáveis: Ano, Nome da Grande Região, Código do Município, Nome do Município, 
Produto Interno Bruto, \na preços correntes\n(R$ 1.000).

In [4]:
pib = pib[["Ano",  "Nome da Grande Região", "Código do Município", "Nome do Município", "Produto Interno Bruto, \na preços correntes\n(R$ 1.000)"]]

In [5]:
#Conferindo as 5 primeiras linhas do data frame
pib.head()

Unnamed: 0,Ano,Nome da Grande Região,Código do Município,Nome do Município,"Produto Interno Bruto, \na preços correntes\n(R$ 1.000)"
0,2010,Norte,1100015,Alta Floresta D'Oeste,262076.878
1,2010,Norte,1100023,Ariquemes,1364693.78
2,2010,Norte,1100031,Cabixi,69611.114
3,2010,Norte,1100049,Cacoal,1186494.091
4,2010,Norte,1100056,Cerejeiras,222021.189


**3 -** Renomear as variáveis para ano, nome_regiao, cod_mun, nome_mun, pib, respectivamente. Guarde esse data frame na memória.

In [6]:
pib = pib.rename(columns={"Ano": "ano", "Nome da Grande Região": "nome_regiao", "Código do Município": "cod_mun", 
                      "Nome do Município": "nome_mun", "Produto Interno Bruto, \na preços correntes\n(R$ 1.000)" : "pib"})

In [7]:
#Conferindo as 5 primeiras linhas do data frame
pib.head()

Unnamed: 0,ano,nome_regiao,cod_mun,nome_mun,pib
0,2010,Norte,1100015,Alta Floresta D'Oeste,262076.878
1,2010,Norte,1100023,Ariquemes,1364693.78
2,2010,Norte,1100031,Cabixi,69611.114
3,2010,Norte,1100049,Cacoal,1186494.091
4,2010,Norte,1100056,Cerejeiras,222021.189


**4 -** Leia o arquivo de dados IPCA_indice_mensal.csv em um novo data frame. Observe o separador de texto ";", separador decimal, controle para o cabeçalho e se há necessidade de pular linhas.

In [8]:
ipca = pd.read_csv("IPCA_indice_mensal.csv",  sep=';', decimal = ",")

In [9]:
#Olhando os dados na base importada: as 5 últimas linhas
ipca.tail()

Unnamed: 0,Data,"Preços - IPCA - geral - índice (dez. 1993 = 100) - - - Instituto Brasileiro de Geografia e Estatística, Sistema Nacional de Índices de Preços ao Consumidor (IBGE/SNIPC) - PRECOS12_IPCA12",Unnamed: 2
487,2020.07,5344.63,
488,2020.08,5357.46,
489,2020.09,5391.75,
490,2020.1,5438.12,
491,2020.11,5486.52,


**5 -** Remova colunas vazias e renomei as colunas para: periodo, indice.

In [10]:
#Excluindo a coluna vazia
ipca = ipca.drop(columns=["Unnamed: 2"])

In [11]:
#Renomeando as colunas
ipca = ipca.rename(columns = {"Data": "periodo",
                              "Preços - IPCA - geral - índice (dez. 1993 = 100) - - - Instituto Brasileiro de Geografia e Estatística, Sistema Nacional de Índices de Preços ao Consumidor (IBGE/SNIPC) - PRECOS12_IPCA12": "indice"})

In [12]:
#Conferindo as mudanças anteriores
ipca.head()

Unnamed: 0,periodo,indice
0,1979.12,0.0
1,1980.01,0.0
2,1980.02,0.0
3,1980.03,0.0
4,1980.04,0.0


**6 -** Transforme a tipagem da variável periodo para datatime.

In [13]:
#Converter a coluna periodo em data
ipca.periodo = pd.to_datetime(ipca.periodo)

In [14]:
#Verificando a mudança feita anteriormente
ipca.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 492 entries, 0 to 491
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   periodo  492 non-null    datetime64[ns]
 1   indice   492 non-null    float64       
dtypes: datetime64[ns](1), float64(1)
memory usage: 7.8 KB


**8 -** Transformar a coluna periodo para ano (4 dígitos). Dica: Usar pd.DatetimeIndex

In [15]:
ipca['ano'] = pd.DatetimeIndex(ipca['periodo']).year

**7 -** Crie um novo data frame com o valor do índice acumulado por ano.

In [16]:
#Agregando os valores do índice por ano: 
ipca = ipca.groupby("ano", as_index=False).agg({"indice": "sum"})

In [17]:
#Verificando a mudança feita anteriormente
ipca.tail()

Unnamed: 0,ano,indice
37,2016,56241.44
38,2017,58179.73
39,2018,60311.93
40,2019,62563.36
41,2020,59012.16


**9 -** Altere a base da série de índice acumulado para 2017 = 100

**Para realizar a mudança de base de um número índice necessita-se dividir a série original pelo número índice do período escolhido como nova base.**

In [18]:
#Dado que a base original do índice consiste no mês de dezembro de 2013
#Descobre-se o valor do indice no mês de dezembro de 2017
ipca[ipca['ano']==2017]


Unnamed: 0,ano,indice
38,2017,58179.73


In [19]:
#Capturando o valor encontrado acima e mudando a base da série do índice
#A coluna indice_2017 representa os valores do índice ajustados ao ano de 2017
ipca["indice_2017"] = (ipca["indice"]/58179.73)*100

In [20]:
#Verificando as mudanças realizadas
ipca.tail()

Unnamed: 0,ano,indice,indice_2017
37,2016,56241.44,96.6684
38,2017,58179.73,100.0
39,2018,60311.93,103.6649
40,2019,62563.36,107.5346
41,2020,59012.16,101.4308


**10 -** Crie uma nova coluna com o fator de correção monetária para preços de 2017 (inverso do índice).

In [21]:
ipca["fator_correcao"] = ipca["indice_2017"]/100

**11 -** Faça a junção correta do data frame tratado dos dados de PIB por município e o data frame do índice acumulado do IPCA, de modo que a tabela de dados do PIB herde o índice do IPCA. Observe os nomes das variáveis-chave (ligação) e tipagem das mesmas. Faça ajustes se necessário antes dessa junção.

In [22]:
data = pd.merge(left = pib, right = ipca, on = ["ano"], how = "inner")

In [23]:
#Atentando quanto as informações da nova base criada
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 44545 entries, 0 to 44544
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   ano             44545 non-null  int64  
 1   nome_regiao     44545 non-null  object 
 2   cod_mun         44545 non-null  int64  
 3   nome_mun        44545 non-null  object 
 4   pib             44545 non-null  float64
 5   indice          44545 non-null  float64
 6   indice_2017     44545 non-null  float64
 7   fator_correcao  44545 non-null  float64
dtypes: float64(4), int64(2), object(2)
memory usage: 3.1+ MB


**12 -** Calcule o PIB real (preços de 2017) de cada município (coluna pib_real) usando o fator de correção e o PIB nominal.

In [24]:
data["pib_real"] = data["pib"]/data["fator_correcao"]

**13 -** Filtre os dados do último data frame apenas para os anos de 2010 e 2017.

In [25]:
data_new = data[(data['ano']==2010) | (data['ano']==2017)]

In [26]:
#Atentando quanto as informações da nova base criada
data_new.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 11135 entries, 0 to 44544
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   ano             11135 non-null  int64  
 1   nome_regiao     11135 non-null  object 
 2   cod_mun         11135 non-null  int64  
 3   nome_mun        11135 non-null  object 
 4   pib             11135 non-null  float64
 5   indice          11135 non-null  float64
 6   indice_2017     11135 non-null  float64
 7   fator_correcao  11135 non-null  float64
 8   pib_real        11135 non-null  float64
dtypes: float64(5), int64(2), object(2)
memory usage: 869.9+ KB


**14 -** Crie um novo data frame selecionando apenas as colunas: cod_mun, ano e pib_real. Transforme o data frame do formato long para wide, distribuindo o pib_real com a dimensão ano por colunas

In [27]:
#Criando um subset 
data_new = data_new[["cod_mun", "ano", "pib_real"]]

In [28]:
#Transformando o df do formato long para wide
data_new = data_new.pivot(index = "cod_mun", columns = "ano", values = "pib_real")

In [29]:
#Verificando o data frame com o novo formato
data_new.head()

ano,2010,2017
cod_mun,Unnamed: 1_level_1,Unnamed: 2_level_1
1100015,407971.895,498864.189
1100023,2124402.2431,2296073.705
1100031,108362.7762,138893.545
1100049,1847000.9502,2127523.254
1100056,345617.6901,448524.171


**15 -** Renomeie as colunas 2010 e 2017 para PIBreal2010 e PIBreal2017, respectivamente.

In [30]:
data_new = data_new.rename(columns = {2010: "PIBreal2010", 2017: "PIBreal2017"})

**16 -** Calcule a taxa de crescimento do PIB real entre os dois períodos.

In [31]:
data_new["tx_pib"] = ((data_new["PIBreal2017"] - data_new["PIBreal2010"])/data_new["PIBreal2010"])*100

**17 -** Conte o total de dados faltantes (NaN) por coluna

In [32]:
data_new.isna().sum()

ano
PIBreal2010    5
PIBreal2017    0
tx_pib         5
dtype: int64

**18 -** Remova todos os dados faltantes.

In [33]:
data_new = data_new.dropna() 

**19 -** Apresente uma tabela com os 10 municípios que registraram as maiores taxas de crescimento econômico no período analisado. Dica: veja o método .sort_values.

In [34]:
#Ordenando a tabela pelo taxa de crescimento decrescente
data_new = data_new.sort_values(by=['tx_pib'], ascending=False)


In [35]:
#Criando e printando a tabela com os 10 municípios que registraram as maiores taxas
maiores = data_new.head(10)
maiores

ano,PIBreal2010,PIBreal2017,tx_pib
cod_mun,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1508357,144392.4927,3088045.376,2038.6468
2110302,113289.9331,1613452.555,1324.18
2203271,22751.4741,302191.763,1228.2294
2408805,32379.1589,422974.672,1206.3177
3520400,580569.738,6153609.908,959.9261
2401651,26093.9507,221585.985,749.1853
3516853,99334.8459,839815.056,745.4385
2103752,85704.7641,620435.146,623.9214
2606200,1403419.5246,9146860.378,551.7552
4316303,124032.608,772169.503,522.5536


**20 -** Apresente uma tabela com os 10 municípios que registraram as menores taxas de crescimento econômico (inclusive negativas) no período analisado.

In [36]:
menores = data_new.tail(10)
menores

ano,PIBreal2010,PIBreal2017,tx_pib
cod_mun,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3304110,8055464.2731,2856763.884,-64.5363
5107156,109892.261,38630.962,-64.8465
3301009,60219518.6207,21088776.671,-64.9802
4207858,100449.984,34930.922,-65.2256
1715259,83616.6884,28874.528,-65.468
2905404,2175246.8334,623656.832,-71.3294
3304151,5901594.1312,1443693.649,-75.5372
2915205,597694.6292,130338.96,-78.1931
3126307,422820.8868,67237.237,-84.0979
3200409,6903729.544,804889.331,-88.3412
