<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Data Wrangling II
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Agregação e Ordenação;</li>
  <li>Combinação;</li>
  <li>Técnicas Avançadas.</li>
</ol>

---

# **Exercícios**

Neste exercícios, vamos trabalhar com dados geográficos, demográficos e econômicos do Brasil. Vamos manipular e combinar dados de duas frentes distintas para poder responder perguntas de negócios.

## 1\. Data Wrangling

### **1.1. Estados**

O arquivo `estados-bruto.xml` contém informações sobre estados (nome, sigla e região). **Carregue-o na máquina virtual do Google Colab**. Um arquivo do tipo XML é similar a um arquivo do tipo HTML, exemplo do estado do Acre:

```xml
<ESTADO>
  <ID>1</ID>
  <NOME>ACRE</NOME>
  <IDCAPITAL>16</IDCAPITAL>
  <SIGLA>AC</SIGLA>
  <REGIAO>NORTE</REGIAO>
</ESTADO>
```

Utilize o pacote Python `beautifulsoup4` para extrair os dados do arquivo `estados-bruto.xml` providenciado. Salve os dados extraidos no arquivo `estados-limpo.csv` separado por `;`. Exemplo das três primeiras linhas mais o cabeçalho:

```
estado;sigla;regiao
ACRE;AC;NORTE
ALAGOAS;AL;NORDESTE
AMAPA;AP;NORTE
```

**Dica**: Utilize o parser de xml chamado `lxml` do `beautifulsoup4`.

In [30]:
# ler o arquivo estados-bruto.xml, utilize o xml parser chamado lxml

from bs4 import BeautifulSoup

pagina = 'estados-bruto.xml'

with open(pagina, 'r', encoding='utf-8') as arquivo:
    conteudo = arquivo.read()

fonte = BeautifulSoup(conteudo, 'lxml')



In [31]:
# visualize os resultados

fonte

<?xml version="1.0" encoding="utf-8" ?><html><body><estados>
<estado>
<id>1</id>
<nome>ACRE</nome>
<idcapital>16</idcapital>
<sigla>AC</sigla>
<regiao>NORTE</regiao>
</estado>
<estado>
<id>2</id>
<nome>ALAGOAS</nome>
<idcapital>68</idcapital>
<sigla>AL</sigla>
<regiao>NORDESTE</regiao>
</estado>
<estado>
<id>3</id>
<nome>AMAPA</nome>
<idcapital>131</idcapital>
<sigla>AP</sigla>
<regiao>NORTE</regiao>
</estado>
<estado>
<id>4</id>
<nome>AMAZONAS</nome>
<idcapital>178</idcapital>
<sigla>AM</sigla>
<regiao>NORTE</regiao>
</estado>
<estado>
<id>5</id>
<nome>BAHIA</nome>
<idcapital>536</idcapital>
<sigla>BA</sigla>
<regiao>NORDESTE</regiao>
</estado>
<estado>
<id>6</id>
<nome>CEARA</nome>
<idcapital>676</idcapital>
<sigla>CE</sigla>
<regiao>NORDESTE</regiao>
</estado>
<estado>
<id>7</id>
<nome>DISTRITO FEDERAL</nome>
<idcapital>916</idcapital>
<sigla>DF</sigla>
<regiao>CENTRO-OESTE</regiao>
</estado>
<estado>
<id>8</id>
<nome>ESPIRITO SANTO</nome>
<idcapital>879</idcapital>
<sigla>ES</sigla

In [32]:
# manipule os dados
dados_estados = []
for estado in fonte.find_all('estado'):
    dados_estado = [
        estado.find('nome').text.strip(),
        estado.find('sigla').text.strip(),
        estado.find('regiao').text.strip()
    ]
    dados_estados.append(dados_estado)


In [33]:
# escrever o conteudo extraido no arquivo estados-limpo.csv separados por ;
import csv
arquivo_destino = 'estados-limpo.csv'
header = ['estado', 'sigla', 'regiao']

# Escrever o conteúdo extraído no arquivo CSV separado por ;
with open(arquivo_destino, 'w', newline='', encoding='utf-8') as arquivo_csv:
    escritor_csv = csv.writer(arquivo_csv, delimiter=';')
    escritor_csv.writerow(header)
    escritor_csv.writerows(dados_estados)

print(f'Dados extraídos e salvos em {arquivo_destino}')


Dados extraídos e salvos em estados-limpo.csv


### **1.2. Cidades**

O arquivo `cidades-bruto.csv` contém informações demográficas e socioeconomicas das cidades do Brasil. **Carregue-o na máquina virtual do Google Colab**. Utilize o pacote Python `pandas` para extrair os dados do arquivo `cidades-bruto.xml` providenciado. Seguindo as seguintes especificações:

1. Apenas dados do censo de 2010;
1. Apenas as colunas UF, Nome, PIB, Pop_est_2009 e PIB_percapita.

Salve os dados extraidos no arquivo `cidades-limpo.csv` separado por `;`. Exemplo das três primeiras linhas mais o cabeçalho:

```
estado;cidade;populacao;pib;pib_percapita
BAHIA;TREMEDAL;18433;57883.9921875;3140.23999023
RIO GRANDE DO SUL;TURUÇU;4000;45723875;11430.96972656
ESPIRITO SANTO;VITÓRIA;320156;19782628;61790.58984375
```

In [6]:
# ler o arquivo cidades-bruto.csv

import pandas as pd

df = pd.read_csv('cidades-bruto.csv')


df.head()

Unnamed: 0,FID,gid,UF,nome,Censo,PIB,Pop_est_2009,PIB_percapita,Descrição,legenda,classe,geom
0,vw_pib_percapita.fid-4514e25a_17aaa325034_-258f,215,BAHIA,Tremedal,2010.0,57883.99,18433,3140.23999,Produto Interno Bruto per capita,- 9639.65,1,MULTIPOLYGON (((-41.458803305191566 -14.781415...
1,vw_pib_percapita.fid-4514e25a_17aaa325034_-258e,306,RIO GRANDE DO SUL,Turuçu,2010.0,45723.88,4000,11430.969727,Produto Interno Bruto per capita,9639.65 - 22144.80,2,MULTIPOLYGON (((-52.035349932081274 -31.567509...
2,vw_pib_percapita.fid-4514e25a_17aaa325034_-258d,900,ESPIRITO SANTO,Vitória,2010.0,19782630.0,320156,61790.589844,Produto Interno Bruto per capita,52702.10 - 133669.00,4,MULTIPOLYGON (((-40.3292566978242 -20.23997417...
3,vw_pib_percapita.fid-4514e25a_17aaa325034_-258c,3613,MINAS GERAIS,Jacutinga,2010.0,247816.0,21424,11567.209961,Produto Interno Bruto per capita,9639.65 - 22144.80,2,MULTIPOLYGON (((-46.50528160015326 -22.3400120...
4,vw_pib_percapita.fid-4514e25a_17aaa325034_-258b,1028,PIAUÍ,Nazária,2010.0,20951.38,7895,2653.75,Produto Interno Bruto per capita,- 9639.65,1,POLYGON ((-42.826685407155495 -5.3480291684437...


In [8]:
# Usando o método rename para renomear as colunas
df.rename(columns={
    'UF': 'estado',
    'nome': 'cidade',
    'Pop_est_2009': 'populacao'
}, inplace=True)


In [9]:
# escrever o conteudo extraido no arquivo cidades-limpo.csv separados por ;
dados_selecionados = ['estado', 'cidade', 'populacao', 'PIB', 'PIB_percapita']

cidades_limpo = df[dados_selecionados]

cidades_limpo.to_csv('cidades-limpo.csv', sep=';', index=False)

### **1.3. Brasil**

Utilize o pacote Python `pandas` para combinar os dados do arquivo `estados-limpo.csv` com os dados do arquivo `cidades-limpo.csv` em um único dataframe. Escolha a coluna e o método de combinação de tal forma que **não haja perda de dados** no processo (não produzirá valores nulos `NaN`). Salve os dados do dataframe no arquivo `brasil.csv`

In [11]:
# solução do exercício 1.3
cidades_limpo['estado'].unique()

array(['BAHIA', 'RIO GRANDE DO SUL', 'ESPIRITO SANTO', 'MINAS GERAIS',
       'PIAUÍ', 'GOIÁS', 'PERNAMBUCO', 'PARÁ', 'SERGIPE', 'SÃO PAULO',
       'PARAÍBA', 'TOCANTINS', 'AMAZONAS', 'SANTA CATARINA', 'CEARÁ',
       'RORAIMA', 'MARANHÃO', 'RIO DE JANEIRO', 'MATO GROSSO', 'PARANÁ',
       'ALAGOAS', 'MATO GROSSO DO SUL', 'ACRE', 'RIO GRANDE DO NORTE',
       'RONDÔNIA', 'AMAPÁ', 'DISTRITO FEDERAL'], dtype=object)

In [36]:
est = pd.read_csv('estados-limpo.csv')

In [37]:
coluna_completa = est['estado;sigla;regiao']

# Dividindo a coluna em três colunas separadas usando o ponto e vírgula como delimitador
novas_colunas = coluna_completa.str.split(';', expand=True)

novas_colunas.columns = ['estado', 'sigla', 'regiao']

est = pd.concat([est, novas_colunas], axis=1)

# Agora você pode acessar a coluna 'estado'
print(est['estado'].tolist())


['ACRE', 'ALAGOAS', 'AMAPA', 'AMAZONAS', 'BAHIA', 'CEARA', 'DISTRITO FEDERAL', 'ESPIRITO SANTO', 'GOIAS', 'MARANHAO', 'MATO GROSSO', 'MATO GROSSO DO SUL', 'PARA', 'PARAIBA', 'PARANA', 'PERNAMBUCO', 'PIAUI', 'RIO DE JANEIRO', 'RIO GRANDE DO NORTE', 'RIO GRANDE DO SUL', 'RONDONIA', 'RORAIMA', 'SANTA CATARINA', 'SAO PAULO', 'SERGIPE', 'TOCANTINS', 'MINAS GERAIS']


In [38]:
# Lista de valores únicos da coluna 'estado' em est
valores_est = est['estado'].tolist()

# Filtrar as linhas em novo_df onde a coluna 'estado' está na lista valores_est
brasil = cidades_limpo[cidades_limpo['estado'].isin(valores_est)]

# Exibir o novo DataFrame filtrado
brasil.head()


Unnamed: 0,estado,cidade,populacao,PIB,PIB_percapita
0,BAHIA,Tremedal,18433,57883.99,3140.23999
1,RIO GRANDE DO SUL,Turuçu,4000,45723.88,11430.969727
2,ESPIRITO SANTO,Vitória,320156,19782630.0,61790.589844
3,MINAS GERAIS,Jacutinga,21424,247816.0,11567.209961
5,MINAS GERAIS,Pedra Azul,26000,187523.7,7212.450195


In [39]:
brasil = brasil.sort_values(by='estado')
brasil.head()

Unnamed: 0,estado,cidade,populacao,PIB,PIB_percapita
4924,ACRE,Xapuri,15079,150262.34375,9965.009766
83,ACRE,Marechal Thaumaturgo,14275,109181.867188,7648.470215
1767,ACRE,Santa Rosa do Purus,4358,28091.173828,6445.890137
5336,ACRE,Jordão,6520,41673.136719,6391.589844
4362,ACRE,Porto Walter,8855,64432.355469,7276.379883


In [40]:
brasil.isna().sum()

estado           0
cidade           1
populacao        0
PIB              0
PIB_percapita    0
dtype: int64

In [41]:
brasil = brasil.dropna(subset=['cidade'])

In [42]:
brasil.isna().sum()

estado           0
cidade           0
populacao        0
PIB              0
PIB_percapita    0
dtype: int64

In [43]:
brasil.to_csv('brasil.csv', sep=';', index=False)

In [48]:
brasil.columns

Index(['estado', 'cidade', 'populacao', 'PIB', 'PIB_percapita'], dtype='object')

---

## 2\. Data Analytics

### **2.1. DataFrame**

Utilize o pacote Python `pandas` para carregar o arquivo `brasil.csv` no dataframe `brasil_df`.

In [44]:
# solução do exercício 2.1
brasil_df = pd.read_csv('brasil.csv')

### **2.2. Analise**

Utilize o dataframe `brasil_df` para responder as seguintes perguntas de negócio:

 - Quais são as 10 cidades mais populosas do Brasil?

In [47]:
# código para responder a pergunta
brasil_df.columns

Index(['estado;cidade;populacao;PIB;PIB_percapita'], dtype='object')

 - Quais são as 5 cidades com a menor PIB per capita da região nordeste?

In [None]:
# código para responder a pergunta

 - Quais são as 15 cidades com maior PIB do do estado de São Paulo?

In [None]:
# código para responder a pergunta

 - Qual é o PIB do estado de Santa Catarina?

In [None]:
# código para responder a pergunta

 - Qual é o população da região sul?

In [None]:
# código para responder a pergunta

 - Qual é o PIB per capito médio das cidades do Mato Grosso do Sul?

In [None]:
# código para responder a pergunta

 - Qual é a população do Brasil?

In [None]:
# código para responder a pergunta

### **2.3. Visualização**

Utilize o dataframe `brasil_df` para gerar as seguintes visualizações.

 - Gere um gráfico de barras com as 10 cidades menos populosas do Brasil.

In [None]:
# código para gerar a visualização

 - Gere um gráfico de pizza com a proporção da população do Brasil por região.

In [None]:
# código para gerar a visualização