<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Data Wrangling II
Caderno de **Exercícios**<br> 
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Agregação e Ordenação;</li>
  <li>Combinação;</li>
  <li>Técnicas Avançadas.</li>
</ol>

---

# **Exercícios**

Neste exercícios, vamos trabalhar com dados geográficos, demográficos e econômicos do Brasil. Vamos manipular e combinar dados de duas frentes distintas para poder responder perguntas de negócios.

## 1\. Data Wrangling

### **1.1. Estados** 

O arquivo `estados-bruto.xml` contém informações sobre estados (nome, sigla e região). **Carregue-o na máquina virtual do Google Colab**. Um arquivo do tipo XML é similar a um arquivo do tipo HTML, exemplo do estado do Acre:

```xml
<ESTADO>
  <ID>1</ID>
  <NOME>ACRE</NOME>
  <IDCAPITAL>16</IDCAPITAL>
  <SIGLA>AC</SIGLA>
  <REGIAO>NORTE</REGIAO>
</ESTADO>
```

Utilize o pacote Python `beautifulsoup4` para extrair os dados do arquivo `estados-bruto.xml` providenciado. Salve os dados extraidos no arquivo `estados-limpo.csv` separado por `;`. Exemplo das três primeiras linhas mais o cabeçalho:

```
estado;sigla;regiao
ACRE;AC;NORTE
ALAGOAS;AL;NORDESTE
AMAPA;AP;NORTE
```

**Dica**: Utilize o parser de xml chamado `lxml` do `beautifulsoup4`.

In [None]:
# ler o arquivo estados-bruto.xml, utilize o xml parser chamado lxml

from bs4 import BeautifulSoup 

NOME_ARQUIVO_FONTE = 'estados-bruto.xml'

fonte = BeautifulSoup(open(NOME_ARQUIVO_FONTE, mode='r'), 'lxml')

In [None]:
# visualize os resultados

fonte

<html><body><estados>
<estado>
<id>1</id>
<nome>ACRE</nome>
<idcapital>16</idcapital>
<sigla>AC</sigla>
<regiao>NORTE</regiao>
</estado>
<estado>
<id>2</id>
<nome>ALAGOAS</nome>
<idcapital>68</idcapital>
<sigla>AL</sigla>
<regiao>NORDESTE</regiao>
</estado>
<estado>
<id>3</id>
<nome>AMAPA</nome>
<idcapital>131</idcapital>
<sigla>AP</sigla>
<regiao>NORTE</regiao>
</estado>
<estado>
<id>4</id>
<nome>AMAZONAS</nome>
<idcapital>178</idcapital>
<sigla>AM</sigla>
<regiao>NORTE</regiao>
</estado>
<estado>
<id>5</id>
<nome>BAHIA</nome>
<idcapital>536</idcapital>
<sigla>BA</sigla>
<regiao>NORDESTE</regiao>
</estado>
<estado>
<id>6</id>
<nome>CEARA</nome>
<idcapital>676</idcapital>
<sigla>CE</sigla>
<regiao>NORDESTE</regiao>
</estado>
<estado>
<id>7</id>
<nome>DISTRITO FEDERAL</nome>
<idcapital>916</idcapital>
<sigla>DF</sigla>
<regiao>CENTRO-OESTE</regiao>
</estado>
<estado>
<id>8</id>
<nome>ESPIRITO SANTO</nome>
<idcapital>879</idcapital>
<sigla>ES</sigla>
<regiao>SUDESTE</regiao>
</estado>
<e

In [None]:
# manipule os dados

estados = fonte.find_all('nome') 
siglas = fonte.find_all('sigla')
regioes = fonte.find_all('regiao')


In [None]:
lista_total = list()

lista_estados = []
lista_siglas = []
lista_regioes = []

# lista Estados
for estado in estados:
  linha_estado = estado.get_text() 
  lista_estados.append(linha_estado)

# lista Siglas
for sigla in siglas:
  lista_siglas.append(sigla.get_text())

# lista Regioes
for regiao in regioes:
  lista_regioes.append(regiao.get_text())

#Lista total
lista_total = (lista_estados, lista_siglas, lista_regioes)

for conteudo in lista_total:
  print(conteudo)

In [None]:
# escrever o conteudo extraido no arquivo estados-limpo.csv separados por ;
import csv

NOME_ARQUIVO_DESTINO = 'estados-limpo.csv'

# continue o codigo aqui

header = ['estado','sigla', 'regiao']

with open(NOME_ARQUIVO_DESTINO, mode='w', encoding='utf8') as arquivo:
  escritor_csv = csv.writer(arquivo, delimiter=';')
  escritor_csv.writerows([header] + list(map(lambda estado, sigla, regiao: [estado, sigla, regiao], lista_estados, lista_siglas, lista_regioes)))

### **1.2. Cidades** 

O arquivo `cidades-bruto.csv` contém informações demográficas e socioeconomicas das cidades do Brasil. **Carregue-o na máquina virtual do Google Colab**. Utilize o pacote Python `pandas` para extrair os dados do arquivo `cidades-bruto.xml` providenciado. Seguindo as seguintes especificações:

1. Apenas dados do censo de 2010;
1. Apenas as colunas UF, Nome, PIB, Pop_est_2009 e PIB_percapita.

Salve os dados extraidos no arquivo `cidades-limpo.csv` separado por `;`. Exemplo das três primeiras linhas mais o cabeçalho:

```
estado;cidade;populacao;pib;pib_percapita
BAHIA;TREMEDAL;18433;57883.9921875;3140.23999023
RIO GRANDE DO SUL;TURUÇU;4000;45723875;11430.96972656
ESPIRITO SANTO;VITÓRIA;320156;19782628;61790.58984375
```

In [None]:
# ler o arquivo cidades-bruto.csv

import pandas as pd

NOME_ARQUIVO_FONTE = 'cidades-bruto.csv'

fonte = pd.read_csv(NOME_ARQUIVO_FONTE) # continue o codigo aqui

In [None]:
# visualize os resultados

# continue o codigo aqui
fonte

In [None]:
# manipule os dados

# continue o codigo aqui
fonte_censo_df = fonte.query('Censo == 2010.0')

fonte_selecao_colunas_df = fonte_censo_df.filter(items=['UF',
                                                        'nome', 
                                                        'Pop_est_2009', 
                                                        'PIB', 
                                                        'PIB_percapita'])

fonte_final_df = fonte_selecao_colunas_df.rename(columns={'UF':'estado', 
                                                          'nome':'cidade', 
                                                          'Pop_est_2009':'populacao', 
                                                          'PIB':'PIB'})
fonte_final_df

In [None]:
# escrever o conteudo extraido no arquivo cidades-limpo.csv separados por ;

NOME_ARQUIVO_DESTINO = 'cidades-limpo.csv'

# continue o codigo aqui

fonte_final_df.to_csv(NOME_ARQUIVO_DESTINO, sep=';', encoding='utf-8')

### **1.3. Brasil** 

Utilize o pacote Python `pandas` para combinar os dados do arquivo `estados-bruto.csv` com os dados do arquivo `cidades-bruto.csv` em um único dataframe. Escolha a coluna e o método de combinação de tal forma que **não haja perda de dados** no processo (não produzirá valores nulos `NaN`). Salve os dados do dataframe no arquivo `brasil.csv`

In [None]:
# solução do exercício 1.3

NOME_ARQUIVO_DESTINO = 'estados-limpo.csv'
estados_limpo = pd.read_csv(NOME_ARQUIVO_DESTINO, sep=';')
estados_limpo

In [None]:
def acentuacao(estado):
    
    estado = estado.replace(
        'AMAPA', 'AMAPÁ').replace(
        'CEARA', 'CEARÁ').replace(
        'ESPIRITO SANTO', 'ESPÍRITO SANTO').replace(
        'GOIAS', 'GOIÁS').replace(
        'MARANHAO', 'MARANHÃO').replace(
        'PARA', 'PARÁ').replace(
        'PARAIBA', 'PARAÍBA').replace(
        'PARANA', 'PARANÁ').replace(
        'PIAUI', 'PIAUÍ').replace(
        'RONDONIA', 'RONDÔNIA').replace(
        'SAO PAULO', 'SÃO PAULO')
    
    return estado

In [None]:
estados_limpo['estado'] = estados_limpo['estado'].apply(acentuacao)

estados_limpo

In [None]:
#Lendo arquivo

NOME_ARQUIVO_DESTINO = 'cidades-limpo.csv'
cidades_limpo = pd.read_csv(NOME_ARQUIVO_DESTINO, sep=';')
cidades_limpo.head()

In [None]:
#removendo a coluna Unnamed: 0

cidades_limpo = cidades_limpo.drop("Unnamed: 0", axis = 1)
cidades_limpo.head()

In [None]:
combinacao = pd.merge(left=cidades_limpo, right=estados_limpo, on='estado', how='inner')
combinacao

In [None]:
# Verificando se há valores nulos ou vazios no dataframe

def valor_nulo (df: pd.DataFrame) -> bool:
  return df.isnull().any()

In [None]:
#salvando o arquivo brasil.csv

NOME_ARQUIVO_DESTINO = 'brasil.csv'
combinacao.to_csv(NOME_ARQUIVO_DESTINO, sep=';', encoding='utf-8')

---

## 2\. Data Analytics

### **2.1. DataFrame** 

Utilize o pacote Python `pandas` para carregar o arquivo `brasil.csv` no dataframe `brasil_df`.

In [None]:
# solução do exercício 2.1

NOME_ARQUIVO_DESTINO = 'brasil.csv'
brasil_df = pd.read_csv(NOME_ARQUIVO_DESTINO, sep=';')
brasil_df = brasil_df.drop("Unnamed: 0", axis = 1)
brasil_df

### **2.2. Analise** 

Utilize o dataframe `brasil_df` para responder as seguintes perguntas de negócio:

 - Quais são as 10 cidades mais populosas do Brasil?

In [None]:
# código para responder a pergunta

top_10 = brasil_df
top_10 = top_10.sort_values(by=['populacao'], ascending=False).head(n=10)
top_10 = top_10[['cidade','populacao']]
top_10

 - Quais são as 5 cidades com a menor PIB per capita da região nordeste?

In [None]:
# código para responder a pergunta

pib_percapita_5_df = brasil_df
pib_percapita_5_df = pib_percapita_5_df.sort_values(by=['PIB_percapita'], ascending=True).head()
pib_percapita_5_df = pib_percapita_5_df[['cidade','PIB_percapita']]
pib_percapita_5_df

 - Quais são as 15 cidades com maior PIB do do estado de São Paulo?

In [None]:
# código para responder a pergunta

sp_df = brasil_df
sp_df = sp_df.query('estado == "SÃO PAULO"').sort_values(by=['PIB'], ascending=False).head(15)
sp_df = sp_df[['estado','cidade','PIB']]
sp_df

 - Qual é o PIB do estado de Santa Catarina?

In [None]:
# código para responder a pergunta

sc_df = brasil_df
sc_df = sc_df.query('estado == "SANTA CATARINA"').groupby('estado').agg('sum')
sc_df

 - Qual é o população da região sul?

In [None]:
# código para responder a pergunta

popsul_df = brasil_df
popsul_df = popsul_df.query('regiao == "SUL"').groupby('regiao').agg('sum')
popsul_df

 - Qual é o PIB per capito médio das cidades do Mato Grosso do Sul?

In [None]:
# código para responder a pergunta

mtspib_df = brasil_df
mtspib_df = mtspib_df.query('estado == "MATO GROSSO DO SUL"').groupby('estado').agg('mean')
mtspib_df

 - Qual é a população do Brasil?

In [None]:
# código para responder a pergunta

popbrasil_df = brasil_df
popbrasil_df = popbrasil_df.populacao.sum()
print(f'A população do brasil é: {popbrasil_df}')

### **2.3. Visualização** 

Utilize o dataframe `brasil_df` para gerar as seguintes visualizações.

 - Gere um gráfico de barras com as 10 cidades menos populosas do Brasil.

In [None]:
# código para gerar a visualização

brasil_menos_populosa = brasil_df
brasil_menos_populosa = brasil_menos_populosa.sort_values(by=['populacao'], ascending=True)
brasil_menos_populosa = brasil_menos_populosa[['cidade','populacao']].head(10)

In [None]:
grafico_barra = brasil_menos_populosa
grafico_barra

In [None]:
grafico_barra.plot.bar(x='cidade', y='populacao',  figsize=(18, 5), rot=0, title="10 cidades menos populosas do Brasil.",color={"green"})

 - Gere um gráfico de pizza com a proporção da população do Brasil por região.

In [None]:
# código para gerar a visualização

pizza_df = brasil_df
{'amount': len(pizza_df)*[1]}

In [None]:
pizza_df = pd.concat([pizza_df[['regiao']],pd.DataFrame({'amount': len(pizza_df)*[1]})], axis=1)

In [None]:
pizza_df

In [None]:
grouped_regiao_df = pizza_df.groupby('regiao').agg('sum')

In [None]:
grouped_regiao_df

In [None]:
grouped_regiao_df.plot.pie(y='amount', figsize=(11, 8))