<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Data Wrangling II
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Agregação e Ordenação;</li>
  <li>Combinação;</li>
  <li>Técnicas Avançadas.</li>
</ol>

---

# **Exercícios**

Neste exercícios, vamos trabalhar com dados geográficos, demográficos e econômicos do Brasil. Vamos manipular e combinar dados de duas frentes distintas para poder responder perguntas de negócios.

## 1\. Data Wrangling

### **1.1. Estados**

O arquivo `estados-bruto.xml` contém informações sobre estados (nome, sigla e região). **Carregue-o na máquina virtual do Google Colab**. Um arquivo do tipo XML é similar a um arquivo do tipo HTML, exemplo do estado do Acre:

```xml
<ESTADO>
  <ID>1</ID>
  <NOME>ACRE</NOME>
  <IDCAPITAL>16</IDCAPITAL>
  <SIGLA>AC</SIGLA>
  <REGIAO>NORTE</REGIAO>
</ESTADO>
```

Utilize o pacote Python `beautifulsoup4` para extrair os dados do arquivo `estados-bruto.xml` providenciado. Salve os dados extraidos no arquivo `estados-limpo.csv` separado por `;`. Exemplo das três primeiras linhas mais o cabeçalho:

```
estado;sigla;regiao
ACRE;AC;NORTE
ALAGOAS;AL;NORDESTE
AMAPA;AP;NORTE
```

**Dica**: Utilize o parser de xml chamado `lxml` do `beautifulsoup4`.

In [None]:
# ler o arquivo estados-bruto.xml, utilize o xml parser chamado lxml
import requests
import csv
from bs4 import BeautifulSoup

#NOME_ARQUIVO_FONTE = '/content/estados-bruto.xml'


NOME_ARQUIVO_FONTE = '/content/estados-bruto.xml'


# Abrir o arquivo XML
with open(NOME_ARQUIVO_FONTE, 'r') as arquivo:
    conteudo = arquivo.read()

fonte = BeautifulSoup(conteudo, 'xml')




In [None]:
# visualize os resultados
#print(fonte)
estados = fonte.find_all('ESTADO')
print(estados)

In [None]:
# Criar uma lista para armazenar os dados extraídos
dados = []

# Iterar sobre as tags 'ESTADO'
for estado in estados:
    nome = estado.find('NOME').text
    sigla = estado.find('SIGLA').text
    regiao = estado.find('REGIAO').text

    # Adicionar os dados à lista
    dados.append([nome, sigla, regiao])


In [None]:
print(dados)

In [None]:
head = ['estado','sigla','regiao']


with open('estados-limpo.csv',mode='w',newline='',encoding='utf-8') as arquivo:
  escritor = csv.writer(arquivo, delimiter=";")
  escritor.writerow(head)
  escritor.writerows(dados)

In [None]:
# escrever o conteudo extraido no arquivo estados-limpo.csv separados por ;

NOME_ARQUIVO_DESTINO = 'estados-limpo.csv'

# continue o codigo aqui

### **1.2. Cidades**

O arquivo `cidades-bruto.csv` contém informações demográficas e socioeconomicas das cidades do Brasil. **Carregue-o na máquina virtual do Google Colab**. Utilize o pacote Python `pandas` para extrair os dados do arquivo `cidades-bruto.xml` providenciado. Seguindo as seguintes especificações:

1. Apenas dados do censo de 2010;
1. Apenas as colunas UF, Nome, PIB, Pop_est_2009 e PIB_percapita.

Salve os dados extraidos no arquivo `cidades-limpo.csv` separado por `;`. Exemplo das três primeiras linhas mais o cabeçalho:

```
estado;cidade;populacao;pib;pib_percapita
BAHIA;TREMEDAL;18433;57883.9921875;3140.23999023
RIO GRANDE DO SUL;TURUÇU;4000;45723875;11430.96972656
ESPIRITO SANTO;VITÓRIA;320156;19782628;61790.58984375
```

In [None]:
import pandas as pd


In [None]:
# ler o arquivo cidades-bruto.csv

#cidade_fonte_dados = '/content/cidades-bruto.csv'

cidade_df = pd.read_csv('cidades-bruto.csv')

In [None]:
cidade_df.head(3)

In [None]:
cidade_df.info()

In [None]:
cidade_df.sort_values('Censo')

In [None]:
# visualize os resultados
#cidade_df = Cidade_df.loc['UF','nome','PIB','Pop_est_2009','PIB_percapita'].loc[['Censo':'2010.0']]


cidade_df = cidade_df.loc[(cidade_df['Censo'] == 2010.0), ['UF', 'nome', 'PIB', 'Pop_est_2009', 'PIB_percapita']]



# continue o codigo aqui

In [None]:

dados_cidade_df = cidade_df

In [None]:
dados_cidade_df.head(n=3)

In [None]:
# manipule os dados
import csv


dados_cidade_df.to_csv('cidades-limpo.csv', sep=';',index=False, header=['estado','cidade','populacao','pib','pib_percapita'],encoding='UTF-8')

#dados_cidade_df.to_csv('cidades-limpotst01.csv')




# continue o codigo aqui

In [None]:
# escrever o conteudo extraido no arquivo cidades-limpo.csv separados por ;

NOME_ARQUIVO_DESTINO = 'cidades-limpo.csv'

# continue o codigo aqui

### **1.3. Brasil**

Utilize o pacote Python `pandas` para combinar os dados do arquivo `estados-bruto.csv` com os dados do arquivo `cidades-bruto.csv` em um único dataframe. Escolha a coluna e o método de combinação de tal forma que **não haja perda de dados** no processo (não produzirá valores nulos `NaN`). Salve os dados do dataframe no arquivo `brasil.csv`

In [27]:
# solução do exercício 1.3
estados_df = pd.read_csv('estados-limpo.csv',sep=';')
cidades_df = pd.read_csv('cidades-limpo.csv',sep=';')

In [None]:
estados_df.head(n=3)

In [None]:
cidades_df.head(n=3)

In [None]:
# Tratando o erros dos acentos que resultou na exclussão do estado com ascento
# no df Brasil

def substituir_caracter (caracter):
  substituicoes = {'Í': 'I', 'Á': 'A', 'Ã': 'A', 'Ô': 'O'}
  if caracter in substituicoes:
    return substituicoes[caracter]
  return caracter


In [None]:
valor_unico_cidades = cidades_df['estado'].unique()

display(sorted(valor_unico_cidades))

In [None]:
valor_unico_estado = estados_df['estado'].unique()

display(sorted(valor_unico_estado))

In [38]:
#
# cidades_df = cidades_df.applymap(substituir_caracter['estado'])
#
cidades_df['estado'] = cidades_df['estado'].replace({'Í': 'I', 'Á': 'A', 'Ã': 'A', 'Ô': 'O'}, regex=True)

In [43]:
brasil_df = pd.merge(right=cidades_df, left=estados_df, on='estado',how= 'inner') #

In [None]:
brasil_df.isnull().any().any()

In [44]:
brasil_df.to_csv('brasil.csv',index=False)

---

## 2\. Data Analytics

### **2.1. DataFrame**

Utilize o pacote Python `pandas` para carregar o arquivo `brasil.csv` no dataframe `brasil_df`.

In [45]:
# solução do exercício 2.1


brasil_df = pd.read_csv('brasil.csv')

In [72]:
brasil_df.tail(n=3)

Unnamed: 0,estado,sigla,regiao,cidade,populacao,pib,pib_percapita
5557,MINAS GERAIS,MG,SUDESTE,São Gonçalo do Sapucaí,288685.8,23627,12218.469727
5558,MINAS GERAIS,MG,SUDESTE,Barbacena,1335420.0,128572,10386.549805
5559,MINAS GERAIS,MG,SUDESTE,São Francisco do Glória,32376.13,5685,5695.009766


In [73]:
valor_unico_pais = brasil_df['estado'].unique()

numeros_de_pais = sorted(valor_unico_pais)

display(sorted(valor_unico_pais))
len(numeros_de_pais)

['ACRE',
 'ALAGOAS',
 'AMAPA',
 'AMAZONAS',
 'BAHIA',
 'CEARA',
 'DISTRITO FEDERAL',
 'ESPIRITO SANTO',
 'GOIAS',
 'MARANHAO',
 'MATO GROSSO',
 'MATO GROSSO DO SUL',
 'MINAS GERAIS',
 'PARA',
 'PARAIBA',
 'PARANA',
 'PERNAMBUCO',
 'PIAUI',
 'RIO DE JANEIRO',
 'RIO GRANDE DO NORTE',
 'RIO GRANDE DO SUL',
 'RONDONIA',
 'RORAIMA',
 'SANTA CATARINA',
 'SAO PAULO',
 'SERGIPE',
 'TOCANTINS']

27

In [None]:
# Visualizqando as linhas onde a coluna 'estado' tem o valor 'PA'
# do DF brasil antes de limpar os estados que tem acentuação

valor_procurado = 'PA'
linhas_filtradas = brasil_df.loc[brasil_df['sigla'] == valor_procurado]

# Exibir as linhas filtradas
print(linhas_filtradas)


### **2.2. Analise**

Utilize o dataframe `brasil_df` para responder as seguintes perguntas de negócio:

 - Quais são as 10 cidades mais populosas do Brasil?

In [None]:
# código para responder a pergunta
#brasil_df.head(n=10).sort_values('populacao').max()

top_df = brasil_df.sort_values('populacao', ascending=False)

top_10_populacao = top_df.head(n=10)
top_10_populacao

In [None]:

top_10_populacao.info()

 - Quais são as 5 cidades com a menor PIB per capita da região nordeste?

In [71]:
from tables import index
from pandas.core.ops import methods
# código para responder a pergunta
menor_pib_per = brasil_df.groupby('regiao').get_group('NORDESTE')
#menor_pib_per[['cidade','pib_percapita']].sort_values('pib_percapita')

# ranking das cidades
ranking = menor_pib_per[['cidade','pib_percapita']].sort_values('pib_percapita')
ranking['ranking'] = ranking['pib_percapita'].rank(ascending=True,method='min')
result = ranking[['ranking','cidade','pib_percapita']].head(5)

#print(result.reset_index(drop=True))

display(result.reset_index(drop=True))

Unnamed: 0,ranking,cidade,pib_percapita
0,1.0,São Vicente Ferrer,1929.969971
1,2.0,Cajapió,2203.830078
2,3.0,Dom Inocêncio,2358.23999
3,4.0,Timbiras,2368.159912
4,5.0,Axixá,2416.969971


 - Quais são as 15 cidades com maior PIB do do estado de São Paulo?

In [None]:
# código para responder a pergunta

# dessa vez não coloquei o ranking.
maior_pib = brasil_df.groupby('estado').get_group('SAO PAULO')
maior_pib[['sigla','cidade','pib']].sort_values('pib',ascending=False).head(15)

 - Qual é o PIB do estado de Santa Catarina?

In [None]:
# código para responder a pergunta
santa_pib = brasil_df.groupby('estado').get_group('SANTA CATARINA')
santa_pib[['pib']].sum()

 - Qual é o população da região sul?

In [95]:
# código para responder a pergunta
pop_sul = brasil_df.groupby('regiao').get_group('SUL')

pop_sul = pop_sul['populacao'].agg('sum')

print(f"Há {pop_sul:.2f} pessoas vivendo na Região Sul")
print(round(pop_sul))

Há 535662083.79 pessoas vivendo na Região Sul
535662084


 - Qual é o PIB per capito médio das cidades do Mato Grosso do Sul?

In [94]:
# código para responder a pergunta
media_pib = brasil_df.groupby('estado').get_group('MATO GROSSO DO SUL')
media_pib = media_pib['pib_percapita'].agg('mean')

print(round(media_pib))

14459


 - Qual é a população do Brasil?

In [100]:
# código para responder a pergunta

populacao_total  = brasil_df['populacao'].agg('sum')

print(f"Em 2010 á população do Brasil era de {populacao_total:.2f} de pessoas")

Em 2010 á população do Brasil era de 3238208412.45 de pessoas


### **2.3. Visualização**

Utilize o dataframe `brasil_df` para gerar as seguintes visualizações.

 - Gere um gráfico de barras com as 10 cidades menos populosas do Brasil.

In [117]:
import matplotlib.pyplot as plt


In [None]:
cidade_menor_pop = brasil_df.sort_values(by=['populacao'],ascending=False).head(10)

cidade_menor_pop.plot(x='cidade',y='populacao', kind='bar', figsize=[15,5])

In [None]:
# código para gerar a visualização
cidade_menor_pop = brasil_df.sort_values(by=['populacao'],ascending=False).head(10)

ax = cidade_menor_pop.plot(x='cidade',y='populacao', kind='bar', figsize=[15,5])
ax.set_xlabel('Cidade')
ax.set_ylabel('População')


for i, v in enumerate(cidade_menor_pop['populacao']):
    ax.annotate(str(v), (i, v), ha='center', va='bottom')


plt.show()

 - Gere um gráfico de pizza com a proporção da população do Brasil por região.

In [None]:
# código para gerar a visualização

# Soma a população por regiao
populacao_por_regiao = brasil_df.groupby('regiao')['populacao'].sum()

# Crie o gráfico de pizza
plt.figure(figsize=[8, 8])

plt.pie(populacao_por_regiao, labels=populacao_por_regiao.index, autopct='%1.1f%%')

plt.title('Proporção da População do Brasil por Região')

plt.show()


#