# Aula 1

In [1]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

In [2]:
#dados referentes aos valores hospitalares gastos e valores hospitalares gastos corrigidos com o IPCA
dados = pd.read_csv("https://raw.githubusercontent.com/Pedro-correa-almeida/Bootcamp_alura/main/Modulo_2/dados/A084054189_28_143_208_valor_total.csv", encoding="ISO-8859-1", 
                    skiprows = 3, sep=";", skipfooter=12,
                    na_values='-',
                    thousands=".", decimal=",", engine="python")

## Desafio 01 - Entre nos dados do wikipedia e Leia a Base de dados direto do wikipedia.

In [3]:
url = 'https://pt.wikipedia.org/wiki/Lista_de_unidades_federativas_do_Brasil_por_popula%C3%A7%C3%A3o'

html_content = requests.get(url).text
soup = BeautifulSoup(html_content, "lxml")
tabela = soup.find_all('table')[0]
dados_tabela = pd.read_html(str(tabela))
populacao = pd.DataFrame(dados_tabela[0])
populacao

Unnamed: 0,Posição,Unidade federativa,População,% da pop. total,País comparável (habitantes)
0,1,São Paulo,46 289 333,"21,9%",Espanha (46 439 864)
1,2,Minas Gerais,21 292 666,"10,1%",Sri Lanka (20 675 000)
2,3,Rio de Janeiro,17 366 189,"8,2%",Países Baixos (16 922 900)
3,4,Bahia,14 930 634,"7,1%",Chade (14 037 000)
4,5,Paraná,11 516 840,"5,4%",Bolívia (11 410 651)
5,6,Rio Grande do Sul,11 422 973,"5,4%",Bélgica (11 250 659)
6,7,Pernambuco,9 616 621,"4,5%",Bielorrússia (9 485 300)
7,8,Ceará,9 187 103,"4,3%",Emirados Árabes Unidos (9 157 000)
8,9,Pará,8 690 745,"4,1%",Áustria (8 602 112)
9,10,Santa Catarina,7 252 502,"3,4%",Sérvia (7 114 393)


## Desafio 02 - Padronizar os nomes das colunas, Transformar os dados nos tipos corretos, Transformar a UF em index

In [4]:
#Tirando colunas que n~ao interessam
populacao.drop(columns=['Posição', '% da pop. total', 'País comparável (habitantes)'], inplace=True)

#Renomeando coluna Unidade federativa e População
populacao.rename(columns={'Unidade federativa':'uf', 'População':'populacao'}, inplace=True)

#Tranformando a coluna uf em index
populacao.set_index('uf', inplace=True)

populacao

Unnamed: 0_level_0,populacao
uf,Unnamed: 1_level_1
São Paulo,46 289 333
Minas Gerais,21 292 666
Rio de Janeiro,17 366 189
Bahia,14 930 634
Paraná,11 516 840
Rio Grande do Sul,11 422 973
Pernambuco,9 616 621
Ceará,9 187 103
Pará,8 690 745
Santa Catarina,7 252 502


In [5]:
#Tirando os espaços em branco da coluna populacao
populacao['populacao'] = populacao['populacao'].str.replace(' ', '')

#Transformando a coluna populacao em números inteiros
populacao['populacao'] = populacao['populacao'].astype('int64')

populacao

Unnamed: 0_level_0,populacao
uf,Unnamed: 1_level_1
São Paulo,46289333
Minas Gerais,21292666
Rio de Janeiro,17366189
Bahia,14930634
Paraná,11516840
Rio Grande do Sul,11422973
Pernambuco,9616621
Ceará,9187103
Pará,8690745
Santa Catarina,7252502


In [6]:
#Verificando o tipo da coluna
populacao.dtypes

populacao    int64
dtype: object

## Desafio 03 - Buscar na documentação alguns métodos envolvendo strings

O python possui diversos métodos envolvendo string que facilitam muito a manipulação de strings, algumas muito úteis são:
* strip : retira o caracter definido do final e início da string, no padrão elimina espaços em brancos, o que é muito ultilizado por ser muito comum
* replace : recebe duas 'substrings' e substitui a primeira pela segunda na string principal
* split : separa a string em diversas strings por algum separador, como padrão separa pelo espaço em branco
* lower : tranforma todas os caracteres da string em minúsculos   
* upper : tranforma todas os caracteres da string em maiúsculos
* contains : procura uma 'substring' dentro da string principal

fonte: [documentação pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.html)

## Desafio 04 - Desenvolver uma função para a limpeza e tratamento dos dados, retornando duas tabelas "população" e "unida".

In [7]:
def limpeza_populacao(url, dados):
    '''
    Função que recebe a url da tabela de população, lê e uni com a tabela dados, por fim
    retorna a tabela populacao e unida
        parâmetros:
            url: url da tabela, tipo=string
            dados : dados a serem unidos, tipo=pd.DataFrame
    '''
    #lendo a tabela
    html_content = requests.get(url).text
    soup = BeautifulSoup(html_content, "lxml")
    dados_tabela = pd.read_html(str(soup.find_all('table')[0]))
    populacao = pd.DataFrame(dados_tabela[0])
    
    #Tirando colunas que n~ao interessam
    populacao.drop(columns=['Posição', '% da pop. total', 'País comparável (habitantes)'], inplace=True)

    #Renomeando coluna Unidade federativa e População
    populacao.rename(columns={'Unidade federativa':'uf', 'População':'populacao'}, inplace=True)

    #Tranformando a coluna uf em index
    populacao.set_index('uf', inplace=True)

    #Tirando os espaços em branco da coluna populacao
    populacao['populacao'] = populacao['populacao'].str.replace(' ', '').astype('int64')
    
    #Unindo as tabelas
    unida = populacao.join(dados)
    
    return populacao, unida

In [8]:
#De acordo com a fonte os dados de população estão atualizados até Agosto de 2020, por esta razão vou juntar esses com a coluna 2020/Ago
url = 'https://pt.wikipedia.org/wiki/Lista_de_unidades_federativas_do_Brasil_por_popula%C3%A7%C3%A3o'

dados_2020_ago = dados.set_index('Unidade da Federação')['2020/Ago']
dados_2020_ago.index = dados_2020_ago.index.str[3:]

populacao, unida = limpeza_populacao(url,dados_2020_ago)

In [9]:
populacao

Unnamed: 0_level_0,populacao
uf,Unnamed: 1_level_1
São Paulo,46289333
Minas Gerais,21292666
Rio de Janeiro,17366189
Bahia,14930634
Paraná,11516840
Rio Grande do Sul,11422973
Pernambuco,9616621
Ceará,9187103
Pará,8690745
Santa Catarina,7252502


In [10]:
unida

Unnamed: 0_level_0,populacao,2020/Ago
uf,Unnamed: 1_level_1,Unnamed: 2_level_1
São Paulo,46289333,349901000.0
Minas Gerais,21292666,171048100.0
Rio de Janeiro,17366189,96339620.0
Bahia,14930634,83478080.0
Paraná,11516840,129529200.0
Rio Grande do Sul,11422973,102610000.0
Pernambuco,9616621,77232880.0
Ceará,9187103,61719490.0
Pará,8690745,44385720.0
Santa Catarina,7252502,65467590.0


In [None]:
#salvar a tabela unida no diretório dos dados
unida.to_csv('C:\Users\pedro\Documents\Bootcamp_alura\Modulo_2\dados')