<div>
    <h1>
        Exercício presidentes dos EUA (dados pessoais)
    </h1>
    <h3>
        Pretende-se com este exercício construir um script ou notebook que produza um ficheiro JSON com a secção de dados pessoais de cada presidente dos EUA.
    </h3>
    <p>
        Com o presente notebook irei relatar as decisões tomadas e evidenciar o respetivo código para responder ao desafio colocado.
    </p>
    <div class="alert alert-info">
        O inicío de cada secção será destacado com este fundo.
    </div>
    <div class="alert alert-success">
        Para cada secção será efetuada uma breve conclusão que será destacada com este fundo.
    </div>
    <p>
        Para o efeito o indíce da resolução deste exercicio é o seguinte:
    </p>
        <ol>
            <strong><li>Importação de bilbiotecas</li></strong><br>
            <strong><li>Presidentes</li></strong>
            <ul>
                <li>2.1 Criação de dicionário (Presidente + link)</li>
                <li>2.2 Criação de lista (links)</li><br>
            </ul>
            <strong><li>Recolha de dados pessoais</li></strong>
            <ul>
                <li>3.1 Dados a recolher</li>
                <li>3.2 Estratégia</li>
                <li>3.3 Inspecionando o html</li>
                <li>3.4 Tratamento de erros</li>
                <li>3.5 Código</li>
                <li>3.6 Visulaização do resultado</li><br>
           </ul>
            <strong><li>Validação de dados</li></strong>
            <ul>
                <li>4.1 Criação de DataFrame</li>
                <li>4.2 Expansão de dicionários</li>
                <li>4.3 Validação</li><br>
            </ul>
            <strong><li>Ficheiro JSON</li></strong>
            <ul>
                <li>5.1 Produção do ficheiro</li>
                <li>5.2 Visualização</li>
            </ul>
        </ol>
</div>

<div class="alert alert-info">
        1. IMPORTAÇÃO DE BIBLIOTECAS
</div>

<div>    
    <p>
        É objetivo desta secção importar as bibliotecas necessárias à resolução do desafio. As bibliotecas <code>'requests'</code> e <code>'bs4'</code>, para fazer o scraping, o <code>'pandas'</code>, para criar um dataframe de validação e a biblioteca <code>'json'</code> para criar o ficheiro jason.
    </p>
</div>

In [1]:
import requests
from bs4 import BeautifulSoup
from bs4.element import Tag
import json
import pandas as pd

<div class="alert alert-success">
        Importadas as bibliotecas, estamos em condições de prosseguir, para a secção seguinte.
</div>

<div class="alert alert-info">
        2. PRESIDENTES
</div>

<div>    
    <p>
        Pretende-se nesta secção listar os links de cada um dos presidentes dos EUA. Vamos primeiro criar um dicionário em que a chave corresponde ao presidente e valor corresponde ao link para respetiva página.
    </p>
</div>

___
### 2.1 Criação de dicionário (presidente + link)
___

<div>    
    <p>
        Para criação do dicionário pretendido reutilizou-se o código apresentado em aula (slide 37), como se apresenta de seguida.
    </p>
</div>

In [2]:
html = requests.request('GET', "https://en.wikipedia.org/wiki/President_of_the_United_States#Timeline_of_presidents").text

In [3]:
soup = BeautifulSoup(html, 'html.parser')

In [4]:
d = {}
for table in soup.find_all("table", attrs={'class': 'wikitable'}):
    rows = table.find_all('tr')
    if len(rows) != 8: continue
    for row in rows:
        for i, cell in enumerate(row.find_all('td')):
            if i != 4: continue
            for a in cell.children:
                if type(a) is Tag and a.name == 'a':
                    d[a.text.replace(u'\xa0', u' ')] = f"https://wikipedia.com{a.attrs['href']}"

<div>    
    <p>
        Vamos dar uma olhadela o que é devolvido:
    </p>
</div>

In [5]:
print(d)

{'Chester A. Arthur': 'https://wikipedia.com/wiki/Chester_A._Arthur', 'George H. W. Bush': 'https://wikipedia.com/wiki/George_H._W._Bush', 'George W. Bush': 'https://wikipedia.com/wiki/George_W._Bush', 'Calvin Coolidge': 'https://wikipedia.com/wiki/Calvin_Coolidge', 'Dwight D. Eisenhower': 'https://wikipedia.com/wiki/Dwight_D._Eisenhower', 'Gerald Ford': 'https://wikipedia.com/wiki/Gerald_Ford', 'James A. Garfield': 'https://wikipedia.com/wiki/James_A._Garfield', 'Ulysses S. Grant': 'https://wikipedia.com/wiki/Ulysses_S._Grant', 'Warren G. Harding': 'https://wikipedia.com/wiki/Warren_G._Harding', 'Benjamin Harrison': 'https://wikipedia.com/wiki/Benjamin_Harrison', 'Rutherford B. Hayes': 'https://wikipedia.com/wiki/Rutherford_B._Hayes', 'Herbert Hoover': 'https://wikipedia.com/wiki/Herbert_Hoover', 'Abraham Lincoln': 'https://wikipedia.com/wiki/Abraham_Lincoln', 'William McKinley': 'https://wikipedia.com/wiki/William_McKinley', 'Richard Nixon': 'https://wikipedia.com/wiki/Richard_Nixon'

<div>    
    <p>
        Como podemos verificar, temos um dicionário cuja chave é o presidente e o respetivo valor corresponde ao link para a respetiva página.
    </p>
    <p>
        Vejamos agora o ver tamanho do dicionário e comparemos com a <a href="https://en.wikipedia.org/wiki/President_of_the_United_States#Timeline_of_presidents">página dos presidentes dos EUA.</a>
    </p>
    <p>
        Ok. Parace estar certo (19 + 15 + 4 + 4 + 1 + 1 + 1 = 45)
    </p>
</div>

In [6]:
print(len(d))

45


___
### 2.2 Criação de lista (links)
___

<div>    
    <p>
        Vamos agora gravar os links numa lista nomeada por <code>'paginas'</code> e dar uma olhadela no resultado.
    </p>
</div> 

In [7]:
paginas = list(d.values())
print(paginas)

['https://wikipedia.com/wiki/Chester_A._Arthur', 'https://wikipedia.com/wiki/George_H._W._Bush', 'https://wikipedia.com/wiki/George_W._Bush', 'https://wikipedia.com/wiki/Calvin_Coolidge', 'https://wikipedia.com/wiki/Dwight_D._Eisenhower', 'https://wikipedia.com/wiki/Gerald_Ford', 'https://wikipedia.com/wiki/James_A._Garfield', 'https://wikipedia.com/wiki/Ulysses_S._Grant', 'https://wikipedia.com/wiki/Warren_G._Harding', 'https://wikipedia.com/wiki/Benjamin_Harrison', 'https://wikipedia.com/wiki/Rutherford_B._Hayes', 'https://wikipedia.com/wiki/Herbert_Hoover', 'https://wikipedia.com/wiki/Abraham_Lincoln', 'https://wikipedia.com/wiki/William_McKinley', 'https://wikipedia.com/wiki/Richard_Nixon', 'https://wikipedia.com/wiki/Ronald_Reagan', 'https://wikipedia.com/wiki/Theodore_Roosevelt', 'https://wikipedia.com/wiki/William_Howard_Taft', 'https://wikipedia.com/wiki/Donald_Trump', 'https://wikipedia.com/wiki/Joe_Biden', 'https://wikipedia.com/wiki/James_Buchanan', 'https://wikipedia.com/wi

<div class="alert alert-success">
        Nesta secção criámos uma lista com todos os links dos presidentes dos EUA e validámos com a <a href="https://en.wikipedia.org/wiki/President_of_the_United_States#Timeline_of_presidents">página dos residentes dos EUA</a>, não se tendo detetado falhas na recolha dos links.
</div>

<div class="alert alert-info">
        3. RECOLHA DE DADOS PESSOAIS
</div>

<div>    
    <p>
        Pretende-se nesta secção percorrer todos os links dos presidentes guardados na lista <code>'paginas'</code> e recolher alguns dados pessoais, guardando-os num dicionário.
    </p>
</div> 

___
### 3.1 Dados a recolher
___

<div>    
    <p>
        Dando uma olhadela, por exemplo á página do primeiro presidente constante na lista <code>'paginas'</code>, <a href="https://en.wikipedia.org/wiki/Chester_A._Arthur">Chester Alan Arthur</a>,  visualizamos que os dados pessoais se encontram organizados na seguinte forma:
    </p>
    <img src="img_dados_pessoais.PNG" alt="Parâmetros obrigatórios" width="300" height="300">
        <p>
        Fiquemo-nos pela informação referente a 'Born', 'Died'e 'Politcal party' .
    </p>
</div> 

___
### 3.2 Estatégia
___

<div>    
    <p>
        A ideia seguida passa por criar um dicionário denominado por 'dic_presidentes' com a chave 'presidentes' que terá como valor uma lista que incluirá um dicionário por presidente.
    </p>
    <p>
        Vampos começar por definir o a estrutura do dicionário:<br>
    </p>
 <code>{'presidentes':
        [{'presid':presid_1,
        'pagina':p,
        'born': {'nick': nickname,
                'bday':birthday,
                'bplace': birthday_place},
        'died': {'diedd': died,
                 'aged': age,
                 'placed':place},
        'pparty':party},
        ...,
        {'presid':presid_45,
        'pagina':p,
        'born': {'nick': nickname,
                'bday':birthday,
                'bplace': birthday_place},
        'died': {'diedd': died,
                 'aged': age,
                 'placed':place},
        'pparty':party}]</code>
</div> 

___
### 3.3 Inspecionando o html
___

<div>    
    <p>
        Inspecionando o documento verifica-se que a informação sobre os dados pessoais dos presidentes encontram-se numa <code>'table'</code>, cujo atributo <code>'class'</code>, corresponde a <code>'infobox vcard'</code>.
    </p>
    <p>
        Vamos agora ver onde se posiciona a informação pretendia, dentro da referida table:
    </p>
    <ul>
        <li><strong>presid:</strong> corresponde ao texto da <code>'div'</code>, cujo atributo <code>'class'</code> é <code>'fn'</code></li><br>
        <li><strong>nickname, birthday, birthday_place, died, age, place:</strong>
        <p>Da análise efetuada verificou-se que dentro desta tabela existem tags <code>'th'</code> com os textos 'Born', 'Died' e 'Political party', que correspondem a cabeçalhos, às quais se seguem os respetivos, dados na tag <code>'td'</code>. Com recurso ao método <code>findNext</code>, percorreu-se o código html necessário para recolher texto necessário.</p>
    </ul>
    
<div>

___
### 3.4 Tratamento de erros
___

<div>    
    <p>
        Antes de criar o código que se apresenta na seção 3.5, foram-se efetuando prints para cada um dos dados pessoais a recolher (presid, nickname, birthday,...) necessários para verificar onde o código estava a dar erro. Observando-se as páginas para as quais estava a dar erro, constatou-se que tal acontecia sempre que não havia informação, daí ter seguido o try/next, atribuindo None quando dava erro.
    </p>
    <p>
        A título de exemplo segue o código do print para a recolha da informação referente ao 'nickname'. Verifica-se assim que a seguir ao presidente 'Warren Gamaliel Harding' dá erro. Vamos à lista 'paginas' e verifica-se que o presidente que está a dar erro corresponde a Benjamim Harrisson. Vamos ver a sua página <a href=https://en.wikipedia.org/wiki/Benjamin_Harrison>Benjamim Harrisson</a>.
    </p>
       <p>
        Como se pode ver esta informação é inexistente, pelo que faz sentido neste caso atribuir o valor 'None'.
    </p>
<div>

In [17]:
for p in paginas:
    html_f = requests.request('GET', p).text
    soup_f = BeautifulSoup(html_f, 'html.parser')        
    for t in soup_f.find_all("table", attrs={'class': 'infobox vcard'}):
        print(t.find(text='Born').findNext('td').findNext('div', attrs={'class': 'nickname'}).text)

Chester Alan Arthur
George Herbert Walker Bush
George Walker Bush
John Calvin Coolidge Jr.
David Dwight Eisenhower
Leslie Lynch King Jr.
James Abram Garfield
Hiram Ulysses Grant
Warren Gamaliel Harding


AttributeError: 'NoneType' object has no attribute 'text'

___
### 3.5 Código
___

<div>    
    <p>
        Antes do código importa, ainda, referir que houve a necessidade de se efetuar algum tratamento do texto recolhido:
    </p>
    <ul>
        <li><strong>died:</strong> percorreu-se a string até localizar o caracter '(' e recolheu-se os 10 caracteres seguintes que correponde à data isolada (YYYY-MM-DD)</li>
        <li><strong>age:</strong> neste caso houve necessidade de capturar os caracteres (aged AA). Neste processo o ' '(espaço) foi substituido pelos caracteres '\xa0' pelo que houve necessidade de seguida substituir por um ' ' (espaço).</li>
        <li><strong>party:</strong> aqui substituiu-se os caracteres '\n' (parágrafo) por um ' ' (espaço).</li>
    </ul>  
    <p>
       Vamos verificar como se viria a informação sem tal tratamento. Para experiência vamos listar apenas os ultímos registos.
    </p>
</div>    

In [18]:
for p in paginas[42:]:
    html_f = requests.request('GET', p).text
    soup_f = BeautifulSoup(html_f, 'html.parser')        
    for t in soup_f.find_all("table", attrs={'class': 'infobox vcard'}):
        print('-----'+ p)
        print('died: {}'.format(t.find(text='Died').findNext('span').text))
        print('age: {}'.format(t.find(text='Died').findNext('td').text))
        print('party: {}'.format(t.find(text='Political party').findNext('td').text))

-----https://wikipedia.com/wiki/John_Adams
died: (1826-07-04)
age: July 4, 1826(1826-07-04) (aged 90)Quincy, Massachusetts, U.S.
party: 
Pro-Administration (before 1795)
Federalist (1795 – c. 1808)
Democratic-Republican (c. 1808 – 1826)[4]

-----https://wikipedia.com/wiki/Andrew_Johnson
died: (1875-07-31)
age: July 31, 1875(1875-07-31) (aged 66)Elizabethton, Tennessee, U.S.
party: Democratic (c. 1839–1864, 1868–1875)
-----https://wikipedia.com/wiki/George_Washington
died: (1799-12-14)
age: December 14, 1799(1799-12-14) (aged 67)Mount Vernon, Virginia,  U.S.
party: Independent


<div>
    <p><br>
       Vamos ver o resultado após o tratamento.
    </p>
</div>   

In [19]:
for p in paginas[42:]:
    html_f = requests.request('GET', p).text
    soup_f = BeautifulSoup(html_f, 'html.parser')        
    for t in soup_f.find_all("table", attrs={'class': 'infobox vcard'}):
        print('-----'+ p)
        print('died: {}'.format(t.find(text='Died').findNext('span').text
                                [t.find(text='Died').findNext('span').text.find('(')+1:
                                 t.find(text='Died').findNext('span').text.find('(')+11]))
        print('age: {}'.format(t.find(text='Died').findNext('td').text.
                               split('(')[2].split(')')[0].replace(u'\xa0', u' ')))
        print('party: {}'.format(t.find(text='Political party').findNext('td').text.
                                 replace('\n', ' ')))

-----https://wikipedia.com/wiki/John_Adams
died: 1826-07-04
age: aged 90
party:  Pro-Administration (before 1795) Federalist (1795 – c. 1808) Democratic-Republican (c. 1808 – 1826)[4] 
-----https://wikipedia.com/wiki/Andrew_Johnson
died: 1875-07-31
age: aged 66
party: Democratic (c. 1839–1864, 1868–1875)
-----https://wikipedia.com/wiki/George_Washington
died: 1799-12-14
age: aged 67
party: Independent


<div>
    <p><br>
       Por ora, ficamo-nos por aqui com o tratamento.
    </p>
    <p>
       Vamos ao código.
    </p>
</div>   

In [20]:
l = []
for p in paginas:
    dic_pres ={}
    html_f = requests.request('GET', p).text
    soup_f = BeautifulSoup(html_f, 'html.parser')
    for t in soup_f.find_all("table", attrs={'class': 'infobox vcard'}):
#-------------------------------------------------------------------------PRESIDENT---------------------------------------------------------------------- 
        try:
            presid = t.findNext('div', attrs={'class': 'fn'}).text
        except:
            presid = None
            AttributeError        
#-------------------------------------------------------------------------NICKNAME---------------------------------------------------------------------- 
        try:
            nickname = (t.find(text='Born').findNext('td').
                        findNext('div', attrs={'class': 'nickname'}).text)
        except:
            nickname = None
            AttributeError
#--------------------------------------------------------------------------BDAY-------------------------------------------------------------------------
        birthday = (t.find(text='Born').findNext('td').
                    findNext('span', attrs={'class': 'bday'}).text)
#-------------------------------------------------------------------------BPLACE------------------------------------------------------------------------   
        birthday_place = (t.find(text='Born').findNext('td').
                          findNext('a').text)
#--------------------------------------------------------------------------DIED-------------------------------------------------------------------------
        try:
            died = (t.find(text='Died').findNext('span').text
                    [t.find(text='Died').findNext('span').text.find('(')+1:
                     t.find(text='Died').findNext('span').text.find('(')+11])
        except:
            died = None
            AttributeError
#--------------------------------------------------------------------------AGED-------------------------------------------------------------------------    
        try:
            age = (t.find(text='Died').findNext('td').text.
                   split('(')[2].split(')')[0].replace(u'\xa0', u' '))
        except:
            age = None
            AttributeError            
#--------------------------------------------------------------------------DPLACE-------------------------------------------------------------------------    
        try:
            place = t.find(text='Died').findNext('span').findNext('a').text
        except:
            place = None
            AttributeError
#--------------------------------------------------------------------------PPARTY-------------------------------------------------------------------------    
        try:
            party = t.find(text='Political party').findNext('td').text.replace('\n', ' ')
        except:
            party = None
            AttributeError
#------------------------------------------------------------------- CREATES A DICTIONARY ----------------------------------------------------------------
        dic_pres[p] = {'presid':presid,
                 'pagina':p,
                 'born': {'nick': nickname, 'bday':birthday, 'bplace': birthday_place},
                 'died': {'diedd': died, 'aged': age, 'placed':place},
                 'pparty':party}
        
        l.append(dic_pres[p])
        dic_presidentes = {'presidentes': l}        

___
### 3.6.Visualização do resultado
___

<div>
    <p><br>
       Vejamos o resultado! A título de exemplo vamos escolher os 3 primeiros presidentes.
    </p>
</div>   

In [21]:
dic_presidentes['presidentes'][:2]

[{'presid': 'Chester A. Arthur',
  'pagina': 'https://wikipedia.com/wiki/Chester_A._Arthur',
  'born': {'nick': 'Chester Alan Arthur',
   'bday': '1829-10-05',
   'bplace': 'Fairfield, Vermont'},
  'died': {'diedd': '1886-11-18',
   'aged': 'aged 57',
   'placed': 'New York City, New York'},
  'pparty': 'Republican (1854–1886)'},
 {'presid': 'George H. W. Bush',
  'pagina': 'https://wikipedia.com/wiki/George_H._W._Bush',
  'born': {'nick': 'George Herbert Walker Bush',
   'bday': '1924-06-12',
   'bplace': 'Milton, Massachusetts'},
  'died': {'diedd': '2018-11-30',
   'aged': 'aged 94',
   'placed': 'Houston, Texas'},
  'pparty': 'Republican'}]

<div>
    <p><br>
       Parece que o resultado devolve os dados pretendidos, bem como na estrutura definida lá atrás.
    </p>
</div>   

<div class="alert alert-success">
        Neste capítulo escolhemos os dados a recolher e vimos como os obter. Houve necessidade de efetuar algum tratamento. E concluimos com a criação de um dicionário para guardar os dados recolhidos e posteriormente confirmámos que o dicionário segue a estrutura perconizada à priori.
</div>

<div class="alert alert-info">
        4. VALIDAÇÃO DE DADOS
</div>

___
### 4.1 Criação de DataFrame
___

<div>
    <p>
       Para uma visualização mais amigável, vamos converter o dicionário em DataFrame.
    </p>
</div>   

In [22]:
df = pd.DataFrame(dic_presidentes.values())
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,35,36,37,38,39,40,41,42,43,44
0,"{'presid': 'Chester A. Arthur', 'pagina': 'htt...","{'presid': 'George H. W. Bush', 'pagina': 'htt...","{'presid': 'George W. Bush', 'pagina': 'https:...","{'presid': 'Calvin Coolidge', 'pagina': 'https...","{'presid': 'Dwight D. Eisenhower', 'pagina': '...","{'presid': 'Gerald Ford', 'pagina': 'https://w...","{'presid': 'James A. Garfield', 'pagina': 'htt...","{'presid': 'Ulysses S. Grant', 'pagina': 'http...","{'presid': 'Warren G. Harding', 'pagina': 'htt...","{'presid': 'Benjamin Harrison', 'pagina': 'htt...",...,"{'presid': 'Thomas Jefferson', 'pagina': 'http...","{'presid': 'James Madison', 'pagina': 'https:/...","{'presid': 'James Monroe', 'pagina': 'https://...","{'presid': 'Millard Fillmore', 'pagina': 'http...","{'presid': 'William Henry Harrison', 'pagina':...","{'presid': 'Zachary Taylor', 'pagina': 'https:...","{'presid': 'John Tyler', 'pagina': 'https://wi...","{'presid': 'John Adams', 'pagina': 'https://wi...","{'presid': 'Andrew Johnson', 'pagina': 'https:...","{'presid': 'George Washington', 'pagina': 'htt..."


<div>
    <p><br>
       Vamos transpor o Dataframe para temos um presidente por linha.
    </p>
</div>   

In [23]:
df =df.T.rename(columns = {0: 'presidente'})
df.head()

Unnamed: 0,presidente
0,"{'presid': 'Chester A. Arthur', 'pagina': 'htt..."
1,"{'presid': 'George H. W. Bush', 'pagina': 'htt..."
2,"{'presid': 'George W. Bush', 'pagina': 'https:..."
3,"{'presid': 'Calvin Coolidge', 'pagina': 'https..."
4,"{'presid': 'Dwight D. Eisenhower', 'pagina': '..."


___
### 4.2 Expansão de dicionários
___

<div>
    <p><br>
       Como se verificou anteriormente, cada linha tem um dicionário para cada presidente, pelo que será necessário expandir os dicionários em colunas, como se verá a seguir.
    </p>
</div>   

In [24]:
df = pd.DataFrame(df.presidente.values.tolist())
df.head()

Unnamed: 0,presid,pagina,born,died,pparty
0,Chester A. Arthur,https://wikipedia.com/wiki/Chester_A._Arthur,"{'nick': 'Chester Alan Arthur', 'bday': '1829-...","{'diedd': '1886-11-18', 'aged': 'aged 57', 'pl...",Republican (1854–1886)
1,George H. W. Bush,https://wikipedia.com/wiki/George_H._W._Bush,"{'nick': 'George Herbert Walker Bush', 'bday':...","{'diedd': '2018-11-30', 'aged': 'aged 94', 'pl...",Republican
2,George W. Bush,https://wikipedia.com/wiki/George_W._Bush,"{'nick': 'George Walker Bush', 'bday': '1946-0...","{'diedd': None, 'aged': None, 'placed': None}",Republican
3,Calvin Coolidge,https://wikipedia.com/wiki/Calvin_Coolidge,"{'nick': 'John Calvin Coolidge Jr.', 'bday': '...","{'diedd': '1933-01-05', 'aged': 'aged 60', 'pl...",Republican
4,Dwight D. Eisenhower,https://wikipedia.com/wiki/Dwight_D._Eisenhower,"{'nick': 'David Dwight Eisenhower', 'bday': '1...","{'diedd': '1969-03-28', 'aged': 'aged 78', 'pl...",Republican (1952–1969)


<div>
    <p><br>
       Ok! Expandimos as colunas 'presid', 'pagina' e 'pparty'. Falta-nos expandir as colunas que ainda contém dicionários, a saber: 'born' e 'died'. Façamos de seguida.
    </p>
</div>  

In [25]:
df = df.join(pd.DataFrame(df.born.values.tolist())).drop(columns ='born')
df = df.join(pd.DataFrame(df.died.values.tolist())).drop(columns ='died')
df.head()

Unnamed: 0,presid,pagina,pparty,nick,bday,bplace,diedd,aged,placed
0,Chester A. Arthur,https://wikipedia.com/wiki/Chester_A._Arthur,Republican (1854–1886),Chester Alan Arthur,1829-10-05,"Fairfield, Vermont",1886-11-18,aged 57,"New York City, New York"
1,George H. W. Bush,https://wikipedia.com/wiki/George_H._W._Bush,Republican,George Herbert Walker Bush,1924-06-12,"Milton, Massachusetts",2018-11-30,aged 94,"Houston, Texas"
2,George W. Bush,https://wikipedia.com/wiki/George_W._Bush,Republican,George Walker Bush,1946-07-06,"New Haven, Connecticut",,,
3,Calvin Coolidge,https://wikipedia.com/wiki/Calvin_Coolidge,Republican,John Calvin Coolidge Jr.,1872-07-04,"Plymouth Notch, Vermont",1933-01-05,aged 60,"Northampton, Massachusetts"
4,Dwight D. Eisenhower,https://wikipedia.com/wiki/Dwight_D._Eisenhower,Republican (1952–1969),David Dwight Eisenhower,1890-10-14,"Denison, Texas",1969-03-28,aged 78,"Washington, D.C."


<div>
    <p><br>
       Para melhor organização dos dados, vamos reordenar as colunas.
    </p>
</div>  

In [26]:
cols = ['presid', 'pagina', 'nick', 'bday', 'bplace', 'diedd', 'aged', 'placed', 'pparty']
df = df[cols]
df.head()

Unnamed: 0,presid,pagina,nick,bday,bplace,diedd,aged,placed,pparty
0,Chester A. Arthur,https://wikipedia.com/wiki/Chester_A._Arthur,Chester Alan Arthur,1829-10-05,"Fairfield, Vermont",1886-11-18,aged 57,"New York City, New York",Republican (1854–1886)
1,George H. W. Bush,https://wikipedia.com/wiki/George_H._W._Bush,George Herbert Walker Bush,1924-06-12,"Milton, Massachusetts",2018-11-30,aged 94,"Houston, Texas",Republican
2,George W. Bush,https://wikipedia.com/wiki/George_W._Bush,George Walker Bush,1946-07-06,"New Haven, Connecticut",,,,Republican
3,Calvin Coolidge,https://wikipedia.com/wiki/Calvin_Coolidge,John Calvin Coolidge Jr.,1872-07-04,"Plymouth Notch, Vermont",1933-01-05,aged 60,"Northampton, Massachusetts",Republican
4,Dwight D. Eisenhower,https://wikipedia.com/wiki/Dwight_D._Eisenhower,David Dwight Eisenhower,1890-10-14,"Denison, Texas",1969-03-28,aged 78,"Washington, D.C.",Republican (1952–1969)


___
### 4.3 Validação
___

<div>
    <p><br>
       Da consulta efetuada às  páginas dos respetivos presidentes, não se constatou incoerências na recolha. A título de exemplo vejamos os seguintes 3 presidentes:
    </p>
    <ul>
        <li><a href="https://wikipedia.com/wiki/William_Howard_Taft">William Howard Taft</a></li>
        <li><a href="https://wikipedia.com/wiki/Donald_Trump">Donald Trump</a></li>
        <li><a href="https://wikipedia.com/wiki/Joe_Biden">Joe Biden</a></li>
    </ul>    
</div>  

In [27]:
df[17:20]

Unnamed: 0,presid,pagina,nick,bday,bplace,diedd,aged,placed,pparty
17,William Howard Taft,https://wikipedia.com/wiki/William_Howard_Taft,,1857-09-15,Cincinnati,1930-03-08,aged 72,"Washington, D.C.",Republican
18,Donald Trump,https://wikipedia.com/wiki/Donald_Trump,Donald John Trump,1946-06-14,Queens,,,,"Republican (1987–1999, 2009–2011, 2012–present)"
19,Joe Biden,https://wikipedia.com/wiki/Joe_Biden,Joseph Robinette Biden Jr.,1942-11-20,"Scranton, Pennsylvania",,,,Democratic (1969–present)


<div>
    <p><br>
       Conforme se pode verificar enquanto que no primeiro a unica informação em falta é o 'nickname', nos 2 últimos não existe informação sobre 'died'. Consultadas as respetivas páginas, não se vislumbram incoerências entre a informação recolhida e a constante das respetivas páginas.
    </p>
</div>  

<div class="alert alert-success">
        Aqui nesta secção criámos um dataframe para melhor visualização dos dados, que após pesquisa nas respetivas páginas, não se detetaram incoerências entre o recolhido e o constante nas respetivas páginas.
</div>

<div class="alert alert-info">
        5. FICHEIRO JSON
</div>

___
### 5.1 Produção do ficheiro
___

<div>
    <p><br>
       Vamos criar o ficheiro JASON 'data.txt' e guardar na 'cwd'.
    </p>
</div>  

In [None]:
with open('data.txt', 'w') as outfile:
    json.dump(dic_presidentes, outfile)
with open('data.json', 'w') as outfile:
    json.dump(dic_presidentes, outfile)

___
### 5.2 Visualização
___

<div>
    <p><br>
       Como se pode constatar, procurando da cwd, verifica-se que foram criados os ficheiros JSON, como pretendido.
    </p>
    <p>
       Vamos agora aproveitar para ler o ficheiro JSON criado.
    </p>
</div>  

In [28]:
with open('data.txt', 'r') as json_file:
    dados = json.load(json_file)

<div>
    <p><br>
       Vejamos quantos presidentes tem o ficheiro JSON e testar a informação do 1.º presidente.
    </p>
</div>

In [29]:
print('Nr presidentes: {}'.format(str(len(dados['presidentes']))))
dados['presidentes'][0]

Nr presidentes: 45


{'presid': 'Chester A. Arthur',
 'pagina': 'https://wikipedia.com/wiki/Chester_A._Arthur',
 'born': {'nick': 'Chester Alan Arthur',
  'bday': '1829-10-05',
  'bplace': 'Fairfield, Vermont'},
 'died': {'diedd': '1886-11-18',
  'aged': 'aged 57',
  'placed': 'New York City, New York'},
 'pparty': 'Republican (1854–1886)'}

<div class="alert alert-success">
    <p>
    Parece estar ok.
    </p>
</div>

<div class="alert alert-success">
    <p>
        Como vimos, após análise inversa, parece que o ficheiro foi bem produzido, e consegue-se ler com o médodo <code>json.load()</code>.
    </p>
</div>