# Projeto 01  | Ciência dos Dados | Engenharia 2B #
***Aluno:*** Cicero Tiago Carneiro Valentim
<p style="font-size:11px">As informações disponíveis neste documento estão sujeitas a <b>alterações</b> até a data de entrega definitiva. </p>

Esse projeto visa avaliar dados com base na Organisation for Economic Co-operation and Development ***(OECD)***.
Serão cruzados dados para comparar o **consumo de calorias diárias por pessoa** e **expectativa de vida** antes e depois de determinados países fazerem parte da organização. Além disso, países que ainda não fazem parte nos períodos estudados terão seus índices avaliados. Por fim, será que <b style="color:blue">é correto dizer que países que entraram na OECD são beneficiados de forma expressiva se comparados a países que não entraram?</b>

**1)** Importando as bibliotecas necessárias e definindo funções:

In [2]:
%matplotlib inline

import pandas as pd
import matplotlib.pyplot as plt
from random import randint
import numpy as np
import seaborn as sns
import os

In [3]:
def pick(lista, qtd):
    temp = []
    while len(temp) < qtd:
        temp_a = lista[randint(0,len(lista)-1)]
        if temp_a not in temp:
            temp.append(temp_a)
    return temp

**2)** Definindo o caminho das tabelas

In [4]:
tabs = os.getcwd() + "/tabs/"

<b>3)</b> Vamos tratar a lista de países e datas de entrada na Organização de forma que possamos obter um dicionário cujas chaves são strings com nomes de países e cujos valores são anos de ingresso. <br>Conjunto de paises membros da OECD e suas respectivas datas de entrada:<br><i style="font-size:12px;font-family:monospace">A lista de países pode ser acessada em: http://worldpopulationreview.com/countries/oecd-countries/</i>

In [5]:
# partindo da lista de países membros retirada do link referenciado acima, a seguinte string será fatiada, 
# filtrada e formatada em dicionário para que possa ser utilizada no tratamento dos dados.

paises = """Australia, June 7, 1971
Austria, September 29, 1961
Belgium, September 13, 1961
Canada, April 10, 1961
Chile, May 7, 2010
The Czech Republic, December 21, 1995
Denmark, May 30, 1961
Estonia, December 9, 2010
Finland, January 28, 1969
France, August 7, 1961
Germany, September 27, 1961
Greece, September 27, 1961
Hungary, May 7, 1996
Iceland, June 5, 1961
Ireland, August 17, 1961
Israel, September 7, 2010
Italy, March 29, 1962
Japan, April 28, 1974
Korea, December 12, 1996
Latvia, July 1, 2016
Lithuania, July 5, 2018
Luxembourg, December 7, 1961
Mexico, May 18, 1994
The Netherlands, November 13, 1961
New Zealand, May 29, 1973
Norway, July 4, 1961
Poland, November 22, 1996"""

paises = paises.split("\n")                 # """Norway, July 4, 1961
                                            # Poland, November 22, 1996""" --> ["Norway, July 4, 1961","Poland, November 22, 1996]

paises_oecd = {}
for i in range(len(paises)):
    paises[i] = paises[i].split(',')        #  "Poland, November 22, 1996" --> ["Poland"," November 22"," 1996"]
    paises[i][2].replace(" ","")            #  ["Poland"," November 22"," 1996"] --> ["Poland"," November 22","1996"]
    paises[i][2] = int(paises[i][2])        #  ["Poland"," November 22","1996"] --> ["Poland"," November 22", 1996]
    del paises[i][1]                        #  ["Poland"," November 22","1996"] --> ["Poland", 1996]
    paises_oecd[paises[i][0]]=[paises[i][1]]  #  ["Poland", 1996] --> {... "Poland": [1996], ...}
    

# Quantidade de países membros:
print("Quantidade de países membros: {}".format(len(paises_oecd)))

Quantidade de países membros: 27


Criando <i>dataframes</i> apenas com países membros:

In [6]:
paises_oecd = pd.DataFrame(paises_oecd).T
paises_oecd

Unnamed: 0,0
Australia,1971
Austria,1961
Belgium,1961
Canada,1961
Chile,2010
The Czech Republic,1995
Denmark,1961
Estonia,2010
Finland,1969
France,1961


Veja que é necessário renomear a coluna 0 para "years" e definir o index como "country"

In [7]:
paises_oecd = paises_oecd.rename(columns={0:"years",})
paises_oecd.index.names = ["country"]
paises_oecd.head(3)                           # formatado

Unnamed: 0_level_0,years
country,Unnamed: 1_level_1
Australia,1971
Austria,1961
Belgium,1961


<b>4)</b> Importando <i>dataframes</i> obtidos no <b><a href="gapminder.org">Gapminder</a></b>.

In [8]:
food = pd.read_excel(tabs+"food_consumption.xlsx")      # kcal/pessoa/dia
life = pd.read_excel(tabs+'life_expectancy_years.xlsx') # expectativa de vida
agroPib = pd.read_excel(tabs+'Agriculture (p of GDP).xlsx')

In [23]:
agroPib.dropna().head()
agroPib.rename( columns={"Agriculture, value added (% of GDP)":"country"})
agroPib.set_index(["country"])

KeyError: 'country'

In [24]:
dict(agroPib)

{'Agriculture, value added (% of GDP)': 0                       Abkhazia
 1                    Afghanistan
 2          Akrotiri and Dhekelia
 3                        Albania
 4                        Algeria
 5                 American Samoa
 6                        Andorra
 7                         Angola
 8                       Anguilla
 9            Antigua and Barbuda
 10                     Argentina
 11                       Armenia
 12                         Aruba
 13                     Australia
 14                       Austria
 15                    Azerbaijan
 16                       Bahamas
 17                       Bahrain
 18                    Bangladesh
 19                      Barbados
 20                       Belarus
 21                       Belgium
 22                        Belize
 23                         Benin
 24                       Bermuda
 25                        Bhutan
 26                       Bolivia
 27        Bosnia and Herzegovina
 28      