___
# Exercício: Exploratória para Manipular um DataFrame
___

## Aula 01

<div id="indice"></div>

## Índice

- [Gapminder](#gap)
- [Exercício 1](#ex1) **- APS1 disponível no Blackboard**
- [Exercício 2](#ex2) **- APS1 disponível no Blackboard**
- [Resumo dos comandos](#resumo-comandos)

___
**IMPORTANTE**: os exercícios marcados com &#x2605;&#x2605;&#x2605; são mais difíceis e vão exigir que você aprenda novas funções do pandas. Recomendamos que vocês tentem fazer esses exercícios mesmo depois da aula.


<div id="gap"></div>

___

## Gapminder

Gapminder é uma fundação sueca independente, sem afiliações políticas, religiosas ou econômicas.
Possui diversas estatísticas socioeconômicas de quase todos países do mundo que podem ser facilmente obtidas por este [link](https://www.gapminder.org/data/).

Para visualizar relações entre alguns indicadores dos países, veja [aqui](https://www.gapminder.org/tools/)


O arquivo `Gapminder.xlsx` contém um *dataset* extraída do software R (mais detalhes [aqui](https://rdrr.io/cran/dslabs/man/gapminder.html)).

Essa base de dados precisa de algumas manipulações antes de iniciar a análise exploratória, entretanto, a mesma irá depender do problema traçado. Nesse *dataframe*, os indicadores estão mensurados para 185 países os quais se repetem entre os anos de 1960 e 2016.


In [40]:
# Importando as bibliotecas necessárias para esta atividade
import pandas as pd
import os

In [41]:
print(f'Esperamos trabalhar no diretório: \n{os.getcwd()}\n')

Esperamos trabalhar no diretório: 
/Users/marianaalbuquerque/INSPER/Ciencia dos Dados/CD22-1/aula01



In [42]:
filename = 'Gapminder.xlsx'

if filename in os.listdir():
    print(f'Parece que o arquivo {filename} está na mesma pasta do notebook, yay!')
    
else:
    print(f'Não encontrei o arquivo {filename}')

Parece que o arquivo Gapminder.xlsx está na mesma pasta do notebook, yay!


In [43]:
gap = pd.read_excel('Gapminder.xlsx')

In [44]:
gap

Unnamed: 0,country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region
0,Albania,1960,115.40,62.87,6.19,1636054.0,,Europe,Southern Europe
1,Algeria,1960,148.20,47.50,7.65,11124892.0,1.382815e+10,Africa,Northern Africa
2,Angola,1960,208.00,35.98,7.32,5270844.0,,Africa,Middle Africa
3,Antigua and Barbuda,1960,,62.97,4.43,54681.0,,Americas,Caribbean
4,Argentina,1960,59.87,65.39,3.11,20619075.0,1.083223e+11,Americas,South America
...,...,...,...,...,...,...,...,...,...
10540,West Bank and Gaza,2016,,74.70,,,,Asia,Western Asia
10541,Vietnam,2016,,75.60,,,,Asia,South-Eastern Asia
10542,Yemen,2016,,64.92,,,,Asia,Western Asia
10543,Zambia,2016,,57.10,,,,Africa,Eastern Africa


Aqui, `gap` é uma variável do tipo `DataFrame`. Cada uma das colunas significa:

- **country**: nome do país;
- **year**: ano;
- **infant_mortality**: mortalidade infantil a cada 1000 nascidos;
- **life_expectancy**: expectativa de vida;
- **fertility**: número médio de filhos por mulher;
- **population**: população do país;
- **gpd**: PIB de acordo com World Bankdev;
- **continent**: continente;
- **region**: região geográfica.



In [45]:
gap.head()

Unnamed: 0,country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region
0,Albania,1960,115.4,62.87,6.19,1636054.0,,Europe,Southern Europe
1,Algeria,1960,148.2,47.5,7.65,11124892.0,13828150000.0,Africa,Northern Africa
2,Angola,1960,208.0,35.98,7.32,5270844.0,,Africa,Middle Africa
3,Antigua and Barbuda,1960,,62.97,4.43,54681.0,,Americas,Caribbean
4,Argentina,1960,59.87,65.39,3.11,20619075.0,108322300000.0,Americas,South America


[Voltar ao Índice](#indice)

<div id="ex1"></div>

___

### EXERCÍCIO 1

Faça as seguintes manipulações:
 1. Filtre apenas as linhas do ano 2010 e selecione as variáveis: `country`, `gdp`, `population` e `continent`
 1. Guarde o subconjunto anterior em um novo `DataFrame` chamado `gap2010` e, nele, crie a variável `gdp_cap` que contenha o PIB per capita.
 1. Encontre o país com menor PIB per capita em 2010. 
 1. **Preencha o valor do PIB per capita desse país no campo de resposta do questionário do Blackboard (APS1).**

**Dica**: use `gap.dtypes` para saber o tipo de cada variável. Ainda, consulte [aqui](https://cmdlinetips.com/2019/01/3-ways-to-add-new-columns-to-pandas-dataframe/) para entender como criar novas colunas em um *dataframe*.

In [46]:
# Coloque seu código aqui...
data = gap['year'] == 2010
gap2010 = gap.loc[data, ['country', 'gdp', 'population', 'continent']]
gap2010.head()


Unnamed: 0,country,gdp,population,continent
9250,Albania,6137564000.0,2901883.0,Europe
9251,Algeria,79164340000.0,36036159.0,Africa
9252,Angola,26125660000.0,21219954.0,Africa
9253,Antigua and Barbuda,836686800.0,87233.0,Americas
9254,Argentina,434405500000.0,41222875.0,Americas


In [47]:
gdp_cap = gap2010['gdp']/gap2010['population']
gap2010['renda per capita']= gdp_cap
gap2010.head()


Unnamed: 0,country,gdp,population,continent,renda per capita
9250,Albania,6137564000.0,2901883.0,Europe,2115.028051
9251,Algeria,79164340000.0,36036159.0,Africa,2196.802928
9252,Angola,26125660000.0,21219954.0,Africa,1231.183784
9253,Antigua and Barbuda,836686800.0,87233.0,Americas,9591.402074
9254,Argentina,434405500000.0,41222875.0,Americas,10537.972673


In [48]:
gap2010.sort_values(by = 'renda per capita', ascending= True).head()


Unnamed: 0,country,gdp,population,continent,renda per capita
9287,"Congo, Dem. Rep.",6961485000.0,65938712.0,Africa,105.575083
9276,Burundi,1158914000.0,9461117.0,Africa,122.492313
9319,Guinea-Bissau,244395500.0,1634196.0,Africa,149.550888
9302,Eritrea,771116900.0,4689664.0,Africa,164.429026
9373,Niger,2781188000.0,16291990.0,Africa,170.708926


In [59]:
data = gap['year'] == 1960
gap1960 = gap.loc[data, ['country', 'gdp', 'population', 'continent']]
gdp_cap1960 = (gap1960['gdp']/gap1960['population'])
gap1960['renda per capita']= gdp_cap1960
daily_dollar = gap1960['renda per capita']/365
gap1960['renda per capita diaria']= daily_dollar
gap1960.sort_values( by = 'renda per capita diaria').head()



Unnamed: 0,country,gdp,population,continent,renda per capita,renda per capita diaria
103,Malawi,347712100.0,3618604.0,Africa,96.09012,0.263261
34,China,70348530000.0,644450173.0,Asia,109.160537,0.29907
26,Burundi,341126800.0,2786740.0,Africa,122.41069,0.335372
25,Burkina Faso,596612200.0,4829291.0,Africa,123.540326,0.338467
95,Lesotho,112602700.0,851412.0,Africa,132.254096,0.36234


[Voltar ao Índice](#indice)

<div id="ex2"></div>

___

### EXERCÍCIO 2 &#x2605;&#x2605;&#x2605;

Faça as seguintes manipulações:
  1. Encontre os cinco maiores países (em tamanho populacional) do ano de 2015;
  1. Guarde apenas os nomes desses cinco países em uma lista;
  1. Considerando a base de dados com todos os anos, filtre as linhas que contenham apenas os cinco países dessa lista e com as colunas  `country`, `year`, `gdp` e `population`. Guarde esse subconjunto em `gap5`;
  1. No `DataFrame` `gap5`, crie a variável `dollar_day`, a qual representa uma *proxy* da renda per capita diária do país;
  1. **Preencha o valor da renda per capita diária de cada país no ano de 1960, em ordem crescente. no campo de resposta do questionário do Blackboard (APS1).**

**Dica**: Para filtrar as linhas apenas dos cinco países selecionados no item 1 deste exercício, pesquise por:
  - `isin`: retorna booleano se conteúdo da variável faz parte ou não de uma lista. Consulte sobre esse comando `isin` [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isin.html)
  

In [68]:
# Coloque seu código aqui...
data = gap['year'] == 2015
gap2015 = gap.loc[data,:]
gap2015.sort_values(by = 'population', ascending = False).head()


Unnamed: 0,country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region
10209,China,2015,9.2,76.2,1.57,1376049000.0,,Asia,Eastern Asia
10251,India,2015,37.9,67.2,2.43,1311051000.0,,Asia,Southern Asia
10350,United States,2015,5.6,79.1,1.97,321773600.0,,Americas,Northern America
10252,Indonesia,2015,22.8,71.1,2.28,257563800.0,,Asia,South-Eastern Asia
10197,Brazil,2015,14.6,74.4,1.78,207847500.0,,Americas,South America


In [71]:
paises = ['China','India','United States', 'Indonesia','Brazil']
nome = gap.isin(paises)
gap5 = gap.loc[nome['country']==True, ['country', 'year', 'gdp', 'population']]
gap5.head()




Unnamed: 0,country,year,gdp,population
22,Brazil,1960,105343400000.0,72493585.0
34,China,1960,70348530000.0,644450173.0
76,India,1960,81042650000.0,449661874.0
77,Indonesia,1960,18448920000.0,87792512.0
175,United States,1960,2479391000000.0,186176524.0


In [78]:
data = gap5['year']== 1960
dollar_day = (gap5['gdp']/gap5['population'])/365
gap5['renda per capita diaria']= dollar_day
gap5.loc[data].sort_values(by = 'renda per capita diaria', ascending = True).head()



Unnamed: 0,country,year,gdp,population,renda per capita,renda per capita diaria
34,China,1960,70348530000.0,644450173.0,0.29907,0.29907
76,India,1960,81042650000.0,449661874.0,0.493781,0.493781
77,Indonesia,1960,18448920000.0,87792512.0,0.575732,0.575732
22,Brazil,1960,105343400000.0,72493585.0,3.981207,3.981207
175,United States,1960,2479391000000.0,186176524.0,36.486084,36.486084


[Voltar ao Índice](#indice)

<div id="resumo-comandos"></div>

## Resumo dos Comandos

Aqui você encontra um resumo dos comandos apresentados neste notebook:

- [`dtypes`](#ex1): mostra o tipo de cada variável do *dataframe*.
- [`isin`](#ex2): avalia, por exemplo, se conteúdo de uma coluna do *dataframe* faz parte ou não de uma lista.


