# Pandas I - Semana 6 - Programação para Ciência de Dados
**Plantão 2:** [Jadson Oliveira](https://www.linkedin.com/in/jadsonjjmo/)  
Quarta-feira (02/03/2022)

## O que é o **Pandas**?
É uma biblioteca, desenvolvida em python, de código aberto e amplamente utilizada para análise e manipulação de dados.

### Benefícios e facilidades da biblioteca


*   Possui inúmeras funcionalidades e métodos implementados sob as libs [numpy](https://numpy.org/) e [matplotlib](https://matplotlib.org/);
*   Comunidade muito ativa (Stack Overflow sempre ajuda os necessitados 😀);
*   Documentação muito bem escrita e cheia de exemplos;
*   Funciona muito bem em conjunto com outras libs muito utilizadas (Sklearn, numpy, matplotlib, seaborn, etc).


### Três tipos de estruturas implementadas pelo pandas:
- Series (Séries)
- DataFrame
- Panel (estrutura descontinuada, portanto não serão abordados neste curso)


### Links úteis
*   10 minutes to Pandas - https://pandas.pydata.org/docs/user_guide/10min.html#min
*   Essencial basic functionality - https://pandas.pydata.org/docs/user_guide/basics.html
*   Intro to data structures - https://pandas.pydata.org/docs/user_guide/dsintro.html
* Pandas Python: vantagens e como começar - [https://harve.com.br/blog/programacao-python-blog](https://harve.com.br/blog/programacao-python-blog/pandas-python-vantagens-e-como-comecar/)
* Como usar loc e iloc - https://medium.com/horadecodar/data-science-tips-02-como-usar-loc-e-iloc-no-pandas-fab58e214d87

# Aprendendo na Prática!

## Desafio
### Analisar o conjunto de dados **World Hapiness Report**, que contém dados de uma pesquisa histórica utilizada para avaliar o estado de felicidade global. As análises serão feitas para responder algumas perguntas através de comandos básicos do Pandas.

![Imagem de bolas amarelas com emoji de felicidade](https://img.dtnext.in/Articles/2021/Aug/202108110923357937_Support-your-happiness-with-positive-psychology_SECVPF.gif)

Imagem extraída do site [https://img.dtnext.in](https://img.dtnext.in/Articles/2021/Aug/202108110923357937_Support-your-happiness-with-positive-psychology_SECVPF.gif)

### Sobre o conjunto de dados

- Utilizaremos a última versão do estudo realizado, ano 2021;
- O relatório completo e todos os dados podem ser encontrados [neste link](https://worldhappiness.report/);

#### Tabela com informações sobre as colunas do conjunto de dados

| Nome da Coluna | Significado | Referência |
|--- |--- |--- |
| nome_pais | Nome do país | - |
| ano | Ano de referência em que os índices foram calculados | - |
| pontuacao | Pontuação referente ao grau de felicidade do país | quanto maior melhor |
| pib | PIB per-capita médio no ano de referência | quanto maior melhor |
| assistencia_social | Grau de suporte social oferecido pelo país | quanto maior melhor |
| expectativa_vida | Expectativa de vida média dos habitantes do país no atual ano referência | quanto maior melhor |
| grau_liberdade | Grau médio de liberdade de escolhas do país | quanto maior melhor |
| grau_generosidade | Grau médio de generosidade | quanto maior melhor |
| grau_corrupcao | Grau médio de corrupção no ano correspondente | quanto menor melhor |


### Importando as bibliotecas necessárias

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np

### **Exercício 01**: Utilizando a biblioteca Pandas, leia o conjunto de dados disponibilizado neste plantão (chamado "dataset.csv") e salve em uma variável chamada *df_happiness*.

In [None]:
df_happiness = pd.read_csv('dataset.csv')

### **Exercício 02**: Imprima a quantidade de linhas e colunas de *df_happiness*. 

In [None]:
df_happiness.shape

(1949, 9)

### **Exercício 03**: Imprima as primeiras 5 linhas do conjunto de dados.

In [None]:
df_happiness.head(5)

Unnamed: 0,nome_pais,ano,pontuacao,pib,assistencia_social,expectativa_vida,grau_liberdade,grau_generosidade,grau_corrupcao
0,Afghanistan,2008,3.724,7.37,0.451,50.8,0.718,0.168,0.882
1,Afghanistan,2009,4.402,7.54,0.552,51.2,0.679,0.19,0.85
2,Afghanistan,2010,4.758,7.647,0.539,51.6,0.6,0.121,0.707
3,Afghanistan,2011,3.832,7.62,0.521,51.92,0.496,0.162,0.731
4,Afghanistan,2012,3.783,7.705,0.521,52.24,0.531,0.236,0.776


### **Exercício 04**: Quais os nomes das colunas que compõem o conjunto de dados?

In [None]:
df_happiness.columns.tolist()

['nome_pais',
 'ano',
 'pontuacao',
 'pib',
 'assistencia_social',
 'expectativa_vida',
 'grau_liberdade',
 'grau_generosidade',
 'grau_corrupcao']

### **Exercício 05**: Quais são os tipos de cada uma das colunas?

In [None]:
df_happiness.dtypes

nome_pais              object
ano                     int64
pontuacao             float64
pib                   float64
assistencia_social    float64
expectativa_vida      float64
grau_liberdade        float64
grau_generosidade     float64
grau_corrupcao        float64
dtype: object

### **Exercício 06**: Quais são os anos presentes no histórico do relatório?

In [None]:
df_happiness['ano'].sort_values().unique()

array([2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015,
       2016, 2017, 2018, 2019, 2020])

### **Exercício 07**: Qual o país com maior pontuação de felicidade no ano de 2020? 

In [None]:
df_happiness[df_happiness['ano'] == 2020].sort_values(by='pontuacao', ascending=False).head(1)

Unnamed: 0,nome_pais,ano,pontuacao,pib,assistencia_social,expectativa_vida,grau_liberdade,grau_generosidade,grau_corrupcao
563,Finland,2020,7.889,10.75,0.962,72.1,0.962,-0.116,0.164


### **Exercício 08**: Qual o país com menor pontuação de felicidade no ano de 2020?

In [None]:
df_happiness[df_happiness['ano'] == 2020].sort_values(by='pontuacao', ascending=True).head(1)

Unnamed: 0,nome_pais,ano,pontuacao,pib,assistencia_social,expectativa_vida,grau_liberdade,grau_generosidade,grau_corrupcao
1948,Zimbabwe,2020,3.16,7.829,0.717,56.8,0.643,-0.009,0.789


### **Exercício 09**: Qual o país com maior pontuação de felicidade no ano de 2019?

In [None]:
df_happiness[df_happiness['ano'] == 2019].sort_values(by='pontuacao', ascending=False).head(1)

Unnamed: 0,nome_pais,ano,pontuacao,pib,assistencia_social,expectativa_vida,grau_liberdade,grau_generosidade,grau_corrupcao
562,Finland,2019,7.78,10.792,0.937,72.0,0.948,-0.052,0.195


### **Exercício 10**: Qual o país com menor pontuação de felicidade no ano 2019?

In [None]:
df_happiness[df_happiness['ano'] == 2019].sort_values(by='pontuacao', ascending=True).head(1)

Unnamed: 0,nome_pais,ano,pontuacao,pib,assistencia_social,expectativa_vida,grau_liberdade,grau_generosidade,grau_corrupcao
11,Afghanistan,2019,2.375,7.697,0.42,52.4,0.394,-0.108,0.924


### **Exercício 11**: Quais os países com maior pontuação de felicidade de 2005 até 2020?

In [None]:
list_happiness_gt = []
list_year = df_happiness['ano'].unique().tolist()

# iterando sob todos os anos, buscando o país com maior score de felicidade para o ano correspondente
for year in list_year:
  best_country = df_happiness[df_happiness['ano'] == year].sort_values(by='pontuacao', ascending=False).head(1).index[0]
  list_happiness_gt.append(best_country)

# capturando o conjunto de países pelo índice deles
df_happiness.iloc[list_happiness_gt]

Unnamed: 0,nome_pais,ano,pontuacao,pib,assistencia_social,expectativa_vida,grau_liberdade,grau_generosidade,grau_corrupcao
451,Denmark,2008,7.971,10.88,0.954,70.08,0.97,0.272,0.248
452,Denmark,2009,7.683,10.824,0.939,70.24,0.949,0.264,0.206
453,Denmark,2010,7.771,10.839,0.975,70.4,0.944,0.242,0.175
454,Denmark,2011,7.788,10.848,0.962,70.62,0.935,0.298,0.22
1654,Switzerland,2012,7.776,11.079,0.947,72.78,0.945,0.139,0.323
300,Canada,2013,7.594,10.757,0.936,72.68,0.916,0.316,0.406
457,Denmark,2014,7.508,10.862,0.956,71.28,0.942,0.118,0.237
1304,Norway,2015,7.603,11.033,0.947,72.9,0.948,0.257,0.299
559,Finland,2016,7.66,10.74,0.954,71.7,0.948,-0.027,0.25
560,Finland,2017,7.788,10.768,0.964,71.8,0.962,-0.002,0.192


### **Exercício 12**: Quais os países com menor pontuação de felicidade de 2005 até 2020?

In [None]:
list_happiness_gt = []
list_year = df_happiness['ano'].unique().tolist()

# iterando sob todos os anos, buscando o país com maior score de felicidade para o ano correspondente
for year in list_year:
  best_country = df_happiness[df_happiness['ano'] == year].sort_values(by='pontuacao', ascending=True).head(1).index[0]
  list_happiness_gt.append(best_country)

# capturando o conjunto de países pelo índice deles
df_happiness.iloc[list_happiness_gt]

Unnamed: 0,nome_pais,ano,pontuacao,pib,assistencia_social,expectativa_vida,grau_liberdade,grau_generosidade,grau_corrupcao
1728,Togo,2008,2.808,7.052,0.291,50.18,0.287,-0.055,0.932
1700,Tanzania,2009,3.408,7.572,0.837,51.4,0.607,0.308,0.903
1701,Tanzania,2010,3.229,7.604,0.813,52.3,0.597,0.139,0.866
1729,Togo,2011,2.936,7.146,0.303,51.58,0.584,-0.07,0.832
1666,Syria,2012,3.164,8.563,0.588,60.54,0.467,0.316,0.673
1667,Syria,2013,2.688,8.396,0.585,58.76,0.455,0.225,0.663
1730,Togo,2014,2.839,7.247,0.444,53.02,0.663,-0.085,0.795
990,Liberia,2015,2.702,7.365,0.638,53.7,0.671,-0.061,0.903
311,Central African Republic,2016,2.693,6.785,0.29,44.9,0.624,0.033,0.859
9,Afghanistan,2017,2.662,7.697,0.491,52.8,0.427,-0.121,0.954


### **Exercício 13**: Quais os 10 países com maior grau de corrupção em 2020?

In [None]:
df_happiness[df_happiness['ano'] == 2020].sort_values(by='grau_corrupcao', ascending=False).head(10)

Unnamed: 0,nome_pais,ano,pontuacao,pib,assistencia_social,expectativa_vida,grau_liberdade,grau_generosidade,grau_corrupcao
422,Croatia,2020,6.508,10.166,0.923,71.4,0.837,-0.063,0.961
1807,Ukraine,2020,5.27,9.428,0.885,65.2,0.784,0.126,0.946
1137,Moldova,2020,5.812,9.462,0.874,66.4,0.859,-0.058,0.941
944,Kyrgyzstan,2020,6.25,8.503,0.902,64.7,0.935,0.103,0.931
1726,Thailand,2020,5.885,9.769,0.867,67.6,0.84,0.273,0.918
205,Bosnia and Herzegovina,2020,5.516,9.583,0.899,68.4,0.74,0.138,0.916
1279,Nigeria,2020,5.503,8.484,0.739,50.5,0.713,0.099,0.913
1580,South Africa,2020,4.947,9.332,0.891,57.3,0.757,-0.015,0.912
918,Kosovo,2020,6.294,,0.792,,0.88,,0.91
1545,Slovakia,2020,6.519,10.332,0.954,69.5,0.762,-0.075,0.901


### **Exercício 14**: Qual o grau de corrupção do Brasil em 2020?

In [None]:
df_happiness[((df_happiness['ano'] == 2020) & (df_happiness['nome_pais'] == 'Brazil'))]

Unnamed: 0,nome_pais,ano,pontuacao,pib,assistencia_social,expectativa_vida,grau_liberdade,grau_generosidade,grau_corrupcao
232,Brazil,2020,6.11,9.522,0.831,66.8,0.786,-0.053,0.729


### **Exercício 15**: Em qual posição o Brasil fica, levando em consideração o grau de corrupção?

In [None]:
df_temp = df_happiness[df_happiness['ano'] == 2020].sort_values(by='grau_corrupcao', ascending=False).reset_index()
df_temp[df_temp['nome_pais'] == 'Brazil']

Unnamed: 0,index,nome_pais,ano,pontuacao,pib,assistencia_social,expectativa_vida,grau_liberdade,grau_generosidade,grau_corrupcao
55,232,Brazil,2020,6.11,9.522,0.831,66.8,0.786,-0.053,0.729


### **Exercício 16**: Em qual posição o Brasil fica, levando em consideração o grau de felicidade?

In [None]:
df_temp = df_happiness[df_happiness['ano'] == 2020].sort_values(by='pontuacao', ascending=False).reset_index()
df_temp[df_temp['nome_pais'] == 'Brazil']

Unnamed: 0,index,nome_pais,ano,pontuacao,pib,assistencia_social,expectativa_vida,grau_liberdade,grau_generosidade,grau_corrupcao
40,232,Brazil,2020,6.11,9.522,0.831,66.8,0.786,-0.053,0.729
