# Manipulação de Dados em Python Usando Pandas (Parte 1)<a id='home'></a>

Arquivos Necessários = Nenhum

Temos um controle sobre python agora: entendemos as estruturas de dados e o suficiente sobre como trabalhar com elas para passar para coisas mais diretamente relevantes para a análise de dados. Isso significa explorar o pacote **pandas** $\equiv$ que fornece as principais estruturas e funções de dados para o trabalho com dados.

Pandas é um pacote. Até agora vimos os pacotes numpy e scipy, mas ainda não discutimos os pacotes em detalhes. Vamos retocar os pacotes antes de entrarmos nos pandas.

## 1. Pacotes<a id="packages"></a>  [(retornar ao início)](#home)

Podemos pensar em 'python' como um conjunto principal de bibliotecas (as bibliotecas padrão do python) que contêm as estruturas de dados básicas do python (`int`, `str`, `list`, `dict`, etc.) e funções (` print()`, `len()`, `sum()`, etc). Podemos adicionar estruturas de dados e funções adicionais ao núcleo do python. Os desenvolvedores agrupam funções relacionadas e estruturas de dados em *pacotes* que adicionamos ao núcleo do python para aumentar sua funcionalidade.

A interface do Google Colaboratory agrupa o python básico com pacotes comuns e úteis, como
* numpy: funções para computação numérica (ln(), exp(), sqrt(),...)
* scipy: funções para matemática e engenharia (funções estatísticas, processamento de sinais, álgebra linear...)
* matplotlib: uma interface de plotagem (barra, dispersão, gráficos de séries temporais,...)
* pandas: funções e estruturas de dados para análise de dados (gerenciamento de dados, fusão, agrupamento...)

O Colab já *instalou* os pacotes para nós, mas, em alguns casos, ainda precisamos instalar pacotes externos. Podemos faze-lo usando o comando `!pip install` diretamente no console do Colab.

Também precisamos dizer ao python que queremos usar os pacotes. Dessa forma, apenas carregamos na memória os pacotes que precisamos.

Para adicionar um pacote, usamos a instrução `import`. Por exemplo, vimos anteriormente como carregar o pacote numpy:
``` python
import numpy as np
```
A instrução diz para adicionar o pacote numpy (importá-lo) e dar a ele um nome abreviado de 'np'. Não precisamos usar o nome np --- poderíamos chamá-lo de George --- mas np é curto e informativo, além de ser um padrão quase universal.

Por que queremos um nome mais curto que numpy? Quando usamos uma função do pacote numpy, usamos a notação de ponto. Aqui, usamos a [função log](https://docs.scipy.org/doc/numpy/reference/generated/numpy.log.html):
``` python
y = 10
x = np.log(y)
```
O `np.` diz ao python para procurar a função `log()` no pacote chamado np. Python sabe que np significa numpy e tudo funciona. \[Veja por que chamá-lo de 'George' pareceria estranho?\]

Só precisamos importar um pacote uma vez. Normalmente agrupamos todas as nossas importações no início do código. Aqui vamos nós:

In [206]:
import pandas as pd     # carrega o pacote pandas chamando-o de pd
import numpy as np      # carrega o pacote numpy chamando-o de np

Ao executar a célula, você pode notar que o texto à esquerda da célula se parecia com `In[*]` por um tempo. O asterisco * significa que o python estava funcionando. Leva alguns segundos para carregar todas essas funções. Agora execute `whos` para ver o que está no namespace:

In [207]:
whos

Variable                  Type         Data/Info
------------------------------------------------
cols_to_get               list         n=3
columns                   int          4
columns_lower             list         n=2
columns_upper             list         n=2
cons_share_mean           float        64.44023193577164
data                      DataFrame       year   gdp  cons  cons<...>5  13.0   8.7   66.923077
data_dec                  DataFrame          PRODUTO INTERNO BRU<...>            10.2      6.8
data_dec2                 DataFrame          PRODUTO INTERNO BRU<...>            10.2      6.8
data_dict                 dict         n=3
data_filtered             DataFrame       year  gdp  cons  cons_<...>95  7.6   4.9   64.473684
desc                      DataFrame                  year       <...>000  8.700000   66.923077
df                        DataFrame       year   gdp  cons\n0  1<...> 6.8\n3  2005  13.0   8.7
df2                       DataFrame    Empty DataFrame\nColumn

Vemos duas variáveis `module` prontas para ação. Como de costume, podemos usar `?` para verificá-los.

In [208]:
np?

`random` parece util. Veremos o que há nele:

In [209]:
np.random?

Vamos gerar alguns números aleatórios:

In [210]:
np.random.random_sample(3)

array([0.95763271, 0.44770222, 0.93599361])

## 2. Pandas<a id="pandas"></a> [(retornar ao início)](#home)

Pandas (*pan*el *da*ta) é o nosso pacote de trabalho para análise de dados. Além de todas as coisas que podemos fazer com o núcleo do python, o pandas nos oferece muitas funções e tipos de dados poderosos que podemos usar para trabalhar com dados. Se você estiver familiarizado com o STATA, encontrará muitos paralelos entre python e STATA. Isso faz sentido: ambos são destinados a lidar com dados de painel. Pandas foi inventado por [Wes McKinney](https://wesmckinney.com/) no fundo de hedge quantitativo AQR. Uma das razões pelas quais escolhemos python para este curso é sua prevalência no setor financeiro.

Para disponibilizar o pacote pandas, nós o `import`amos em nosso código. Já importamos acima, mas podemos fazer novamente. Não vai doer. 

In [211]:
import pandas as pd  # The most common short name for pandas is pd. We will go with that.

### Estruturas de dados em Pandas: DataFrames

O Pandas é construído em torno de duas estruturas de dados principais: a *série* e o *dataframe*. Um dataframe é uma estrutura de dados 'retangular', como uma planilha do Microsoft Excel. É formado por linhas e colunas. \[Mas é muito, muito, mais poderoso do que uma planilha.\]

Vamos criar um dataframe. Para manter as coisas simples (elas ficarão complicadas mais tarde!), vamos criar um dataframe a partir de um dict.

In [212]:
data_dict = {'year': [1990, 1995, 2000, 2005 ], 'gdp':[5.9, 7.6, 10.2, 13.0], 'cons':[3.8, 4.9, 6.8, 8.7]}
print('First, print the dict:')
print(data_dict)             # imprime o dicionário

df = pd.DataFrame(data_dict)  # cria o dataframe, chamando-o de df, a partir do dicionario
                              # use a sintaxe 'pd.' para chamar o construtor de dataframe 

print('\nNext, print the DataFrame and its type\n')
print(df)                     # Imprime o dataframe. Novamente, print() já sabe o que fazer
print('\n', type(df))

First, print the dict:
{'year': [1990, 1995, 2000, 2005], 'gdp': [5.9, 7.6, 10.2, 13.0], 'cons': [3.8, 4.9, 6.8, 8.7]}

Next, print the DataFrame and its type

   year   gdp  cons
0  1990   5.9   3.8
1  1995   7.6   4.9
2  2000  10.2   6.8
3  2005  13.0   8.7

 <class 'pandas.core.frame.DataFrame'>


Ótimo. Comparado ao dict, o dataframe é muito mais fácil de ler quando impresso. Vamos decompô-lo:
```python
df = pd.DataFrame(data_dict)
```
Estamos criando um objeto DataFrame. Podemos ver isso quando imprimimos o tipo de df. O material à esquerda do DataFrame na impressão é a hierarquia: `DataFrame` faz parte do grupo `frame` que faz parte do grupo `core` do pacote `pandas`. A hierarquia não é importante para o nosso trabalho.

Chamamos a função `DataFrame()` (observe as maiúsculas) do pacote pandas (`pd.`). A função `DataFrame()` cria dataframes de outros objetos. Se não passarmos um argumento, ele cria um DataFrame vazio.

In [213]:
df2 = pd.DataFrame()
print(df2)

Empty DataFrame
Columns: []
Index: []


Usaremos essa função algumas vezes, mas, com mais frequência, construiremos nossos DataFrames a partir de planilhas, arquivos csv ou chamadas de API (interface de programação de aplicativos) diretamente para servidores para recuperar dados. Coisas muito poderosas.

### Colunas e linhas em um DataFrame
Um DataFrame é composto de colunas e linhas. Qual o tamanho do nosso DataFrame? Usamos o atributo `shape` de um DataFrame para ver isso. \[Lembrete: *atributos* e *métodos* estão associados a objetos. Atributos retornam recursos do objeto e métodos são como funções que atuam no objeto.\]

In [214]:
print('A dimensão é:', df.shape)   # retorna o shape (lin,col) de um DataFrame

print('O tamanho é:', df.size)    # O tamanho é a quantidade de elementos, ou seja, o produto da tupla do shape

A dimensão é: (4, 3)
O tamanho é: 12


In [215]:
print(type(df.shape))

<class 'tuple'>


Que tipo o `df.shape` retorna?

De volta ao nosso DataFrame. Vamos imprimir novamente, mas desta vez, sem a função de impressão.

In [216]:
df['gdp']

0     5.9
1     7.6
2    10.2
3    13.0
Name: gdp, dtype: float64

### O Índice DataFrame
A 'coluna' de números mais à esquerda não é uma coluna. É o **índice** que os pandas atribuíram ao nosso DataFrame: semelhante à linha 'numbers' de uma planilha. Coloco números entre aspas, porque um índice pode ser mais do que apenas uma sequência de números inteiros. Neste DataFrame, faz sentido que nosso índice seja a variável ano. Um pouco mais tarde, discutiremos a alteração do índice. Por enquanto, vamos com o que os pandas nos deram.

O índice é importante; vamos trabalhar com isso posteriormente.

Quando extraímos uma única coluna de um DataFrame, recebemos uma estutura chamada **Series**. Podemos pensar em uma série como um DataFrame com apenas uma variável: é uma coluna e um índice. Da mesma forma, podemos pensar em um DataFrame como uma coleção de Series que possuem o mesmo índice.

In [217]:
print(type(df['gdp']))

<class 'pandas.core.series.Series'>


### Aprendendo mais sobre um DataFrame

Vimos os métodos `size` e `shape` do DataFrame. Vejamos mais alguns. Se quisermos ver quais variáveis temos no DataFrame (imagine que você está trabalhando com um dataset contendo 1.000 variáveis...) usamos o atributo `columns`.

In [218]:
print(df.columns)
print(type(df.columns))

Index(['year', 'gdp', 'cons'], dtype='object')
<class 'pandas.core.indexes.base.Index'>


Portanto, o atributo `column` retorna a lista de colunas de uma maneira um tanto complicada. (Ele está retornando um objeto Index que é útil em algumas situações.) Podemos usar o método `tolist()` para criar um objeto de lista. Podemos fazer algo semelhante ao índice também. O atributo `axes` nos informa sobre ambos ao mesmo tempo.

In [219]:
print(df.columns.tolist())

print(df.index.tolist())

print(df.axes)

['year', 'gdp', 'cons']
[0, 1, 2, 3]
[RangeIndex(start=0, stop=4, step=1), Index(['year', 'gdp', 'cons'], dtype='object')]


Podemos aprender sobre os tipos de dados no DataFrame com `dtypes` \[observe o 's'\].

In [220]:
df.dtypes

year      int64
gdp     float64
cons    float64
dtype: object

### <font color='orange'>Prática: DataFrames (Parte 1)</font>
Reserve alguns minutos e tente o seguinte.

Abaixo está um dict com dados sobre os estados dos EUA. 

In [221]:
state_data = {
              'state':['CA','MI','WI','MN'],
              'pop':[37,9.8,'5.7', 5.3],
              'size':[163.7, 96.7, 65.5, 86.9],
              'bird':['Quail', 'Redbreast Robin', 'American Robin', 'Loon']
              }

1. Converta o dict em um DataFrame chamado `states`

In [222]:
states = pd.DataFrame(state_data)
print(states)

  state  pop   size             bird
0    CA   37  163.7            Quail
1    MI  9.8   96.7  Redbreast Robin
2    WI  5.7   65.5   American Robin
3    MN  5.3   86.9             Loon


In [272]:
print(states.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   STATE   4 non-null      object 
 1   SIZE    4 non-null      float64
 2   BIRD    4 non-null      object 
 3   PEOPLE  4 non-null      object 
dtypes: float64(1), object(3)
memory usage: 256.0+ bytes
None


In [274]:
states['PEOPLE'].astype('float64')

0    37.0
1     9.8
2     5.7
3     5.3
Name: PEOPLE, dtype: float64

2. Quais são os dtypes das variáveis? Alguma coisa parece esquisita?

R: Sim, como na criação do dicionário ``states_data`` um dado de 'pop' foi fornecido como string (object), todos os outros dados relacionados a mesma chave foram convertidos implicitamente para object. Isto pode ser um problema pois no futuro provavelmente iríamos desejar realizar operações matemáticas com os dados de pop, mas seria impossível sem algum tipo de conversão para float64.

In [224]:
states

Unnamed: 0,state,pop,size,bird
0,CA,37.0,163.7,Quail
1,MI,9.8,96.7,Redbreast Robin
2,WI,5.7,65.5,American Robin
3,MN,5.3,86.9,Loon


In [225]:
states.dtypes

state     object
pop       object
size     float64
bird      object
dtype: object

3. Quantas linhas e colunas há neste DataFrame?

In [226]:
rows, columns = states.shape
print(f'Rows: {rows}\nColumns: {columns}')

Rows: 4
Columns: 4


4. Imprima o índice como uma lista. Existe uma variável que pode tornar um índice mais sensato?

In [227]:
states['bird'].tolist() # Transforma em lista os elementos possíveis dentro da coluna 'bird'

['Quail', 'Redbreast Robin', 'American Robin', 'Loon']

In [228]:
states.index.tolist() # Transforma em lista os elementos possíveis dos índices

[0, 1, 2, 3]

### Mais sobre colunas de dataframe
Para extrair uma coluna de um DataFrame, usamos `states['bird']`. Essa é a maneira preferida de fazer isso, pois sempre funciona. Você encontrará duas outras maneiras de extrair uma coluna.
1. O primeiro usa um `.` como: `states.bird`.
2. O segundo usa o método `iloc` `states.iloc[:,3]`.

In [229]:
print(states['bird']) # Indexação de dataframes sempre retorna um objeto Series

0              Quail
1    Redbreast Robin
2     American Robin
3               Loon
Name: bird, dtype: object


In [230]:
print(states.bird)

0              Quail
1    Redbreast Robin
2     American Robin
3               Loon
Name: bird, dtype: object


In [231]:
print(states.iloc[:2,2])   #iloc funciona como um fatiamento 2-D com iloc[rows, cols]. 

0    163.7
1     96.7
Name: size, dtype: float64


Todos os três retornaram a mesma coluna. Por que não recomendo as duas segundas abordagens?

Vamos tentar pegar a coluna de tamanho usando o segundo método.

In [232]:
print(states.size)   #retorna o tamanho da coluna

16


Bem, não era isso que eu esperava. Em uma revisão mais aprofundada, no entanto, é exatamente o que eu deveria ter esperado. `size` é um atributo do DataFrame. Vimos isso anteriormente: ele retorna o número de elementos no DataFrame. Qualquer nome de coluna que entre em conflito com um método ou atributo DataFrame causará problemas.

E o `iloc`? Suponha que eu decida reorganizar a ordem das colunas. (Veremos por que o código a seguir funciona em breve.)

In [233]:
states = states[['state', 'size', 'bird', 'pop']]
states

Unnamed: 0,state,size,bird,pop
0,CA,163.7,Quail,37.0
1,MI,96.7,Redbreast Robin,9.8
2,WI,65.5,American Robin,5.7
3,MN,86.9,Loon,5.3


In [234]:
# O que este comando retorna?
print(states.iloc[:,3])  #iloc funciona como um fatiamento 2-D com iloc[rows, cols]. -> Desde o índice 0, até o fim, coluna 3

0     37
1    9.8
2    5.7
3    5.3
Name: pop, dtype: object


Não surpreendentemente, essa maneira de referenciar uma coluna não é robusta para reordenar as colunas. Ainda podemos usar `iloc` aqui e ali, mas fazemos isso por nossa conta e risco.

### Subconjuntos de colunas

Ok, de volta às colunas de referência. Podemos pegar várias colunas passando uma lista dos nomes das colunas.

In [235]:
cols_to_get = ['state', 'bird', 'pop']
got_cols = states[cols_to_get]
got_cols
type(got_cols)

pandas.core.frame.DataFrame

Quando pegamos mais de uma coluna, estamos criando um objeto DataFrame. Uma notação mais compacta cria a lista no lugar.

In [236]:
got_cols_2 = states[['state', 'bird', 'pop']]
got_cols_2

Unnamed: 0,state,bird,pop
0,CA,Quail,37.0
1,MI,Redbreast Robin,9.8
2,WI,American Robin,5.7
3,MN,Loon,5.3


### Renomeando colunas
Muitas vezes, os conjuntos de dados vêm com nomes de variáveis ruins. Como renomeamos uma coluna?
Se estamos alterando apenas algumas variáveis, a abordagem do dicionário funciona bem.

In [237]:
def rename_columns(column_names):
  columns_renamed = []
  for column_name in column_names:
    column_renamed = '_'.join(column_name.strip().split())
    columns_renamed.append(column_renamed)
  return columns_renamed

In [238]:
rename_columns(['João Neto ', 'William Bruno      '])

['João_Neto', 'William_Bruno']

In [239]:
# pop significa mesmo população? Vamos renomear esta variável
states = states.rename(columns={'pop':'population'})
states

Unnamed: 0,state,size,bird,population
0,CA,163.7,Quail,37.0
1,MI,96.7,Redbreast Robin,9.8
2,WI,65.5,American Robin,5.7
3,MN,86.9,Loon,5.3


A única coluna que foi alterada foi a coluna `pop`. Vamos dar uma olhada mais de perto na sintaxe.
``` python
states = states.rename(columns={'pop':'population'})
```
1. Estamos chamando o método `rename()` do objeto DataFrame
2. Passamos `rename()` o argumento `columns` (passar `index` renomeia o índice)
3. Usamos um dict para fornecer os pares de valores-chave `{old name : new name}`

Observe que tivemos que atribuir o resultado de `state.rename()` de volta aos estados. O método `rename()` não atua nos dados originais, mas cria uma cópia, que atribuímos de volta à variável `states`.

Podemos pedir `rename()` para executar a ação nos dados originais com o argumento `inplace`. \[Você pode ver se um método oferece suporte a operações no local [verificando a documentação](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rename.html) ou usando ? no notebook jupyter.\]

In [240]:
#Renomeando população novamente
states.rename(columns={'population':'people'}, inplace=True)
states

Unnamed: 0,state,size,bird,people
0,CA,163.7,Quail,37.0
1,MI,96.7,Redbreast Robin,9.8
2,WI,65.5,American Robin,5.7
3,MN,86.9,Loon,5.3


Se precisarmos aplicar um método ou função a todos os nomes das colunas, podemos operar diretamente em `df.columns`.

In [241]:
# Relembrando o que df.columns retorna?
print(states.columns)

# Uppercase
states.columns = [col_name.upper() for col_name in states.columns]
states

Index(['state', 'size', 'bird', 'people'], dtype='object')


Unnamed: 0,STATE,SIZE,BIRD,PEOPLE
0,CA,163.7,Quail,37.0
1,MI,96.7,Redbreast Robin,9.8
2,WI,65.5,American Robin,5.7
3,MN,86.9,Loon,5.3


Agora podemos ver que o atributo `columns` retorna um objeto iterável. Como um intervalo ou uma lista, `states.columns` sabe distribuir os nomes das colunas quando consultado por um loop for. Excelente.

### Mais sobre Linhas de DataFrame
Como pegamos uma linha ou um subconjunto de linhas? Podemos recorrer ao `iloc` novamente...

In [242]:
print(states.iloc[2,:])      #Selecionar a terceira linha e todas as colunas

STATE                 WI
SIZE                65.5
BIRD      American Robin
PEOPLE               5.7
Name: 2, dtype: object


...mas isso ainda está sujeito a problemas com a reordenação de linhas. Também é menos provável que queiramos tomar uma linha em uma posição específica. É mais provável que queiramos uma linha correspondente a uma condicional.

In [243]:
states[states['STATE']=='MN']   # obter a linha equivalente ao Minnesota (MN)

Unnamed: 0,STATE,SIZE,BIRD,PEOPLE
3,MN,86.9,Loon,5.3


Vamos quebrar isso. Primeiro, perguntamos quais linhas têm STATE igual a MN.

In [244]:
print(states['STATE']=='MN' )
print(type(states['STATE']=='MN'))

0    False
1    False
2    False
3     True
Name: STATE, dtype: bool
<class 'pandas.core.series.Series'>


Isso está retornando uma série de bools. Quando entregamos a Série ao DataFrame, ele apenas pega as linhas que são verdadeiras.

### Alterando o índice da linha
Podemos simplificar nossas vidas e nos livrar de um índice que não nos diz nada útil sobre os dados alterando o índice. A unidade de observação em `states` é um estado. Parece um bom índice.

In [245]:
states_new_index = states.set_index('STATE')   # A coluna 'STATE' será o novo índice

print(states_new_index)
print('\n')
print(states)

        SIZE             BIRD PEOPLE
STATE                               
CA     163.7            Quail     37
MI      96.7  Redbreast Robin    9.8
WI      65.5   American Robin    5.7
MN      86.9             Loon    5.3


  STATE   SIZE             BIRD PEOPLE
0    CA  163.7            Quail     37
1    MI   96.7  Redbreast Robin    9.8
2    WI   65.5   American Robin    5.7
3    MN   86.9             Loon    5.3


In [246]:
states_new_index.index.to_list()

['CA', 'MI', 'WI', 'MN']

In [247]:
print(states_new_index.iloc[:, 2]) # podemos realizar fatiamento de células com iloc...
# print(states_new_index.iloc['WI']) # ...mas não acessar valores non-integers

STATE
CA     37
MI    9.8
WI    5.7
MN    5.3
Name: PEOPLE, dtype: object


O índice agora são as abreviações de estado e não a sequência de números inteiros. O que isso significa? Uma maneira mais simples de referenciar uma coluna usando o método `loc`. Este é **loc**, não iloc!

\[Novamente, observe que o `set_index` não operou no local. Ele criou uma cópia que eu atribuí à nova variável. `set_index` também recebe o argumento `inplace`.\]

In [248]:
print(states_new_index.loc['MN'])   # busca a linha cujo indice corresponde a MN

SIZE      86.9
BIRD      Loon
PEOPLE     5.3
Name: MN, dtype: object


Muito agradável. Suponha que você se arrependa de sua escolha de índice. Você está arruinado? Não.

In [249]:
states_undo = states_new_index.reset_index()    # reseta o índice para numeros inteiros e retorna 'STATE' como uma coluna
states_undo

Unnamed: 0,STATE,SIZE,BIRD,PEOPLE
0,CA,163.7,Quail,37.0
1,MI,96.7,Redbreast Robin,9.8
2,WI,65.5,American Robin,5.7
3,MN,86.9,Loon,5.3


### Excluindo linhas e colunas
Para remover uma linha ou coluna, usamos o método `drop()`. O método drop é nossa primeira introdução ao argumento **axis**. Os DataFrames têm dois eixos. Nós os chamamos de linhas e colunas, mas os pandas pensam neles como **linhas = 0 e colunas = 1.**

A seguir, queremos remover a coluna 'SIZE', mas também pode haver um índice de linha 'SIZE', portanto, precisamos informar ao drop onde procurar 'SIZE'. Novamente, usamos inplace se não quisermos criar uma cópia.

In [250]:
states_new_index_subset = states_new_index.drop('MI', axis=0)
states_new_index_subset

Unnamed: 0_level_0,SIZE,BIRD,PEOPLE
STATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
CA,163.7,Quail,37.0
WI,65.5,American Robin,5.7
MN,86.9,Loon,5.3


In [251]:
states_subset = states.drop('SIZE', axis = 1)
states_subset

Unnamed: 0,STATE,BIRD,PEOPLE
0,CA,Quail,37.0
1,MI,Redbreast Robin,9.8
2,WI,American Robin,5.7
3,MN,Loon,5.3


A exclusão de uma linha funciona exatamente como você esperaria...

In [252]:
states_no_mn = states.drop(3, axis = 0)
states_no_mn

Unnamed: 0,STATE,SIZE,BIRD,PEOPLE
0,CA,163.7,Quail,37.0
1,MI,96.7,Redbreast Robin,9.8
2,WI,65.5,American Robin,5.7


### <font color='orange'>Prática: DataFrames (Parte 2)</font>
Reserve alguns minutos e tente o seguinte.

1. Explique por que `states = states[['state', 'size', 'bird', 'pop']]` reordenou o DataFrame `states`.

R: O novo dataframe ``states`` possuirá as colunas ordendas de acordo com sua declaração.


2. Crie um novo DataFrame a partir do dict `data_dict` que usamos anteriormente. Dê o nome de dados.

In [253]:
data_dict = {'year': [1990, 1995, 2000, 2005 ], 'gdp':[5.9, 7.6, 10.2, 13.0], 'cons':[3.8, 4.9, 6.8, 8.7]}

gdp_data = pd.DataFrame(data_dict)
gdp_data

Unnamed: 0,year,gdp,cons
0,1990,5.9,3.8
1,1995,7.6,4.9
2,2000,10.2,6.8
3,2005,13.0,8.7


3. Altere o índice para ser a variável do ano e imprima o DataFrame

In [254]:
gdp_data.set_index('year', inplace=True) 
gdp_data

Unnamed: 0_level_0,gdp,cons
year,Unnamed: 1_level_1,Unnamed: 2_level_1
1990,5.9,3.8
1995,7.6,4.9
2000,10.2,6.8
2005,13.0,8.7


4. Altere os nomes das colunas restantes para 'Produto Interno Bruto' e 'Consumo'

In [255]:
gdp_data = gdp_data.rename(columns={'gdp': 'Produto Interno Bruto', 'cons': 'Consumo'})
gdp_data

Unnamed: 0_level_0,Produto Interno Bruto,Consumo
year,Unnamed: 1_level_1,Unnamed: 2_level_1
1990,5.9,3.8
1995,7.6,4.9
2000,10.2,6.8
2005,13.0,8.7


5. Altere os nomes das colunas para maiúsculas e minúsculas. Tente o método de string `title()`

In [256]:
# Modificando os nomes das colunas para maiúsculas
columns = gdp_data.columns
columns_lower = [column.lower() for column in columns]

gdp_data.columns = columns_lower
gdp_data

Unnamed: 0_level_0,produto interno bruto,consumo
year,Unnamed: 1_level_1,Unnamed: 2_level_1
1990,5.9,3.8
1995,7.6,4.9
2000,10.2,6.8
2005,13.0,8.7


In [257]:
# Modificando os nomes das colunas para minúsculas
columns = gdp_data.columns
columns_upper = [column.upper() for column in columns]

gdp_data.columns = columns_upper
gdp_data

Unnamed: 0_level_0,PRODUTO INTERNO BRUTO,CONSUMO
year,Unnamed: 1_level_1,Unnamed: 2_level_1
1990,5.9,3.8
1995,7.6,4.9
2000,10.2,6.8
2005,13.0,8.7


6. Extraia as linhas correspondentes a 1990 e 2000 e atribua-as a um DataFrame chamado `data_dec`. Dica: Quando queríamos levar para as colunas, passamos uma lista dos nomes das colunas...

In [258]:
data_dec = gdp_data.loc[[1990, 2000]]
data_dec

Unnamed: 0_level_0,PRODUTO INTERNO BRUTO,CONSUMO
year,Unnamed: 1_level_1,Unnamed: 2_level_1
1990,5.9,3.8
2000,10.2,6.8


7. Crie `data_dec_2` a partir de dados excluindo as linhas desnecessárias.

In [259]:
data_dec2 = gdp_data.drop([1995, 2005], axis=0)
data_dec2

Unnamed: 0_level_0,PRODUTO INTERNO BRUTO,CONSUMO
year,Unnamed: 1_level_1,Unnamed: 2_level_1
1990,5.9,3.8
2000,10.2,6.8


### Cálculos em DataFrames

Um DataFrame naturalmente entende como realizar operações elementares. Por exemplo, vamos calcular a participação do consumo no PIB.

In [260]:
data = pd.DataFrame(data_dict)    # reset

data['cons_share'] = data['cons'] / data['gdp'] # dividor consumo pelo PIB em cada linha

data

Unnamed: 0,year,gdp,cons,cons_share
0,1990,5.9,3.8,0.644068
1,1995,7.6,4.9,0.644737
2,2000,10.2,6.8,0.666667
3,2005,13.0,8.7,0.669231


Observe o lado esquerdo da atribuição. Estou criando uma nova variável (coluna) no DataFrame e atribuindo a ela o compartilhamento de consumo.

In [261]:
# Caso queira como percentual
data['cons_share'] = data['cons_share']*100
data

Unnamed: 0,year,gdp,cons,cons_share
0,1990,5.9,3.8,64.40678
1,1995,7.6,4.9,64.473684
2,2000,10.2,6.8,66.666667
3,2005,13.0,8.7,66.923077


Os operadores +,-,/,* funcionam todos os elementos. Como vimos, multiplicar e dividir por scaler também funciona bem.

### Métodos DataFrame para operações simples
DataFrame tem muitos métodos para calcular várias estatísticas sobre os dados. Observe que alguns deles recebem um argumento de eixo: você pode calcular `sum()` em uma linha ou coluna.

In [262]:
# Somas 
print('Soma através das colunas: ')
print(data.sum(axis=1))

print('\nSoma através das linhas: ')
print(data.sum(axis=0)) #

print('\nSoma do PIB')
print(data['gdp'].sum(axis=0)) # Sum a single column.

# Means
print('\nMédia de cada Coluna')
print(data.mean(axis=0)) 

print('\nMédia do PIB e Consumo')
print(data[['gdp', 'cons']].mean(axis=0))


Soma através das colunas: 
0    2064.106780
1    2071.973684
2    2083.666667
3    2093.623077
dtype: float64

Soma através das linhas: 
year          7990.000000
gdp             36.700000
cons            24.200000
cons_share     262.470207
dtype: float64

Soma do PIB
36.7

Média de cada Coluna
year          1997.500000
gdp              9.175000
cons             6.050000
cons_share      65.617552
dtype: float64

Média do PIB e Consumo
gdp     9.175
cons    6.050
dtype: float64


Verifique os métodos disponíveis ou a [documentação](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html).

Aqui estão alguns: soma, média, var, std, skew, rank, quantil, mode, min, max, kurtosis, cumsum, cumprod...

Eles serão ainda mais poderosos quando aprendermos a agrupar dados em um DataFrame e calcular estatísticas por grupo.

Um método muito útil...

In [263]:
print(data.describe())   # um bom ponto de partida para qualquer dataset
data

              year       gdp      cons  cons_share
count     4.000000   4.00000  4.000000    4.000000
mean   1997.500000   9.17500  6.050000   65.617552
std       6.454972   3.10309  2.157931    1.363750
min    1990.000000   5.90000  3.800000   64.406780
25%    1993.750000   7.17500  4.625000   64.456958
50%    1997.500000   8.90000  5.850000   65.570175
75%    2001.250000  10.90000  7.275000   66.730769
max    2005.000000  13.00000  8.700000   66.923077


Unnamed: 0,year,gdp,cons,cons_share
0,1990,5.9,3.8,64.40678
1,1995,7.6,4.9,64.473684
2,2000,10.2,6.8,66.666667
3,2005,13.0,8.7,66.923077


### <font color='orange'>Prática: DataFrames (Parte 3)</font>
Reserve alguns minutos e tente o seguinte.

1. Calcule a média da parcela de consumo para 1990 e 1995. Você pode tentar usar `loc[]` com dois argumentos `loc[rows, cols]`

In [264]:
data_filtered = data.loc[(data['year'] == 1990) | (data['year'] == 1995)]
data_filtered

Unnamed: 0,year,gdp,cons,cons_share
0,1990,5.9,3.8,64.40678
1,1995,7.6,4.9,64.473684


In [265]:
cons_share_mean = data_filtered['cons_share'].mean(axis=0)
print(f'Média de parcela de consumo de 1990 a 1995: \n {cons_share_mean}')

Média de parcela de consumo de 1990 a 1995: 
 64.44023193577164


2. Tente `desc = data.describe()` Qual é o tipo de retorno?

In [266]:
desc = data.describe()
print(type(desc))

<class 'pandas.core.frame.DataFrame'>


In [267]:
desc

Unnamed: 0,year,gdp,cons,cons_share
count,4.0,4.0,4.0,4.0
mean,1997.5,9.175,6.05,65.617552
std,6.454972,3.10309,2.157931,1.36375
min,1990.0,5.9,3.8,64.40678
25%,1993.75,7.175,4.625,64.456958
50%,1997.5,8.9,5.85,65.570175
75%,2001.25,10.9,7.275,66.730769
max,2005.0,13.0,8.7,66.923077


In [268]:
print(f'Índices de desc: {desc.index.to_list()}\nColunas de desc: {desc.columns.to_list()}')
print(f'Shape de desc: {desc.shape}\nNúmero de células de desc: {desc.size}')

Índices de desc: ['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max']
Colunas de desc: ['year', 'gdp', 'cons', 'cons_share']
Shape de desc: (8, 4)
Número de células de desc: 32


3. Olhando para o futuro, experimente o código a seguir. O que isso faz? Você consegue encontrar o arquivo? O que está dentro dele?

R: Transforma o dataframe `desc` em dois arquivos, um .csv e outro .xlsx (excel), salvos na sessão local do google colab.

In [269]:
desc.to_csv('desc.csv')
desc.to_excel('desc.xlsx')