# 7. Data Frames 

## 7.1. Definição

Em síntese, um **data frame** consiste em uma tabela de dados capaz de armazenar diferentes classes de dados nas suas colunas. 

Para ver um exemplo de *data frame*, podemos usar os dados do livro **Introdução à Econometria: uma abordagem moderna** de autoria de Jeffrey M. Wooldridge.

Para tal, precisamos instalar o pacote **wooldridge**. 

Uma forma de instalar é utilizando o **Jupyter Notebook** (ou o **Google Colaboratory**) e digitando o comando: 

    !pip install wooldridge

Ou, com a plataforma **Anaconda** aberta, abra o prompt de comando, clicando no botão *Launch* em *CMD.exe Prompt*, como mostra a figura abaixo: 

![AnacondaNAVIGATOR_prompt](AnacondaNAVIGATOR_prompt.png)

Abrirá uma janela, como abaixo: 

![Prompt_Anaconda](Prompt_Anaconda.png) 

Nessa janela utilize o comando: 

    pip install wooldridge

<div class="alert alert-warning"> 
    
Observe que na janela de comando não há o símbolo de exclamação no início! 

</div>

Após digitar o comando, pressione `enter`. 

<div class="alert alert-info"> 
    
**Observação:**

Mais informações sobre a instalação e o conteúdo desse pacote pode ser encontradas [aqui](https://pypi.org/project/wooldridge/).
    
</div>

De volta ao **Jupyter Notebook**, para acessar o pacote, precisamos usar o seguinte comando: 

In [None]:
import wooldridge as wd

O pacote contém vários dados. 

Como exemplo, faça leitura da base de dados **wage1** com a função `wd.data()`(observe que *wd* foi a sigla utilizada quando importamos os dados do pacote *wooldridge*):

In [None]:
wage1 = wd.data('wage1')

Para ver os dados: 

In [None]:
wage1

Observe que a primeira coluna indica o número da observação (esse número é chamado de índice - *index* - dos dados), e a primeira linha refere-se ao nome das variáveis. 

No total (contando a primeira linha e a primeira coluna), a base de dados conta com 526 linhas e 24 colunas. 

Alternativamente, podemos acessar essa informação com o atributo `shape`:

In [None]:
wage1.shape

**Qual é o tipo de dado? Insira uma célula de comando abaixo e utilizde a função `type()` para descobrir.**

O **Pandas** é um pacote Python que permite realizar manipulações e análises de dados. Se você está utilizando Anaconda, o pacote já está instalado na sua máquina. 

Caso você não esteja será necessário utilizar o comando: 

    !pip install pandas

O tipo do dado que estamos usando indica que você está usando um *Data Frame* desse pacote. 

Para sabermos mais informações sobre os dados, podemos utilizar o método `info()`: 

In [None]:
wage1.info()

<div class="alert alert-info"> 
    
**Observação:**
    
Um método se refere a uma função que é parte de uma classe. Nesse caso, `.info()` é um método que está ligado a objetos do tipo *Data Frame*. Uma função pode ser utilizada em qualquer instancia ou objeto de qualquer classe. Assim, todos os métodos são funções, mas nem todas funções são métodos. 

Fonte: [datacamp](https://www.datacamp.com/tutorial/functions-python-tutorial#functions-in-python)

</div>

A saída nos mostra todas as variáveis, a quantidadade de entradas não nulas e o tipo dos dados em cada coluna.

Outra informação importante nesse caso, são as descrições das variáveis, para acessar essas descrições no pacote **wooldridge** podemos utilizar os seguintes comandos: 

In [None]:
from wooldridge import dataWoo
dataWoo('wage1', description=True)

Agora que já entendemos um pouco da estrutura dos dados, podemos começar a analisar suas informações. Uma forma rápida de acessar estatísticas descritivas (número de observações, média, desvio padrão, mínimo, quantis e máximo) sobre cada variável é o uso do método `describe()`:

In [None]:
wage1.describe()

## 7.2. Selecionando informações em um Data Frame

Existem diversas formas para selecionar partes de um **Data Frame**.

Por exemplo, para selecionar a segunda linha da terceira coluna da *data frame* **wage1**, podemos usar o método `iloc`:

In [None]:
wage1.iloc[1, 2]

Lembre-se que a indexação em Python começa em zero. Logo, a segunda linha tem índice 1, a terceira coluna tem índice 2, e assim por diante.

De forma equivalente, podemos utilizar o nome da coluna, por meio do método `loc`: 

In [None]:
wage1.loc[1, 'exper']

Para selecionar somente as colunas "wage" e "educ" pelo nome, podemos usar:

In [None]:
wage1.loc[1, ['wage', 'educ']]

Podemos selecionar todas as informações de uma variável. Por exemplo, para selecionar apenas a variável *educ* do *data frame*, podemos usar a seguinte sintaxe:

In [None]:
wage1[['educ']]

Observe que utilizamos colchetes duas vezes. Isso porque, estamos criando uma lista de colunas a serem selecionadas do banco de dados. O resultado é um subconjunto, que também possui o formato de data frame. Você pode selecionar quantas colunas desejar. 

Também podemos utilizar algum critério lógico para selecionar as linhas. Por exemplo, suponha que você queira observar apenas pessoas com mais de 30 anos de experiência no trabalho. Nesse caso, você utilizar o seguinte comando: 

In [None]:
wage1[wage1["tenure"]>30]

Observe que esse comando tem duas partes. Dentro do colchete estamos utilizando um operador lógico que indicara *True* ou *False* em cada linha. Depois, estamos pedindo para selecionar apenas *True*. 

Para que fique mais claro, observe o que ocorre quando usamos apenas o comando que está dentro dos colchetes: 

In [None]:
wage1["tenure"]>30

Temos uma lista de booleanos, informando se para cada linha é válido que a experiência é maior do que 30. Ou seja, quando colocamos o comando completo (`wage1[wage1["tenure"]>30]`) estamos selecionando as linhas do Data Frame **wage1** para as quais (`[wage1["tenure"]>30]`) é verdadeiro. 

Outras três funções muito usadas em data frames são: `head()`(para visualizar as primeiras 5 linhas da base de dados) e `tail()` (para visualizar as últimas 5 linhas da base de dados).

In [None]:
wage1.head()

In [None]:
wage1.tail()

Outra função muito útil no pandas é a `groupby()`. 

Suponha que você queira verificar quais são as diferenças entre homens e mulheres nessa base, você poderá utilizar: 

In [None]:
wage1.groupby(['female']).mean()

Nesse caso, estamos verificando as informações para toda a base de dados. Pode ser mais interessante selecionar apenas uma variável, os salários por exemplo: 

In [None]:
wage1[['wage','female']].groupby(['female']).mean()

**Quais são as médias de salários por nível de educação? Insira uma célula abaixo para responder a essa questão!**

É importante ressaltar, que vários métodos podem ser utilizados combinados à função `groupby`, por exemplo, `sum()`, `max()` ou `min()`. 

**Insira uma célula abaixo e experimente encontrar quais são os maiores valores nessa base de dados para a variável de experiência (*tenure*) entre homens e mulheres.**

## 7.3. Importação de dados

Para **Data Frames**, a leitura, manipulação e exportação de diversos formatos de dados (CSV, XLS, XLSX, TXT, DTA, entre outros) pode ser feita utilizando o **pandas**. 

Inicialmente, você precisará importar o pandas com o seguinte comando:  

In [None]:
import pandas as pd

### 7.3.1. Arquivos CSV

Como exemplo, vamos usar a **Base de Dados do Comércio Exterior Brasileiro (Comex Stat)** disponibilizada pelo Governo Federal (Ministério da Economia) em [www.gov.br](https://www.gov.br/produtividade-e-comercio-exterior/pt-br/assuntos/comercio-exterior/estatisticas/base-de-dados-bruta). Você pode baixar os dados e salvar no seu diretório de trabalho. 

Nos exemplos abaixo, vamos usar a base de dados de Exportações detalhada por NCM (Nomenclatura Comum do Mercosul) para o ano 2019.

<div class="alert alert-info"> 
    
**Observação:**

Os dados também estão disponíveis [**AQUI**](https://nedurcode.com/python/EXP_2019.rar) em zip. Extraia os dados no seu diretório de trabalho!
    
</div>

O arquivo CSV disponibilizado no Comex Stat utiliza separador ponto e vírgula (;) e apresenta o seguinte detalhamento:

* Ano
* Mês
* Código NCM
* Código da unidade estatística
* Código de país de destino/origem do produto
* Código da UF de origem/destino do produto
* Código da via de transporte
* Código da URF de embarque/desembarque
* Quantidade estatística
* Quilograma líquido
* Valor dólar FOB (US$)

Para importar os dados, podemos usar a função `pd.read_csv()` do pacote **pandas**. Para tal, vamos criar um objeto **dexp** (dados de exportações) da seguinte forma:

In [None]:
dexp = pd.read_csv("EXP_2019.csv", sep=';')

Observe que precisamos informar que o separador é por ponto e vírgula, o *default* é vírgula. Para verificar o início dos dados, podemos utilizar o método `head()`:

In [None]:
dexp.head()

<div class="alert alert-info"> 
    
**Lembrete:**
    
Para verificar os argumentos da função, basta usar o help: 
    ```
    help(pd.read_csv)
    ```
</div>

Para verificar o tamanho da base de dados podemos utilizar o método `shape`: 

In [None]:
dexp.shape

Os dados contam com 1.416.884 linhas e 11 colunas.

<div class="alert alert-warning">

**Atenção:** 

Vamos trabalhar com essa base de dados também na Seção 7.4 - Manipulação de dados. 

</div>

### 7.3.2. Arquivos XLS e XLSX

Assim como o caso do CSV, vamos usar o **pandas** para ler o arquivo em *Excel*. 

Como exemplo, faça o *download* do arquivo EXP2019_ComexStat [**AQUI**](https://nedurcode.com/python/EXP2019_ComexStat.xlsx).

<div class="alert alert-info">

**Observação:** 
    
Após fazer o *download*, salve o arquivo XLSX no seu diretório de trabalho.

</div>

Para importar os dados, podemos usar a função `pd.read_excel`. Para tal, especifique um objeto **dados** com:

In [None]:
dados = pd.read_excel("EXP2019_ComexStat.xlsx")

Novamente, podemos verificar a base, digitando seu nome: 

In [None]:
dados

Ou, verificar o tamanho, com o atributo `shape`:

In [None]:
dados.shape

Na próxima seção, faremos alterações nessa base de dados. 

## 7.4. Manipulação de dados

Conforme destacado acima, a base de dados de exportações conta com muitas observações e variáveis. Vamos usar o **pandas** para manipular os dados, como por exemplo, selecionar, criar e renomear variáveis, filtrar observações, etc.

Para iniciar, vamos visualizar novamente a base de dados dexp da seção anterior (se você está no mesmo notebook e já importou os dodos, não é necessário importar novamente). 

Observe os nomes das colunas (variáveis).

In [None]:
dexp

Alternativamente, confira os nomes das colunas com o atributo colunms:

In [None]:
dexp.columns

<div class="alert alert-info"> 
    
**Observação:**

[AQUI](http://nedurcode.com/python/Pandas_Basics_Cheat_Sheet_datacamp.pdf), você encontra um guia rápido do **pandas**, escrito pelo pessoal do *Data Camp*. 
    
</div>

Vejamos algumas manipulações muito utilizadas em bancos de dados: 
    
### 7.4.1. Selecionar variáveis

Para selecionar apenas algumas variáveis, podemos criar um novo objeto **dexp_mod** especificado a partir da seleção de algumas variáveis da base original, como Ano ("CO_ANO"), Mês ("CO_MES"), UF ("SG_UF_NCM") e Valor FOB ("VL_FOB"):

In [None]:
dexp_mod = dexp[["CO_ANO", "CO_MES", "SG_UF_NCM", "VL_FOB"]]

Para verificar a nova base, podemos utilizar o método `head()`

In [None]:
dexp_mod.head()

### 7.4.2. Renomear variáveis

Para renomear as variáveis, podemos usar o método `rename()`.

Por exemplo, para renomear "CO_ANO" como "ano", "CO_MES" como "mes", "SG_UF_NCM" como "uf" e "VL_FOB" como "exp" na base de dados **dexp_mod**, o seguinte código pode ser usado:

In [None]:
dexp_mod = dexp_mod.rename(
    columns={
        "CO_ANO":"ano",
        "CO_MES":"mes",
        "SG_UF_NCM":"uf",
        "VL_FOB":"exp"
    }
)

Observe que a nova base de dados tem o mesmo nome que a anterior. Se você abrir o objeto **dexp_mod**, as variáveis estarão com os novos nomes.

<div class="alert alert-warning"> 

O que está dentro dos colchetes é um **dicionário**, o que também é uma estrutura de dados em Python. Basicamente, um dicionário é uma correspondência. Para mais informações acesse: https://docs.python.org/3/tutorial/datastructures.html#dictionaries

</div > 

### 7.4.3. Modificar dados

Para criar o log de uma variável, precisamos utilizar o pacote **numpy** que será importado com a abreviação **np**: 

In [None]:
import numpy as np

Vamos utilizar a função `np.log()` do numpy, diretamente sobre a coluna selecionada. Por exemplo, para obtermos o log do valor das exportações e salvá-la com o nome **log_exp**, podemos utilizar o seguinte código: 

In [None]:
dexp_mod["log_exp"] = np.log(dexp_mod["exp"])

Observe que a mensagem de **warning** indica que existem logs de zero, o que resulta em um número indefinido (o que não será um problema nesse caso!). Você pode organizar o banco de dados por exportações, utilizando o método `sort_values()`, e verificar que quando as exportações são zero, o resultado é *-inf*:

In [None]:
dexp_mod.sort_values("exp")

Podemos também transformar o valor US$ FOB das exportações em bilhões com a divisão:

In [None]:
dexp_mod["exp"] = (dexp_mod["exp"]/1000000000)

Observe que nesse caso, estamos substituindo a variável **exp** pelo valor em bilhões:

In [None]:
dexp_mod.head()

### 7.4.4. Agrupar e agregar dados

Para agrupar a base de dados, podemos utilizar o método `groupby()` do **pandas**, combinado com outras funções. Por exemplo, podemos obter a soma da variável de exportações, agrupada por *ano* e *UF*: 

In [None]:
dexp_mod.groupby(["ano","uf"],  as_index=False)["exp"].sum()

<div class="alert alert-info"> 
    
**Observação:**

Repare que utilizamos o argumento *as_index=False* ao usar o método *groupby*. Isso porque, quando não utilizamos esse argumento, *["ano","uf"]* serão considerados índices da nova série criada. Ao deixar *as_index=False*, estamos mantendo o índice como uma sequência numérica. 
    
</div > 

Podemos ainda utilizar várias estatísticas ao mesmo tempo (por exemplo, soma, mínimo e máximo), utilizando o método **agg()**: 

In [None]:
dexp_mod.groupby(["ano","uf"],  as_index=False)["exp"].agg([sum, min, max])

## 7.5. Exportação de dados

Podemos utilizar o **pandas** para exportar dados para diversos formatos como **CSV** e **XLSX**. 

Vamos retomar a base de dados modificada anteriormente, e salvar os dados somados de exportação por UF com o nome *tabela*:

In [None]:
tabela = dexp_mod.groupby(["ano","uf"],  as_index=False).sum()

Esses dados serão salvos em CSV e XLS. 

### 7.5.1. **Dados em CSV**

Suponha que você queira exportar a tabela com dados agregados das exportações por UF e ano. 

Nesse caso, podemos usar, por exemplo, a função `to_csv()` do pacote **pandas**:

In [None]:
tabela.to_csv('Exp_UF_2019v.csv')

Observe que a base de dados foi salva no seu diretório de trabalho. Se você abrir o arquivo CSV, irá observar que os dados estão separados por vírgula. A função `to_csv()` utiliza vírgula (,) como separador padrão.

Para mudar o separador para ponto e vírgula (;), precisamos indicar no argumento *sep* da função:

In [None]:
tabela.to_csv('Exp_UF_2019pv.csv', sep=';')

De forma alternativa, se quisermos salvar a tabela apenas externamente, podemos encadear os dois códigos, usando: 

In [None]:
dexp_mod.groupby(["ano","uf"], as_index=False).sum().to_csv('Exp_UF_2019pv.csv', sep=';')

Lembre-se, você pode tirar suas dúvidas sobre as funções com a função help:

    help(pd.DataFrame.to_csv)

### 7.5.2. **Dados em XLSX**

Para exportar para excel, podemos usar a função `to_excel()` do pacote **pandas**:

In [None]:
tabela.to_excel('Exp_UF_2019.xlsx',  sheet_name = "2019")

Observe que o argumento *sheet_name*, escreve 2019 no nome da aba do excel. Esse é um argumento opcional do método, que será muito útil principalmente quando você precisar salvar várias abas no mesmo arquivo. 

<div class="alert alert-warning"> 
    
**Atenção:**
    
O pacote **pandas** possui diversas outras opções para ler e escrever dados, que podem ser conferidas em: https://pandas.pydata.org/docs/reference/io.html. 
    
</div > 