# Introdução ao pandas

Este caderno apresentará a biblioteca de análise de dados [`pandas`](https://pandas.pydata.org/) e vai demonstrar como inspecionar, classificar, filtrar, agrupar e agregar um conjunto de dados.

Os dados para este exercício serão um CSV de [dados coletados pelo USA Today sobre os salários da Major League Baseball (MLB)](https://www.usatoday.com/sports/mlb/salaries/) da temporada de 2018.

(Se você é completamente novo no Python ou sua sintaxe está enferrujada, pode ser útil [manter este notebook aberto em uma nova guia](https://github.com/abraji/cursos_NICAR20/blob/master/python_ire/Python%20101.ipynb) como uma referência.)

#### Esboço da sessão
- [Using Jupyter notebooks](#Uso-do-Jupyter-notebooks)
- [Import pandas](#Importar-o-pandas)
- [Load data into a data frame](#Carregar-dados-em-um-dataframe)
- [Inspect the data](#Inspecionar-os-dados)
- [Sort the data](#Ordene-os-dados)
- [Filter the data](#Filtre-os-dados)
- [Group and aggregate the data](#Agrupe-e-agregue-os-dados)
- [Export to CSV](#Grave-como-CSV)

### Uso do Jupyter notebooks

Existem várias maneiras de escrever e executar o código Python no seu computador. Uma maneira - o método que estamos usando hoje - é usar [Jupyter notebooks](https://jupyter.org/), que são executados no seu navegador e permitem intercalar a documentação com o seu código. Eles são úteis para agrupar seu código com uma explicação legível por humanos do que está acontecendo em cada etapa. Confira alguns exemplos do [L.A. Times](https://github.com/datadesk/notebooks) e [BuzzFeed News](https://github.com/BuzzFeedNews/everything#data-and-analyses).

**Para adicionar uma nova célula ao seu notebook**: Clique no botão + no menu.

**Para executar uma célula de código**: Selecione a célula e clique no botão "Executar" no menu ou pressione Shift + Enter.

**Uma pegadinha comum**: O notebook não "sabe" sobre o código que você escreveu até ter um _executar (run)_ a célula em que está o código. Por exemplo, se você definir uma variável chamada `my_name` em uma célula, e depois, quando você tenta acessar essa variável em outra célula, mas obtém um erro que diz `NameError: name 'my_name' is not defined`, a solução mais provável é executar (ou executar novamente) a célula na qual você definiu `my_name`.

### Instalação
Uma biblioteca de terceiros instalada separadamente do Python, como é o caso do pandas, pode ser instalada de várias formas - a depender de como você usa o Python. Veja mais [aqui](https://pandas.pydata.org/docs/getting_started/install.html)

No terminal um modo muito comum é usar o pip: `pip install pandas`

### Importar o pandas

Antes de poder usar a funcionalidade do `pandas`, uma biblioteca de terceiros instalada separadamente do Python, você precisa _importar_. A convenção é importar a biblioteca com um alias (apelido) mais fácil de digitar: `as pd`.

Execute esta célula:

In [1]:
import pandas as pd

### Alterar uma configuração de exibição

Execute a próxima célula para alterar uma configuração que exibe grandes números em notação científica por padrão. (A menos que a notação científica seja seu interesse, nesse caso, _evite_ executar a próxima célula.)

In [3]:
# https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html
pd.options.display.float_format = '{:20,.2f}'.format

### Carregar dados em um dataframe

Antes de começar a cutucar um arquivo de dados, você precisa carregar os dados em um pandas _data frame_, que é como uma planilha virtual com colunas e linhas.

Você pode carregar muitos tipos diferentes de arquivos de dados em um dataframe, incluindo CSVs (e outros arquivos de texto delimitados), arquivos do Excel, JSON [e outros](https://www.cbtnuggets.com/blog/2018/10/14-file-types-you-can-import-into-pandas/). ([Aqui está um notebook de referência rápida](https://github.com/ireapps/cfj-2018/blob/master/reference/Importing%20data%20into%20pandas.ipynb) demonstrando como importar alguns arquivos de dados diferentes, incluindo dados ao vivo da Internet!)

Hoje, vamos nos concentrar na importação dos dados salariais da MLB usando um método pandas chamado [`read_csv()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html). Há várias opções que você pode fornecer ao ler o arquivo de dados, mas, no mínimo, você precisa informar o método _onde_ o arquivo fica, o que significa que você precisa fornecer o caminho para o arquivo de dados como uma _string_ Python (algum texto entre aspas simples ou duplas). O arquivo é chamado `mlb.csv`, e ele está localizado no mesmo diretório que esse arquivo notebook, portanto, não precisamos especificar um caminho mais longo.

À medida que importamos os dados, também atribuímos os resultados da operação de carregamento a uma nova variável chamada _df_ (abreviação para data frame -- fácil de digitar, além disso, você verá muito esse padrão ao pesquisar no Google por ajuda).

👉 [Clique aqui para obter mais informações sobre variáveis Python](https://github.com/abraji/cursos_NICAR20/blob/master/python_ire/Python%20101.ipynb).

In [4]:
df = pd.read_csv('mlb.csv')

Como uma frase de uma pessoa: "Vá para a biblioteca de pandas que importamos anteriormente como algo chamado `pd` e use o seu método `read_csv()` para importar o arquivo `mlb.csv` em um dataframe -- e enquanto faz isso, atribua os resultados da operação para um nova variável chamada `df`."

### Inspecionar os dados

Vamos dar uma olhada no que temos usando alguns métodos e atributos internos de um dataframe do pandas:
- `df.head()` exibirá os cinco primeiros registros (ou, se preferir, você pode especificar um número, por exemplo, `df.head(10)`)
- `df.tail()` exibirá os últimos cinco registros (ou, se preferir, você pode especificar um número, por exemplo, `df.tail(10)`)
- `df.describe()` calculará estatísticas de resumo em colunas numéricas
- `df.sample()` retornará um registro selecionado aleatoriamente (ou, se preferir, você especificar um número, por exemplo, `df.sample(5)`
- `df.shape` dirá quantas colunas, quantas linhas existem
- `df.dtypes` listará os nomes das colunas e informará que tipo de dados há em cada um

### Ordene os dados

Para ordenar um dataframe, use o método `sort_values()`. No mínimo, você precisa informar em qual coluna classificar.

In [None]:
df.sort_values('SALARY')

Para classificar em ordem decrescente, você precisa passar outro argumento para o método `sort_values()`: `ascending=False`. Observe que o valor booleano é _não_ uma sequência, portanto não está entre aspas e somente a letra inicial é maiúscula. (Se você estiver fornecendo vários argumentos para uma função ou método, separe-os com vírgulas.)

👉 [Clique aqui para obter mais informações sobre booleanos Python](https://github.com/abraji/cursos_NICAR20/blob/master/python_ire/Python%20101.ipynb).

In [None]:
df.sort_values('SALARY', ascending=False)

Você pode usar um processo chamado "encadeamento de métodos" para executar várias operações em uma linha. Se, por exemplo, quisermos classificar o dataframe por salário decrescente e inspecionar os 5 primeiros registros retornados:

In [None]:
df.sort_values('SALARY', ascending=False).head()

Você pode classificar por várias colunas, passando uma _list_ de nomes de colunas em vez do nome de uma única coluna. Uma lista é uma coleção de itens entre colchetes`[]`.

👉 [Clique aqui para obter mais informações sobre listas Python](https://github.com/abraji/cursos_NICAR20/blob/master/python_ire/Python%20101.ipynb).

Para ordenar primeiro por `SALARY`, e então por `TEAM`:

In [None]:
df.sort_values(['SALARY', 'TEAM']).head()

Você pode especificar a ordem de classificação (decrescente x crescente) para cada coluna de classificação, passando outra lista para a palavra-chave `ascending` com os itens` True` e `False` correspondentes à posição das colunas na primeira lista.

Por exemplo, para classificar por `SALARY` descendente e depois por` TEAM` ascendente:

In [None]:
df.sort_values(['SALARY', 'TEAM'], ascending=[False, True]).head()

O `False` vai com `SALARY` e o `True` com `TEAM` porque eles estão na mesma posição em suas respectivas listas.

Outra observação: Apesar de toda essa classificação que fizemos, o dataframe `df` original permanece inalterado:

In [None]:
df.head()

Isso ocorre porque não "salvamos" os resultados desses tipos, atribuindo-os a uma nova variável. Normalmente, se você deseja preservar uma classificação (ou qualquer outro tipo de manipulação), atribuiriamos os resultados a uma nova variável:

In [None]:
sorted_by_team = df.sort_values('TEAM')

In [None]:
sorted_by_team.head()

### ✍️ Faça você mesmo

Nas células abaixo, pratique a classificação do dataframe `df`:
- Por `NAME`
- Por `POS` descendente
- Por `SALARY` descendente, e então por `POS` ascendente, e salve os resultados em uma nova variável chamada `sorted_by_salary_then_pos`

### Filtre os dados

Vamos analisar dois tipos diferentes de filtragem:

- Filtragem de colunas: pegue uma ou mais colunas de dados para examinar, como passar nomes de colunas para uma instrução `SELECT` em SQL.
- Filtragem de linhas: olhando para um subconjunto de seus dados que corresponde a alguns critérios, como os critérios de uma instrução `WHERE` em SQL. (Por exemplo, "Mostre-me todos os registros no meu dataframe em que o valor na coluna `TEAM` é "ARI".)

#### Filtragem de colunas

Para acessar os valores em uma única coluna de dados, você pode usar "notação de ponto", desde que o nome da coluna não tenha espaços ou outros caracteres especiais:

In [5]:
df.TEAM

0      LAD
1      ARI
2      BOS
3      DET
4      DET
      ... 
863    BOS
864    CIN
865    LAA
866    CIN
867    CLE
Name: TEAM, Length: 868, dtype: object

Caso contrário, use "notação de colchete" com o nome da coluna como uma sequência.

Isso é equivalente ao comando anterior:

In [None]:
df['TEAM']

Quando você acessa uma única coluna no seu dataframe, recebe de volta algo chamado um objeto `Series` (em oposição a um objeto `DataFrame`).

Um dos métodos que você pode chamar em uma série é `unique()`, que mostra cada valor exclusivo na coluna. Vamos fazer isso com a coluna `TEAM`:

In [None]:
df.TEAM.unique()

O que acabamos de fazer é o equivalente a arrastar a coluna "TEAM" para área "linhas" de uma tabela dinâmica de planilha ou, no SQL,

```sql
SELECT DISTINCT TEAM
FROM mlb
```

Você também pode contar um total para cada valor usando o método `value_counts()`:

In [None]:
df.TEAM.value_counts()

Para colunas numéricas, você pode chamar métodos nessa Series para calcular estatísticas básicas resumidas:
- `min()` para obter o menor valor
- `max()` para obter o maior valor
- `median()` para obter a mediana
- `mean()` para obter a média
- `mode()` para obter o valor mais comum

Confira na coluna `SALARY`:

In [None]:
df.SALARY.min()

In [None]:
df.SALARY.max()

In [None]:
df.SALARY.median()

In [None]:
df.SALARY.mean()

In [None]:
df.SALARY.mode()

Para selecionar várias colunas no seu dataframe, use a notação entre colchetes, mas transmita em uma _lista_ os nomes das colunas em vez de apenas uma. Para tornar as coisas mais claras, você pode dividir isso em duas etapas:

In [None]:
columns_we_care_about = ['TEAM', 'SALARY']
df[columns_we_care_about]

#### Filtragem de linhas

Para tornar as coisas extremamente confusas, você também pode usar a notação de colchete para a filtragem de linhas. Exceto neste caso, em vez de soltar o nome de uma coluna (ou uma lista de nomes de colunas) entre colchetes, você entrega a ela uma _condição_ de algum tipo.

Vamos filtrar nossos dados para ver jogadores que ganham mais do que $1 milhão (em outras palavras, retorne linhas de dados em que o valor na coluna `SALARY` é maior do que 1000000):

(The equivalent SQL statement would be:
```sql
SELECT *
FROM mlb
WHERE SALARY > 1000000
```
)

In [None]:
df[df.SALARY > 1000000]

Para muitos filtros, você usará os operadores de comparação do Python:
- `>` maior do que
- `>=` maior do que ou igual a
- `<` menor do que
- `<=` menor do que ou igual a
- `==` igual a
- `!=` diferente de

#### Várias condições de filtro

E se você quiser usar várias condições de filtragem? Existe uma maneira, mas geralmente faz mais sentido - e é muito mais fácil para seus colegas e seu futuro pensar e depurar - _salvar_ os resultados de cada operação de filtragem atribuindo os resultados a uma nova variável e, em seguida, filtrar _isso_ de novo, ao invés do dataframe original.

Por exemplo, se você quisesse ver jogadores do Colorado Rockies que ganham mais do que $1 milhão, você pode fazer algo como:

In [None]:
rockies = df[df.TEAM == 'COL']
rockies_over_1m = rockies[rockies.SALARY > 1000000]

In [None]:
rockies_over_1m

👉 [Confira algumas outras operações de filtragem aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.filter.html).

### ✍️ Faça você mesmo

Nas células abaixo, pratique a filtragem:
- Filtragem de colunas: selecione a coluna `NAME`
- Filtragem de colunas: selecione as colunas `NAME` e `TEAM` 
- Filtragem de linhas: filtre as linhas para retornar apenas jogadores que ganham na liga o mínimo (535000)
- Filtragem de linhas: filtre as linhas para retornar somente os coletores (`C`) que ganham pelo menos 750000
- BÔNUS: Filtre as linhas para retornar apenas jogadores para o Chicago Cubs (`CHC`), use o encadeamento de métodos para ordenar os resultados de `SALARY` descendente

### Agrupe e agregue os dados

Os dataframes têm um método `groupby` para agrupar e agregar dados, semelhante ao que você pode fazer em uma tabela dinâmica ou em uma instrução `GROUP BY` no SQL. (Também existe um método [`tabela dinâmica`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html), que pode ser uma lição de casa para você pesquisar.)

Digamos que queríamos ver as 10 melhores equipes por folha de pagamento. Em outras palavras, queremos:
- Agrupe os dados pela coluna `TEAM`: `groupby()`
- Adicione os registros em cada grupo: `sum()`
- Ordene os resultados de `SALARY` de forma descendente: `sort_values()`
- Obtenha apenas os 10 primeiros resultados: `head(10)`

Chamando o método `groupby()` sem dizer o que fazer com os registros agrupados não é super útil:

In [None]:
df.groupby('TEAM')

Neste ponto, está basicamente nos dizendo que agrupou com sucesso os registros - e agora? Usando o encadeamento de métodos, descreva o que você gostaria de fazer com as colunas numéricas depois de agrupar os dados. Vamos começar com `sum()`:

In [None]:
df.groupby('TEAM').sum()

Arrumado! Exceto pela soma de todas as colunas numéricas, não apenas `SALARY`. Para lidar com isso, use o filtro de colunas para selecionar as duas colunas nas quais estamos interessados-- `TEAM` para agrupar e `SALARY` para somar -- e _então_ faça a aderência a instrução `groupby` etc.

(Lembre-se: para selecionar colunas de um dataframe, use a notação entre colchetes e forneça uma _lista_ dos nomes das colunas.)

In [None]:
df[['TEAM', 'SALARY']].groupby('TEAM').sum()

Bang bang. Agora, usando o encadeamento de métodos, vamos classificar por `SALARY` descendente e ver apenas os 10 principais:

In [None]:
df[['TEAM', 'SALARY']].groupby('TEAM').sum().sort_values('SALARY', ascending=False).head(10)

Você pode usar métodos de agregação diferentes de `sum()` -- `mean()` e `median()`, por exemplo -- ou você pode usar [o método `agg()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html) para especificar um ou mais métodos de agregação a serem aplicados.

In [None]:
df[['TEAM', 'SALARY']].groupby('TEAM').median()

In [None]:
df[['TEAM', 'SALARY']].groupby('TEAM').mean()

In [None]:
df[['TEAM', 'SALARY']].groupby('TEAM').agg(['sum', 'mean', 'median'])

### ✍️ Faça você mesmo

Nas células abaixo, pratique o agrupamento de dados:
- Qual é o salário médio para cada cargo? Agrupe os dados por `POS` e agregue por `median()`, depois classifique por `SALARY` descendente
- Qual é o salário médio em cada equipe? Agrupe os dados por `TEAM` e agregue `sum()`, então ordene por `SALARY` descendente
- O quê mais?

### Grave como CSV

Para exportar um dataframe para um arquivo de texto delimitado, use o método [`to_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html). Se você não deseja incluir os números de índice, especifique `index=False`.

In [None]:
df.to_csv('my-cool-data-frame.csv', index=False)