# Introdu√ß√£o ao pandas

Este caderno apresentar√° a biblioteca de an√°lise de dados [`pandas`](https://pandas.pydata.org/) e vai demonstrar como inspecionar, classificar, filtrar, agrupar e agregar um conjunto de dados.

Os dados para este exerc√≠cio ser√£o um CSV de [dados coletados pelo USA Today sobre os sal√°rios da Major League Baseball (MLB)](https://www.usatoday.com/sports/mlb/salaries/) da temporada de 2018.

(Se voc√™ √© completamente novo no Python ou sua sintaxe est√° enferrujada, pode ser √∫til [manter este notebook aberto em uma nova guia](https://github.com/abraji/cursos_NICAR20/blob/master/python_ire/Python%20101.ipynb) como uma refer√™ncia.)

#### Esbo√ßo da sess√£o
- [Using Jupyter notebooks](#Uso-do-Jupyter-notebooks)
- [Import pandas](#Importar-o-pandas)
- [Load data into a data frame](#Carregar-dados-em-um-dataframe)
- [Inspect the data](#Inspecionar-os-dados)
- [Sort the data](#Ordene-os-dados)
- [Filter the data](#Filtre-os-dados)
- [Group and aggregate the data](#Agrupe-e-agregue-os-dados)
- [Export to CSV](#Grave-como-CSV)

### Uso do Jupyter notebooks

Existem v√°rias maneiras de escrever e executar o c√≥digo Python no seu computador. Uma maneira - o m√©todo que estamos usando hoje - √© usar [Jupyter notebooks](https://jupyter.org/), que s√£o executados no seu navegador e permitem intercalar a documenta√ß√£o com o seu c√≥digo. Eles s√£o √∫teis para agrupar seu c√≥digo com uma explica√ß√£o leg√≠vel por humanos do que est√° acontecendo em cada etapa. Confira alguns exemplos do [L.A. Times](https://github.com/datadesk/notebooks) e [BuzzFeed News](https://github.com/BuzzFeedNews/everything#data-and-analyses).

**Para adicionar uma nova c√©lula ao seu notebook**: Clique no bot√£o + no menu.

**Para executar uma c√©lula de c√≥digo**: Selecione a c√©lula e clique no bot√£o "Executar" no menu ou pressione Shift + Enter.

**Uma pegadinha comum**: O notebook n√£o "sabe" sobre o c√≥digo que voc√™ escreveu at√© ter um _executar (run)_ a c√©lula em que est√° o c√≥digo. Por exemplo, se voc√™ definir uma vari√°vel chamada `my_name` em uma c√©lula, e depois, quando voc√™ tenta acessar essa vari√°vel em outra c√©lula, mas obt√©m um erro que diz `NameError: name 'my_name' is not defined`, a solu√ß√£o mais prov√°vel √© executar (ou executar novamente) a c√©lula na qual voc√™ definiu `my_name`.

### Instala√ß√£o
Uma biblioteca de terceiros instalada separadamente do Python, como √© o caso do pandas, pode ser instalada de v√°rias formas - a depender de como voc√™ usa o Python. Veja mais [aqui](https://pandas.pydata.org/docs/getting_started/install.html)

No terminal um modo muito comum √© usar o pip: `pip install pandas`

### Importar o pandas

Antes de poder usar a funcionalidade do `pandas`, uma biblioteca de terceiros instalada separadamente do Python, voc√™ precisa _importar_. A conven√ß√£o √© importar a biblioteca com um alias (apelido) mais f√°cil de digitar: `as pd`.

Execute esta c√©lula:

In [1]:
import pandas as pd

### Alterar uma configura√ß√£o de exibi√ß√£o

Execute a pr√≥xima c√©lula para alterar uma configura√ß√£o que exibe grandes n√∫meros em nota√ß√£o cient√≠fica por padr√£o. (A menos que a nota√ß√£o cient√≠fica seja seu interesse, nesse caso, _evite_ executar a pr√≥xima c√©lula.)

In [3]:
# https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html
pd.options.display.float_format = '{:20,.2f}'.format

### Carregar dados em um dataframe

Antes de come√ßar a cutucar um arquivo de dados, voc√™ precisa carregar os dados em um pandas _data frame_, que √© como uma planilha virtual com colunas e linhas.

Voc√™ pode carregar muitos tipos diferentes de arquivos de dados em um dataframe, incluindo CSVs (e outros arquivos de texto delimitados), arquivos do Excel, JSON [e outros](https://www.cbtnuggets.com/blog/2018/10/14-file-types-you-can-import-into-pandas/). ([Aqui est√° um notebook de refer√™ncia r√°pida](https://github.com/ireapps/cfj-2018/blob/master/reference/Importing%20data%20into%20pandas.ipynb) demonstrando como importar alguns arquivos de dados diferentes, incluindo dados ao vivo da Internet!)

Hoje, vamos nos concentrar na importa√ß√£o dos dados salariais da MLB usando um m√©todo pandas chamado [`read_csv()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html). H√° v√°rias op√ß√µes que voc√™ pode fornecer ao ler o arquivo de dados, mas, no m√≠nimo, voc√™ precisa informar o m√©todo _onde_ o arquivo fica, o que significa que voc√™ precisa fornecer o caminho para o arquivo de dados como uma _string_ Python (algum texto entre aspas simples ou duplas). O arquivo √© chamado `mlb.csv`, e ele est√° localizado no mesmo diret√≥rio que esse arquivo notebook, portanto, n√£o precisamos especificar um caminho mais longo.

√Ä medida que importamos os dados, tamb√©m atribu√≠mos os resultados da opera√ß√£o de carregamento a uma nova vari√°vel chamada _df_ (abrevia√ß√£o para data frame -- f√°cil de digitar, al√©m disso, voc√™ ver√° muito esse padr√£o ao pesquisar no Google por ajuda).

üëâ [Clique aqui para obter mais informa√ß√µes sobre vari√°veis Python](https://github.com/abraji/cursos_NICAR20/blob/master/python_ire/Python%20101.ipynb).

In [4]:
df = pd.read_csv('mlb.csv')

Como uma frase de uma pessoa: "V√° para a biblioteca de pandas que importamos anteriormente como algo chamado `pd` e use o seu m√©todo `read_csv()` para importar o arquivo `mlb.csv` em um dataframe -- e enquanto faz isso, atribua os resultados da opera√ß√£o para um nova vari√°vel chamada `df`."

### Inspecionar os dados

Vamos dar uma olhada no que temos usando alguns m√©todos e atributos internos de um dataframe do pandas:
- `df.head()` exibir√° os cinco primeiros registros (ou, se preferir, voc√™ pode especificar um n√∫mero, por exemplo, `df.head(10)`)
- `df.tail()` exibir√° os √∫ltimos cinco registros (ou, se preferir, voc√™ pode especificar um n√∫mero, por exemplo, `df.tail(10)`)
- `df.describe()` calcular√° estat√≠sticas de resumo em colunas num√©ricas
- `df.sample()` retornar√° um registro selecionado aleatoriamente (ou, se preferir, voc√™ especificar um n√∫mero, por exemplo, `df.sample(5)`
- `df.shape` dir√° quantas colunas, quantas linhas existem
- `df.dtypes` listar√° os nomes das colunas e informar√° que tipo de dados h√° em cada um

### Ordene os dados

Para ordenar um dataframe, use o m√©todo `sort_values()`. No m√≠nimo, voc√™ precisa informar em qual coluna classificar.

In [None]:
df.sort_values('SALARY')

Para classificar em ordem decrescente, voc√™ precisa passar outro argumento para o m√©todo `sort_values()`: `ascending=False`. Observe que o valor booleano √© _n√£o_ uma sequ√™ncia, portanto n√£o est√° entre aspas e somente a letra inicial √© mai√∫scula. (Se voc√™ estiver fornecendo v√°rios argumentos para uma fun√ß√£o ou m√©todo, separe-os com v√≠rgulas.)

üëâ [Clique aqui para obter mais informa√ß√µes sobre booleanos Python](https://github.com/abraji/cursos_NICAR20/blob/master/python_ire/Python%20101.ipynb).

In [None]:
df.sort_values('SALARY', ascending=False)

Voc√™ pode usar um processo chamado "encadeamento de m√©todos" para executar v√°rias opera√ß√µes em uma linha. Se, por exemplo, quisermos classificar o dataframe por sal√°rio decrescente e inspecionar os 5 primeiros registros retornados:

In [None]:
df.sort_values('SALARY', ascending=False).head()

Voc√™ pode classificar por v√°rias colunas, passando uma _list_ de nomes de colunas em vez do nome de uma √∫nica coluna. Uma lista √© uma cole√ß√£o de itens entre colchetes`[]`.

üëâ [Clique aqui para obter mais informa√ß√µes sobre listas Python](https://github.com/abraji/cursos_NICAR20/blob/master/python_ire/Python%20101.ipynb).

Para ordenar primeiro por `SALARY`, e ent√£o por `TEAM`:

In [None]:
df.sort_values(['SALARY', 'TEAM']).head()

Voc√™ pode especificar a ordem de classifica√ß√£o (decrescente x crescente) para cada coluna de classifica√ß√£o, passando outra lista para a palavra-chave `ascending` com os itens` True` e `False` correspondentes √† posi√ß√£o das colunas na primeira lista.

Por exemplo, para classificar por `SALARY` descendente e depois por` TEAM` ascendente:

In [None]:
df.sort_values(['SALARY', 'TEAM'], ascending=[False, True]).head()

O `False` vai com `SALARY` e o `True` com `TEAM` porque eles est√£o na mesma posi√ß√£o em suas respectivas listas.

Outra observa√ß√£o: Apesar de toda essa classifica√ß√£o que fizemos, o dataframe `df` original permanece inalterado:

In [None]:
df.head()

Isso ocorre porque n√£o "salvamos" os resultados desses tipos, atribuindo-os a uma nova vari√°vel. Normalmente, se voc√™ deseja preservar uma classifica√ß√£o (ou qualquer outro tipo de manipula√ß√£o), atribuiriamos os resultados a uma nova vari√°vel:

In [None]:
sorted_by_team = df.sort_values('TEAM')

In [None]:
sorted_by_team.head()

### ‚úçÔ∏è Fa√ßa voc√™ mesmo

Nas c√©lulas abaixo, pratique a classifica√ß√£o do dataframe `df`:
- Por `NAME`
- Por `POS` descendente
- Por `SALARY` descendente, e ent√£o por `POS` ascendente, e salve os resultados em uma nova vari√°vel chamada `sorted_by_salary_then_pos`

### Filtre os dados

Vamos analisar dois tipos diferentes de filtragem:

- Filtragem de colunas: pegue uma ou mais colunas de dados para examinar, como passar nomes de colunas para uma instru√ß√£o `SELECT` em SQL.
- Filtragem de linhas: olhando para um subconjunto de seus dados que corresponde a alguns crit√©rios, como os crit√©rios de uma instru√ß√£o `WHERE` em SQL. (Por exemplo, "Mostre-me todos os registros no meu dataframe em que o valor na coluna `TEAM` √© "ARI".)

#### Filtragem de colunas

Para acessar os valores em uma √∫nica coluna de dados, voc√™ pode usar "nota√ß√£o de ponto", desde que o nome da coluna n√£o tenha espa√ßos ou outros caracteres especiais:

In [5]:
df.TEAM

0      LAD
1      ARI
2      BOS
3      DET
4      DET
      ... 
863    BOS
864    CIN
865    LAA
866    CIN
867    CLE
Name: TEAM, Length: 868, dtype: object

Caso contr√°rio, use "nota√ß√£o de colchete" com o nome da coluna como uma sequ√™ncia.

Isso √© equivalente ao comando anterior:

In [None]:
df['TEAM']

Quando voc√™ acessa uma √∫nica coluna no seu dataframe, recebe de volta algo chamado um objeto `Series` (em oposi√ß√£o a um objeto `DataFrame`).

Um dos m√©todos que voc√™ pode chamar em uma s√©rie √© `unique()`, que mostra cada valor exclusivo na coluna. Vamos fazer isso com a coluna `TEAM`:

In [None]:
df.TEAM.unique()

O que acabamos de fazer √© o equivalente a arrastar a coluna "TEAM" para √°rea "linhas" de uma tabela din√¢mica de planilha ou, no SQL,

```sql
SELECT DISTINCT TEAM
FROM mlb
```

Voc√™ tamb√©m pode contar um total para cada valor usando o m√©todo `value_counts()`:

In [None]:
df.TEAM.value_counts()

Para colunas num√©ricas, voc√™ pode chamar m√©todos nessa Series para calcular estat√≠sticas b√°sicas resumidas:
- `min()` para obter o menor valor
- `max()` para obter o maior valor
- `median()` para obter a mediana
- `mean()` para obter a m√©dia
- `mode()` para obter o valor mais comum

Confira na coluna `SALARY`:

In [None]:
df.SALARY.min()

In [None]:
df.SALARY.max()

In [None]:
df.SALARY.median()

In [None]:
df.SALARY.mean()

In [None]:
df.SALARY.mode()

Para selecionar v√°rias colunas no seu dataframe, use a nota√ß√£o entre colchetes, mas transmita em uma _lista_ os nomes das colunas em vez de apenas uma. Para tornar as coisas mais claras, voc√™ pode dividir isso em duas etapas:

In [None]:
columns_we_care_about = ['TEAM', 'SALARY']
df[columns_we_care_about]

#### Filtragem de linhas

Para tornar as coisas extremamente confusas, voc√™ tamb√©m pode usar a nota√ß√£o de colchete para a filtragem de linhas. Exceto neste caso, em vez de soltar o nome de uma coluna (ou uma lista de nomes de colunas) entre colchetes, voc√™ entrega a ela uma _condi√ß√£o_ de algum tipo.

Vamos filtrar nossos dados para ver jogadores que ganham mais do que $1 milh√£o (em outras palavras, retorne linhas de dados em que o valor na coluna `SALARY` √© maior do que 1000000):

(The equivalent SQL statement would be:
```sql
SELECT *
FROM mlb
WHERE SALARY > 1000000
```
)

In [None]:
df[df.SALARY > 1000000]

Para muitos filtros, voc√™ usar√° os operadores de compara√ß√£o do Python:
- `>` maior do que
- `>=` maior do que ou igual a
- `<` menor do que
- `<=` menor do que ou igual a
- `==` igual a
- `!=` diferente de

#### V√°rias condi√ß√µes de filtro

E se voc√™ quiser usar v√°rias condi√ß√µes de filtragem? Existe uma maneira, mas geralmente faz mais sentido - e √© muito mais f√°cil para seus colegas e seu futuro pensar e depurar - _salvar_ os resultados de cada opera√ß√£o de filtragem atribuindo os resultados a uma nova vari√°vel e, em seguida, filtrar _isso_ de novo, ao inv√©s do dataframe original.

Por exemplo, se voc√™ quisesse ver jogadores do Colorado Rockies que ganham mais do que $1 milh√£o, voc√™ pode fazer algo como:

In [None]:
rockies = df[df.TEAM == 'COL']
rockies_over_1m = rockies[rockies.SALARY > 1000000]

In [None]:
rockies_over_1m

üëâ [Confira algumas outras opera√ß√µes de filtragem aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.filter.html).

### ‚úçÔ∏è Fa√ßa voc√™ mesmo

Nas c√©lulas abaixo, pratique a filtragem:
- Filtragem de colunas: selecione a coluna `NAME`
- Filtragem de colunas: selecione as colunas `NAME` e `TEAM` 
- Filtragem de linhas: filtre as linhas para retornar apenas jogadores que ganham na liga o m√≠nimo (535000)
- Filtragem de linhas: filtre as linhas para retornar somente os coletores (`C`) que ganham pelo menos 750000
- B√îNUS: Filtre as linhas para retornar apenas jogadores para o Chicago Cubs (`CHC`), use o encadeamento de m√©todos para ordenar os resultados de `SALARY` descendente

### Agrupe e agregue os dados

Os dataframes t√™m um m√©todo `groupby` para agrupar e agregar dados, semelhante ao que voc√™ pode fazer em uma tabela din√¢mica ou em uma instru√ß√£o `GROUP BY` no SQL. (Tamb√©m existe um m√©todo [`tabela din√¢mica`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html), que pode ser uma li√ß√£o de casa para voc√™ pesquisar.)

Digamos que quer√≠amos ver as 10 melhores equipes por folha de pagamento. Em outras palavras, queremos:
- Agrupe os dados pela coluna `TEAM`: `groupby()`
- Adicione os registros em cada grupo: `sum()`
- Ordene os resultados de `SALARY` de forma descendente: `sort_values()`
- Obtenha apenas os 10 primeiros resultados: `head(10)`

Chamando o m√©todo `groupby()` sem dizer o que fazer com os registros agrupados n√£o √© super √∫til:

In [None]:
df.groupby('TEAM')

Neste ponto, est√° basicamente nos dizendo que agrupou com sucesso os registros - e agora? Usando o encadeamento de m√©todos, descreva o que voc√™ gostaria de fazer com as colunas num√©ricas depois de agrupar os dados. Vamos come√ßar com `sum()`:

In [None]:
df.groupby('TEAM').sum()

Arrumado! Exceto pela soma de todas as colunas num√©ricas, n√£o apenas `SALARY`. Para lidar com isso, use o filtro de colunas para selecionar as duas colunas nas quais estamos interessados-- `TEAM` para agrupar e `SALARY` para somar -- e _ent√£o_ fa√ßa a ader√™ncia a instru√ß√£o `groupby` etc.

(Lembre-se: para selecionar colunas de um dataframe, use a nota√ß√£o entre colchetes e forne√ßa uma _lista_ dos nomes das colunas.)

In [None]:
df[['TEAM', 'SALARY']].groupby('TEAM').sum()

Bang bang. Agora, usando o encadeamento de m√©todos, vamos classificar por `SALARY` descendente e ver apenas os 10 principais:

In [None]:
df[['TEAM', 'SALARY']].groupby('TEAM').sum().sort_values('SALARY', ascending=False).head(10)

Voc√™ pode usar m√©todos de agrega√ß√£o diferentes de `sum()` -- `mean()` e `median()`, por exemplo -- ou voc√™ pode usar [o m√©todo `agg()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html) para especificar um ou mais m√©todos de agrega√ß√£o a serem aplicados.

In [None]:
df[['TEAM', 'SALARY']].groupby('TEAM').median()

In [None]:
df[['TEAM', 'SALARY']].groupby('TEAM').mean()

In [None]:
df[['TEAM', 'SALARY']].groupby('TEAM').agg(['sum', 'mean', 'median'])

### ‚úçÔ∏è Fa√ßa voc√™ mesmo

Nas c√©lulas abaixo, pratique o agrupamento de dados:
- Qual √© o sal√°rio m√©dio para cada cargo? Agrupe os dados por `POS` e agregue por `median()`, depois classifique por `SALARY` descendente
- Qual √© o sal√°rio m√©dio em cada equipe? Agrupe os dados por `TEAM` e agregue `sum()`, ent√£o ordene por `SALARY` descendente
- O qu√™ mais?

### Grave como CSV

Para exportar um dataframe para um arquivo de texto delimitado, use o m√©todo [`to_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html). Se voc√™ n√£o deseja incluir os n√∫meros de √≠ndice, especifique `index=False`.

In [None]:
df.to_csv('my-cool-data-frame.csv', index=False)