# Pandas e manipulação de arquivos tabulares

Tabelas são muito usadas para se organizar dados, seja na bioinfo ou em basicamente qualquer outro ramo do conhecimento. Logo, saber manipular tabelas (que muitas vezes podem ser encaradas como [bancos de dados relacionais](https://pt.wikipedia.org/wiki/Banco_de_dados_relacional)) é extremamente importante quando se trabalha com grandes quantidades de dados, como é o caso das ômicas.

Um módulo do python que fornece várias ferramentas para se trabalhar com tabelas (e outros tipos de dados) é o [Pandas](https://pandas.pydata.org/).

In [41]:
# Importando o Pandas
import pandas as pd

## Objeto DataFrame

O pandas consegue ler arquivos tabulares (.csv, .tsv, .xls, .xlsx, etc...) e os salva em uma estrutura de dados chamada [DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas.DataFrame). 

A imagem abaixo representa um dataframe:

[![Estrutura de um dataframe](imagens/pandas_dataframe.png)](https://www.geeksforgeeks.org/creating-a-pandas-dataframe/)

O dataframe é uma estrutura de dados bidimensional com dois eixos:

- O eixo das **linhas** (eixo 0)
- O eixo das **colunas** (eixo 1)

Cada um dos eixos é indexado, ou seja, possui um valor que identifica a coluna e a linha específica. Esse valor pode ser uma string ou número.

### Series, DataFrames e conversão de arquivos
Um dataframe na verdade é um conjunto de outra estrutura de dados, chamada [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html), que são basicamente colunas individuais. 

[![Series e dataframe](imagens/series_and_dataframe.png)](https://www.geeksforgeeks.org/creating-a-pandas-dataframe/)

Não nos aprofundaremos nisso aqui. Mas lembre-se que o Pandas é muito versátil e pode gerar series e dataframes a partir de vários inputs diferentes:

- Diretamente no python (usando dicionários, por exemplo)
- A partir de formatos tabulares típicos (csv, tsv, excel)
- A partir de arquivos JSON
- A partir de queries em um banco de dados SQL

Também é possível gerar arquivos tabulares dos mais diferentes formatos (csv, sql, json) a partir de um dataframe. Logo, o pandas pode ser usado para a conversão de arquivos.

Um tutorial bem completo sobre o Pandas pode ser encontrado no repositório [LearnDataSci/articles](https://github.com/LearnDataSci/articles), no qual essa aula é baseada.

### Criando DataFrame a partir de arquivo csv

Vamos ler uma tabela ([IMDB-Movie-Data.csv](https://github.com/gavieira/curso_programacao/blob/master/arquivos/IMDB-Movie-Data.csv), copiada do repositório [LearnDataSci/articles](https://github.com/LearnDataSci/articles)) e salvá-la em um dataframe usando o Pandas:

In [42]:
# Lendo tabela (e automaticamente salvando-a em dataframe)
imdb = pd.read_csv("arquivos/IMDB-Movie-Data.csv")

In [43]:
# Imprimindo o tipo de dado do objeto tabela
print(type(imdb))

<class 'pandas.core.frame.DataFrame'>


In [44]:
# Visualizando o dataframe
imdb

Unnamed: 0,Rank,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,1,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
1,2,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,3,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,4,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,5,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...,...,...,...,...
995,996,Secret in Their Eyes,"Crime,Drama,Mystery","A tight-knit team of rising investigators, alo...",Billy Ray,"Chiwetel Ejiofor, Nicole Kidman, Julia Roberts...",2015,111,6.2,27585,,45.0
996,997,Hostel: Part II,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
997,998,Step Up 2: The Streets,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0
998,999,Search Party,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0


Como podemos ver, a tabela contém uma série de informações sobre filmes.

Mas agora que temos um dataframe, o que podemos fazer com ele? Para ter uma idéia, vamos usar a função `dir()`:

In [45]:
print(dir(imdb))

['Actors', 'Description', 'Director', 'Genre', 'Metascore', 'Rank', 'Rating', 'T', 'Title', 'Votes', 'Year', '_AXIS_ALIASES', '_AXIS_IALIASES', '_AXIS_LEN', '_AXIS_NAMES', '_AXIS_NUMBERS', '_AXIS_ORDERS', '_AXIS_REVERSED', '__abs__', '__add__', '__and__', '__annotations__', '__array__', '__array_priority__', '__array_wrap__', '__bool__', '__class__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dict__', '__dir__', '__div__', '__doc__', '__eq__', '__finalize__', '__floordiv__', '__format__', '__ge__', '__getattr__', '__getattribute__', '__getitem__', '__getstate__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__imod__', '__imul__', '__init__', '__init_subclass__', '__invert__', '__ior__', '__ipow__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lt__', '__matmul__', '__mod__', '__module__', '__mul__', '__ne__', '__neg__', '__new__', '__nonzero__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__

<br>
Como podemos ver, há uma enorme quantidade de métodos para um objeto `DataFrame`. Iremos manipular esse dataframe e abordar algumas das funcionalidades mais importantes aqui.

## Localizando valores

Nossa tabela é bem grande (1000 linhas, 12 colunas), como podemos ver com o atributo `.shape`:

In [46]:
# O atributo shape nos dá o número de linhas e colunas, nessa ordem

imdb.shape

(1000, 12)

Para visualizar melhor nossos dados, vamos trabalhar com uma fração da nossa tabela. Para obter um dataframe menor, vamos usar o método `.head()`:

In [47]:
# Obtendo as primeiras 5 linhas do dataframe e salvando em outra variável
# Isso foi feito porque dataframes menores são mais fáceis de manipular e visualizar

imdb_subset = imdb.head()
imdb_subset

Unnamed: 0,Rank,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,1,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
1,2,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,3,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,4,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,5,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0


Para obter os nomes das colunas, podemos usar o atributo `.columns`:

In [48]:
imdb_subset.columns

Index(['Rank', 'Title', 'Genre', 'Description', 'Director', 'Actors', 'Year',
       'Runtime (Minutes)', 'Rating', 'Votes', 'Revenue (Millions)',
       'Metascore'],
      dtype='object')

Não estaremos interessados na coluna "Rank" nesse momento. Vamos removê-la usando o método `.drop()`:

In [49]:
imdb_subset.drop(columns=["Rank"], inplace=True)

# inplace=True significa que estamos modificando o dataframe original (imdb_subset). O padrão é retornar uma cópia do original.
# Ignore o warning. Ele só diz que estamos modificando um dataframe (imdb_subset) que é uma cópia de um slice de outro dataframe (imdb)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


In [50]:
# Dataframe sem a coluna "Rank"

imdb_subset

Unnamed: 0,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
1,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0


O método `.drop` permite remover tanto linhas quanto colunas, uma ou várias de uma vez.

In [51]:
# Removendo linhas

imdb_subset.drop([1, 3, 4]) # Não modifica o dataframe original, já que não tem inplace=True 

Unnamed: 0,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
2,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0


In [52]:
# Removendo colunas

imdb_subset.drop(columns=["Description", "Actors", "Votes", "Revenue (Millions)"])

Unnamed: 0,Title,Genre,Director,Year,Runtime (Minutes),Rating,Metascore
0,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",James Gunn,2014,121,8.1,76.0
1,Prometheus,"Adventure,Mystery,Sci-Fi",Ridley Scott,2012,124,7.0,65.0
2,Split,"Horror,Thriller",M. Night Shyamalan,2016,117,7.3,62.0
3,Sing,"Animation,Comedy,Family",Christophe Lourdelet,2016,108,7.2,59.0
4,Suicide Squad,"Action,Adventure,Fantasy",David Ayer,2016,123,6.2,40.0


Para obter colunas específicas do dataframe, podemos usar a notação com parênteses, muito similar ao *slicing* de uma lista:

In [53]:
# Obtendo uma coluna (series) - basta especificar o nome da coluna

print(imdb_subset['Title'])
print()
print(type(imdb_subset['Title']))

0    Guardians of the Galaxy
1                 Prometheus
2                      Split
3                       Sing
4              Suicide Squad
Name: Title, dtype: object

<class 'pandas.core.series.Series'>


In [54]:
# Obtendo duas colunas (dataframe) - lista com o nome das colunas de interesse

print(imdb_subset[['Title', 'Director']])
print()
print(type(imdb_subset[['Title', 'Director']]))

                     Title              Director
0  Guardians of the Galaxy            James Gunn
1               Prometheus          Ridley Scott
2                    Split    M. Night Shyamalan
3                     Sing  Christophe Lourdelet
4            Suicide Squad            David Ayer

<class 'pandas.core.frame.DataFrame'>


In [55]:
# Obtendo um range de colunas

imdb_subset["Title":"Director"] # Não funciona. Precisa de um método que veremos em breve.

TypeError: cannot do slice indexing on <class 'pandas.core.indexes.range.RangeIndex'> with these indexers [Title] of <class 'str'>

In [None]:
# Dá pra obter um range de linhas, entretanto

imdb_subset[:4] # Pega da primeira (0) à linha 4 (não inclusivo)

Perceba que o dataframe possui uma coluna extra (sem nome) à esquerda, que utilizamos para selecionar linhas específicas.

Os valores dessa coluna são os **rótulos dos índices** (*index labels*), que identificam as linhas da tabela (eixo 0). Por padrão, o dataframe usa valores numéricos para isso (em uma coluna de 1000 linhas, essa rotulação vai de 0 a 999).

Da mesma forma, os nomes das colunas são os rótulos do eixo 1.

In [None]:
# Obtendo os rótulos do eixo 0 (linhas)

imdb_subset.index

In [None]:
# Obtendo os rótulos do eixo 1 (colunas)

imdb_subset.columns

Por meio dos índices, nós conseguimos **selecionar** quaisquer valores do nosso dataframe. Para isso, podemos usar dois métodos distintos:

- **.loc** (**loc**alizar): Baseado no valor do rótulo (número ou string).
- **.iloc** (**loc**alizar com **i**nteger): Baseado exclusivamente no valor numérico (posicional) da linha ou coluna.

Ambos permitem obter fatias do dataframe com muita precisão, podendo receber um **valor**, **lista de valores** ou **range**. Vamos ver isso com mais calma:

### Método `.loc[]`

Usa o valor do rótulo para obter linhas e/ou colunas específicas de um dataframe.

In [None]:
# Usando loc para obter linha

imdb_subset.loc[0] # Repare no colchete em vez de parênteses

In [None]:
# Usando loc para obter multiplas linhas

imdb_subset.loc[[0,2,4]]

In [None]:
# Usando loc para obter um range de linhas

imdb_subset.loc[1:3] # Inclusivo - https://github.com/pandas-dev/pandas/issues/27059

In [None]:
# Usando loc para obter uma coluna

imdb_subset.loc[:,'Director'] # Pega todas as linhas (":"), mas apenas a coluna "Director"

In [None]:
# Usando loc para obter múltiplas colunas

imdb_subset.loc[:,['Director', 'Genre']]

In [None]:
# Usando loc para obter um range de colunas

imdb_subset.loc[:, 'Title':'Description']

In [None]:
# Usando loc para obter apenas as entradas com índex par para apenas algumas colunas:

imdb_subset.loc[2::2, "Title":"Year"]

Percebam que, com o `.loc`, nós não conseguimos selecionar o filme pelo seu nome, já que o índex corresponde a números. Mas podemos mudar o índice para a coluna "Title" usando o método `.set_index()`

In [None]:
# Colocando 'Title' como o índice e visualizando o dataframe

imdb_subset.reset_index(inplace=True) #Reseta o index - Permite executar essa célula múltiplas vezes
imdb_subset.set_index("Title", inplace=True) # Muda o index pra coluna "Title"
imdb_subset # Visualizar dataframe

Com isso, a coluna de números (0 a 4) previamente usada como Index é substituída pelos títulos dos filmes.

**OBS:** Idealmente, o Index não deve se repetir, para que possamos escolher exatamente a linha que nos interessa baseado no seu valor. Pode-se inclusive usar mais de uma coluna como Index ([MultiIndex](#MultiIndex)) para que cada linha tenha um identificador único. 

Agora, podemos usar `.loc` para obter linhas com base no título do filme em vez de um número:

In [None]:
# Obtendo os dados com .loc e o título do filme

imdb_subset.loc["Split"]

### Método `.iloc[]`

Extrai valores do dataframe com base na posição da coluna/linha. Essa posição é dada por um número inteiro (integer), que vai de 0 até a última coluna/linha.

Com `.iloc`, podemos escolher linhas/colunas com base na sua posição, não no valor do rótulo. Logo, podemos trabalhar com elas independentemente de qual coluna for utilizada como Index.

Trabalhando com linhas:

In [None]:
# Pegando a primeira linha

imdb_subset.iloc[0]

In [None]:
# Pegando a última linha

imdb_subset.iloc[-1]

In [None]:
# Pegando as 3 primeiras linhas da tabela

imdb_subset.iloc[:3]

In [None]:
# Pegando as 3 últimas linhas

imdb_subset.iloc[len(imdb_subset)-3:]

In [None]:
# Pegando 3 linhas do nosso interesse

imdb_subset.iloc[[0,3,4]]

Trabalhando com colunas:

In [None]:
# Pegando primeira coluna

imdb_subset.iloc[:, 0]

Perceba que a primeira coluna não é mais o título (Title), mas sim o ano (Year). Isso acontece porque agora o título é o índice do dataframe. 

Logo, o recomendado é que os valores que iremos manipular não façam parte do índice, muito embora haja maneiras de contornar isso.

In [None]:
# Pegando ultima coluna (Metascore)

imdb_subset.iloc[:, -1]

In [None]:
# Pegando ultimas três colunas

imdb_subset.iloc[:, len(imdb_subset.columns)-3:]

In [None]:
# Pegando 3 colunas do nosso interesse

imdb_subset.iloc[:, [0,3,4]]

Também podemos, claro, especificar linhas e colunas simultaneamente com o `.iloc`:

In [None]:
# Pegando os valores das colunas 0, 4 e 5 para as linhas 2 e 3: 

imdb_subset.iloc[[2,3], [0,4,5]]

### Método `.filter()`

O [método filter](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.filter.html) é usado para selecionar linhas/colunas com base nos rótulos dos eixos. Esse método faz uso de diferentes argumentos para essa seleção:

- items: recebe como argumento uma lista com o nome das linhas ou colunas de interesse
- regex: filtra baseado em uma [expressão regular](https://pt.wikipedia.org/wiki/Express%C3%A3o_regular)
- like: filtra baseado na ocorrência de uma subsrting

Esses parâmetros são **mutuamente exclusivos**.

In [None]:
# Selecionando duas linhas

imdb_subset.filter(items=['Split', 'Sing'], axis=0)

In [None]:
# Selecionando três colunas

imdb_subset.filter(items=['Director', 'Genre', 'Year'], axis=1)

In [None]:
# Selecionando filmes que comecem com 'S' usando regex

imdb_subset.filter(regex='^S', axis=0)

In [None]:
# Selecionando filmes que contenham a susbstring "of the" 

imdb_subset.filter(like="of the", axis=0)

Isso é tudo sobre localização de valores com base em índices. Em especial, `.loc` e `.iloc` são considerados dois dos métodos mais importantes do Pandas. Vamos agora resetar o Index para o padrão (coluna extra numérica):

In [None]:
imdb_subset.reset_index(inplace=True)
imdb_subset

## Filtrando dataframes com base na ocorrência de um ou mais valores

Uma das atividades mais comuns na manipulação de tabelas é a **limpeza** ou **filtragem de dados**.

Por exemplo, podemos manter uma linha do nosso dataframe se uma das suas colunas possuir um valor específico. O contrário (remover linhas) também é possível.

Para fazer isso, podemos usar operadores comparativos e/ou matemáticos em uma coluna (ou seja, em um objeto `Series`) e ver se os valores dessa coluna satisfazem a condição.

In [None]:
## Vendo se há valores da coluna 'Year' com valor igual a 2016

print(imdb_subset.Year == 2016)
print(type(imdb_subset.Year == 2016))

Como podemos ver, essa operação comparativa retorna um objeto Series com True e False.

Se passarmos esse objeto para o dataframe, vamos obter só as linhas nas quais a condição foi verdadeira.

In [None]:
# Obtendo somente as linhas do dataframe onde a coluna "Year" tem valor 2016

imdb_subset[imdb_subset.Year == 2016]

Há vários métodos que checam valores de uma coluna do dataframe linha por linha e retornam `True` ou `False`, podendo então ser usados para filtrar linhas. Dois dos mais comuns são:

- `.eq()` - verifica se o valor do dataframe é igual ao seu argumento
- `isin()` - recebe uma lista como argumento e checa se o valor do dataframe está presente dentro da lista

### Método `.eq()`

Equivalente a usar um operador `==`

In [None]:
# Pegando apenas um filme cuja coluna 'Title' corresponda ao valor desejado
# Todos os códigos produzem o mesmo resultado

imdb_subset[imdb_subset["Title"] == "Split"]
imdb_subset[imdb_subset["Title"].eq("Split")]
imdb_subset[imdb_subset.Title == "Split"]
imdb_subset[imdb_subset.Title.eq("Split")]

In [None]:
# Selecionando apenas filmes de 2016

imdb_subset[imdb_subset.Year.eq(2016)]

### Método `.isin()`

In [None]:
# Pegando apenas a linha que contêm filmes de interesse
# Usa o método .isin()

imdb_subset[imdb_subset.Title.isin(["Split", "Guardians of the Galaxy"])]

In [None]:
# Selecionando apenas filmes de 2012 ou 2014

imdb_subset[imdb_subset.Year.isin([2012, 2014])]

### Operador `~`

E se, em vez de selecionar alguns filmes, a gente quiser retirar filmes específicos da nossa seleção?

Nesse caso, o código é quase idêntico, mas deve-se colocar o [operador unário](https://pt.stackoverflow.com/questions/201507/o-que-%C3%A9-um-operadorun%C3%A1rio#:~:text=Operadores%20un%C3%A1rios%20%C3%A9%20uma%20%22instru%C3%A7%C3%A3o,termos%20(vari%C3%A1veis%2C%20etc).) `~` antes da condição, indicando que ela não deve aparecer no dataframe final (como se fosse um `not`).

In [None]:
# Removendo apenas um filme
# Todos os códigos produzem o mesmo resultado

imdb_subset[~(imdb_subset.Title == "Suicide Squad")]
imdb_subset[imdb_subset.Title != "Suicide Squad"] # Opção sem o '~'
imdb_subset[~imdb_subset.Title.eq("Suicide Squad")]

In [None]:
# Removendo alguns filmes da lista 
# Usa o método .isin()

imdb_subset[~imdb_subset.Title.isin(["Suicide Squad", "Prometheus"])]

## Filtrando com base em colunas numéricas (operadores `>` e `<`)

Podemos também filtrar com base em valores numéricos. Os operadores `>, <, >= e <=` são todos válidos aqui.

In [None]:
# Selecionando apenas filmes com menos de duas horas (120 min)

imdb_subset[imdb_subset["Runtime (Minutes)"] < 120]

In [None]:
# Selecionando filmes que arrecadaram mais de 200 milhões

imdb_subset[imdb_subset["Revenue (Millions)"] > 200]

## Filtrando com base em colunas com strings -  atributo `.str`

Quando o valor da coluna for do tipo string (texto), temos que usar o atributo `.str` para acessar os métodos de string do Pandas para as comparações (que são basicamente os mesmos métodos de uma string padrão).

In [None]:
print("Métodos de imdb_subset.Title:\n", dir(imdb_subset.Title))
print()
print("Métodos de imdb_subset.Title.str:\n", dir(imdb_subset.Title.str)) # Todos os métodos de strings passam a ser utilizáveis

In [None]:
# Selecionando filmes cujo título começa com "Guard"

imdb_subset[imdb_subset.Title.str.startswith("Guard")]

In [None]:
# Selecionando filmes cujo título termina com "ad"

imdb_subset[imdb_subset.Title.str.endswith("ad")]

In [None]:
# Selecionando filmes cuja descrição contenha a palavra "animals"

imdb_subset[imdb_subset.Description.str.contains("animals")]

O método `.contains()` é compatível com [expressões regulares](https://pt.wikipedia.org/wiki/Express%C3%A3o_regular).

Assim sendo, pode ser usado para checar a ocorrência de múltiplos padrões de uma vez só:

In [None]:
# Selecionando filmes cuja descrição contenha a palavra "animals", "mankind" ou "criminals"

imdb_subset[imdb_subset.Description.str.contains("animals|mankind|criminals")]

E também pode passar flags do módulo de regex para modificar o uso do método `.str.contains()`.

Podemos, por exemplo, ignorar a caixa alta com a opção `flags=re.IGNORECASE`:

In [None]:
# Selecionando filmes cuja descrição contenha a palavra "ANIMALS" (caixa alta) sem flag

imdb_subset[imdb_subset.Description.str.contains("ANIMALS")]

In [None]:
# Selecionando filmes cuja descrição contenha a palavra "ANIMALS" (caixa alta) com flag
import re

imdb_subset[imdb_subset.Description.str.contains("ANIMALS", flags=re.IGNORECASE)]

## Filtrando com múltiplas condições (operadores `&` e `|`)

Podemos estabelecer múltiplas condições para se filtrar um dataframe, usando dois operadores distintos:

- `&`: equivalente a `and`
- `|`: equivalente a `or`

In [None]:
# Selecionando filmes com Rating maior que 8 ou Metascore maior que 60

imdb_subset[imdb_subset.Rating > 8 | imdb_subset.Metascore > 60] # Isso vai dar erro

**OBS:** As condições **devem** estar contidas dentro de parênteses, pois `|` e `&` têm maior **precedência** que outros operadores como `==, !=, >, >=, <, <=`.

In [None]:
# Selecionando filmes com Rating maior que 8 ou Metascore maior que 6

imdb_subset[(imdb_subset.Rating > 8) | (imdb_subset.Metascore > 60)]

In [None]:
# Selecionando filmes com Rating entre 8 e 7

imdb_subset[(imdb_subset.Rating < 8) & (imdb_subset.Rating > 7)]

Outra forma de selecionar linhas entre dois limites numéricos é pelo uso do método `.between()`:

In [56]:
imdb_subset[imdb_subset.Rating.between(7,8,inclusive=False)]

Unnamed: 0,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
2,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0


## Método `.groupby()` e funções de agregação

Muitas vezes, precisamos agrupar os dados e obter informações sobre esses agrupamentos. Podemos agrupar os dados por qualquer coluna ou até mesmo por múltiplas colunas:

In [69]:
# Agrupando filmes por ano:

imdb_subset.groupby('Year')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f8efe79fa00>

Repare que o um objeto do tipo `DataFrameGroupBy` foi gerado. Vamos ver os métodos desse objeto:

In [70]:
print(dir(imdb_subset.groupby('Year')))

['Actors', 'Description', 'Director', 'Genre', 'Metascore', 'Rating', 'Title', 'Votes', 'Year', '__annotations__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattr__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_accessors', '_add_numeric_operations', '_agg_examples_doc', '_agg_see_also_doc', '_aggregate', '_aggregate_frame', '_aggregate_item_by_item', '_aggregate_multiple_funcs', '_apply_filter', '_apply_to_column_groupbys', '_apply_whitelist', '_assure_grouper', '_bool_agg', '_builtin_table', '_choose_path', '_concat_objects', '_constructor', '_cumcount_array', '_cython_agg_blocks', '_cython_agg_general', '_cython_table', '_cython_transform', '_define_paths', '_deprecations', '_dir_additi

O atributo `.groups` nos dá os grupos do nosso objeto `GroupBy`: 

In [147]:
imdb_subset.groupby('Year').groups

{2012: Int64Index([1], dtype='int64'),
 2014: Int64Index([0], dtype='int64'),
 2016: Int64Index([2, 3, 4], dtype='int64')}

Podemos obter um grupo por seu nome:

In [157]:
imdb_subset.groupby("Year").get_group(2016)

Unnamed: 0,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
2,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0


E podemos iterar por todos os grupos também:

In [155]:
for year, group in imdb_subset.groupby('Year'):
    print(year)
    print(group.Title)
    print(0)

2012
1    Prometheus
Name: Title, dtype: object
0
2014
0    Guardians of the Galaxy
Name: Title, dtype: object
0
2016
2            Split
3             Sing
4    Suicide Squad
Name: Title, dtype: object
0


Há vários métodos que nos permitem calcular várias informações sobre o agrupamento. Muitas dessas funções são chamadas de `funções de agregação`.

Segue abaixo um sumário dessas funções ([FONTE](https://cmdlinetips.com/2019/10/pandas-groupby-13-functions-to-aggregate/)):


-  mean(): Compute mean of groups
-  sum(): Compute sum of group values
-  size(): Compute group sizes
-  count(): Compute count of group
-  std(): Standard deviation of groups
-  var(): Compute variance of groups
-  sem(): Standard error of the mean of groups
-  describe(): Generates descriptive statistics
-  first(): Compute first of group values
-  last(): Compute last of group values
-  nth() : Take nth value, or a subset if n is a list
-  min(): Compute min of group values
-  max(): Compute max of group values


In [73]:
# Calculando o número de filmes por ano

imdb_subset.groupby("Year").count()

Unnamed: 0_level_0,Title,Genre,Description,Director,Actors,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2012,1,1,1,1,1,1,1,1,1,1
2014,1,1,1,1,1,1,1,1,1,1
2016,3,3,3,3,3,3,3,3,3,3


In [88]:
# Perceba que a função atua em todas as colunas do dataframe
# Podemos usar apenas uma ('Title', por ex.) para a contagem, evitando obter valores repetidos. A coluna não deve conter valores nulos

imdb_subset.groupby("Year")['Title'].count()

Year
2012    1
2014    1
2016    3
Name: Title, dtype: int64

In [89]:
# Alternativamente, podemos usar o método .size() para obter o número de linhas por grupo 

imdb_subset.groupby("Year").size()

Year
2012    1
2014    1
2016    3
dtype: int64

Esse tipo de manipulação de dados é ótimo para sumarizar dados de tabelas maiores. Podemos, por exemplo, fazer operações similares no dataframe original:

In [77]:
# Contando todos os filmes por ano

imdb.groupby("Year")['Title'].count()

Year
2006     44
2007     53
2008     52
2009     51
2010     60
2011     63
2012     64
2013     91
2014     98
2015    127
2016    297
Name: Title, dtype: int64

In [132]:
# Contando as médias dos Ratings e Metascores por ano:

imdb.groupby("Year")[["Rating", 'Metascore']].mean().round(3) # O método .round() arredonda pra 3 casas decimais

Unnamed: 0_level_0,Rating,Metascore
Year,Unnamed: 1_level_1,Unnamed: 2_level_1
2006,7.125,64.415
2007,7.134,64.5
2008,6.785,57.408
2009,6.961,57.122
2010,6.827,59.39
2011,6.838,61.724
2012,6.925,61.145
2013,6.812,58.535
2014,6.838,57.316
2015,6.602,57.041


In [133]:
# Somando o total arrecadado por todos os filmes de cada ano:

imdb.groupby("Year")[['Revenue (Millions)']].sum()

Unnamed: 0_level_0,Revenue (Millions)
Year,Unnamed: 1_level_1
2006,3624.46
2007,4306.23
2008,5053.22
2009,5292.26
2010,5989.65
2011,5431.96
2012,6910.29
2013,7666.72
2014,7997.4
2015,8854.12


E se, ao somar o total arrecadado, nós quisermos converter o valor em milhões para bilhões? Teríamos que dividir cada um dos valores por 1000, certo?

Para isso, podemos usar o método [`.apply()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html), que executa uma operação (normalmente uma [função lambda](https://medium.com/@otaviobn/entendendo-as-fun%C3%A7%C3%B5es-lambda-no-python-cbe3c5abb179)) em cada um dos elementos do dataframe ou series.

In [141]:
# Somando o total arrecadado por todos os filmes de cada ano:

imdb.groupby("Year")[['Revenue (Millions)']].sum().\
apply(lambda x: x / 1000 ).\
round(2).\
rename({'Revenue (Millions)':'Revenue (Billions)'}, axis=1) # Muda o nome da coluna

Unnamed: 0_level_0,Revenue (Billions)
Year,Unnamed: 1_level_1
2006,3.62
2007,4.31
2008,5.05
2009,5.29
2010,5.99
2011,5.43
2012,6.91
2013,7.67
2014,8.0
2015,8.85


Repare que o método `.groupby()` coloca os valores da(s) coluna(s) onde ela atua como rótulo das linhas. Para evitar isso, podemos usar o parâmetro `as_index=False`:

In [162]:
imdb_subset.groupby(["Year","Genre"]).head()

Unnamed: 0,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
1,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0


In [161]:
imdb_subset.groupby(["Year","Genre"], as_index=False).head()

Unnamed: 0,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
1,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0


### Aplicando nossas próprias funções - métodod `.agg()`

### Descartando valores com base em função - método `.filter()`

Olhar esses links pra continuar escrevendo:

https://www.geeksforgeeks.org/pandas-groupby/
https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
https://www.analyticsvidhya.com/blog/2020/03/groupby-pandas-aggregating-data-python/

***Preciso olhar isso com mais calma...***

O método `.agg()` pode ser usado para fazer o mesmo procedimento de forma mais simples: 

In [146]:
imdb.groupby("Year")[['Revenue (Millions)']].agg("sum")

Unnamed: 0_level_0,Revenue (Millions)
Year,Unnamed: 1_level_1
2006,3624.46
2007,4306.23
2008,5053.22
2009,5292.26
2010,5989.65
2011,5431.96
2012,6910.29
2013,7666.72
2014,7997.4
2015,8854.12


## MultiIndex 

Previamente, usamos o método `.set_index()` para mudar o index para uma coluna específica. Entretanto, muitas vezes é desejável se colocar múltiplas colunas como index (MultiIndex) para se agrupar os dados de forma conveniente e se aplicar funções de agregação nelas.

O método `.groupby()` é uma forma de se realizar essa tarefa, mas os mesmos resultados podem ser obtidos ao se utilizar MultiIndex.

Vamos usar múltiplas colunas como index:

In [60]:
# Dando uma olhada nas colunas do dataframe

imdb_subset.columns

Index(['Title', 'Genre', 'Description', 'Director', 'Actors', 'Year',
       'Runtime (Minutes)', 'Rating', 'Votes', 'Revenue (Millions)',
       'Metascore'],
      dtype='object')

In [61]:
# Selecionando colunas para um MultiIndex

imdb_subset.set_index(['Title', 'Genre', "Director", "Year"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Description,Actors,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Genre,Director,Year,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Guardians of the Galaxy,"Action,Adventure,Sci-Fi",James Gunn,2014,A group of intergalactic criminals are forced ...,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",121,8.1,757074,333.13,76.0
Prometheus,"Adventure,Mystery,Sci-Fi",Ridley Scott,2012,"Following clues to the origin of mankind, a te...","Noomi Rapace, Logan Marshall-Green, Michael Fa...",124,7.0,485820,126.46,65.0
Split,"Horror,Thriller",M. Night Shyamalan,2016,Three girls are kidnapped by a man with a diag...,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",117,7.3,157606,138.12,62.0
Sing,"Animation,Comedy,Family",Christophe Lourdelet,2016,"In a city of humanoid animals, a hustling thea...","Matthew McConaughey,Reese Witherspoon, Seth Ma...",108,7.2,60545,270.32,59.0
Suicide Squad,"Action,Adventure,Fantasy",David Ayer,2016,A secret government agency recruits some of th...,"Will Smith, Jared Leto, Margot Robbie, Viola D...",123,6.2,393727,325.02,40.0


## Valores nulos (NA/NaN)


sjklflksdajfklasdjfdalkj

## Modificando índices

Entretanto, basicamente qualquer valor pode servir de índice.

No caso da qualquer função que gera um dataframe aceita um parâmetro `index`, que recebe uma lista com os indices a serem utilizados.

In [None]:
imdb.iloc[0]

In [None]:
imdb = pd.read_csv("arquivos/IMDB-Movie-Data.csv", index_col=1)

In [None]:
imdb

In [None]:
imdb.iloc[456]

Repare que tanto loc quanto iloc usam **colchetes** em vez de **parênteses** em sua notação.

.loc[]

.iloc[]

Delete rows containing specific text in some column: 
- substring (contains) - turns NaN to false with na=false parameter: https://stackoverflow.com/questions/51182182/pandas-delete-row-if-cell-contains-specific-text 
- exact match (isin): https://stackoverflow.com/questions/28679930/how-to-drop-rows-from-pandas-data-frame-that-contains-a-particular-string-in-a-p

In [None]:
    # Printing all rows to check output
    #with pd.option_context('display.max_rows', None, 'display.max_columns', None): 
    #    print(clean_df[["sscinames", "sacc", "staxids", "sseqlen"]])


Where method

In [None]:
# 

imdb_subset.where(imdb_subset["Title"] ==  "Prometheus")