# Análise e manipulação de dados

Os arrays definidos pela biblioteca [NumPy](https://numpy.org/) fornecem funcionalidades essenciais para processamento numérico eficiente em Python. No entanto, estes foram desenhados para lidar com os tipos de conjuntos de dados limpos e bem organizados que são tipicamente usados no contexto de tarefas de computação numérica. No contexto da descoberta e extração de conhecimento de dados, é comum lidar com dados menos estruturados, heterogéneos e que podem ter valores em falta. As limitações dos arrays para a análise e manipulação deste tipo de dados tornam-se rapidamente evidentes. A biblioteca [pandas](https://pandas.pydata.org/) aborda essas limitações, fornecendo uma implementação eficiente de uma tabela de dados (`DataFrame`). As tabelas de dados são basicamente arrays multidimensionais associados a etiquetas para as linhas e colunas e capazes de lidar com tipos heterogéneos e valores em falta. Para além disso, a biblioteca *pandas* implementa várias operações sobre dados que são familiares para os utilizadores de bases de dados e folhas de cálculo. Como as estruturas de dados definidas pela biblioteca *pandas* são construídas em cima de arrays *NumPy*, estas operações são efetuadas de forma eficiente. Isto faz da biblioteca uma ferramenta importante para realizar as tarefas de manipulação de dados que ocupam grande parte do tempo de um cientista de dados.

In [None]:
import numpy as np
import pandas as pd

## Estruturas de dados

A um nível muito básico, as estruturas de dados definidas pela biblioteca *pandas* podem ser vistas como versões melhoradas de arrays *NumPy* nas quais as linhas e colunas são identificadas por etiquetas em vez de um índice baseado na posição. As três estruturas de dados fundamentais definidas pela biblioteca *pandas* são a série (`Series`), a tabela de dados (`DataFrame`) e o índice (`Index`). O índice é uma estrutura interessante por si só, que pode ser vista como um array imutável ou como um conjunto ordenado. No entanto, a sua relevancia deve-se ao seu uso no contexto das outras duas estruturas. Por isso, para simplificar, vamos focar nessas duas e olhar para o índice como algo semelhante a um array.

### Série (`Series`)

Uma série é um array unidimensional de dados indexados. 

Séries podem ser criadas de várias formas. Por exemplo, a partir de sequências (ex: listas ou arrays).

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1])
data

Uma série combina uma sequência de valores e uma sequência explícita de índices, que podem ser acedidas individualmente através dos atributos `values`e `index`, respetivamente. Os valores são guardados como um array *NumPy*, enquanto os índices são guardados num objeto do tipo `Index` (ou uma das suas subclasses).

In [None]:
data.values

In [None]:
data.index

Tal como nos arrays, é possível aceder aos dados de uma série usando o operador de indexação `[]`:

In [None]:
data[1]

In [None]:
data[1:3]

Até agora, uma série parece ser a mesma coisa que um array *NumPy* unidimensional. No entanto, existe uma diferença essencial: enquanto o array tem um índice inteiro definido implicitamente que é usado para aceder aos valores, a série tem um índice definido explicitamente que é associado aos valores. Esta definição explícita do índice confere capacidades adicionais à série. Por exemplo, o índice pode consistir em valores de qualquer tipo e não apenas inteiros.

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

Independentemente do tipo, o operador de indexação continua a funcionar da mesma forma.

In [None]:
data['b']

Os valores do índice nem sequer necessitam de ser contíguos ou sequenciais.

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 3, 7])
data

In [None]:
data[5]

Desta perspetiva, uma série pode ser vista como uma especialização de um dicionário. Em Python, um dicionário é uma estrutura que mapeia chaves arbitrárias num conjunto de valores arbitrários. Uma série é uma estrutura que mapeia chaves de um determinado tipo num conjunto de valores que também têm um tipo definido. Esta tipificação é importante pela mesma razão que no caso dos arrays *NumPy*: eficiência das operações realizadas sobre a estrutura.

In this way, you can think of a Pandas `Series` a bit like a specialization of a Python dictionary.
A dictionary is a structure that maps arbitrary keys to a set of arbitrary values, and a `Series` is a structure that maps typed keys to a set of typed values.
This typing is important: just as the type-specific compiled code behind a NumPy array makes it more efficient than a Python list for certain operations, the type information of a Pandas `Series` makes it more efficient than Python dictionaries for certain operations.

A analogia da série como um dicionário torna-se ainda mais clara ao construir uma série diretamente a partir de um dicionário:

In [None]:
population_dict = {
    'California': 39538223,
    'Texas': 29145505,
    'Florida': 21538187,
    'New York': 20201249,
    'Pennsylvania': 13002700
}

population = pd.Series(population_dict)
population

Neste caso, o índice é construído a partir do conjunto de chaves do dicionário. O acesso ao valor associado a um índice/chave é feito da mesma forma que num dicionário:  

In [None]:
population['California']

No entanto, ao contrário de um dicionário, uma série também permite obter todos os valores entre dois índices:

In [None]:
population['California':'Florida']

**Nota**: Ao criar uma série a partir de um dicionário, é possível explicitar a ordem e/ou um subconjunto de chaves a usar:

In [None]:
pd.Series({2: 'a', 1: 'b', 3: 'c'}, index=[1, 2])

**Nota**: Também é possível criar uma série com um valor constante para todos os índices: 

In [None]:
pd.Series(5, index=['John', 'Jane', 'Mary'])

### Tabela de dados (`DataFrame`)

Uma tabela de dados é uma sequência de séries que partilham o mesmo índice. Tal como uma série, uma tabela de dados pode ser vista como uma generalização de um array *NumPy* ou como uma especialização de um dicionário. Para exemplificar a criação de uma tabela de dados, vamos começar por criar uma série com as áreas dos estados dos EUA para combinar com a série da população desses estados que criamos anteriormente: 

In [None]:
area_dict = {
    'California': 423967,
    'Texas': 695662,
    'Florida': 170312,
    'New York': 141297,
    'Pennsylvania': 119280
}

area = pd.Series(area_dict)
area

Para criar a tabela de dados, podemos usar um dicionário que associa uma etiqueta a cada uma das séries:

In [None]:
states = pd.DataFrame({'population': population, 'area': area})
states

Tal como uma série, uma tabela de dados tem um atributo `index` que permite aceder ao índice:

In [None]:
states.index

Para além disso, uma tabela de dados tem um atributo `columns` que permite aceder a um índice com as etiquetas das colunas:

In [None]:
states.columns

Logo, uma tabela de dados pode ser vista como uma generalização de um array bidimensional em que quer as linhas, quer as colunas têm um índice explícito que pode ser usado para aceder aos dados. Para além disso, uma tabela de dados também pode ser vista como uma especialização de um dicionário em que as etiquetas das colunas são mapeadas nas séries de dados correspondentes.

In [None]:
states['area']

Para além de um dicionário que associa uma etiqueta a cada uma das séries, podemos criar tabelas de dados de outras formas. Por exemplo, a partir de uma única série:

In [None]:
pd.DataFrame(population, columns=['population'])

Também é possível criar uma tabela de dados a partir de um array bidimensional:

In [None]:
pd.DataFrame(np.random.rand(3, 2), columns=['foo', 'bar'], index=['a', 'b', 'c'])

**Nota**: Neste caso, se um dos ou ambos os índices não forem explicitados, são usados os índices inteiros do array.

In [None]:
pd.DataFrame(np.random.rand(3, 2))

Outra opção é criar uma tabela de dados a partir de uma lista de dicionários em que cada um deles representa uma entrada (linha) na tabela:

In [None]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

**Nota**: Ao criar uma tabela de dados, se os índices das séries ou as chaves das entradas não coincidirem, então a tabela vai ter valores em falta, representados por `NaN`.   

In [None]:
s1 = pd.Series(np.random.rand(3), index=['a', 'b', 'c'])
s2 = pd.Series(np.random.rand(3), index=['a', 'd', 'c'])

pd.DataFrame({'s1': s1, 's2': s2})

In [None]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

## Operações sobre tabelas de dados

A biblioteca *pandas* oferece uma vasta gama de métodos e operações para análise e manipulação de dados a vários níveis. Grande parte do conhecimento sobre essas funcionalidades vai sendo adquirido com a prática e a experiência de lidar os problemas colocados por diferentes conjuntos de dados. Não se espera que alguém domine todas as funcionalidades e é comum consultar a [documentação da biblioteca](https://pandas.pydata.org/docs/index.html) para resolver problemas específicos. No entanto, inicialmente, é importante adquirir uma noção de como usar as operações básicas de transformação de dados e análise estatística, de forma a conseguir dar os primeiros passos na análise e manipulação de conjuntos de dados. 

Como exemplo, vamos olhar para um conjunto de dados com informação sobre filmes extraída da [IMDb](https://www.imdb.com/):

In [229]:
import os

data_path = '../data/' if os.path.exists('../data/') else 'https://raw.githubusercontent.com/TheAwesomeGe/DECD/main/data/'

movies_df = pd.read_csv(data_path + 'IMDB-Movie-Data.csv', index_col='Title')

Neste caso, usamos o método `read_csv` para carregar o dataset de um ficheiro CSV e usar os títulos dos filmes como índice.

**Nota**: A biblioteca *pandas* define métodos para carregar datasets em vários formatos, como por exemplo a partir de uma folha de Excel (`read_excel`).  

### Visualizar os dados

A primeira coisa a fazer ao abrir um novo conjunto de dados é olhar para os nomes das colunas e para algumas entradas para ter uma ideia do tipo de informação que é fornecida pelo conjunto de dados.

A representação predefinida do tipo `DataFrame` mostra as 5 primeiras e as 5 últimas entradas do conjunto de dados:

In [230]:
movies_df

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...,...,...,...
Secret in Their Eyes,996,"Crime,Drama,Mystery","A tight-knit team of rising investigators, alo...",Billy Ray,"Chiwetel Ejiofor, Nicole Kidman, Julia Roberts...",2015,111,6.2,27585,,45.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0
Search Party,999,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0


Alternativamente, podemos usar os métodos `head` e `tail` para ver as primeiras ou últimas *n* entradas.

In [231]:
movies_df.head(3)

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0


**Nota**: Se não for explicitado o número de entradas a mostrar, estes métodos mostram 5 entradas.

In [232]:
movies_df.tail()

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Secret in Their Eyes,996,"Crime,Drama,Mystery","A tight-knit team of rising investigators, alo...",Billy Ray,"Chiwetel Ejiofor, Nicole Kidman, Julia Roberts...",2015,111,6.2,27585,,45.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0
Search Party,999,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0
Nine Lives,1000,"Comedy,Family,Fantasy",A stuffy businessman finds himself trapped ins...,Barry Sonnenfeld,"Kevin Spacey, Jennifer Garner, Robbie Amell,Ch...",2016,87,5.3,12435,19.64,11.0


### Obter informação sobre os dados

O método `info` fornece os detalhes essenciais sobre um conjunto de dados, como o número de linhas e colunas, o número de valores não nulos, o tipo de dados em cada coluna e a quantidade de memória ocupada:

In [233]:
movies_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1000 entries, Guardians of the Galaxy to Nine Lives
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Rank                1000 non-null   int64  
 1   Genre               1000 non-null   object 
 2   Description         1000 non-null   object 
 3   Director            1000 non-null   object 
 4   Actors              1000 non-null   object 
 5   Year                1000 non-null   int64  
 6   Runtime (Minutes)   1000 non-null   int64  
 7   Rating              1000 non-null   float64
 8   Votes               1000 non-null   int64  
 9   Revenue (Millions)  872 non-null    float64
 10  Metascore           936 non-null    float64
dtypes: float64(3), int64(4), object(4)
memory usage: 93.8+ KB


Neste caso, facilmente conseguimos perceber que as colunas `Revenue (Millions)` e `Metascore` têm valores em falta.

Conseguir saber os tipos de cada coluna rapidamente é muito útil. Por exemplo, permite perceber se alguns dados foram carregados com o tipo errado (ex: inteiros como cadeias de caracteres).

O atributo `shape` também pode ser usado para descobrir rapidamente o número de entradas e atributos de um conjunto de dados:

In [234]:
movies_df.shape

(1000, 11)

### Limpeza de colunas

Muitas vezes, os conjuntos de dados contêm colunas que não são úteis no contexto do problema que está a ser abordado. Para além disso, é normal as colunas terem nomes verbosos, com símbolos, capitalização variável, espaços, erros, etc.

Para simplificar a análise dos dados e o processo de seleção baseado nos nomes das colunas, podemos fazer alguma limpeza.

Como vimos anteriormente, podemos aceder ao índice com os nomes das colunas de uma tabela de dados usando o atributo `columns`:

In [235]:
movies_df.columns

Index(['Rank', 'Genre', 'Description', 'Director', 'Actors', 'Year',
       'Runtime (Minutes)', 'Rating', 'Votes', 'Revenue (Millions)',
       'Metascore'],
      dtype='object')

Este atributo é útil quando queremos renomear ou descartar colunas, pois permite copiar e colar os nomes das colunas em que estamos interessados. Para além disso, também é útil para perceber porque é que obtivemos um `KeyError` ao tentar selecionar alguns dados com base no nome de uma coluna.

In [236]:
movies_df['Revenue']

KeyError: 'Revenue'

É prática comum renomear as colunas para que os nomes sejam em minúsculas, não contenham caracteres especiais e os espaços sejam substituídos por *underscore*. 

Podemos usar o método `rename` para renomear algumas ou todas as colunas usando um dicionário. Vamos usar essa abordagem para remover os parênteses dos nomes das colunas:

In [237]:
movies_df.rename(columns={
    'Runtime (Minutes)': 'Runtime', 
    'Revenue (Millions)': 'Revenue_millions'
}, inplace=True)

movies_df.columns

Index(['Rank', 'Genre', 'Description', 'Director', 'Actors', 'Year', 'Runtime',
       'Rating', 'Votes', 'Revenue_millions', 'Metascore'],
      dtype='object')

**Nota**: O argumento `inplace` serve para definir se queremos alterar diretamente a tabela de dados ou obter uma nova tabela com o resultado da aplicação da operação. O comportamento predefinido é não alterar a tabela original.

Também podemos atribuir diretamente uma nova lista de etiquetas ao atributo `columns`:

In [238]:
movies_df.columns = [
    'rank', 'genre', 'description', 
    'director', 'actors', 'year', 
    'runtime', 'rating', 'votes', 
    'revenue_millions', 'metascore'
]
movies_df.columns

Index(['rank', 'genre', 'description', 'director', 'actors', 'year', 'runtime',
       'rating', 'votes', 'revenue_millions', 'metascore'],
      dtype='object')

**Nota**: Há uma maneira mais rápida de mudar todos os nomes para minúsculas: 

In [239]:
movies_df.columns = [c.lower() for c in movies_df.columns]
movies_df.columns

Index(['rank', 'genre', 'description', 'director', 'actors', 'year', 'runtime',
       'rating', 'votes', 'revenue_millions', 'metascore'],
      dtype='object')

Compreensões de lista (e dicionário) são muito úteis em conjunto com as operações da biblioteca *pandas* e ao trabalhar com dados no geral.

Para selecionar o conjunto de colunas que nos interessa, podemos usar o operador de indexação `[]` com uma lista dos nomes das colunas que queremos:

In [240]:
selected_df = movies_df[['genre', 'director', 'year', 'runtime', 'rating', 'votes', 'revenue_millions', 'metascore']]
selected_df.columns

Index(['genre', 'director', 'year', 'runtime', 'rating', 'votes',
       'revenue_millions', 'metascore'],
      dtype='object')

In [241]:
selected_df.head(3)

Unnamed: 0_level_0,genre,director,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Guardians of the Galaxy,"Action,Adventure,Sci-Fi",James Gunn,2014,121,8.1,757074,333.13,76.0
Prometheus,"Adventure,Mystery,Sci-Fi",Ridley Scott,2012,124,7.0,485820,126.46,65.0
Split,"Horror,Thriller",M. Night Shyamalan,2016,117,7.3,157606,138.12,62.0


Alternativamente, podemos descartar as colunas que não nos interessam usando o método `drop`:

In [245]:
movies_df.drop(columns=['rank', 'description', 'actors'], inplace=True)

In [247]:
movies_df.head(3)

Unnamed: 0_level_0,genre,director,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Guardians of the Galaxy,"Action,Adventure,Sci-Fi",James Gunn,2014,121,8.1,757074,333.13,76.0
Prometheus,"Adventure,Mystery,Sci-Fi",Ridley Scott,2012,124,7.0,485820,126.46,65.0
Split,"Horror,Thriller",M. Night Shyamalan,2016,117,7.3,157606,138.12,62.0


### Valores em falta

Ao explorar um conjunto de dados, é possível encontrar valores em falta ou nulos. As representações mais comuns para estes valores desconhecidos ou não existententes são `None` ou `numpy.NaN`.

As abordagens mais comuns para lidar com valores em falta são:

1. Apagar as linhas ou colunas com valores em falta
2. Prencher os valores em falta com valores obtidos usando uma técnica chamada imputação

Para calcular o número de valores em falta num conjunto de dados, podemos começar por verificar quais as células da tabela de dados que têm uma das representações para valores desconhecidos. Para isso, podemos usar o método `isnull`:

In [248]:
movies_df.isnull()

Unnamed: 0_level_0,genre,director,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Guardians of the Galaxy,False,False,False,False,False,False,False,False
Prometheus,False,False,False,False,False,False,False,False
Split,False,False,False,False,False,False,False,False
Sing,False,False,False,False,False,False,False,False
Suicide Squad,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
Secret in Their Eyes,False,False,False,False,False,False,True,False
Hostel: Part II,False,False,False,False,False,False,False,False
Step Up 2: The Streets,False,False,False,False,False,False,False,False
Search Party,False,False,False,False,False,False,True,False


Este método devolve uma tabela de dados em que cada célula tem um valor booleano que indica se o valor está em falta. Por si só isto não é muito útil. No entanto, podemos usar uma função de agregação, neste caso a soma (`sum`), para obter um resultado mais interessante:

In [249]:
movies_df.isnull().sum()

genre                 0
director              0
year                  0
runtime               0
rating                0
votes                 0
revenue_millions    128
metascore            64
dtype: int64

Assim podemos concluir que existem **128** valores em falta na coluna `revenue_millions` e **64** valores em falta na coluna `metascore`.

#### Remoção de valores em falta

Cientistas e analistas de dados são regularmente confrontados com o dilema de descartar ou imputar valores em falta. Esta é uma decisão que requer conhecimento dos dados e do contexto em que eles são utilizados. No entanto, normalmente, só é recomendada a remoção das entradas com valores em falta quando estas representam uma porção insignificante do conjunto de dados total. Pelo contrário, só é recomendada a remoção de atributos com valores em falta quando estes estão em maioria. 

O método `dropna` pode ser usado para descartar valores em falta de uma tabela de dados. O comportamento predefinido é apagar todas as **entradas** que têm pelo menos um valor em falta:

In [250]:
movies_df.dropna()

Unnamed: 0_level_0,genre,director,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Guardians of the Galaxy,"Action,Adventure,Sci-Fi",James Gunn,2014,121,8.1,757074,333.13,76.0
Prometheus,"Adventure,Mystery,Sci-Fi",Ridley Scott,2012,124,7.0,485820,126.46,65.0
Split,"Horror,Thriller",M. Night Shyamalan,2016,117,7.3,157606,138.12,62.0
Sing,"Animation,Comedy,Family",Christophe Lourdelet,2016,108,7.2,60545,270.32,59.0
Suicide Squad,"Action,Adventure,Fantasy",David Ayer,2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...
Resident Evil: Afterlife,"Action,Adventure,Horror",Paul W.S. Anderson,2010,97,5.9,140900,60.13,37.0
Project X,Comedy,Nima Nourizadeh,2012,88,6.7,164088,54.72,48.0
Hostel: Part II,Horror,Eli Roth,2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,"Drama,Music,Romance",Jon M. Chu,2008,98,6.2,70699,58.01,50.0


No caso deste conjunto de dados, seriam removidas `1000 - 838 = 162` entradas ao aplicar esta operação. Isto é um desperdício, uma vez que existem dados que podem ser importantes nas outras colunas dessas entradas.

Para descartar atributos com valores em falta podemos usar o método `dropna` com o argumento `axis='columns'` ou `axis=1`:

In [253]:
movies_df.dropna(axis='columns')

Unnamed: 0_level_0,genre,director,year,runtime,rating,votes
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Guardians of the Galaxy,"Action,Adventure,Sci-Fi",James Gunn,2014,121,8.1,757074
Prometheus,"Adventure,Mystery,Sci-Fi",Ridley Scott,2012,124,7.0,485820
Split,"Horror,Thriller",M. Night Shyamalan,2016,117,7.3,157606
Sing,"Animation,Comedy,Family",Christophe Lourdelet,2016,108,7.2,60545
Suicide Squad,"Action,Adventure,Fantasy",David Ayer,2016,123,6.2,393727
...,...,...,...,...,...,...
Secret in Their Eyes,"Crime,Drama,Mystery",Billy Ray,2015,111,6.2,27585
Hostel: Part II,Horror,Eli Roth,2007,94,5.5,73152
Step Up 2: The Streets,"Drama,Music,Romance",Jon M. Chu,2008,98,6.2,70699
Search Party,"Adventure,Comedy",Scot Armstrong,2014,93,5.6,4881


Neste caso, são mantidas as 1000 entradas, mas as colunas `revenue_millions` e `metascore` são removidas.


#### Imputação

Imputação (o processo de substituir valores em falta por valores representativos) é uma técnica convencional de engenharia de atributos usada para evitar descartar entradas com valores em falta. Na prática, consiste em substituir os valores em falta por valores representativos, como por exemplo a média ou a mediana do atributo no conjunto de dados.

Como exemplo, vamos usar esta estratégia para lidar com os valores em falta na coluna `revenue_millions`:

In [254]:
revenue = movies_df['revenue_millions']
revenue_mean = revenue.mean()
revenue_mean

82.95637614678898

Agora que já temos a média, podemos usar o método `fillna` para preencher os valores em falta com esse valor:

In [256]:
revenue.fillna(revenue_mean, inplace=True)

**Nota**: O método foi chamado sobre a série `revenue` pois só queremos preencher os valores em falta para esse atributo e não todos os valores em falta na tabela de dados.

In [257]:
movies_df.isnull().sum()

genre                0
director             0
year                 0
runtime              0
rating               0
votes                0
revenue_millions     0
metascore           64
dtype: int64

**Nota**: Imputar uma todos os valores em falta de uma coluna com o mesmo valor é um exemplo básico da aplicação técnica. Uma ideia melhor seria usar uma imputação mais granular. Por exemplo, podiamos calcular a média para cada género de filme ou para cada realizador e usar esses valores para preencher os valores em falta em entradas com as mesmas características.

### Análise de atributos

O método `describe` pode ser usado para obter um resumo da distribuição dos atributos contínuos de uma tabela de dados:

In [260]:
movies_df.describe()

Unnamed: 0,year,runtime,rating,votes,revenue_millions,metascore
count,1000.0,1000.0,1000.0,1000.0,1000.0,936.0
mean,2012.783,113.172,6.7232,169808.3,82.956376,58.985043
std,3.205962,18.810908,0.945429,188762.6,96.412043,17.194757
min,2006.0,66.0,1.9,61.0,0.0,11.0
25%,2010.0,100.0,6.2,36309.0,17.4425,47.0
50%,2014.0,111.0,6.8,110799.0,60.375,59.5
75%,2016.0,123.0,7.4,239909.8,99.1775,72.0
max,2016.0,191.0,9.0,1791916.0,936.63,100.0


O método `describe` também pode ser aplicado sobre uma série. Se essa série representar um atributo categórico, a informação obtida consiste no número de entradas, número de valores diferentes, qual o valor mais comum e a frequência desse valor:

In [262]:
movies_df['genre'].describe()

count                        1000
unique                        207
top       Action,Adventure,Sci-Fi
freq                           50
Name: genre, dtype: object

Isto diz-nos que a coluna `genre` tem 207 valores diferentes, sendo o mais comum `Action/Adventure/Sci-Fi`, que aparece 50 vezes.

O método `value_counts` pode ser usado para obter a frequência dos valores numa coluna:

In [266]:
movies_df['genre'].value_counts().head(10)

genre
Action,Adventure,Sci-Fi       50
Drama                         48
Comedy,Drama,Romance          35
Comedy                        32
Drama,Romance                 31
Animation,Adventure,Comedy    27
Action,Adventure,Fantasy      27
Comedy,Drama                  27
Comedy,Romance                26
Crime,Drama,Thriller          24
Name: count, dtype: int64

O método `corr` pode ser usado para analisar a correlação entre cada par de atributos contínuos no conjunto de dados:

In [267]:
movies_df.corr(numeric_only=True)

Unnamed: 0,year,runtime,rating,votes,revenue_millions,metascore
year,1.0,-0.1649,-0.211219,-0.411904,-0.117562,-0.079305
runtime,-0.1649,1.0,0.392214,0.407062,0.247834,0.211978
rating,-0.211219,0.392214,1.0,0.511537,0.189527,0.631897
votes,-0.411904,0.407062,0.511537,1.0,0.607941,0.325684
revenue_millions,-0.117562,0.247834,0.189527,0.607941,1.0,0.133328
metascore,-0.079305,0.211978,0.631897,0.325684,0.133328,1.0


Números positivos indicam uma correlação positiva (quando um aumenta, o outro também aumenta) e números negativos indicam uma correlação inversa (quando um aumenta, o outro decresce). O valor 1.0 indica uma correlação perfeita.

Olhando para a tabela de correlações, podemos, por exemplo, ver que cada variável tem uma correlação perfeita consigo própria. No entanto, esta informação é óbvia e, por isso, pouco interessante. Por outro lado, uma correlação de 0.6 entre as variáveis `votes` e `revenue_millions` é uma observação mais interessante. 

Analisar tabelas de correlação entre atributos é útil, por exemplo, para identificar quais os atributos mais relacionados com um outro atributo de interesse. Entre outras coisas, esta informação pode depois ser usada para fazer uma seleção de atributos para reduzir a dimensionalidade.

### Seleção de dados

Já vimos anteriormente que podemos selecionar dados com base no nome das colunas/atributos. Se usarmos o operador de indexação `[]` com o nome duma coluna, obtemos a série corresponde. Se usarmos uma lista, obtemos uma tabela de dados com as colunas incluídas na lista.

In [268]:
genre_col = movies_df['genre']
type(genre_col)

pandas.core.series.Series

In [269]:
genre_col = movies_df[['genre']]
type(genre_col)

pandas.core.frame.DataFrame

Também é possível selecionar linhas/entradas específicas. Para isso existem dois métodos:

- `loc` - seleciona por nome (valor do índice)
- `iloc`- seleciona por posição numérica no índice

O nosso conjunto de dados está indexado pelo título dos filmes. Por isso, podemos usar o método `loc` para obter a entrada correspondente ao filme com um determinado título:

In [276]:
movies_df.loc['Prometheus']

genre               Adventure,Mystery,Sci-Fi
director                        Ridley Scott
year                                    2012
runtime                                  124
rating                                   7.0
votes                                 485820
revenue_millions                      126.46
metascore                               65.0
Name: Prometheus, dtype: object

Podemos obter a mesma entrada usando o método `iloc` com a posição do filme no índice:

In [277]:
movies_df.iloc[1]

genre               Adventure,Mystery,Sci-Fi
director                        Ridley Scott
year                                    2012
runtime                                  124
rating                                   7.0
votes                                 485820
revenue_millions                      126.46
metascore                               65.0
Name: Prometheus, dtype: object

Estes métodos também podem ser usados para obter uma sequência de entradas contíguas da mesma forma que numa lista ou array *NumPy*:

In [274]:
movies_df.iloc[1:4]

Unnamed: 0_level_0,genre,director,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Prometheus,"Adventure,Mystery,Sci-Fi",Ridley Scott,2012,124,7.0,485820,126.46,65.0
Split,"Horror,Thriller",M. Night Shyamalan,2016,117,7.3,157606,138.12,62.0
Sing,"Animation,Comedy,Family",Christophe Lourdelet,2016,108,7.2,60545,270.32,59.0


In [278]:
movies_df.loc['Prometheus':'Sing']

Unnamed: 0_level_0,genre,director,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Prometheus,"Adventure,Mystery,Sci-Fi",Ridley Scott,2012,124,7.0,485820,126.46,65.0
Split,"Horror,Thriller",M. Night Shyamalan,2016,117,7.3,157606,138.12,62.0
Sing,"Animation,Comedy,Family",Christophe Lourdelet,2016,108,7.2,60545,270.32,59.0


**Nota**: Uma distinção importante entre os dois métodos quando são usados para obter múltiplas entradas é que num deles o intervalo é aberto à direita e no outro é fechado. No caso do método `iloc`, o intervalo é aberto à direita, tal como na indexação de listas e arrays. Por isso, o filme na posição 4 não foi selecionado. No caso do método `loc`, o intervalo é fechado. Por isso, o filme Sing foi selecionado.

É importante saber selecionar atributos ou entradas específicas, mas mais interessante que isso é conseguir selecionar dados que satisfazem uma determinada condição. Por exemplo, filmes realizados pelo Ridley Scott ou filmes com uma cotação igual ou superior a 8.0.

Para fazer seleções deste tipo, podemos aplicar condições booleanas sobre as colunas de uma tabela de dados:

In [283]:
rs_movies = movies_df['director'] == 'Ridley Scott'
rs_movies.head()

Title
Guardians of the Galaxy    False
Prometheus                  True
Split                      False
Sing                       False
Suicide Squad              False
Name: director, dtype: bool

O resultado da aplicação duma condição deste tipo é semelhante ao obtido quando aplicamos o método `isnull`. Neste caso temos uma série de valores booleanos que indicam se o Ridley Scott é o realizador de cada um dos filmes. 

Podemos usar métodos de agregação sobre este resultado para descobrir, por exemplo, quantos dos filmes foram realizados pelo Ridley Scott:

In [287]:
rs_movies.sum()

8

Mas o nosso objectivo era obter as entradas correspondentes aos filmes realizados pelo Ridley Scott...

Para isso, temos de usar a condição (ou o resultado dela) com o operador de indexação sobre a tabela de dados:

In [289]:
movies_df[rs_movies].head()

Unnamed: 0_level_0,genre,director,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Prometheus,"Adventure,Mystery,Sci-Fi",Ridley Scott,2012,124,7.0,485820,126.46,65.0
The Martian,"Adventure,Drama,Sci-Fi",Ridley Scott,2015,144,8.0,556097,228.43,80.0
Robin Hood,"Action,Adventure,Drama",Ridley Scott,2010,140,6.7,221117,105.22,53.0
American Gangster,"Biography,Crime,Drama",Ridley Scott,2007,157,7.8,337835,130.13,76.0
Exodus: Gods and Kings,"Action,Adventure,Drama",Ridley Scott,2014,150,6.0,137299,65.01,52.0


In [290]:
movies_df[movies_df['director'] == 'Ridley Scott'].head()

Unnamed: 0_level_0,genre,director,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Prometheus,"Adventure,Mystery,Sci-Fi",Ridley Scott,2012,124,7.0,485820,126.46,65.0
The Martian,"Adventure,Drama,Sci-Fi",Ridley Scott,2015,144,8.0,556097,228.43,80.0
Robin Hood,"Action,Adventure,Drama",Ridley Scott,2010,140,6.7,221117,105.22,53.0
American Gangster,"Biography,Crime,Drama",Ridley Scott,2007,157,7.8,337835,130.13,76.0
Exodus: Gods and Kings,"Action,Adventure,Drama",Ridley Scott,2014,150,6.0,137299,65.01,52.0


Para quem está habituado a trabalhar com bases de dados SQL, pode ajudar interpretar este tipo de seleção como:

> select * from movies_df where director = Ridley Scott

As condições também podem ser aplicadas sobre atributos numéricos:

In [292]:
movies_df[movies_df['rating'] >= 8.6].head()

Unnamed: 0_level_0,genre,director,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Interstellar,"Adventure,Drama,Sci-Fi",Christopher Nolan,2014,169,8.6,1047747,187.99,74.0
The Dark Knight,"Action,Crime,Drama",Christopher Nolan,2008,152,9.0,1791916,533.32,82.0
Inception,"Action,Adventure,Sci-Fi",Christopher Nolan,2010,148,8.8,1583625,292.57,74.0
Kimi no na wa,"Animation,Drama,Fantasy",Makoto Shinkai,2016,106,8.6,34110,4.68,79.0
Dangal,"Action,Biography,Drama",Nitesh Tiwari,2016,161,8.8,48969,11.15,


É possível fazer seleções mais complexas recorrendo aos operadores lógicos `|` (ou) e `&` (e).

Por exemplo, podemos selecionar filmes realizados pelo Ridley Scott OU pelo Christopher Nolan:


In [293]:
movies_df[(movies_df['director'] == 'Ridley Scott') | (movies_df['director'] == 'Christopher Nolan')].head()

Unnamed: 0_level_0,genre,director,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Prometheus,"Adventure,Mystery,Sci-Fi",Ridley Scott,2012,124,7.0,485820,126.46,65.0
Interstellar,"Adventure,Drama,Sci-Fi",Christopher Nolan,2014,169,8.6,1047747,187.99,74.0
The Dark Knight,"Action,Crime,Drama",Christopher Nolan,2008,152,9.0,1791916,533.32,82.0
The Prestige,"Drama,Mystery,Sci-Fi",Christopher Nolan,2006,130,8.5,913152,53.08,66.0
Inception,"Action,Adventure,Sci-Fi",Christopher Nolan,2010,148,8.8,1583625,292.57,74.0


**Nota**: A utilização de parênteses à volta de cada condição é necessária para o interpretador de Python saber avaliar corretamente.

A mesma seleção pode ser feita de forma mais simples usando o método `isin`:

In [294]:
movies_df[movies_df['director'].isin(['Christopher Nolan', 'Ridley Scott'])].head()

Unnamed: 0_level_0,genre,director,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Prometheus,"Adventure,Mystery,Sci-Fi",Ridley Scott,2012,124,7.0,485820,126.46,65.0
Interstellar,"Adventure,Drama,Sci-Fi",Christopher Nolan,2014,169,8.6,1047747,187.99,74.0
The Dark Knight,"Action,Crime,Drama",Christopher Nolan,2008,152,9.0,1791916,533.32,82.0
The Prestige,"Drama,Mystery,Sci-Fi",Christopher Nolan,2006,130,8.5,913152,53.08,66.0
Inception,"Action,Adventure,Sci-Fi",Christopher Nolan,2010,148,8.8,1583625,292.57,74.0


As seleções condicionais podem envolver condições sobre várias colunas e usar estatísticas dos dados, o que as torna muito poderosas. Por exemplo, é possível selecionar filmes que estrearam entre 2005 e 2010 e com uma cotação acima de 8.0, mas que tiveram uma receita abaixo da média:

In [295]:
movies_df[
    ((movies_df['year'] >= 2005) & (movies_df['year'] <= 2010))
    & (movies_df['rating'] > 8.0)
    & (movies_df['revenue_millions'] < movies_df['revenue_millions'].mean())
]

Unnamed: 0_level_0,genre,director,year,runtime,rating,votes,revenue_millions,metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
The Prestige,"Drama,Mystery,Sci-Fi",Christopher Nolan,2006,130,8.5,913152,53.08,66.0
No Country for Old Men,"Crime,Drama,Thriller",Ethan Coen,2007,122,8.1,660286,74.27,91.0
Into the Wild,"Adventure,Biography,Drama",Sean Penn,2007,148,8.1,459304,18.35,73.0
Pan's Labyrinth,"Drama,Fantasy,War",Guillermo del Toro,2006,118,8.2,498879,37.62,98.0
There Will Be Blood,"Drama,History",Paul Thomas Anderson,2007,158,8.1,400682,40.22,92.0
3 Idiots,"Comedy,Drama",Rajkumar Hirani,2009,170,8.4,238789,6.52,67.0
The Lives of Others,"Drama,Thriller",Florian Henckel von Donnersmarck,2006,137,8.5,278103,11.28,89.0
Incendies,"Drama,Mystery,War",Denis Villeneuve,2010,131,8.2,92863,6.86,80.0
El secreto de sus ojos,"Drama,Mystery,Romance",Juan José Campanella,2009,129,8.2,144524,20.17,80.0
Taare Zameen Par,"Drama,Family,Music",Aamir Khan,2007,165,8.5,102697,1.2,42.0


## Applying functions

It is possible to iterate over a DataFrame or Series as you would with a list, but doing so — especially on large datasets — is very slow.

An efficient alternative is to `apply()` a function to the dataset. For example, we could use a function to convert movies with an 8.0 or greater to a string value of "good" and the rest to "bad" and use this transformed values to create a new column.

First we would create a function that, when given a rating, determines if it's good or bad:

In [None]:
def rating_function(x):
    if x >= 8.0:
        return "good"
    else:
        return "bad"

In [None]:
movies_df["rating"].apply(rating_function)

Now we want to send the entire rating column through this function, which is what `apply()` does:

In [None]:
movies_df["rating_category"] = movies_df["rating"].apply(rating_function)
movies_df.head(2)

The `.apply()` method passes every value in the `rating` column through the `rating_function` and then returns a new Series. This Series is then assigned to a new column called `rating_category`.

You can also use anonymous functions as well. This lambda function achieves the same result as `rating_function`:

In [None]:
movies_df["rating_category"] = movies_df["rating"].apply(lambda x: 'good' if x >= 8.0 else 'bad')

movies_df.head(2)

Overall, using `apply()` will be much faster than iterating manually over rows because pandas is utilizing vectorization.

> Vectorization: a style of computer programming where operations are applied to whole arrays instead of individual elements —[Wikipedia](https://en.wikipedia.org/wiki/Vectorization)

A good example of high usage of `apply()` is during natural language processing (NLP) work. You'll need to apply all sorts of text cleaning functions to strings to prepare for machine learning.

## Wrapping up

Exploring, cleaning, transforming, and visualization data with pandas in Python is an essential skill in data science. Just cleaning wrangling data is 80% of your job as a Data Scientist. After a few projects and some practice, you should be very comfortable with most of the basics.

To keep improving, view the [extensive tutorials](https://pandas.pydata.org/pandas-docs/stable/tutorials.html) offered by the official pandas docs, follow along with a few [Kaggle kernels](https://www.kaggle.com/kernels), and keep working on your own projects!


Ver tutoriais da biblioteca [pandas](https://pandas.pydata.org/pandas-docs/stable/tutorials.html) e o [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/)