# Preparação de dados

# Preparação de dados

## Introdução
Os **dados** são um aspeto essencial da resolução de problemas com aprendizagem automática. Sem dados, não é possível resolver problemas recorrendo a técnicas de aprendizagem automática.

Assim sendo, o primeiro passo da resolução de problemas com aprendizagem automática consiste em **preparar os dados** que vamos usar na resolução dos problemas. Esta preparação envolve o uso de operações de preparação de dados, as quais nos permitem realizar tarefas como importar, corrigir e formatar dados. 

Fazendo uma **analogia**, a fase de preparação de dados é o equivalente à fase de preparação da ida a um casamento. Antes de irmos para um casamento, há todo um conjunto de operações a realizar (e.g., tomar banho, preparar a roupa, arranjar o cabelo). Em aprendizagem automática é igual: antes de aplicarmos as técnicas de aprendizagem automática, temos de preparar os dados para o ato a realizar.

Neste tutorial, vamos apresentar os principais elementos da preparação de dados:

* **Biblioteca *pandas***. A biblioteca *pandas* tem a maioria dos métodos e funções usados na preparação de dados.
* **Estruturas de dados**. O *pandas* tem uma forma própria de estruturar os dados e é preciso conhecê-la.
* **Importação de dados**. O processo de preparação de dados inicia-se com a sua importação.
* **Dados em falta**. Os dados em falta é um problema comum que temos de saber resolver.
* **Outras operações de preparação**. Há um conjunto genérico de operações que é útil conhecer.

O tutorial tem vários **exemplos** que ilustram a aplicação do código e os seus efeitos. Para além disso, ao longo do tutorial, são colocados desafios que servem para verificares se estás a acompanhar a matéria. No final, é feito um resumo dos conteúdos apresentados.

Note-se que este tutorial é de nível **introdutório** e vários aspetos importantes não são abordados. Para mais informações, recomenda-se a consulta da [documentação oficial da biblioteca *pandas*](https://pandas.pydata.org/).

## Biblioteca *pandas*

O ***pandas*** é uma biblioteca de Python que permite preparar e analisar dados. Como tal, o *pandas* possui um conjunto de funcionalidades que facilitam a realização de tarefas relacionadas com a preparação e análise de dados. 

Para **importar** a biblioteca *pandas*, basta fazer:

In [None]:
import pandas as pd

Na instrução anterior:

* A palavra `import` indica ao computador que queremos importar uma biblioteca.
* A palavra `pandas` identifica a biblioteca que queremos importar (biblioteca *pandas*).
* A expressão `as pd` significa que queremos abreviar a chamada da biblioteca (em vez de termos de escrever `pandas` sempre que quisermos usar a biblioteca, passa a bastar escrever `pd`).

A partir do momento em que a biblioteca é importada, as suas **funcionalidades ficam disponíveis**.

Este tutorial foca-se nas funcionalidades relacionadas com a **preparação de dados**. Pontualmente, serão também referidas funcionalidades relacionadas com a análise de dados. Deste modo, o restante do tutorial concentra-se nos seguintes aspetos:

* Estruturas de dados.
* Importação de dados.
* Dados em falta.
* Outras operações de preparação de dados.

## Estruturas de dados
As **estruturas de dados** referem-se à forma como os dados são guardados e organizados no computador. 

Quando utilizamos o *pandas*, há dois tipos de estruturas de dados que são recorrentes:

1. *Series*.
1. *DataFrame*.

### Series
As *Series* funcionam como uma espécie de **lista** e são utilizadas sempre que pretendemos guardar sequências de valores.

Por exemplo, as ***Series*** podem ser utilizadas para guardar dados como o peso dos jogadores de uma equipa de basquetebol. Supondo que os jogadores dessa equipa pesam 73, 89, 64, 72, 78, 83, 92, 97, 70 e 68 kg e que queríamos guardar esses dados numa *Series*, tudo o que tínhamos de fazer era:

In [None]:
peso = pd.Series([73,89,64,72,78,83,92,97,70,68])
print(peso)

0    73
1    89
2    64
3    72
4    78
5    83
6    92
7    97
8    70
9    68
dtype: int64


Na instrução anterior:

* `peso` é a variável onde guardamos a nossa *Series*.
* `pd.Series()` é a instrução que usamos para construir a *Series*.
 * O uso de `pd.` indica ao computador que a função `Series()` está na biblioteca *pandas*.
 * Recorde-se que, aquando da importação da biblioteca, utilizámos a instrução `as pd`. Por isso, agora podemos escrever `pd.` para usar a biblioteca. Caso contrário, teríamos de usar `pandas.`.
* `[73,89,64,72,78,83,92,97,70,68]` é a informação que queremos guardar dentro da *Series*. 
  * Daí ficar dentro dos `()` da instrução `pd.Series()`.
  * O uso dos `[]` serve apenas para indicar que vamos colocar uma lista de valores. Se fosse só um valor, não seria necessário colocar os `[]`. 
* `print(peso)` serve para exibir o que está guardado na variável `peso`.

Ao exibir a variável `peso`, temos do lado esquerdo o número de identificação (índice) de cada um dos elementos e, do lado direito, temos o peso correspondente a esse elemento. Deste modo, podemos saber que, por exemplo, o jogador identificado com o índice '3' pesa 72 kg.

**Desafio:** Com base no código anterior, cria uma *Series* que guarde a altura de 10 pessoas que tu conheças.

In [None]:
# Resolução do desafio

### DataFrame
O *DataFrame* é uma espécie de **tabela**. Deste modo, a cada coluna do *DataFrame* corresponde uma variável e a cada linha corresponde um registo (ou observação).

Imaginemos que fizemos um questionário a 100 pessoas e que obtivemos:

* **Pergunta 1**. 74 respostas 'Sim' e 26 respostas 'Não'.
* **Pergunta 2**. 23 respostas 'Sim' e 77 respostas 'Não'.
* **Pergunta 3**. 56 respostas 'Sim' e 44 respostas 'Não'.

Uma possível forma de registar esta informação num ***DataFrame*** seria:

In [None]:
respostas = pd.DataFrame({'Sim': [74,23,56], 'Não':[26, 77, 44]})
print(respostas)

   Sim  Não
0   74   26
1   23   77
2   56   44


Na instrução anterior:

* `respostas` é a variável onde guardamos o nosso *DataFrame*.
* `pd.DataFrame()` é a instrução que usamos para construir o *DataFrame*.
* `{'Sim': [74,23,56], 'Não':[26, 77, 44]}` é a informação que queremos guardar dentro do *DataFrame*. 
  * Daí ficar dentro dos `()` da instrução `pd.DataFrame()`.
  * O uso dos `{}` serve apenas para indicar que vamos colocar um conjunto de valores e que esses valores estão associados e uma chave (neste caso, as chaves eram `'Sim'` e `'Não'`).
* `print(respostas)` serve para exibir o que está guardado na variável `respostas`.

Ao exibir a variável `respostas`, temos do lado esquerdo o índice de cada uma das perguntas e, do lado direito, temos o número de respostas 'Sim' e o número de respostas 'Não'. Deste modo, podemos saber que, por exemplo, a pergunta com índice '0' tem 74 respostas 'Sim' e 26 respostas 'Não'. 

Repara que:

* Uma *Series* é equivalente a um *DataFrame* com uma única coluna.
* Em Python, a **indexação** (atribuição de um número de identificação) começa em zero. É por isso que a 'Pergunta 1' tem índice '0': como esta é a primeira pergunta, quando o Python vai indexá-la, atribui-lhe o primeiro índice disponível, ou seja, o '0'.

**Desafio:** Com base no código anterior, cria um *DataFrame* que guarde a altura e o peso de 10 pessoas que tu conheças.

In [None]:
# Resolução do desafio

## Importação de dados

Na vida real, a maioria dos problemas de aprendizagem automática que vamos resolver implicam a utilização de dados que estão **guardados em algum lado**. Por exemplo, se quisermos criar modelos de aprendizagem automática para prever o estado do tempo, o mais provável é que importemos os dados de uma base de dados. Felizmente, é muito pouco provável que tenhamos de estar a digitar todos os dados, observação a observação, tal como fizemos para ilustrar os conceitos de *Series* e *DataFrame*.

Os dados a importar podem estar guardados em **diferentes formatos**. Um dos formatos de armazenamento mais comum é o ficheiro CSV (*Comma-Separated Values*).


Nos **ficheiros CSV**, os dados estão guardados de acordo com as seguintes regras:

* Na primeira linha identificam-se os campos existentes. 
* Nas restantes linhas descrevem-se os valores de cada observação nos campos anteriormente identificados.
* Os campos e valores são separados por vírgulas (justificando o nome *Comma-Separated Values*).

Por exemplo, num ficheiro CSV, os dados que constituem o *DataFrame* `respostas` visto anteriormente, seriam apresentados da seguinte forma:

```
Sim, Não

74, 26

23, 77

56, 44
```

Em termos visuais, a diferença entre ter os dados organizados num *DataFrame* ou ter os dados organizados num ficheiro CSV é grande. No entanto, computacionalmente, essa diferença não existe. Para o computador, tudo o que importa é que os dados estejam organizados de uma forma **consistente** e de acordo com uma **lógica** que ele conheça de antemão.

A biblioteca *pandas* permite-nos capacitar o nosso computador para a leitura de ficheiros CSV. Para isso, apenas temos de importar o *pandas* e recorrer à função `pd.read_csv()`, a qual converte os dados de um ficheiro CSV para um *DataFrame*. Esta função pode receber diversos tipos de argumentos, um dos quais é a localização do ficheiro. Os restantes argumentos podem ser consultados na [documentação oficial](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html?highlight=read_csv#pandas.read_csv).

Por exemplo, se quisermos utilizar um conjunto de dados relativos à COVID-19 que estão disponíveis em https://raw.githubusercontent.com/pmarcelino/datasets/master/covid-19.csv, num repositório criado por nós, basta seguir a síntaxe da função `pd.read_csv()` e introduzir a localização do ficheiro:

In [None]:
pd.read_csv("https://raw.githubusercontent.com/pmarcelino/datasets/master/covid-19.csv")

Unnamed: 0,Key,Date,CountryCode,CountryName,RegionCode,RegionName,aggregation_level,Confirmed,Deaths,Population,Latitude,Longitude
0,AE,2020-01-01,AE,United Arab Emirates,,,0,0.0,0.0,9770529.0,24.400000,54.300000
1,AF,2020-01-01,AF,Afghanistan,,,0,0.0,0.0,38041754.0,34.000000,66.000000
2,AM,2020-01-01,AM,Armenia,,,0,0.0,0.0,2957731.0,40.383333,44.950000
3,AR,2020-01-01,AR,Argentina,,,0,0.0,0.0,44938712.0,-34.000000,-64.000000
4,AR_C,2020-01-01,AR,Argentina,C,City of Buenos Aires,1,0.0,0.0,3063728.0,-34.599722,-58.381944
...,...,...,...,...,...,...,...,...,...,...,...,...
236651,UA_65,2020-10-04,UA,Ukraine,65,Kherson,1,1340.0,26.0,1046981.0,46.500000,34.000000
236652,UA_68,2020-10-04,UA,Ukraine,68,Khmelnytskyi,1,6647.0,131.0,1274409.0,49.530000,26.870000
236653,UA_71,2020-10-04,UA,Ukraine,71,Cherkasy,1,4430.0,59.0,1220363.0,49.444722,32.060278
236654,UA_74,2020-10-04,UA,Ukraine,74,Chernihiv,1,4518.0,77.0,1020078.0,51.340000,32.060000


Na instrução anterior:

* `pd.read_csv()` é a instrução que usamos para ler o ficheiro CSV.
* "[`https://raw.githubusercontent.com/pmarcelino/datasets/master/covid-19.csv`](https://raw.githubusercontent.com/pmarcelino/datasets/master/covid-19.csv)" é o *link* para o ficheiro CSV. 
  * Daí ficar dentro dos `()` da instrução `pd.read_csv()`.
  * É preciso saber, de antemão, onde está localizado o ficheiro de dados.

Agora que já sabemos ler ficheiros de dados, podemos mostrar como guardar esses dados numa variável:

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/pmarcelino/datasets/master/covid-19.csv")

Na instrução anterior:

* `df` é a variável onde guardamos os dados do ficheiro CSV.
 * Utilizamos o nome `df` porque é prática comum dar este nome à variável que guarda o conjunto de dados original.
 * Como usamos o `pd.read_csv()`, a variável `df`será um *DataFrame*.
 
Para demonstrar que a variável `df` é um *DataFrame*, podemos avaliar o seu tipo através da função `type()`:

In [None]:
type(df)

pandas.core.frame.DataFrame

Habitualmente, e mais por uma questão de estilo e clareza, a importação de dados é feita da seguinte forma:

In [None]:
url = "https://raw.githubusercontent.com/pmarcelino/datasets/master/covid-19.csv"
df = pd.read_csv(url)

Na instrução anterior:

* `url` é a variável onde guardamos o *link* para o ficheiro CSV.

Em termos práticos é exatamente o mesmo que vimos anteriormente, mas o uso da variável `url` torna o código mais legível.

Após a importação de dados, é comum verificar se a importação correu bem. Para tal, é habitual:

* Exibir as primeiras linhas da variável `df` para verificar se a importação correu bem (`df.head()`).
* Verificar a dimensão do conjunto de dados (`df.shape`).
* Exibir um resumo estatístico do conjunto de dados para ver se os valores estão dentro de uma gama de valores razoáveis (`df.describe()`).

Exemplificando:

In [None]:
df.head()

Unnamed: 0,Key,Date,CountryCode,CountryName,RegionCode,RegionName,aggregation_level,Confirmed,Deaths,Population,Latitude,Longitude
0,AE,2020-01-01,AE,United Arab Emirates,,,0,0.0,0.0,9770529.0,24.4,54.3
1,AF,2020-01-01,AF,Afghanistan,,,0,0.0,0.0,38041754.0,34.0,66.0
2,AM,2020-01-01,AM,Armenia,,,0,0.0,0.0,2957731.0,40.383333,44.95
3,AR,2020-01-01,AR,Argentina,,,0,0.0,0.0,44938712.0,-34.0,-64.0
4,AR_C,2020-01-01,AR,Argentina,C,City of Buenos Aires,1,0.0,0.0,3063728.0,-34.599722,-58.381944


In [None]:
df.shape

(236656, 12)

In [None]:
df.describe()

Unnamed: 0,aggregation_level,Confirmed,Deaths,Population,Latitude,Longitude
count,236656.0,236580.0,203843.0,222033.0,235504.0,235504.0
mean,0.730575,19264.95,939.14574,13040020.0,24.482847,4.19156
std,0.443662,157354.2,5825.078273,73496730.0,26.107397,75.693291
min,0.0,0.0,0.0,50.0,-54.362,-178.10932
25%,0.0,29.0,0.0,581641.0,8.632279,-69.31
50%,1.0,561.0,18.0,1675502.0,29.646111,9.083333
75%,1.0,4849.0,218.0,5942089.0,46.825,47.0
max,1.0,7206769.0,206558.0,1397715000.0,72.0,178.005556


O uso de `df.head()` e `df.shape` pode ser substituído, simplesmente, por `df` porque este acaba por transmitir a mesma informação. No que se refere ao uso de `df.describe()`, serão dados mais pormenores no tutorial de 'Exploração de dados'.

Por fim, resta apenas referir que, para além de importar dados de ficheiros, também é possível importar **dados diretamente de bibliotecas**. Por exemplo, a biblioteca *seaborn* tem vários conjuntos de dados que podem ser importados. No tutorial de 'Exploração de dados' esta situação é ilustrada em detalhe.

**Desafio:** Com base no código anterior, importa os dados que estão [neste link](https://github.com/pmarcelino/datasets/blob/master/penguins.csv).

In [None]:
# Resolução do desafio

## Dados em falta

É comum termos bases de dados com **dados em falta**. A existência de dados em falta deve-se a diversas razões, tais como erros de leitura de equipamentos ou esquecimentos por parte de alguém aquando da introdução de dados na base de dados.

Em geral, a construção de modelos de aprendizagem automática requer trabalhar com conjuntos de dados **completos**, ou seja, conjuntos que não tenham dados em falta. Como tal, é preciso resolver a questão dos dados em falta para poder treinar os modelos de previsão com algoritmos de aprendizagem automática.

Vamos importar um conjunto de dados com dados em falta para percebermos como podemos **identificar dados em falta**:

In [None]:
import pandas as pd

url = 'https://raw.githubusercontent.com/pmarcelino/datasets/master/mock-missing-data.csv'
df = pd.read_csv(url)

df

Unnamed: 0,A,B,C,D
0,1,,2.0,4
1,2,4.0,,6
2,3,3.0,2.0,5


Como se pode observar, há duas células com a expressão `NaN`. Esta expressão é utilizada pela biblioteca *pandas* para indicar que a célula tem dados em falta. Neste caso, o conjunto de dados é pequeno e é fácil identificar os dados em falta visualmente.

Quando os conjuntos de dados são grandes, já não é possível identificar os dados em falta visualmente. Como tal, é necessário recorrer a uma combinação dos métodos `isnull` e `sum`. No caso do exemplo anterior, a combinação destes métodos seria feita conforme se ilustra:

In [None]:
df.isnull().sum()

A    0
B    1
C    1
D    0
dtype: int64

Na instrução anterior:

* `df` é a variável que contém o conjunto de dados em relação ao qual vão ser aplicados os métodos.
* `isnull()` identifica se uma observação tem dados em falta ou não, atribuindo o valor `True` às observações com dados em falta.
* `sum()` soma todas as observações que têm valor `True`.

Como podemos observar, há dados em falta nas colunas 'B' e 'C'. Em particular, verifica-se que ambas as colunas têm uma observação com dados em falta.

A resolução de problemas relacionados com a falta de dados pode passar por uma de duas **soluções**:

1. Eliminação de dados
1. Imputação de dados

### Eliminação de dados

A **eliminação de dados** é uma das formas de resolver o problema dos dados em falta. Esta solução passa pela eliminação das observações com dados em falta. Se eliminarmos as observações com dados em falta, o conjunto de dados passa a ficar completo.

A forma mais simples de aplicar a eliminação de dados em falta é recorrendo ao método `dropna`, o qual é uma variante do método `drop` da biblioteca **pandas**.

O `dropna` permite eliminar as linhas com dados em falta:

In [None]:
df.dropna()

Unnamed: 0,A,B,C,D
2,3,3.0,2.0,5


Assim como as colunas com dados em falta:

In [None]:
df.dropna(axis=1)

Unnamed: 0,A,D
0,1,4
1,2,6
2,3,5


Note-se que a única diferença prende-se com a definição do parâmetro `axis`. Este parâmetro define o eixo (horizontal/linhas ou vertical/colunas) em que queremos eliminar dados. Por predefinição, este parâmetro tem o valor 0, o qual corresponde ao eixo horizontal. Por isso, se quisermos fazer a eliminação das observações tendo o eixo vertical como referência, é necessário definir `axis=1`.

**Desafio:** Elimina os dados em falta do conjunto de dados que se segue, de modo a que fiques com um conjunto de dados completo.

In [None]:
import numpy as np

df = pd.DataFrame({'Altura':[np.nan, 1.72, 1.74, 1.76, 1.78], 
                   'Peso':[68, 68, np.nan, 72, 72]})
df

Unnamed: 0,Altura,Peso
0,,68.0
1,1.72,68.0
2,1.74,
3,1.76,72.0
4,1.78,72.0


In [None]:
# Resolução do desafio

### Imputação de dados

Em muitos casos, é **desaconselhável eliminar** linhas (observações) ou colunas (variáveis) porque isso implica uma redução da quantidade de dados disponíveis.

Para evitar esta situação, podemos usar a **imputação de dados**. A imputação de dados é uma técnica que nos permite estimar os dados em falta com base nos dados existentes. 

A imputação da média é uma das formas mais comum de imputação de dados. Neste caso, o que fazemos é **trocar os valores em falta pelo valor médio dos valores conhecidos** na variável em causa. Vejamos um exemplo:

In [None]:
df = pd.DataFrame({'Altura':[1.70, 1.72, 1.74, 1.76, 1.78], 
                   'Peso':[68, 68, np.nan, 72, 72]})
df

Unnamed: 0,Altura,Peso
0,1.7,68.0
1,1.72,68.0
2,1.74,
3,1.76,72.0
4,1.78,72.0


No exemplo anterior, se quiséssemos estimar o valor em falta usando a imputação da média, o que faríamos era dizer que este **valor corresponde ao valor da média dos valores conhecidos na coluna 'Peso'**. Logo, neste exemplo, diríamos que o valor em falta tem o valor 70. Deste modo, evitamos perder a linha de índice 2 ou a coluna 'Peso' - consoante optássemos por eliminar as linhas com dados em falta ou as colunas com dados em falta.

Em Python, a imputação da média pode ser feita de diferentes formas. Uma das mais simples consiste na combinação de dois métodos da biblioteca *pandas*: `fillna` e `mean`. Exemplificando:


In [None]:
df.fillna(df.mean())

Unnamed: 0,Altura,Peso
0,1.7,68.0
1,1.72,68.0
2,1.74,70.0
3,1.76,72.0
4,1.78,72.0


Na instrução anterior:

* `df.fillna()` preenche os valores em falta na variável `df`.
* `df.mean()` faz com que o preenchimento seja feito usando os valores médios da variável `df`.

**Desafio**: Preenche os dados em falta do conjunto de dados que se segue, usando a imputação da média.

In [None]:
df = pd.DataFrame({'Carro':['Honda', 'Toyota', 'Fiat', 'Peugeot', 'Ford'], 
                   'Preço':[17000, 23000, np.nan, np.nan, 24000]})
df

Unnamed: 0,Carro,Preço
0,Honda,17000.0
1,Toyota,23000.0
2,Fiat,
3,Peugeot,
4,Ford,24000.0


In [None]:
# Resolução do desafio

## Outras operações de preparação

Em geral, as operações de preparação de dados pretendem **organizar** os dados de uma forma mais conveniente.

São **exemplos de operações** de preparação de dados:

* Seleção
* Atribuição
* Agregação
* Ordenação
* Eliminação

**Nota:** Em seguida, explicamos e exemplificamos algumas destas operações. Apesar de grande parte destas operações não ser essencial para a realização da aula de preparação de dados, a sua aplicação será necessária mais tarde, quer no contexto do curso, quer no contexto prático da resolução de problemas de aprendizagem automática em geral.

### Seleção

Uma operação corrente em análise de dados é a **seleção** de valores específicos. Em muitos casos, é necessário selecionar subconjuntos dos dados originais para poder resolver os problemas. Por exemplo, se quiséssemos usar os dados da COVID-19 para resolver um problema relacionado com Portugal, muito provavelmente, em alguma fase do processo de resolução, teríamos de selecionar as observações específicas de Portugal. Note-se que os dados referentes a Portugal são um sobconjunto dos dados originais, os quais são referentes a todos os países.

Há **inúmeras formas de selecionar dados** utilizando o pandas. Em seguida, vamos exemplificar várias dessas formas. Nestes exemplos, vamos usar o conjunto de dados ['Iris'](https://pt.wikipedia.org/wiki/Conjunto_de_dados_flor_Iris). 

O **conjunto de dados 'Iris'** tem informação sobre características físicas de flores e suas espécies. Em particular, contém informação sobre o comprimento das sépalas, a largura das sépalas, o comprimento das pétalas, a largura das pétalas e a espécie de diferentes flores.

Comecemos então por importar os dados e guardá-los numa variável:

In [None]:
url = 'https://raw.githubusercontent.com/pmarcelino/datasets/master/iris.csv'
df = pd.read_csv(url)
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


A primeira forma de seleção que vamos ver refere-se à **seleção de apenas uma das colunas de valores**. A título de exemplo, vamos considerar que apenas queremos ver os valores referentes à coluna 'sepal_length'. Para tal, podemos fazer:

In [None]:
df.sepal_length

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal_length, Length: 150, dtype: float64

Outra forma de obter o mesmo resultado seria:

In [None]:
df['sepal_length']

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal_length, Length: 150, dtype: float64

Esta última forma é particularmente interessante quando queremos ver **mais do que uma coluna**:

In [None]:
df[['sepal_length', 'species']]

Unnamed: 0,sepal_length,species
0,5.1,setosa
1,4.9,setosa
2,4.7,setosa
3,4.6,setosa
4,5.0,setosa
...,...,...
145,6.7,virginica
146,6.3,virginica
147,6.5,virginica
148,6.2,virginica


Importa salientar que, na instrução acima, foi necessário colocar um conjunto adicional de `[ ]` porque queríamos selecionar mais do que um elemento (queríamos selecionar uma lista de elementos).

Agora, imaginemos que, em vez de querermos selecionar informação relativa a um conjunto de colunas, queríamos **selecionar informação relativa a um conjunto de linhas**. Se o conjunto de linhas se referisse apenas à primeira linha, poderíamos fazer:

In [None]:
df.iloc[0]

sepal_length       5.1
sepal_width        3.5
petal_length       1.4
petal_width        0.2
species         setosa
Name: 0, dtype: object

Esta instrução localiza a informação de acordo com o índice fornecido (justificando assim o nome `iloc`). Como o Python começa a contar os índices em zero, o índice '0' acaba por corresponder à primeira linha da tabela de dados.

Por sua vez, se quiséssemos **selecionar a informação referente às 5 primeiras linhas**, faríamos:

In [None]:
df.iloc[:5]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


Como se pode constatar, e é assim sempre que se trabalha com Python em contextos de seleção de dados, o código `:5` lê-se como 'do início até 5'.

Agora, se quiséssemos **selecionar a informação que está entre a sexta e a décima linha**, teríamos de fazer:

In [None]:
df.iloc[5:10]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


Aqui, é preciso ter em atenção que a sexta linha começa no índice '5' porque a nossa contagem começa em zero. A mesma lógica se aplica ao porquê da décima linha corresponder ao índice '9'.

Caso quiséssemos selecionar a **informação que consta da sexta à última linha**, faríamos:

In [None]:
df.iloc[5:]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


Por fim, e para terminar as formas de seleção de linhas com a instrução `iloc`, se quiséssemos **selecionar as últimas 5 linhas** da tabela de dados, faríamos:

In [None]:
df.iloc[-5:]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


No caso acima, a instrução `-5:` lê-se 'dos últimos 5 até ao final'. De igual modo, se quiséssemos obter as últimas dez linhas da tabela, faríamos `-10:`.

Se agora quisermos **combinar a seleção de colunas à seleção de linhas**, podemos seguir a lógica do seguinte exemplo:



In [None]:
df.iloc[:5,0]

0    5.1
1    4.9
2    4.7
3    4.6
4    5.0
Name: sepal_length, dtype: float64

No exemplo acima, estamos a selecionar as primeiras cinco linhas e a primeira coluna (já dissemos que o Python começa a contagem em zero?) da tabela de dados. Portanto, quando utilizamos a instrução `iloc`, os valores que estão à esquerda da vírgula são referentes a linhas e os valores que estão à direita da vírgula são referentes a colunas.

Vejamos agora um outro exemplo, no qual **selecionamos as primeiras 10 linhas e as primeiras 3 colunas** da tabela de dados:

In [None]:
df.iloc[:10, :3]

Unnamed: 0,sepal_length,sepal_width,petal_length
0,5.1,3.5,1.4
1,4.9,3.0,1.4
2,4.7,3.2,1.3
3,4.6,3.1,1.5
4,5.0,3.6,1.4
5,5.4,3.9,1.7
6,4.6,3.4,1.4
7,5.0,3.4,1.5
8,4.4,2.9,1.4
9,4.9,3.1,1.5


Deste modo, constatamos que a instrução `iloc` serve para selecionar dados da tabela, por indicação das linhas e das colunas que pretendemos.

Uma forma **alternativa** de fazer esta seleção seria através da instrução `loc`. Neste caso, em vez de identificarmos as colunas através do seu índice, identificamos através do seu valor. Exemplificando:

In [None]:
df.loc[:10, ['sepal_length', 'sepal_width', 'petal_length']]

Unnamed: 0,sepal_length,sepal_width,petal_length
0,5.1,3.5,1.4
1,4.9,3.0,1.4
2,4.7,3.2,1.3
3,4.6,3.1,1.5
4,5.0,3.6,1.4
5,5.4,3.9,1.7
6,4.6,3.4,1.4
7,5.0,3.4,1.5
8,4.4,2.9,1.4
9,4.9,3.1,1.5


Neste caso, o resultado é igual ao que tínhamos quando fizemos `df.iloc[:10, :3]`, mas em vez de definirmos os índices, definimos os nomes das colunas de dados que queríamos selecionar.

Na prática, não faz muita diferença usar o `iloc` ou o `loc`. No entanto, é comum associarmos as colunas de dados ao seu nome e não ao seu índice. Como tal, é possível que o uso do `loc` seja mais frequente que o do `iloc`.

Para terminar, importa falar de **seleção condicional**. A seleção condicional serve para selecionarmos os dados de acordo com condições. A título ilustrativo, vamos usar a seleção condicional para encontrar **as observações em que o comprimento das pétalas é maior que 6**:

In [None]:
df[df['petal_length'] > 6]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
105,7.6,3.0,6.6,2.1,virginica
107,7.3,2.9,6.3,1.8,virginica
109,7.2,3.6,6.1,2.5,virginica
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
130,7.4,2.8,6.1,1.9,virginica
131,7.9,3.8,6.4,2.0,virginica
135,7.7,3.0,6.1,2.3,virginica


Na instrução anterior:
 * `df[]` indica que queremos selecionar um subconjunto de dados do conjunto `df`.
 * `df['petal_length'] > 6` define a regra de seleção que, neste caso, é a condição de ter o comprimento das pétalas maior do que 6.

Portanto, a instrução `df[df['petal_length'] > 6` lê-se como: 'os dados de `df` cuja condição `df['petal_length'] > 6`' resulta como verdadeira. 

Para tornarmos esta questão do 'resulta como verdadeira' mais evidente, podemos até ver o que acontece quando fazemos apenas `df['petal_length'] > 6`:

In [None]:
df['petal_length'] > 6

0      False
1      False
2      False
3      False
4      False
       ...  
145    False
146    False
147    False
148    False
149    False
Name: petal_length, Length: 150, dtype: bool

Como podemos ver, ele avalia cada uma das linhas como verdadeira ou falsa, consoante a condição se verifica ou não. Assim, fica claro que a instrução `df[]` serve para selecionar os dados em que a condição é verdadeira.

Uma extensão lógica dos exemplos anteriores passaria pela definição de **duas condições** em vez de uma. Imaginando que a condição adicional era que a largura das pétalas fosse maior que 2, teríamos:

In [None]:
df[(df['petal_length'] > 6) & (df['petal_width'] > 2)]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
105,7.6,3.0,6.6,2.1,virginica
109,7.2,3.6,6.1,2.5,virginica
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica
135,7.7,3.0,6.1,2.3,virginica


Neste caso, usaríamos o operador `&` para indicar que queríamos selecionar todos os casos em que **ambas as condições**, `df['petal_length'] > 6` e `df['petal_width'] > 2`, fossem verdadeiras. Recorde-se que, em Python, o operador `&` tem o valor lógico de `E`.

De modo semelhante, poderíamos selecionar os casos em que **apenas uma das condições** tem de ser verdadeira. Para isso, bastaria trocar o operador `&` pelo operador `|` (o qual, em Python, tem o valor lógico de `OU`):

In [None]:
df[(df['petal_length'] > 6) | (df['petal_width'] > 2)]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
100,6.3,3.3,6.0,2.5,virginica
102,7.1,3.0,5.9,2.1,virginica
104,6.5,3.0,5.8,2.2,virginica
105,7.6,3.0,6.6,2.1,virginica
107,7.3,2.9,6.3,1.8,virginica
109,7.2,3.6,6.1,2.5,virginica
112,6.8,3.0,5.5,2.1,virginica
114,5.8,2.8,5.1,2.4,virginica
115,6.4,3.2,5.3,2.3,virginica
117,7.7,3.8,6.7,2.2,virginica


**Desafio:** Importa os dados que estão [aqui](https://raw.githubusercontent.com/pmarcelino/datasets/master/titanic.csv) e faz uma seleção que te permita ver quais os passageiros do Titanic com mais de 65 anos.

In [None]:
# Resolução do desafio

### Atribuição

A **atribuição** é uma operação que consiste em atribuir valores a linhas ou colunas. Em geral, as atribuições são no sentido de alterar dados já existentes mas também podem servir para criar novos dados.

Sabendo fazer seleção de dados, a atribuição é muito simples. Comecemos por imaginar que queremos **atribuir o valor 1.0 ao comprimento das pétalas de todas as flores** do nosso conjunto de dados. Nesse caso, faríamos:

In [None]:
df['petal_length'] = 1.0
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.0,0.2,setosa
1,4.9,3.0,1.0,0.2,setosa
2,4.7,3.2,1.0,0.2,setosa
3,4.6,3.1,1.0,0.2,setosa
4,5.0,3.6,1.0,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,1.0,2.3,virginica
146,6.3,2.5,1.0,1.9,virginica
147,6.5,3.0,1.0,2.0,virginica
148,6.2,3.4,1.0,2.3,virginica


Como podemos ver, todas as flores do conjunto de dados passaram a ter o valor '1.0' na coluna 'petal_length'. 

Analisando o código, verificamos que, na verdade, a atribuição não é mais do que a seleção da coluna 'petal_length' conjugada com uma atribuição de valor a essa seleção (o `=` representa essa atribuição).

Do mesmo modo, poderíamos fazer uma **atribuição a uma linha** do conjunto de dados:

In [None]:
df.iloc[0] = 2
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,2.0,2.0,2.0,2.0,2
1,4.9,3.0,1.0,0.2,setosa
2,4.7,3.2,1.0,0.2,setosa
3,4.6,3.1,1.0,0.2,setosa
4,5.0,3.6,1.0,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,1.0,2.3,virginica
146,6.3,2.5,1.0,1.9,virginica
147,6.5,3.0,1.0,2.0,virginica
148,6.2,3.4,1.0,2.3,virginica


No caso acima, selecionámos a primeira linha e atribuímos o valor '2.0' a todas as suas características.

Seguindo esta lógica, podemos então concluir que para fazer a **atribuição de valores a um subconjunto de dados específico** basta escrever:

In [None]:
df.loc[:10, ['sepal_length', 'sepal_width', 'petal_length']] = 100
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,100.0,100.0,100.0,2.0,2
1,100.0,100.0,100.0,0.2,setosa
2,100.0,100.0,100.0,0.2,setosa
3,100.0,100.0,100.0,0.2,setosa
4,100.0,100.0,100.0,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,1.0,2.3,virginica
146,6.3,2.5,1.0,1.9,virginica
147,6.5,3.0,1.0,2.0,virginica
148,6.2,3.4,1.0,2.3,virginica


Ou, se o subconjunto for definido através de uma **seleção condicional**:

In [None]:
df[(df['petal_length'] > 6) | (df['petal_width'] > 2)] = 200
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,200.0,200.0,200.0,200.0,200
1,200.0,200.0,200.0,200.0,200
2,200.0,200.0,200.0,200.0,200
3,200.0,200.0,200.0,200.0,200
4,200.0,200.0,200.0,200.0,200
...,...,...,...,...,...
145,200.0,200.0,200.0,200.0,200
146,6.3,2.5,1.0,1.9,virginica
147,6.5,3.0,1.0,2.0,virginica
148,200.0,200.0,200.0,200.0,200


A série de exemplos acima ilustra como, para qualquer atribuição de dados, basta selecionar os dados e usar o operador `=` acompanhado do valor que pretendemos atribuir.

Para terminar, vamos ilustrar como faríamos a **atribuição de valores a uma coluna nova**. Neste caso, vamos imaginar que queremos acrescentar uma coluna 'color' ao nosso conjunto de dados e que queremos que todas as nossas observações tenham, nessa coluna, o valor 'green'. Tal pode ser feito da seguinte forma:

In [None]:
df['color'] = 'green'
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,color
0,200.0,200.0,200.0,200.0,200,green
1,200.0,200.0,200.0,200.0,200,green
2,200.0,200.0,200.0,200.0,200,green
3,200.0,200.0,200.0,200.0,200,green
4,200.0,200.0,200.0,200.0,200,green
...,...,...,...,...,...,...
145,200.0,200.0,200.0,200.0,200,green
146,6.3,2.5,1.0,1.9,virginica,green
147,6.5,3.0,1.0,2.0,virginica,green
148,200.0,200.0,200.0,200.0,200,green


**Desafio:** Importa os dados que estão [aqui](https://raw.githubusercontent.com/pmarcelino/datasets/master/titanic.csv) e altera a coluna 'Sex', de forma a que as observações com o valor 'male' passem a ter o valor '1' e as observações com o valor 'female' passem a ter valor '0'.

In [None]:
# Resolução do desafio

### Agregação

A **agregação** consiste em agrupar os dados. Esta tarefa é útil quando queremos fazer operações ou análises em subconjuntos de dados específicos.

Para fazer a agregação, utiliza-se a função `pd.groupby()`. Neste tutorial vamos exemplificar alguns usos desta função, sendo possível consultar todos os seus usos na [documentação oficial da biblioteca *pandas*](https://pandas.pydata.org/).

Assim, vamos começar por recuperar o conjunto de dados original porque no capítulo anterior fizemos várias alterações ao mesmo.

In [None]:
url = 'https://raw.githubusercontent.com/pmarcelino/datasets/master/iris.csv'
df = pd.read_csv(url)
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


Agora, vamos imaginar que queremos analisar **informação sobre cada uma das espécies**. Em particular, queremos:

1. Contar o número de flores de cada espécie.
1. Visualizar os valores mínimos em cada uma das características físicas das flores.

Para contar o **número de flores de cada espécie**, fazemos:

In [None]:
df.groupby('species').count()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,50,50,50,50
versicolor,50,50,50,50
virginica,50,50,50,50


Na instrução anterior:

* `df.groupby()` indica que queremos agrupar os dados.
* `'species'` define os dados que queremos agrupar. 
 * Daí ficar dentro dos `()` da instrução `df.groupby()`.
* `.count()` indica que queremos contar o número de observações dos dados agrupados. 

Como podemos constatar, temos a estrutura `df.groupby()` a definir os dados que queremos agrupar e, depois, o método `.count()` a definir a operação que queremos realizar nesse conjunto de dados.

Por sua vez, para encontrar os **valores mínimos em cada uma das características físicas das flores**, fazemos:

In [None]:
df.groupby('species').min()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,4.3,2.3,1.0,0.1
versicolor,4.9,2.0,3.0,1.0
virginica,4.9,2.2,4.5,1.4


Na instrução anterior:

* `df.groupby()` indica que queremos agrupar os dados.
* `'species'` define os dados que queremos agrupar. 
 * Daí ficar dentro dos `()` da instrução `df.groupby()`.
* `.min()` indica que queremos visualizar os valores mínimos de cada uma das caracerísticas físicas das flores. 

Os exemplos acima ilustram como o `groupby()` não é mais do que uma forma de selecionar e operar sobre um conjunto específico de dados.

Avançando mais um pouco, podemos explorar o método `agg()`, o qual permite combinar **várias operações** de uma vez só. Por exemplo, se quiséssemos ver os valores mínimos e máximos, podíamos fazer:

In [None]:
df.groupby('species').agg([min, max])

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_width,sepal_width,petal_length,petal_length,petal_width,petal_width
Unnamed: 0_level_1,min,max,min,max,min,max,min,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
setosa,4.3,5.8,2.3,4.4,1.0,1.9,0.1,0.6
versicolor,4.9,7.0,2.0,3.4,3.0,5.1,1.0,1.8
virginica,4.9,7.9,2.2,3.8,4.5,6.9,1.4,2.5


Por fim, falta-nos apenas ver como **agregar vários grupos**:

In [None]:
df.groupby(['species','petal_width']).min()

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length
species,petal_width,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,0.1,4.3,3.0,1.1
setosa,0.2,4.4,2.9,1.0
setosa,0.3,4.5,2.3,1.3
setosa,0.4,5.0,3.4,1.3
setosa,0.5,5.1,3.3,1.7
setosa,0.6,5.0,3.5,1.6
versicolor,1.0,4.9,2.0,3.3
versicolor,1.1,5.1,2.4,3.0
versicolor,1.2,5.5,2.6,3.9
versicolor,1.3,5.5,2.3,3.6


E como **agregar vários grupos e operações**:

In [None]:
df.groupby(['species','petal_width']).agg([min, max])

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_length,sepal_width,sepal_width,petal_length,petal_length
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,min,max,min,max
species,petal_width,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
setosa,0.1,4.3,5.2,3.0,4.1,1.1,1.5
setosa,0.2,4.4,5.8,2.9,4.2,1.0,1.9
setosa,0.3,4.5,5.7,2.3,3.8,1.3,1.7
setosa,0.4,5.0,5.7,3.4,4.4,1.3,1.9
setosa,0.5,5.1,5.1,3.3,3.3,1.7,1.7
setosa,0.6,5.0,5.0,3.5,3.5,1.6,1.6
versicolor,1.0,4.9,6.0,2.0,2.7,3.3,4.1
versicolor,1.1,5.1,5.6,2.4,2.5,3.0,3.9
versicolor,1.2,5.5,6.1,2.6,3.0,3.9,4.7
versicolor,1.3,5.5,6.6,2.3,3.0,3.6,4.6


**Desafio:** Importa os dados que estão [aqui]('https://raw.githubusercontent.com/pmarcelino/datasets/master/iris.csv') e agrega-os por espécie, visualizando os valores médios (`mean`) de cada uma das caracerísticas físicas das flores.

In [None]:
# Resolução do desafio

### Ordenação

A **ordenação** refere-se a operações que pretendem ordenar os dados. Nem sempre os conjuntos de dados estão ordenados da forma que nós queremos, por isso é comum ter de realizar operações de ordenação.

Para fazer ordenações, utiliza-se o método `sort_values()`. O seguinte exemplo mostra como ordenar um conjunto de dados por **ordem crescente** de uma determinada variável (neste caso, 'petal_width'):

In [None]:
df.sort_values(by='petal_width')

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
32,5.2,4.1,1.5,0.1,setosa
13,4.3,3.0,1.1,0.1,setosa
37,4.9,3.1,1.5,0.1,setosa
9,4.9,3.1,1.5,0.1,setosa
12,4.8,3.0,1.4,0.1,setosa
...,...,...,...,...,...
140,6.7,3.1,5.6,2.4,virginica
114,5.8,2.8,5.1,2.4,virginica
100,6.3,3.3,6.0,2.5,virginica
144,6.7,3.3,5.7,2.5,virginica


Como se pode reparar, as observações deixaram de estar ordenadas pelo seu índice (que é de 0 a 149) e passaram a estar ordenadas por ordem crescente da largura das pétalas.

Também poderíamos ter feito a ordenação por **ordem decrescente**. Para isso teríamos de definir o parâmetro `ascending` como `False` (por predefinição, vem como `True`, daí não termos alterado este parâmetro no exemplo anterior):

In [None]:
df.sort_values(by='petal_width', ascending=False)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
100,6.3,3.3,6.0,2.5,virginica
109,7.2,3.6,6.1,2.5,virginica
144,6.7,3.3,5.7,2.5,virginica
114,5.8,2.8,5.1,2.4,virginica
140,6.7,3.1,5.6,2.4,virginica
...,...,...,...,...,...
13,4.3,3.0,1.1,0.1,setosa
37,4.9,3.1,1.5,0.1,setosa
32,5.2,4.1,1.5,0.1,setosa
34,4.9,3.1,1.5,0.1,setosa


Como podem imaginar, é possível **combinar o `sort_values()` com seleções de dados**. Vejamos o seguinte exemplo:

In [None]:
df.loc[:10, ['sepal_length', 'sepal_width', 'petal_length']].sort_values(by='sepal_width')

Unnamed: 0,sepal_length,sepal_width,petal_length
8,4.4,2.9,1.4
1,4.9,3.0,1.4
3,4.6,3.1,1.5
9,4.9,3.1,1.5
2,4.7,3.2,1.3
6,4.6,3.4,1.4
7,5.0,3.4,1.5
0,5.1,3.5,1.4
4,5.0,3.6,1.4
10,5.4,3.7,1.5


No exemplo acima, só para ser diferente, decidimos ordenar de acordo com a variável 'sepal_width'.

Para terminar, deixamos um exemplo no qual os dados são **ordenados por duas variáveis** (primeiro, por 'sepal_length' e, depois, por 'pedal_width'):

In [None]:
df.loc[:10, ['sepal_length', 'sepal_width', 'petal_length']].sort_values(by=['sepal_length','sepal_width'])

Unnamed: 0,sepal_length,sepal_width,petal_length
8,4.4,2.9,1.4
3,4.6,3.1,1.5
6,4.6,3.4,1.4
2,4.7,3.2,1.3
1,4.9,3.0,1.4
9,4.9,3.1,1.5
7,5.0,3.4,1.5
4,5.0,3.6,1.4
0,5.1,3.5,1.4
10,5.4,3.7,1.5


**Desafio:** Importa os dados que estão [aqui](https://raw.githubusercontent.com/pmarcelino/datasets/master/titanic.csv) e ordena-os por ordem decrescente de idade.

In [None]:
# Resolução do desafio

### Eliminação

O *pandas* também permite a **eliminação** de dados. Esta é feita através do método `drop()`, sendo possível eliminar dados de linhas ou colunas. Nota que o método `dropna()`, que vimos anteriormente, é uma variante do método `drop()` para a eliminação de linhas com dados em falta.

No caso em que queremos eliminar linhas, temos de passar ao método `drop()` a informação das linhas que queremos eliminar. Isso é feito utilizando o método `index`, o qual identifica as linhas. Exemplificando para um caso em que queremos **eliminar as primeiras cinco linhas**, podemos fazer:

In [None]:
df.drop([0,1,2,3,4])

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


Alternativamente, podemos recorrer ao `index`:

In [None]:
df.drop(df.index[:5])

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


Se quisermos **eliminar linhas com base numa condição**, fazemos:

In [None]:
df.drop(df[df['species']=='setosa'].index)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


Para eliminar colunas, o processo é semelhante. As únicas diferenças são:

1. A forma de identificação das colunas a eliminar é mais intuitiva (é feita através do nome das variáveis).
1. É necessário explicitar que queremos eliminar colunas (atribuindo o valor '1' ao parâmetro `axis` do método `drop`). 

Por exemplo, se quiséssemos **eliminar a coluna 'petal_width'**, faríamos:

In [None]:
df.drop('petal_width', axis=1)

Unnamed: 0,sepal_length,sepal_width,petal_length,species
0,5.1,3.5,1.4,setosa
1,4.9,3.0,1.4,setosa
2,4.7,3.2,1.3,setosa
3,4.6,3.1,1.5,setosa
4,5.0,3.6,1.4,setosa
...,...,...,...,...
145,6.7,3.0,5.2,virginica
146,6.3,2.5,5.0,virginica
147,6.5,3.0,5.2,virginica
148,6.2,3.4,5.4,virginica


Para **eliminarmos um conjunto de colunas**, seria aplicar a lógica que já vimos em exemplos anteriores:

In [None]:
df.drop(['petal_width', 'petal_length'], axis=1)

Unnamed: 0,sepal_length,sepal_width,species
0,5.1,3.5,setosa
1,4.9,3.0,setosa
2,4.7,3.2,setosa
3,4.6,3.1,setosa
4,5.0,3.6,setosa
...,...,...,...
145,6.7,3.0,virginica
146,6.3,2.5,virginica
147,6.5,3.0,virginica
148,6.2,3.4,virginica


Em todos estes exemplos, importa notar que a operação de eliminação foi efetuada mas a variável `df` não foi alterada:

In [None]:
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


Como podemos ver, ela continua a ter as mesmas linhas e colunas que originalmente.

Para que a variável seja alterada, é preciso guardar essas alterações na variável, algo que podemos fazer redefinindo a variável `df`:

In [None]:
df = df.drop('petal_width', axis=1)
df

Unnamed: 0,sepal_length,sepal_width,petal_length,species
0,5.1,3.5,1.4,setosa
1,4.9,3.0,1.4,setosa
2,4.7,3.2,1.3,setosa
3,4.6,3.1,1.5,setosa
4,5.0,3.6,1.4,setosa
...,...,...,...,...
145,6.7,3.0,5.2,virginica
146,6.3,2.5,5.0,virginica
147,6.5,3.0,5.2,virginica
148,6.2,3.4,5.4,virginica


Como podemos constatar, agora, ao invocar a variável `df`, o conjunto de dados já aparece sem a variável referente à largura das pétalas.

**Desafio:** Importa os dados que estão [aqui](https://raw.githubusercontent.com/pmarcelino/datasets/master/titanic.csv) e elimina as colunas 'Name', 'Sex' e 'Age'.

In [None]:
# Resolução do desafio

## Resumo

Neste tutorial, vimos:

* **Biblioteca *pandas***. A biblioteca *pandas* tem um conjunto de funcionalidades que nos permitem preparar e analisar dados.
* **Estruturas de dados**. O *pandas* utiliza dois tipos de estruturas de dados, as *Series* e os *DataFrames*.
* **Importação de dados**. Os dados podem ser armazenados em ficheiros, como os ficheiros CSV, sendo possível utilizar o *pandas* para importar esses dados.
* **Dados em falta**. O problema dos dados em falta pode ser resolvido através da eliminação de dados ou da imputação de dados.
* **Outras operações de preparação**. A seleção de dados pode ser feita de várias maneiras, dependendo daquilo que se pretende fazer. Com o *pandas* é também possível atribuir, agregar, ordenar e eliminar dados.

O tutorial apresentou várias instruções e não é esperado que se saiba as mesmas de cor. Sobretudo, o que se pretende neste tutorial é ilustrar as **potencialidades da biblioteca *pandas*** e fornecer um **documento que sirva para consulta futura**. Mais tarde, com a prática, é natural que comecemos a fixar as instruções que usamos com mais frequência e que toda a lógica das mesmas se torne mais intuitiva.