<h1> Introdução </h1>

Selecionar valores especificos em um DataFrame ou uma Serie para trabalhar é um passo implícito em qualquer operção de dados que você fará, então uma das primeiras coisas que você precisa aprender em trabalhar com dados em Python é como selecionar pontos relevantes nos dados rapidamente e de forma eficiente. 

In [13]:
import pandas as pd 
reviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)
pd.set_option("max_rows",5)

<h1> Native Accessors </h1>

Objetos nativos em Python dão um bom caminho para indexar dados. Pandas carrega todos esses objetos, nos quais ajudam a se tornar fácil para começar.

Considere esse DataFrame

In [14]:
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


Em Python, nós podemos acessar a propriedade de qualquer objeto acessando seus atributos. Um  obejto `livro`, por exemplo, pode ter uma propriedade `titulo`, no qual pode ser acessada chamando `livro.titulo`. Colunas no pandas DataFrame trabalham da mesma forma.

Para acessar a propriedade `country` de `reviews` nós podemos usar:

In [15]:
reviews.country

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Se tivéssimos um dicionário Python, nós poderiámos acessar seus valores usando o operador de indexamento (`[]`). Nós podemos fazer da mesma forma com colunas em um DataFrame:

In [16]:
reviews["country"]

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Essas são as duas maneiras de selecionar uma Série especifica pra fora de um DataFrame. Nenhuma das duas são mais ou menos sintaticamente mais valida que a outra , porém o operador por indexação `[]` tem vantagem pois pode lidar com colunas que possuem nomes reservados.(Ex: Se tivéssemos uma coluna `country providence`, `reviews.country providence` não funcionaria)

Pandas Series não parece um tipo de dicionário? É bastante parecido, o que não espanta se usarmos um operador de indexamento para pegar um valor específico como nos dicionários:

In [17]:
reviews["country"][0]

'Italy'

<h1> Indexação em pandas </h1>

O operador de indexação trabalha sobre um de 2 paradigmas. O primeiro é <b> index-based selection </b>: selecionar os dados baseado na sua localização numérica dentro do DataFrame. `iloc` segue este paradigma.

Para selecionar a primeira linha de dados em um DataFrame, nós fazemos da seguinte forma:

In [18]:
reviews.iloc[0]

country                                                    Italy
description    Aromas include tropical fruit, broom, brimston...
                                     ...                        
variety                                              White Blend
winery                                                   Nicosia
Name: 0, Length: 13, dtype: object

Ambos `loc` e `iloc` são linha-primeiro, coluna-segundo. Isto é o contrário o que fazemos em Python nativo, no qual é coluna-primeiro e linha-segundo.

Isto significa que é mais fácil de recuperar linha e mais difícil de recuperar colunas. Para pegar uma coluna com `iloc`, podemos fazer:

In [19]:
reviews.iloc[:,0]

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Com o operador `:`, no qual usamos nativamente em Python, significa "Tudo". Quando combinamos com outros selecionadores, contudo, pode ser utilizado como um intervalo de valores. Por exemplo, para selecionar a coluna `country` apenas da primeira, segunda, e terceira linha, fazemos:

In [20]:
reviews.iloc[:3, 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

É possível passar uma lista:

In [21]:
reviews.iloc[[0, 1, 2], 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

<h1> Seleção baseada em "rótulo" </h1>

O segundo paradigma para selecção de atributo é seguido pelo operador `loc`: <b> label-based selection</b>. Neste paradigmam o que importa é o nome ou rótulo que importa e não sua localização.

Por exemplo, vamos pegar o primeira entrada de reviews.

In [22]:
reviews.loc[0, "country"]

'Italy'

`iloc` é conceituamente mais simples que `loc` porque ignora os indíces do dataset. Quan usamos `iloc` nós tratamos o dataset como uma grande matrix. Desde que seu dataSet normalmente terá indices significativos, é mais fácil usar `loc`.

Por exemplo, abaixo temos uma operação muito mais simples de ser realizada utilizando o `loc`:

In [23]:
reviews.loc[:, ["taster_name", "taster_twitter_handle", "points"]]

Unnamed: 0,taster_name,taster_twitter_handle,points
0,Kerin O’Keefe,@kerinokeefe,87
1,Roger Voss,@vossroger,87
...,...,...,...
129969,Roger Voss,@vossroger,90
129970,Roger Voss,@vossroger,90


<h1> Escolhendo entre `loc` e `iloc` </h1>

Quando escolher ou transicionar entre `loc` e `iloc`, eu tenho um raciocÍonio que trabalha dois métodos um pouco diferentes.

`iloc` usa o esquema de indexação Python stdlib, no qual o primeiro elemento de um intervalo é incluido e o último é excluido.
Então 0:10 irá selecionar as entradas 0,...,9.

O `loc` por sua vez, faz a indexação inclusiva. Então 0:10 selecionará 0,...,10

O que muda?

Se tivessmos um DataFrame que tinha os valores de indexação "Apples, ...., Potatoes,..." e quaremos selecionar todas as frutas e legumes: É muito mais conveniente utilizar o `loc`: df.loc["Apples":"Potatoes"]

Isto se torna confuso com números.
Supondo que temos um DataFrame que utiliza a indexação por números(0,...,1000). Neste caso o df.iloc[0:1000] retornara 1000 entradas e o .loc retonara 1001 entradas. para pegar os mil elementos com .loc teriamos que fazer def.loc[0:999].

No mais são bem parecidos. 

<h1> Manipulação de index </h1>

O que acontece quando  utilizo `set_index` no nome de coluna `title`?

In [24]:
reviews.set_index("title")

Unnamed: 0_level_0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,variety,winery
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Nicosia 2013 Vulkà Bianco (Etna),Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,White Blend,Nicosia
Quinta dos Avidagos 2011 Avidagos Red (Douro),Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...
Domaine Marcel Deiss 2012 Pinot Gris (Alsace),France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Pinot Gris,Domaine Marcel Deiss
Domaine Schoffit 2012 Lieu-dit Harth Cuvée Caroline Gewurztraminer (Alsace),France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Gewürztraminer,Domaine Schoffit


Isto é útil caso você queria um index para um dataset no qual é melhor do que o já colocado.

<h1> Seleção condicional </h1>

Por exemplo, suponha que nós estamos interessados especificamente nos vinhos com qualidade acima da média produzidos na italia.

Nós podemos checar cada vinho se é italiano ou não

In [25]:
reviews.country == "Italy"

0          True
1         False
          ...  
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

Esta operação produz uma Series de boleanos `True`/`False` baseado no `country` de cada gravação. Este resultado pode ser utilizado dento do `loc` para selecionar os dados relevantes:

In [26]:
reviews.loc[reviews.country == "Italy"]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


O DataFrame tem ~ 20,000 linhas. O Original tem ~130,000. O que significa que em torno de 15 % são vinhos originados na Italia.

Nós também queremos saber quais são melhores que a média. Vinhos são revisados com 80-até-100 pontos na scala, o que podemos deduzir que vinhos com no mínimo de 90 pontos são os que queremos:

In [27]:
reviews.loc[(reviews.country == "Italy") & (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
120,Italy,"Slightly backward, particularly given the vint...",Bricco Rocche Prapó,92,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Prapó (Barolo),Nebbiolo,Ceretto
130,Italy,"At the first it was quite muted and subdued, b...",Bricco Rocche Brunate,91,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Brunate (Barolo),Nebbiolo,Ceretto
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


Pandas vem com seletores condicionais construidos nele, dois destes serão destacados.

O primeiros é `isin`. isin deixa você selecionar datos nos quais os valores estão dentro de uma lista de valores. Por exemplo, esta é uma maneira de selecionar vinhos apenas da Itália e França

In [28]:
reviews.loc[reviews.country.isin(["Italy", "France"])]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


O segundo é `isnull` (e seu companheiro `notnull`). Este métodos deixa você mostrar os valores no quais são (ou não) vazios (`NaN`). Por exemplo, para filtrar os vinhos com preço.

In [29]:
reviews.loc[reviews.price.notnull()]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


<h1> Atribuir dados </h1>

Indo para outro caminho, colocar dados em um DataFrame é fácil. Você pode tanto adicionar valores constantes:

In [30]:
reviews['critic'] = 'everyone'
reviews['critic']

0         everyone
1         everyone
            ...   
129969    everyone
129970    everyone
Name: critic, Length: 129971, dtype: object

Ou valores iterativos:

In [31]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']

0         129971
1         129970
           ...  
129969         2
129970         1
Name: index_backwards, Length: 129971, dtype: int32

<h1> Exercícios </h1>

Rode a célula abaixo e carregue seus dados.

In [33]:
import pandas as pd

reviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)
pd.set_option("display.max_rows", 5)
print("Setup concluido.")

Setup concluido.


## 1.

Selecione a coluna `description` de `reviews` e atribua o resultado para uma variável `desc`.

In [39]:
# Seu código aqui. Não esqueça de mostrar sua Serie.

<details><summary>Clique aqui para ver a resposta.</summary>

```python
desc = reviews["description"]
desc
```

</details>

## 2.

Selecione o primeiro valor da coluna description de `reviews`, atribua esse valor a variável `first_description`.

In [45]:
# Seu código aqui. Não esqueça de mostrar seu resultado

<details><summary>Clique aqui para ver a resposta.</summary>

```python
first_description = reviews["description"][0]
first_description
```

</details>

## 3. 

Selecione a primeira linha de dados (a primeira "gravação") de `reviews` e atribua na variável `primeira_linha`.

In [44]:
# Seu código aqui. Não esqueça de mostrar seu resultado

<details><summary>Clique aqui para ver a resposta.</summary>

```python
primeira_linha = reviews.iloc[0]
primeira_linha
```

</details>

## 4.

Selecione os primeiros 10 valores da coluna `description` em `reviews`, atribua o resultado a variável `primeiras_descricoes`.

In [50]:
# Seu código aqui. Não esqueça de mostrar seu resultado

<details><summary>Clique aqui para ver a resposta.</summary>

```python
primeiras_descricoes = reviews.loc[0:9,["description"]]
primeiras_descricoes
    
#Obs: Existe outra maneira
```

</details>

## 5.

Selecione as gravações com os index `1`, `2`, `3`, `5`, and `8`, e atribua o resultado na variável `sample_reviews`.

Em outras palavras, gere o seguinte DataFrame:

![](https://i.imgur.com/sHZvI1O.png)

In [54]:
# Seu código aqui. Não esqueça de mostrar seu resultado

<details><summary>Clique aqui para ver a resposta.</summary>

```python
sample_reviews = reviews.loc[[1,2,3,5,8]]
sample_reviews
```

</details>

## 6.

Crie uma variável `df` que contém as colunas `country`, `province`, `region_1` e `region_2` com os index  `0`, `1`, `10` e`100`. 

Em outras palavras, gere o seguinte DataFrame:

![](https://i.imgur.com/FUCGiKP.png)

In [59]:
# Seu código aqui. Não esqueça de mostrar seu resultado

<details><summary>Clique aqui para ver a resposta.</summary>

```python
df = reviews.loc[[0,1,10,100], ["country", "province", "region_1", "region_2"]]
df
```

</details>

## 7.

Crie a variável `df` que contenha as colunas `country` e `variety` das primeiras 100 linhas.

In [65]:
# Seu código aqui. Não esqueça de mostrar seu resultado

<details><summary>Clique aqui para ver a resposta.</summary>

```python
df = reviews.loc[0:99,["country","variety"]]
df
```

</details>

## 8.

Crie um DataFrame chamado `vinhos_italianos` que contém reviews dos vinhos feitos na Itália.

In [64]:
# Seu código aqui. Não esqueça de mostrar seu resultado

<details><summary>Clique aqui para ver a resposta.</summary>

```python
vinhos_italianos = reviews[reviews["country"]=="Italy"]
vinhos_italianos
```

</details>

## 9.

Crie um DataFrame `melhores_vinhos_oceania` que contenha todos os reviews feitos com no mínimo 95 pontos (de 100) para os vinhos da Austria ou Nova Zelândia(Australia or New Zealand)

In [73]:
# Seu código aqui. Não esqueça de mostrar seu resultado

<details><summary>Clique aqui para ver a resposta.</summary>

```python
melhores_vinhos_oceania = reviews[(reviews["country"].isin(["Austria","New Zealand"])) & (reviews["points"] >= 95)]
melhores_vinhos_oceania
```

</details>