<h1> Introdução </h1>

No último tutorial, nós aprendemos como selecionar um dado relevante do nosso DataFrame ou Series. Arrancar os dados certos de nosso Dado de representação é algo essêncial para fazer o trabalho correto.

No entanto, os dados nem sempre vem no formato que queremos. Algumas vezes nós temos que fazer algum trabalho para reformatar os dados. Neste tutorial mostraremos diferentes operações que podemos aplicar nos nossos dados para adquirir o input "certo".

In [1]:
import pandas as pd
pd.set_option('max_rows', 5)
import numpy as np
reviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)

In [2]:
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


<h1> Funções resumo </h1>

Pandas nos dá simples funções resumo(nome não oficial), que restrutura os dado em uma maneira útil. Por exemplo, vamos considerar o método `describre()`:

In [3]:
reviews.points.describe()

count    129971.000000
mean         88.447138
             ...      
75%          91.000000
max         100.000000
Name: points, Length: 8, dtype: float64

Este método gera um resumo "high-level" dos atributos de uma dada coluna. É sensivel ao tipo, o que significa que o output muda baseado no tipo de dados de entrada.

A saída acima só faz sentido para dados numéricos. Para dados no formato string temos esse exemplo de output:

In [4]:
reviews.taster_name.describe()

count         103727
unique            19
top       Roger Voss
freq           25514
Name: taster_name, dtype: object

Se você quiser pegar um resumo estatístico particular sobre uma determinada coluna em um DataFrame ou Series, temos funções pandas que podem fazer isso por você.

Por exemplo, para ver a média dos pontos vamos utilizar a função `mean()`

In [5]:
reviews.points.mean()

88.44713820775404

Para ver uma lista de dados únicos em uma coluna, podemos usar a função `unique()`:

In [6]:
reviews.taster_name.unique()

array(['Kerin O’Keefe', 'Roger Voss', 'Paul Gregutt',
       'Alexander Peartree', 'Michael Schachner', 'Anna Lee C. Iijima',
       'Virginie Boone', 'Matt Kettmann', nan, 'Sean P. Sullivan',
       'Jim Gordon', 'Joe Czerwinski', 'Anne Krebiehl\xa0MW',
       'Lauren Buzzeo', 'Mike DeSimone', 'Jeff Jenssen',
       'Susan Kostrzewa', 'Carrie Dykes', 'Fiona Adams',
       'Christina Pickard'], dtype=object)

Para ver os valores únicos de uma coluna e também ver sua frequência de aparição, podemos usar o método `value_counts()`:

In [7]:
reviews.taster_name.value_counts()

Roger Voss           25514
Michael Schachner    15134
                     ...  
Fiona Adams             27
Christina Pickard        6
Name: taster_name, Length: 19, dtype: int64

<h1> Maps </h1>

O <b>map</b> é um termo vindo dos matemáticos, para uma função que pega um conjunto de valores e mapeia para outro conjunto de valores.

Em DataScience nós sempre precisamos criar uma nova representação de um dado existe, ou para transformar dados de um formato original para um formato que queremos. Maps são o que lida com esse trabalho, fazendo com que possuam extrema importancia para o trabalho com dados. 

Existem dois tipos de mapeamento que vamos ver com frequência:

`map()` é a primeira, e um pouco mais simples. Por exemplo, supondo que queremos redefirnir as pontuações que os vinhos receberam para uma média 0. Podemos fazer o seguinte:

In [8]:
review_points_mean = reviews.points.mean()
reviews.points.map(lambda p: p- review_points_mean)

0        -1.447138
1        -1.447138
            ...   
129969    1.552862
129970    1.552862
Name: points, Length: 129971, dtype: float64

A função que você passou para map() deve esperar um valor único de uma Serie e retorna um versão transfomada daquele valor naquela Serie. map() retorna uma nova Series na qual todos os valores foram transfomados pela sua função

`apply()` é um método equivalente se queremos transformar todo DataFrame chamando um médodo especifico para cada linha. 

In [9]:
def remean_points(row):
    row.points = row.points- review_points_mean
    return row

reviews.apply(remean_points, axis="columns")

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,-1.447138,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,-1.447138,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,1.552862,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,1.552862,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


<h1> Exercícios </h1>

Execute o bloco abaixo:

In [12]:
pd.set_option("display.max_rows", 5)
df = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)
df.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


## 1.

Qual é a mediana da coluna `points` na DataFrame `df` ?

In [15]:
# Seu código aqui.

<details><summary>Clique aqui para ver a resposta.</summary>

```python
df['points'].median()
```

</details>

## 2. 
Quais são os países que estão representados neste dataset?(Sua resposta deve excluir qualquer valor duplicado)

In [34]:
# Seu código aqui.

<details><summary>Clique aqui para ver a resposta.</summary>

```python
df["country"].unique()
```

</details>

## 3.
Qual é a frequência que cada país apareçe no dataset? Crie uma Series `revisoes_por_pais` mapeando os países para contagem de reviews de vinho de cada um. 

In [22]:
# Seu código aqui.

<details><summary>Clique aqui para ver a resposta.</summary>

```python
revisoes_por_pais = df["country"].value_counts()
revisoes_por_pais
```
    
</details>

## 4.
Crie a variável `preco_centralizado` que contém uma versão da coluna `price` com a média do preço subtraído.

In [26]:
# Seu código aqui.

<details><summary>Clique aqui para ver a resposta.</summary>

```python
preco_centralizado = df["price"].map(lambda p:p - df["price"].mean())
```    
</details>

## 5.
Sou um comprador de vinhos econômico. Qual vinho é a "melhor compra"? Cria uma variável `compra_vinho` que entregue o nome do vinho com maior relação pontos/preço no dataset

In [38]:
# Seu código aqui.Não esqueça de montrar sua resposta. 

<details><summary>Clique aqui para ver a resposta.</summary>

```python
compra_vinho_pontos = (df["points"]/df["price"]).idxmax()
compra_vinho = df.loc[compra_vinho_pontos,"title"]
compra_vinho
```    
</details>

## 6.
São necessários tantas palavras para descrever uma garrafa de vinho? Ou o vinho é mais como `tropical`(tropical) ou `frutado`(fruity)? Crie uma Series `descricao_contador` que conta quantas vezes essa duas palavras aparecem na coluna `description` no seu dataset. 

In [37]:
# Seu código aqui.Não esqueça de montrar sua resposta. 

<details><summary>Clique aqui para ver a resposta.</summary>

```python
n_trop = df["description"].map(lambda desc: "tropical" in desc).sum()
n_frutado = df["description"].map(lambda desc: "fruity" in desc).sum()
descricao_contador = pd.Series([n_trop, n_frutado], index = ["tropical","frutado"])
descricao_contador
```    
</details>

## 7.
Queremos guardar esses reviews de vinho em nosso site, porém o sistema de pontos indo de 80 para 100 é muito difícil de entender. Queremos que você mude para uma selecão de estrelas. Uma pontuação de 95 para cima temos 3 estrelas, uma pontuação de pelo menos 85 porém menor que 95 temos 2 estrelas. Outros casos temos uma pontuação de 1.

Além do mais, os a associação de vinhos canadense comprou muitas propagandas do site, então qualquer vinho do Canadá deve ter a pontuação mudada para 3 estrelas, independente da pontuação. 

Crie uma series `start_ratings` que o número de estrelas corresponde a cada review no dataset.

In [42]:
# Seu código aqui.Não esqueça de montrar sua resposta. 

<details><summary>Clique aqui para ver a resposta.</summary>

```python

    def stars(row):
    if row.country == 'Canada':
        return 3
    elif row.points >= 95:
        return 3
    elif row.points >= 85:
        return 2
    else:
        return 1
    
star_ratings = reviews.apply(stars, axis='columns')
star_ratings
    
```    
</details>