<h1> Introdução </h1>

No ultimo tutorial, nós aprendemos como selecionar um dado relevante do nosso DataFrame ou Series. Arrancar os dados certos de nosso dado de representação é algo essencial para fazer o trabalho correto.

No entanto, os dados nem sempre vem no formato que queremos. Algumas vezes nós temos que fazer algum trabalho para reformatar os dados. Neste tutorial mostraremos diferente operações que podemos aplicar nos nossos dados para adquirir o input "certo".

In [2]:
import pandas as pd
pd.set_option('max_rows', 5)
import numpy as np
reviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)

In [3]:
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


<h1> Funções resumo </h1>

Pandas nos dá simples funções resumo( nome não oficial) que restrutura os dado em uma maneira util. Por exemplo, vamos considerar o método `describre()`:

In [4]:
reviews.points.describe()

count    129971.000000
mean         88.447138
             ...      
75%          91.000000
max         100.000000
Name: points, Length: 8, dtype: float64

Este método gera um resumo "high-level" dos atributos de uma dada coluna. É sensivel ao tipo, o que significa que o output muda baseado no tipe de dados de entrada.

A saida acima só faz sentido para dados numericos. Para dados no fomarto string aqui está um exemplo de output:

In [5]:
reviews.taster_name.describe()

count         103727
unique            19
top       Roger Voss
freq           25514
Name: taster_name, dtype: object

Se você quiser pegar um resumo estatístico particular sobre uma determinada coluna em um DataFrame ou Series, temos funções pandas que podem fazer isso por você.

Por exemplo, para ver a média dos pontos vamos utilizar a função `mean()`

In [6]:
reviews.points.mean()

88.44713820775404

Para ver uma lista de dados unicos em uma coluna, podemos usar a função `unique()`:

In [7]:
reviews.taster_name.unique()

array(['Kerin O’Keefe', 'Roger Voss', 'Paul Gregutt',
       'Alexander Peartree', 'Michael Schachner', 'Anna Lee C. Iijima',
       'Virginie Boone', 'Matt Kettmann', nan, 'Sean P. Sullivan',
       'Jim Gordon', 'Joe Czerwinski', 'Anne Krebiehl\xa0MW',
       'Lauren Buzzeo', 'Mike DeSimone', 'Jeff Jenssen',
       'Susan Kostrzewa', 'Carrie Dykes', 'Fiona Adams',
       'Christina Pickard'], dtype=object)

Para ver os valores únicos de uma coluna e também ver sua frequência de aparição, podemos usar o método `value_counts()`:

In [8]:
reviews.taster_name.value_counts()

Roger Voss           25514
Michael Schachner    15134
                     ...  
Fiona Adams             27
Christina Pickard        6
Name: taster_name, Length: 19, dtype: int64

<h1> Maps </h1>

A <b>map</b> é um termo vindo dos matemáticos, para uma função que pega um conjunto de valores e mapeia para outro conjunto de valores.

Em DataScience nós sempre precisamos criar uma nova representação de um dado existe, ou para transformar dados de um formato original para um formato que queremos. Maps são o que lida com esse trabalho, fazendo com que possuam extrema importancia para o trabalho com dados. 

Existem dois tipos de mapeamento que vamos ver com frequência:

`map()` é a primeira, e um pouco mais simples. Por exemplo, supondo que queremos redefirnir as pontuações que os vinhos receberam para 0. Podemos fazer o seguinte:

In [10]:
review_points_mean = reviews.points.mean()
reviews.points.map(lambda p: p- review_points_mean)

0        -1.447138
1        -1.447138
            ...   
129969    1.552862
129970    1.552862
Name: points, Length: 129971, dtype: float64

A função que você passou para map() deve esperar um valor único de uma Serie e retorna um versão transfomada daquele valor naquela Serie. map() retorna uma nova Series na qual todos os valores foram transfomados pela sua função

`apply()` é um método equivalente se queremos transformar todo DataFrame chamando um médodo especifico para cada linha. 

In [11]:
def remean_points(row):
    row.points = row.points- review_points_mean
    return row

reviews.apply(remean_points, axis="columns")

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,-1.447138,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,-1.447138,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,1.552862,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,1.552862,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit
