# Summary Functions and Maps

In [1]:
import pandas as pd

In [2]:
reviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)

In [3]:
reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


## Summary functions

In [4]:
# Metodo .describe()
reviews.points.describe()

count    65499.000000
mean        88.434037
std          3.030310
min         80.000000
25%         86.000000
50%         88.000000
75%         91.000000
max        100.000000
Name: points, dtype: float64

In [5]:
reviews.taster_name.describe()

count          51856
unique            19
top       Roger Voss
freq           13045
Name: taster_name, dtype: object

In [6]:
# Usando a function mean() 
reviews.points.mean()

88.43403716087269

In [7]:
# Usando a function unique() retorna valores sem duplicar
reviews.taster_name.unique()

array(['Kerin O’Keefe', 'Roger Voss', 'Paul Gregutt',
       'Alexander Peartree', 'Michael Schachner', 'Anna Lee C. Iijima',
       'Virginie Boone', 'Matt Kettmann', nan, 'Sean P. Sullivan',
       'Jim Gordon', 'Joe Czerwinski', 'Anne Krebiehl\xa0MW',
       'Lauren Buzzeo', 'Mike DeSimone', 'Jeff Jenssen',
       'Susan Kostrzewa', 'Carrie Dykes', 'Fiona Adams',
       'Christina Pickard'], dtype=object)

In [8]:
# Usando o metodo value_counts()
reviews.taster_name.value_counts()

Roger Voss            13045
Michael Schachner      7752
Kerin O’Keefe          5313
Paul Gregutt           4851
Virginie Boone         4696
Matt Kettmann          3035
Joe Czerwinski         2605
Sean P. Sullivan       2358
Anna Lee C. Iijima     2134
Jim Gordon             2032
Anne Krebiehl MW       1769
Lauren Buzzeo           938
Susan Kostrzewa         593
Jeff Jenssen            234
Mike DeSimone           231
Alexander Peartree      210
Carrie Dykes             45
Fiona Adams              11
Christina Pickard         4
Name: taster_name, dtype: int64

## Maps

In [9]:
# Usando o metodo map() para mapear um conjunto de valores
review_points_mean = reviews.points.mean()
reviews.points.map(lambda p: p - review_points_mean)

0       -1.434037
1       -1.434037
2       -1.434037
3       -1.434037
4       -1.434037
           ...   
65494    1.565963
65495    1.565963
65496    1.565963
65497    1.565963
65498    1.565963
Name: points, Length: 65499, dtype: float64

In [10]:
# Usando a function apply() para chamar o DataFrame por linhas
def remean_points(row):
    row.points = row.points - review_points_mean
    return row

reviews.apply(remean_points, axis='columns')

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,-1.434037,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,-1.434037,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,-1.434037,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,-1.434037,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,-1.434037,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
...,...,...,...,...,...,...,...,...,...,...,...,...,...
65494,France,Made from young vines from the Vaulorent porti...,Fourchaume Premier Cru,1.565963,45.0,Burgundy,Chablis,,Roger Voss,@vossroger,William Fèvre 2005 Fourchaume Premier Cru (Ch...,Chardonnay,William Fèvre
65495,Australia,"This is a big, fat, almost sweet-tasting Caber...",,1.565963,22.0,South Australia,McLaren Vale,,Joe Czerwinski,@JoeCz,Tapestry 2005 Cabernet Sauvignon (McLaren Vale),Cabernet Sauvignon,Tapestry
65496,US,"Much improved over the unripe 2005, Fritz's 20...",Estate,1.565963,20.0,California,Dry Creek Valley,Sonoma,,,Fritz 2006 Estate Sauvignon Blanc (Dry Creek V...,Sauvignon Blanc,Fritz
65497,US,This wine wears its 15.8% alcohol better than ...,Block 24,1.565963,31.0,California,Napa Valley,Napa,,,Hendry 2004 Block 24 Primitivo (Napa Valley),Primitivo,Hendry


In [11]:
# Agora conseguimos chamar o DataFrame por linhas
reviews.head(1)

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia


In [12]:
# Outras operacoes
review_points_mean = reviews.points.mean()
reviews.points - review_points_mean

0       -1.434037
1       -1.434037
2       -1.434037
3       -1.434037
4       -1.434037
           ...   
65494    1.565963
65495    1.565963
65496    1.565963
65497    1.565963
65498    1.565963
Name: points, Length: 65499, dtype: float64

In [13]:
reviews.country + " - " + reviews.region_1

0                    Italy - Etna
1                             NaN
2          US - Willamette Valley
3        US - Lake Michigan Shore
4          US - Willamette Valley
                   ...           
65494            France - Chablis
65495    Australia - McLaren Vale
65496       US - Dry Creek Valley
65497            US - Napa Valley
65498               Spain - Jerez
Length: 65499, dtype: object

## Exercise: Summary Functions and Maps

### 1

In [19]:
# Qual é a mediana da coluna de pontos nos comentários DataFrame?
median_points = reviews.points.median()
median_points

88.0

### 2

In [20]:
# Quais países estão representados no conjunto de dados? (Sua resposta não deve incluir duplicatas.)
country = reviews.country.unique()
country

array(['Italy', 'Portugal', 'US', 'Spain', 'France', 'Germany',
       'Argentina', 'Chile', 'Australia', 'Austria', 'South Africa',
       'New Zealand', 'Israel', 'Hungary', 'Greece', 'Romania', 'Mexico',
       'Canada', nan, 'Turkey', 'Czech Republic', 'Slovenia',
       'Luxembourg', 'Croatia', 'Georgia', 'Uruguay', 'England',
       'Lebanon', 'Serbia', 'Brazil', 'Moldova', 'Morocco', 'Peru',
       'India', 'Bulgaria', 'Cyprus', 'Armenia', 'Switzerland',
       'Bosnia and Herzegovina', 'Ukraine', 'Slovakia', 'Macedonia'],
      dtype=object)

### 3

In [21]:
# Com que frequência cada país aparece no conjunto de dados? 
# Crie uma série reviews_per_country mapeando países para a contagem de avaliações de vinhos daquele país.
reviews_per_country = reviews.country.value_counts()
reviews_per_country

US                        27177
France                    11174
Italy                     10005
Spain                      3409
Portugal                   2963
Chile                      2258
Argentina                  1907
Austria                    1635
Australia                  1177
Germany                    1051
South Africa                737
New Zealand                 733
Israel                      259
Greece                      242
Canada                      108
Bulgaria                     68
Romania                      67
Hungary                      61
Uruguay                      61
Croatia                      44
Turkey                       43
Slovenia                     39
Georgia                      37
England                      36
Mexico                       31
Brazil                       31
Moldova                      30
Lebanon                      20
Morocco                      11
Peru                          8
Serbia                        7
Cyprus  

### 4

In [22]:
# Crie a variável centered_price contendo uma versão da coluna de preço com o preço médio subtraído.
# (Obs: essa transformação de 'centralização' é uma etapa comum de pré-processamento 
# antes de aplicar vários algoritmos de aprendizado de máquina.)
centered_price = reviews.price - reviews.price.mean()
centered_price

0              NaN
1       -20.232932
2       -21.232932
3       -22.232932
4        29.767068
           ...    
65494     9.767068
65495   -13.232932
65496   -15.232932
65497    -4.232932
65498   -25.232932
Name: price, Length: 65499, dtype: float64

### 5

In [24]:
# Crie uma variável bargain_wine com o título do vinho com a maior relação pontos-preço no conjunto de dados.
bargain_idx = (reviews.points / reviews.price).idxmax()
bargain_wine = reviews.loc[bargain_idx, 'title']
bargain_wine

'Bandit NV Merlot (California)'

### 6

In [25]:
# Crie uma série descriptor_counts contando quantas vezes cada uma dessas duas palavras 
# aparece na coluna de descrição no conjunto de dados. 
# (Para simplificar, vamos ignorar as versões em maiúsculas dessas palavras.)
n_trop = reviews.description.map(lambda desc: "tropical" in desc).sum()
n_fruity = reviews.description.map(lambda desc: "fruity" in desc).sum()
descriptor_counts = pd.Series([n_trop, n_fruity], index=['tropical', 'fruity'])
descriptor_counts

tropical    1813
fruity      4632
dtype: int64

### 7

In [27]:
# Gostaríamos de hospedar essas avaliações de vinhos em nosso site,
# mas um sistema de classificação que varia de 80 a 100 pontos é muito difícil de entender - 
# gostaríamos de traduzi-las em classificações de estrelas simples. 
# Uma pontuação de 95 ou mais conta como 3 estrelas, uma pontuação de pelo menos 85, mas inferior a 95 é 2 estrelas. 
# Qualquer outra pontuação é 1 estrela.
# Além disso, a Canadian Vintners Association comprou muitos anúncios no site, portanto, 
# qualquer vinho do Canadá deve receber automaticamente 3 estrelas, independentemente dos pontos.

# Crie uma série star_ratings com o número de estrelas correspondente a cada avaliação no conjunto de dados.

def stars(row):
    if row.country == 'Canada':
        return 3
    elif row.points >= 95:
        return 3
    elif row.points >= 85:
        return 2
    else:
        return 1

star_ratings = reviews.apply(stars, axis='columns')
star_ratings

0        2
1        2
2        2
3        2
4        2
        ..
65494    2
65495    2
65496    2
65497    2
65498    2
Length: 65499, dtype: int64