# Data Types and Missing Values

In [1]:
import pandas as pd
reviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)
print("Setup complete")

Setup complete


In [2]:
# Utilizanado o metodo dtype para ver o tipo especifico de uma coluna (coluna: price)
reviews.price.dtype

dtype('float64')

In [3]:
# Utilizando a propriedade dtypes para retorna o dtype de cada coluna no DataFrame
reviews.dtypes

country                   object
description               object
designation               object
points                     int64
price                    float64
province                  object
region_1                  object
region_2                  object
taster_name               object
taster_twitter_handle     object
title                     object
variety                   object
winery                    object
dtype: object

In [4]:
# Convertendo uma coluna de um tipo em outro - usando a função astype(). 
# Por exemplo, podemos transformar a coluna de pontos de seu tipo de dados int64 existente em um tipo de dados float64:
reviews.points.astype('float64')

0        87.0
1        87.0
2        87.0
3        87.0
4        87.0
         ... 
65494    90.0
65495    90.0
65496    90.0
65497    90.0
65498    90.0
Name: points, Length: 65499, dtype: float64

In [5]:
# Verificando o dtype do índice DataFrame ou Series:
reviews.index.dtype

dtype('int64')

## Missing data

In [6]:
# Utilizando métodos específicos para dados ausentes. Para selecionar entradas NaN, você pode usar pd.isnull() ou pd.notnull()).
reviews[pd.isnull(reviews.country)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
913,,"Amber in color, this wine has aromas of peach ...",Asureti Valley,87,30.0,,,,Mike DeSimone,@worldwineguys,Gotsa Family Wines 2014 Asureti Valley Chinuri,Chinuri,Gotsa Family Wines
3131,,"Soft, fruity and juicy, this is a pleasant, si...",Partager,83,,,,,Roger Voss,@vossroger,Barton & Guestier NV Partager Red,Red Blend,Barton & Guestier
4243,,"Violet-red in color, this semisweet wine has a...",Red Naturally Semi-Sweet,88,18.0,,,,Mike DeSimone,@worldwineguys,Kakhetia Traditional Winemaking 2012 Red Natur...,Ojaleshi,Kakhetia Traditional Winemaking
9509,,This mouthwatering blend starts with a nose of...,Theopetra Malagouzia-Assyrtiko,92,28.0,,,,Susan Kostrzewa,@suskostrzewa,Tsililis 2015 Theopetra Malagouzia-Assyrtiko W...,White Blend,Tsililis
9750,,This orange-style wine has a cloudy yellow-gol...,Orange Nikolaevo Vineyard,89,28.0,,,,Jeff Jenssen,@worldwineguys,Ross-idi 2015 Orange Nikolaevo Vineyard Chardo...,Chardonnay,Ross-idi
11150,,"A blend of 85% Melnik, 10% Grenache Noir and 5...",,89,20.0,,,,Jeff Jenssen,@worldwineguys,Orbelus 2013 Melnik,Melnik,Orbelus
11348,,"Light and fruity, this is a wine that has some...",Partager,82,,,,,Roger Voss,@vossroger,Barton & Guestier NV Partager White,White Blend,Barton & Guestier
14030,,"This Furmint, grown in marl soils, has aromas ...",Márga,88,25.0,,,,Jeff Jenssen,@worldwineguys,St. Donat 2013 Márga White,White Blend,St. Donat
16000,,"Jumpy, jammy aromas of foxy black fruits are s...",Valle de los Manantiales Vineyard,86,40.0,,,,Michael Schachner,@wineschach,Familia Deicas 2015 Valle de los Manantiales V...,Tannat,Familia Deicas
16749,,Winemaker: Bartho Eksteen. This wooded Sauvy s...,Cape Winemakers Guild Vloekskoot Wooded,91,,,,,Lauren Buzzeo,@laurbuzz,Bartho Eksteen 2016 Cape Winemakers Guild Vloe...,Sauvignon Blanc,Bartho Eksteen


In [7]:
# Substituindo os valores ausentes com o método  fillna():
reviews.region_2.fillna("Unknown")

0                  Unknown
1                  Unknown
2        Willamette Valley
3                  Unknown
4        Willamette Valley
               ...        
65494              Unknown
65495              Unknown
65496               Sonoma
65497                 Napa
65498              Unknown
Name: region_2, Length: 65499, dtype: object

In [8]:
# Utilizando o método replace() para substituir um valor não nulo:
reviews.taster_twitter_handle.replace("@kerinokeefe", "@kerino")

0            @kerino
1         @vossroger
2        @paulgwine 
3                NaN
4        @paulgwine 
            ...     
65494     @vossroger
65495         @JoeCz
65496            NaN
65497            NaN
65498    @wineschach
Name: taster_twitter_handle, Length: 65499, dtype: object

### OBS: O método replace() é útil para substituir dados ausentes que recebe algum valor do tipo:  "Desconhecido", "Não divulgado", "Inválido" e assim por diante.

## Exercise: Data Types and Missing Values

## 1

In [11]:
# Qual é o tipo de dados da coluna de POINTS no conjunto de dados?
dtype = reviews.points.dtype
dtype

dtype('int64')

## 2

In [12]:
# Crie uma Série a partir das entradas na coluna de pontos, mas converta as entradas em strings.
reviews.points.astype(str)

0        87
1        87
2        87
3        87
4        87
         ..
65494    90
65495    90
65496    90
65497    90
65498    90
Name: points, Length: 65499, dtype: object

## 3

In [15]:
# Quantas avaliações no conjunto de dados não têm preço?
n_missing_prices = pd.isnull(reviews.price).sum()
n_missing_prices

4670

## 4

In [17]:
# Crie uma série contando o número de vezes que cada valor ocorre no campo region_1.
# Portanto, substitua os valores ausentes por Desconhecido. 
# Classifique em ordem decrescente. Sua saída deve ser algo como isto:
reviews_per_region = reviews.region_1.fillna('Unknown').value_counts().sort_values(ascending=False)
reviews_per_region

Unknown                        10755
Napa Valley                     2226
Columbia Valley (WA)            2040
Russian River Valley            1578
California                      1340
                               ...  
Vino de la Tierra de Zamora        1
Mamertino                          1
Ramandolo                          1
Civitella d'Agliano                1
Vino da Mesa de Toledo             1
Name: region_1, Length: 1112, dtype: int64