In [None]:
# Conhecendo e utilizando as funções do Pandas 
# O Pandas possui um conjunto de funções que são utilizadas para análise dos dados
# Vamos conhecer as principais e seus usos
# Começaremos com o dataset que se encontra no arquivo: winemag.zip 

In [29]:
import pandas as pd

In [30]:
avaliacao_vinhos = pd.read_csv('winemag.csv')
#Lê o arquivo e gera um DataFrame

In [31]:
avaliacao_vinhos

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
...,...,...,...,...,...,...,...,...,...,...,...
150929,150929,Italy,More Pinot Grigios should taste like this. A r...,,90,15.0,Northeastern Italy,Alto Adige,,Pinot Grigio,Alois Lageder


In [None]:
# Características dos dados
# Há alguns atributos ou comandos para visualizarmos as características de nossos dados:
# shape -> É um atributo do dataframe que Informa a quantidade de linhas e de colunas de nossos dados

In [4]:
avaliacao_vinhos.shape
# A resposta:
# (150930, 11) indica 150930 linhas e 11 colunas

(150930, 11)

In [7]:
# head() -> É um comando: os comandos são reconhecidos por serem finalizados com parênteses. 
# Alguns deles recebem parâmetros que devem ser fornecidos entre os parênteses
# É apresentada a lista de colunas e algumas linhas de dados
avaliacao_vinhos.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
1,1,Spain,"Ripe aromas of fig, blackberry and cassis are ...",Carodorum Selección Especial Reserva,96,110.0,Northern Spain,Toro,,Tinta de Toro,Bodega Carmen Rodríguez
2,2,US,Mac Watson honors the memory of a wine once ma...,Special Selected Late Harvest,96,90.0,California,Knights Valley,Sonoma,Sauvignon Blanc,Macauley
3,3,US,"This spent 20 months in 30% new French oak, an...",Reserve,96,65.0,Oregon,Willamette Valley,Willamette Valley,Pinot Noir,Ponzi
4,4,France,"This is the top wine from La Bégude, named aft...",La Brûlade,95,66.0,Provence,Bandol,,Provence red blend,Domaine de la Bégude


In [54]:
# Utilizando parâmetros
# A função read_csv(), por exemplo, recebe como parâmetro o path do arquivo que deve ser lido
# Também é possível informar para a função que a primeira coluna do arquivo é a lista de nossos índices:
avaliacao_vinhos = pd.read_csv('winemag.csv', index_col=0)

In [28]:
avaliacao_vinhos

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
...,...,...,...,...,...,...,...,...,...,...
150929,Italy,More Pinot Grigios should taste like this. A r...,,90,15.0,Northeastern Italy,Alto Adige,,Pinot Grigio,Alois Lageder


In [46]:
# Opções do pandas
# pd.options.display.max_rows = 4 # saída máxima de cinco linhas
pd.options.display.min_rows = 10 # Número de linhas que será exibido quando truncar

In [47]:
pd.options.display.min_rows

10

In [48]:
avaliacao_vinhos

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
1,1,Spain,"Ripe aromas of fig, blackberry and cassis are ...",Carodorum Selección Especial Reserva,96,110.0,Northern Spain,Toro,,Tinta de Toro,Bodega Carmen Rodríguez
...,...,...,...,...,...,...,...,...,...,...,...
150928,150928,France,"A perfect salmon shade, with scents of peaches...",Grand Brut Rosé,90,52.0,Champagne,Champagne,,Champagne Blend,Gosset
150929,150929,Italy,More Pinot Grigios should taste like this. A r...,,90,15.0,Northeastern Italy,Alto Adige,,Pinot Grigio,Alois Lageder


In [49]:
# Colunas como atributos
# As colunas de um dataframe podem ser acessadas com a sintaxe de um atributo de um objeto python:
avaliacao_vinhos.country # acessará a coluna nome_coluna

0             US
1          Spain
           ...  
150928    France
150929     Italy
Name: country, Length: 150930, dtype: object

In [51]:
# Alterando o índice dos dataframes
# O dataframe possui um método para alteração da coluna que será utilizada para indexação: set_index(“nome_coluna”)
avaliacao_vinhos.set_index('country')

Unnamed: 0_level_0,Unnamed: 0,description,designation,points,price,province,region_1,region_2,variety,winery
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
US,0,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
Spain,1,"Ripe aromas of fig, blackberry and cassis are ...",Carodorum Selección Especial Reserva,96,110.0,Northern Spain,Toro,,Tinta de Toro,Bodega Carmen Rodríguez
...,...,...,...,...,...,...,...,...,...,...
France,150928,"A perfect salmon shade, with scents of peaches...",Grand Brut Rosé,90,52.0,Champagne,Champagne,,Champagne Blend,Gosset
Italy,150929,More Pinot Grigios should taste like this. A r...,,90,15.0,Northeastern Italy,Alto Adige,,Pinot Grigio,Alois Lageder


In [52]:
# Colunas como dicionários
# As colunas de um dataframe podem ser acessadas com a sintaxe de um dicionário python:
avaliacao_vinhos['country']
# Com essa sintaxe é possível acessar colunas que tem um espaço no nome. 
# Por exemplo: pd.[‘pais de origem’]

0             US
1          Spain
           ...  
150928    France
150929     Italy
Name: country, Length: 150930, dtype: object

In [55]:
avaliacao_vinhos = pd.read_csv('winemag.csv', index_col=0) # Reimportar para voltar as colunas

In [56]:
avaliacao_vinhos

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
1,Spain,"Ripe aromas of fig, blackberry and cassis are ...",Carodorum Selección Especial Reserva,96,110.0,Northern Spain,Toro,,Tinta de Toro,Bodega Carmen Rodríguez
...,...,...,...,...,...,...,...,...,...,...
150928,France,"A perfect salmon shade, with scents of peaches...",Grand Brut Rosé,90,52.0,Champagne,Champagne,,Champagne Blend,Gosset
150929,Italy,More Pinot Grigios should taste like this. A r...,,90,15.0,Northeastern Italy,Alto Adige,,Pinot Grigio,Alois Lageder


In [61]:
# Colunas como dicionários de series
# Os itens de uma coluna podem ser acessados como itens de uma lista ou Serie

avaliacao_vinhos['country'][0:10]
# ou avaliacao_vinhos.country[0:10]

0       US
1    Spain
     ...  
8       US
9       US
Name: country, Length: 10, dtype: object

In [63]:
# Seleção por índices do pandas: iloc
# A lista é inversa em relação ao padrão do python
avaliacao_vinhos.iloc[:4,[0,3]]

Unnamed: 0,country,points
0,US,96
1,Spain,96
2,US,96
3,US,96


In [64]:
# Seleção por rótulos do pandas
# O operador loc permite realizar seleções pelos rótulos
# Da mesma forma que iloc, o primeiro parâmetro indica as linhas de interesse, enquanto o segundo 
# parâmetro é conjunto de rótulo(s) da(s) coluna(s) que queremos recuperar.
avaliacao_vinhos.loc[:,['country','points','price']]

Unnamed: 0,country,points,price
0,US,96,235.0
1,Spain,96,110.0
...,...,...,...
150928,France,90,52.0
150929,Italy,90,15.0


In [None]:
# Diferenças de indexação
# iloc segue o padrão de indexação do python: [0:10] irá selecionar os itens de 0 a 9.
# loc utiliza um padrão inclusivo para o último item: [0:10] irá selecionar os itens de 0 a 10…
# Em ambos, se a lista de colunas não for fornecida, recuperará todas...
# A função loc pode ser utilizada para receber uma Serie gerada por um filtro e devolver as linhas correspondentes

In [65]:
# Seleção condicional
# Diversas colunas podem ser avaliadas utilizando os operadores lógicos do python. O resultado será uma 
# Serie de booleanos que poderemos utilizar para seleção com o loc:
avaliacao_vinhos.points >= 95

0          True
1          True
          ...  
150928    False
150929    False
Name: points, Length: 150930, dtype: bool

In [66]:
# Seleção condicional: indexando pela seleção
# Diversas colunas podem ser recuperadas utilizando os operadores lógicos do python combinado com o loc. 
# O resultado será um dataframe:
avaliacao_vinhos.loc[avaliacao_vinhos.points >= 95] # Serão listadas 2981 linhas...

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
1,Spain,"Ripe aromas of fig, blackberry and cassis are ...",Carodorum Selección Especial Reserva,96,110.0,Northern Spain,Toro,,Tinta de Toro,Bodega Carmen Rodríguez
...,...,...,...,...,...,...,...,...,...,...
150563,Australia,"Seamless luxury from stem to stern, this ‘baby...",RWT,95,70.0,South Australia,Barossa Valley,,Shiraz,Penfolds
150762,US,"This wine is still young and precocious, but d...",Private Reserve,95,100.0,California,Napa Valley,Napa,Cabernet Sauvignon,Beringer
