# Pandas

<img src="images/python-logo.jpg" alt="Python" style="width: 300px;"/>

O Pandas (https://pandas.pydata.org/) é uma library para análise e manipulação de dados. É uma das ferramentas mais utilizadas por Data Scientists devido à sua flexibilidade e às diversa gama de funcionalidades que oferece. Permite, entre outras coisas:

* carregar dados de várias fontes e tipos de ficheiros diferentes;
* descrever estatisticamente um conjunto de dados;
* fazer a limpeza dos dados;
* fazer cálculos mais complexos sobre os dados: calcular "rolling averages" (valores médios ao longo do tempo), agrupar dados e calcular métricas dentro de cada conjunto, agregar dados de fontes diferentes;
* exportar dados para vários formatos.

Neste notebook vamos explorar várias destas funcionalidades através de um exemplo prático, que nos permitirá passar por cada um destes pontos da "pipeline" de processamento de dados. Depois iremos complementar este conhecimento com algumas técnicas mais avançadas.

## Pandas - definições essenciais

O Pandas assenta sobre duas estruturas de dados particulares: as Series e as DataFrames.

Podemos pensar nestas estruturas como colunas e tabelas: uma DataFrame é semelhante a uma tabela, e cada uma das suas colunas é uma Series. Estas estruturas podem conter vários tipos de dados diferentes, e permitem efectuar vários tipos de operações diferentes.


### Series

Vamos começar por importar o Pandas e construir uma Series:

In [1]:
import pandas as pd

In [2]:
# Vamos criar uma Series com base numa lista:
dados = [35, 42, 55.0, 67]

series_ex = pd.Series(dados)

series_ex

0    35.0
1    42.0
2    55.0
3    67.0
dtype: float64

Uma série é muito semelhante a uma lista. Contém:

* um índice que identifica cada elemento.
* valores (que podem ser de vários tipos)

`dtype` refere-se ao tipo de dados contidos na série. Estes tipos de dados têm um certo grau correspondência com os tipos básicos de variáveis de Python (podemos ver que esta série é do tipo int64, um tipo de dados usado para representar números inteiros). Há algumas diferenças, por exemplo: o dtype `object` é usado quando temos uma série de strings, uma série números e strings, e para alguns outros tipos de dados.

A principal diferença entre uma série e uma lista é que o índice de uma série pode ter valores diferentes, não tendo necessariamente de ser 0, 1, 2, ... 
Uma série pode também ter um nome.

Vejamos como podemos criar uma série com um índice diferente, e com um nome:

In [8]:
dados = ['C35', 'D12', 'H54', 'X17']
indice = ['segunda', 'terça', 'quarta', 'quinta']

series_ex = pd.Series(
    data=dados,
    index=indice,
    name='códigos_diários'
)

series_ex

segunda    C35
terça      D12
quarta     H54
quinta     X17
Name: códigos_diários, dtype: object

Uma série é semelhante a um dicionário na maneira de aceder aos seus valores: 

In [10]:
series_ex['segunda']

'C35'

É possível criar uma série a partir de um dicionário:

In [11]:
dicionario = {
    'indice_1': 'valor_1',
    'indice_2': 'valor_2'
}

serie = pd.Series(dicionario)

serie

indice_1    valor_1
indice_2    valor_2
dtype: object

# DataFrame

Uma DataFrame é essencialmente uma tabela em que cada coluna é uma Series. É possível criar DataFrames a partir de vários iteráveis diferentes como listas, dicionários e séries.

A maneira mais prática de o fazer é usando um dicionário em que o nome de cada coluna é dado pelas chaves do dicionário, e os valores de cada coluna são dados pelos valores do dicionário:

In [12]:
dados = {
    'nomes': ['Fred', 'João', 'Maria'],
    'idades': [26, 27, 28],
    'profissão': ['Data Scientist', 'Biologist', 'Software Engineer']
}

df = pd.DataFrame(dados)

df

Unnamed: 0,nomes,idades,profissão
0,Fred,26,Data Scientist
1,João,27,Biologist
2,Maria,28,Software Engineer


A maior parte do processamento de dados em Python pode ser feito usando o Pandas.

# Data Science / Analysis com o Pandas

Devido ao grande número de operações possíveis que podem ser executadas com o Pandas, não seria uma boa abordagem listá-las uma a uma num único notebook. Em vez disso, vamos ver um exemplo de uma tarefa que um Data Scientist poderia ter que realizar no seu dia-a-dia, e a cada passo do caminho serão discutidas as funções mais relevantes.

Vamos entrar no "mindset" de um Data Scientist!

## Tarefa: análise de reviews de hotéis

Imaginem que são um Data Scientist a trabalhar para uma agência de viagens, e vos é pedido que analizem em que regiões os hotéis são em média mais bem classificados, de modo a que a que a empresa possa fazer campanhas publicitárias direccionadas a essas áreas. Para além disso são livres de apresentar quaisquer outras conclusões ou detalhes interessantes que encontrem nos dados.

Foi-vos fornecido um conjuntos de dados (na pasta `data/hotel-reviews`):

* hotel_reviews.csv contém classificações dadas por utilizadores a vários hotéis e outros estabelecimentos;
* postal_codes.csv contém o código postal e província de cada hotel.

Vamos ver, passo a passo, uma possível maneira de abordar este problema.

## Leitura dos dados

Vamos começar por ler os dados. Podemos ver que os dados estão no formato .csv ("comma-separated values"). Para importar os dados para o nosso Notebook, podemos servir-nos da função **read_csv** dos Pandas, que irá ler os dados para uma DataFrame:

In [13]:
df = pd.read_csv('data/hotel-reviews/hotel_reviews.csv')

O pandas fornece várias funções do tipo **read_*extensão*** que nos permitem importar ficheiros de vários formatos diferentes. Estas funções também têm vários aergumentos opcionais para lidar com headers, dar outros nomes às colunas, etc.

O melhor a fazer quando queremos importar um ficheiro com um formato pouco convencional (por exemplo, 2 linhas de headers) será consultar a documentação e procurar uma solução para o nosso caso em particular - é muito provável que a solução já exista e seja simples, dada a importância do passo de leitura do dados.

## Análise inicial

Após carregarmos os dados, o primeiro passo será fazer uma análise inicial, só para começar a formar uma imagem mental do conjunto de dados. É muito importante familiarizarmo-nos com os dados, pois isto desbloqueia novas ideias que podemos explorar.

Para ver as primeiras linhas de uma dataframe, podemos usar o método **head**:

In [14]:
df.head(3)

Unnamed: 0,id,dateAdded,dateUpdated,address,categories,primaryCategories,city,country,keys,latitude,...,reviews.rating,reviews.sourceURLs,reviews.text,reviews.title,reviews.userCity,reviews.userProvince,reviews.username,sourceURLs,websites,garbage
0,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,5.0,https://www.hotels.com/hotel/125419/reviews%20/,Our experience at Rancho Valencia was absolute...,Best romantic vacation ever!!!!,,,Paula,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,this
1,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,5.0,https://www.hotels.com/hotel/125419/reviews%20/,Amazing place. Everyone was extremely warm and...,Sweet sweet serenity,,,D,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,is
2,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,5.0,https://www.hotels.com/hotel/125419/reviews%20/,We booked a 3 night stay at Rancho Valencia to...,Amazing Property and Experience,,,Ron,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,garbage


O mesmo se aplica para as ultimas linhas, com o método **tail**:

In [15]:
df.tail(3)

Unnamed: 0,id,dateAdded,dateUpdated,address,categories,primaryCategories,city,country,keys,latitude,...,reviews.rating,reviews.sourceURLs,reviews.text,reviews.title,reviews.userCity,reviews.userProvince,reviews.username,sourceURLs,websites,garbage
9997,AVwd1TbkByjofQCxs6FH,2016-06-11T03:12:23Z,2018-01-01T00:00:44Z,702 W Appleway Ave,"Hotel,Hotel, Motel, and Building,Hotels,Lodgin...",Accommodation & Food Services,Coeur d'Alene,US,us/id/coeurd'alene/702wapplewayave/210547670,47.69993,...,4.0,https://www.tripadvisor.com/Hotel_Review-g3541...,Rolled in 11:30 laid out heads down woke up to...,Passing through,Montana,UnitedStates,Amber406,https://www.tripadvisor.com/Hotel_Review-g3541...,http://www.shiloinns.com,
9998,AVwdHbizIN2L1WUfsXto,2016-12-13T03:44:36Z,2018-01-01T00:00:43Z,2295 N Highland Ave,"Hotel,Hotels Motels,Budget Hotels,Hotels & Motels",Accommodation & Food Services,Jackson,US,us/tn/jackson/2295nhighlandave/1759289930,35.66639,...,1.0,https://www.tripadvisor.com/Hotel_Review-g5512...,Absolutely terrible..I was told I was being gi...,Terrible,woodbury,,donWoodbury,https://www.tripadvisor.com/Hotel_Review-g5512...,http://api.citygridmedia.com/content/places/v2...,
9999,AVwddMfdIN2L1WUfwAue,2016-06-22T19:07:21Z,2018-01-01T00:00:43Z,3811 Minnesota Dr,"Hotel,Motels,Lodging,Hotels,Hotels and Motels",Accommodation & Food Services,Anchorage,US,us/ak/anchorage/3811minnesotadr/806029870,61.18531,...,1.0,https://www.tripadvisor.com/Hotel_Review-g6088...,"Filthy, outdated, noisy neighbours, but this w...",Polde,Sempeter pri Gorici,Slovenia,janezr2013,https://www.tripadvisor.com/Hotel_Review-g6088...,http://royalsuitealaska.com,


Podemos ver o formato da nossa DataFrame através da sua **shape**.

Atenção: shape não é um método, mas sim um atributo! Ou seja, é uma propriedade de cada DataFrame a que podemos aceder da seguinte forma:

In [16]:
df.shape

(10000, 24)

Podemos ver que o atributo **shape** é um tuplo. O primeiro valor dá-nos o número de linhas (10000), e o segundo valor dá-nos o número de colunas (23) da nossa DataFrame.

Podemos ver o tipo de dados que cada coluna contém com o atributo **dtypes**:

In [17]:
df.dtypes

id                       object
dateAdded                object
dateUpdated              object
address                  object
categories               object
primaryCategories        object
city                     object
country                  object
keys                     object
latitude                float64
longitude               float64
name                     object
reviews.date             object
reviews.dateSeen         object
reviews.rating          float64
reviews.sourceURLs       object
reviews.text             object
reviews.title            object
reviews.userCity         object
reviews.userProvince     object
reviews.username         object
sourceURLs               object
websites                 object
garbage                  object
dtype: object

E o nome das colunas com o atributo **columns**:

In [18]:
df.columns

Index(['id', 'dateAdded', 'dateUpdated', 'address', 'categories',
       'primaryCategories', 'city', 'country', 'keys', 'latitude', 'longitude',
       'name', 'reviews.date', 'reviews.dateSeen', 'reviews.rating',
       'reviews.sourceURLs', 'reviews.text', 'reviews.title',
       'reviews.userCity', 'reviews.userProvince', 'reviews.username',
       'sourceURLs', 'websites', 'garbage'],
      dtype='object')

O Pandas fornece também dois métodos muito úteis para descrever uma DataFrame de forma geral. O primeiro é o método **info**. Este método dá-nos a shape, os dtypes, e o número de valores não nulos de uma DataFrame, entre outras informações.

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 24 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id                    10000 non-null  object 
 1   dateAdded             10000 non-null  object 
 2   dateUpdated           10000 non-null  object 
 3   address               10000 non-null  object 
 4   categories            10000 non-null  object 
 5   primaryCategories     10000 non-null  object 
 6   city                  10000 non-null  object 
 7   country               10000 non-null  object 
 8   keys                  10000 non-null  object 
 9   latitude              10000 non-null  float64
 10  longitude             10000 non-null  float64
 11  name                  10000 non-null  object 
 12  reviews.date          10000 non-null  object 
 13  reviews.dateSeen      10000 non-null  object 
 14  reviews.rating        10000 non-null  float64
 15  reviews.sourceURLs  

O segundo método, ainda mais útil, é o método **describe**. Este método devolve uma DataFrame com uma descrição estatística das colunas numéricas da DataFrame original:

In [20]:
df.describe()

Unnamed: 0,latitude,longitude,reviews.rating
count,10000.0,10000.0,10000.0
mean,37.00363,-92.675934,4.034265
std,5.517273,19.347989,1.16224
min,19.438604,-159.47493,1.0
25%,33.927588,-111.622343,3.35
50%,37.78506,-84.452114,4.0
75%,40.41638,-77.0527,5.0
max,70.13362,-68.20399,5.0


Temos, para cada coluna numérica:

* a contagem de valores por coluna;
* o valor médio, mínimo, máximo e o desvio padrão;
* os percentis 25%, 50% e 75% (podemos ter outros através do argumento percentiles)

## Aceder aos valores da DataFrame ("slicing")

Agora que já conseguimos uma visão geral sobre os dados, vamos aprender extrair os valores que desejamos da DataFrame.

Podemos aceder a conjuntos de valores de uma DataFrame especificando os índices e as colunas que desejamos. A melhor maneira de o fazermos é através do oparedor **loc**, que tem a seguinte sintaxe:

    df.loc[valores_do_indice, valores_das_colunas]
    
Podemos também usar o operador **iloc** se quisermos referir-nos ao índice e as colunas pelo seu número, e não pelo seu nome:

    df.iloc[numero_da_linha, numero_da_coluna]

Vamos começar por extrair a primeira linha da DataFrame:

In [21]:
primeira_linha = df.loc[0]

primeira_linha

id                                                   AVwc252WIN2L1WUfpqLP
dateAdded                                            2016-10-30T21:42:42Z
dateUpdated                                          2018-09-10T21:06:27Z
address                                                 5921 Valencia Cir
categories              Hotels,Hotels and motels,Hotel and motel reser...
primaryCategories                           Accommodation & Food Services
city                                                      Rancho Santa Fe
country                                                                US
keys                        us/ca/ranchosantafe/5921valenciacir/359754519
latitude                                                           32.991
longitude                                                        -117.186
name                                           Rancho Valencia Resort Spa
reviews.date                                         2013-11-14T00:00:00Z
reviews.dateSeen        2016-08-03T00:

Podemos ver que esta operação retorna uma Series ou seja: as linhas de uma DataFrame são também tratadas como Series:

In [22]:
type(primeira_linha)

pandas.core.series.Series

Vamos agora seleccionar o rating da 3ª linha da DataFrame. Podemos ver, olhando para as colunas da DataFrame, que a coluna de interesse é **reviews.rating**:

In [23]:
df.loc[3, 'reviews.rating']

2.0

Um rating bastante baixo! Podemos aceder a coluna **reviews_rating** como se estivessemos a aceder a um valor de um dicionário:

In [24]:
df['reviews.rating']

0       5.0
1       5.0
2       5.0
3       2.0
4       5.0
       ... 
9995    3.0
9996    4.0
9997    4.0
9998    1.0
9999    1.0
Name: reviews.rating, Length: 10000, dtype: float64

Sempre que quisermos aceder a mais do que uma coluna, devemos passar uma lista de nomes de colunas:

In [25]:
df.loc[3, ['name', 'reviews.rating']]  # uma única linha: obtemos uma série.

name              Aloft Arundel Mills
reviews.rating                      2
Name: 3, dtype: object

In [26]:
df[['name', 'reviews.rating']]  # múltiplas colunas: obtemos uma DataFrame

Unnamed: 0,name,reviews.rating
0,Rancho Valencia Resort Spa,5.0
1,Rancho Valencia Resort Spa,5.0
2,Rancho Valencia Resort Spa,5.0
3,Aloft Arundel Mills,2.0
4,Aloft Arundel Mills,5.0
...,...,...
9995,Silver Sands Oceanfront Motel,3.0
9996,Sandy Neck Motel,4.0
9997,Shilo Inn Suites - Coeur d'Alene,4.0
9998,Scottish Inn,1.0


Podemos aceder a uma coluna individualmente através da **dot notation** ( . ), se esta coluna não tiver pontos ou espaços no seu nome:

In [27]:
df.name

0             Rancho Valencia Resort Spa
1             Rancho Valencia Resort Spa
2             Rancho Valencia Resort Spa
3                    Aloft Arundel Mills
4                    Aloft Arundel Mills
                      ...               
9995       Silver Sands Oceanfront Motel
9996                    Sandy Neck Motel
9997    Shilo Inn Suites - Coeur d'Alene
9998                        Scottish Inn
9999                   Royal Suite Lodge
Name: name, Length: 10000, dtype: object

## Slicing avançado

Para além de aceder a valores, colunas ou linhas individualmente, podemos seleccionar conjuntos de dados com base em condições.

Por exemplo, vamos tentar seleccionar o subconjunto da nossa DataFrame que contenha as piores classificações (1 estrela). Podemos aplicar um operador condicional sobre uma coluna, e o resultado será, **linha a linha**, se cada valor cumpre essa condição:

In [28]:
(df['reviews.rating'] == 1.0)

0       False
1       False
2       False
3       False
4       False
        ...  
9995    False
9996    False
9997    False
9998     True
9999     True
Name: reviews.rating, Length: 10000, dtype: bool

Podemos ver que esta opeação condicional nos devolveu uma **Series** com valores booleanos: True se uma determinada linha tinha classificação de 1 estrela, False caso contrário.

Operações de slicing mais complexas são possíveis devido à seguinte propriedade:

- **É possível usar uma Série Booleana para seleccionar linhas de uma DataFrame**

Desta forma, se usarmos **loc** em conjunto com a série que obtivemos anteriormente, vamos seleccionar **todas as linhas para as quais a condição é verdadeira**: 

In [29]:
mas_reviews = df.loc[
    (df['reviews.rating'] == 1.0)
]

In [30]:
mas_reviews.head(3)

Unnamed: 0,id,dateAdded,dateUpdated,address,categories,primaryCategories,city,country,keys,latitude,...,reviews.rating,reviews.sourceURLs,reviews.text,reviews.title,reviews.userCity,reviews.userProvince,reviews.username,sourceURLs,websites,garbage
26,AVwdKLPU_7pvs4fz23YA,2016-03-23T04:12:14Z,2018-09-10T21:02:24Z,998 W Landis Ave,"Hotels and motels,Hotel and motel reservations...",Accommodation & Food Services,Vineland,US,us/nj/vineland/998wlandisave/1083197965,39.487449,...,1.0,http://www.tripadvisor.com/Hotel_Review-g46890...,After getting the bait and switch I decided I'...,DO NOT stay here!!!!!!!!!!!,,,Tunaphat,http://www.tripadvisor.com/Hotel_Review-g46890...,http://www.econolodge.com,
27,AVwdKLPU_7pvs4fz23YA,2016-03-23T04:12:14Z,2018-09-10T21:02:24Z,998 W Landis Ave,"Hotels and motels,Hotel and motel reservations...",Accommodation & Food Services,Vineland,US,us/nj/vineland/998wlandisave/1083197965,39.487449,...,1.0,http://www.tripadvisor.com/Hotel_Review-g46890...,We had no choice but to stay here when a torna...,Filthy hotel and crooked people who own it!,Vineland,,hoosierladyus48,http://www.tripadvisor.com/Hotel_Review-g46890...,http://www.econolodge.com,
727,AV-TGuWBa4HuVbedGcJK,2017-11-06T20:51:11Z,2018-09-04T21:27:43Z,Two East 55th Street at Fifth Avenue,"Hotels,Hotel",Accommodation & Food Services,New York,US,us/ny/newyork/twoeast55thstreetatfifthavenue/-...,40.761408,...,1.0,https://www.tripadvisor.com/Hotel_Review-g6076...,"On my most recent work trip to NYC, I chose to...",The most humiliating hotel experience,San Francisco,California,sf_ellelle,https://www.tripadvisor.com/Hotel_Review-g6076...,http://www.stregisnewyork.com/,


In [31]:
mas_reviews.shape

(572, 24)

Podemos aplicar condições utilizando várias colunas simultaneamente, seguindo uma lógica de **and/or**.
Há algumas diferenças, devido ao facto destas comparações serem feitas linha-a-linha:

* o "and" é substituído pelo operador **&** 
* o "or" é substituído pelo operador **|** 
* o "not" é substituído pelo operador **~**
* as condições devem estar individualmente entre parêntesis

Vejamos agora classificações de 5 estrelas para hotéis em Nova Iorque, e selecionar apenas o seu nome e o username do utilizador que deixou a review: 

In [32]:
boas_reviews_em_NY = df.loc[
    (df["reviews.rating"] == 5.0) &
    (df["city"] == "New York"),
    ['name', 'reviews.username']
]

boas_reviews_em_NY.head()

Unnamed: 0,name,reviews.username
375,The Pearl Hotel,Laurel D
394,Four Seasons Hotel New York Downtown,CH_1111111
395,The James New York ‚Äì NoMad,Jessica F
634,The Broome,ECW_PhD
635,The Broome,Bethshorstein


Podemos modificar valores numa DataFrame de forma bastante intuitiva. Imaginemos que fomos informados que a review do utilizador *Laurel D* para o *Pearl Hotel* estava errada - na verdade devia ser 1 estrela. Podemos corrigir os dados da seguinte forma:

In [33]:
df.loc[
    (df['reviews.username'] == 'Laurel D') &
    (df['name'] == 'The Pearl Hotel'),
    'reviews.rating'
] = 1.0

In [34]:
df.loc[
    (df['reviews.username'] == 'Laurel D') &
    (df['name'] == 'The Pearl Hotel')
]

Unnamed: 0,id,dateAdded,dateUpdated,address,categories,primaryCategories,city,country,keys,latitude,...,reviews.rating,reviews.sourceURLs,reviews.text,reviews.title,reviews.userCity,reviews.userProvince,reviews.username,sourceURLs,websites,garbage
375,AV3O9oECIxWefVJwjraT,2017-08-11T01:44:07Z,2018-09-04T21:27:50Z,233 West 49th Street,"Hotels,Hotel",Accommodation & Food Services,New York,US,us/ny/newyork/233west49thstreet/137548078,40.761483,...,1.0,https://www.tripadvisor.com/Hotel_Review-g6076...,This hotel is in the perfect location! A half ...,Perfect location,,,Laurel D,http://www.telegraph.co.uk/travel/destinations...,http://www.pearlhotelnyc.com/,


Vamos ver mais duas técnicas para seleccionar valor: **mask** e **where**.

Os métodos **mask**/**where** devolvem uma DataFrame onde os valore que cumprem/não cumprem uma determinada condição ficam escondidos, sendo substituido por **NaN** ("not-a-number", o equivalente a None do Pandas). 

In [35]:
df.mask(df.city == 'Rancho Santa Fe').head()  # as primeiras três rows eram desta cidade.

Unnamed: 0,id,dateAdded,dateUpdated,address,categories,primaryCategories,city,country,keys,latitude,...,reviews.rating,reviews.sourceURLs,reviews.text,reviews.title,reviews.userCity,reviews.userProvince,reviews.username,sourceURLs,websites,garbage
0,,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,AVwdOclqIN2L1WUfti38,2015-11-28T19:19:35Z,2018-09-10T21:06:16Z,7520 Teague Rd,"Hotels,Hotels and motels,Travel agencies and b...",Accommodation & Food Services,Hanover,US,us/md/hanover/7520teaguerd/-2043779672,39.155929,...,2.0,https://www.tripadvisor.com/Hotel_Review-g4118...,Currently in bed writing this for the past hr ...,"Never again...beware, if you want sleep.",Richmond,VA,jaeem2016,http://www.yellowbook.com/profile/aloft-arunde...,http://www.starwoodhotels.com/alofthotels/prop...,
4,AVwdOclqIN2L1WUfti38,2015-11-28T19:19:35Z,2018-09-10T21:06:16Z,7520 Teague Rd,"Hotels,Hotels and motels,Travel agencies and b...",Accommodation & Food Services,Hanover,US,us/md/hanover/7520teaguerd/-2043779672,39.155929,...,5.0,https://www.tripadvisor.com/Hotel_Review-g4118...,I live in Md and the Aloft is my Home away fro...,ALWAYS GREAT STAY...,Laurel,MD,MamaNiaOne,http://www.yellowbook.com/profile/aloft-arunde...,http://www.starwoodhotels.com/alofthotels/prop...,


In [36]:
df.where(df.city == 'Rancho Santa Fe').head()

Unnamed: 0,id,dateAdded,dateUpdated,address,categories,primaryCategories,city,country,keys,latitude,...,reviews.rating,reviews.sourceURLs,reviews.text,reviews.title,reviews.userCity,reviews.userProvince,reviews.username,sourceURLs,websites,garbage
0,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,5.0,https://www.hotels.com/hotel/125419/reviews%20/,Our experience at Rancho Valencia was absolute...,Best romantic vacation ever!!!!,,,Paula,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,this
1,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,5.0,https://www.hotels.com/hotel/125419/reviews%20/,Amazing place. Everyone was extremely warm and...,Sweet sweet serenity,,,D,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,is
2,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,5.0,https://www.hotels.com/hotel/125419/reviews%20/,We booked a 3 night stay at Rancho Valencia to...,Amazing Property and Experience,,,Ron,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,garbage
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,


As operações de slicing são essenciais para o uso do Pandas, pois permitem-nos seleccionar exatamente o conjunto de dados que pretendemos analisar.

## Operações sobre Series

As Series permitem um número elevado de operações muito úteis na análise de dados. 

### Criação de novas colunas

Podemos criar novas colunas das seguinte formas:

* atribuindo uma Series a esta coluna; o matching será feito entre o índice da Series, e o índice da DataFrame (e as linhas da DataFrame que não tiverem um elemento correspondente na Series ficarão com o valor NaN);
* atribuindo o mesmo valor a todos os elementos da coluna;
* construindo uma nova coluna a partir de colunas existente.

Das três opções, a última costuma ser a mais comum em análise de dados. Vejamos como podemos criar uma coluna **country_city** que seja a concatenação do país e da cidade:

In [37]:
df['country_city'] = df['country'] + ', ' + df['city']

df['country_city']

0       US, Rancho Santa Fe
1       US, Rancho Santa Fe
2       US, Rancho Santa Fe
3               US, Hanover
4               US, Hanover
               ...         
9995     US, Rockaway Beach
9996      US, East Sandwich
9997      US, Coeur d'Alene
9998            US, Jackson
9999          US, Anchorage
Name: country_city, Length: 10000, dtype: object

As Series suportam várias operações elemento-a-elemento entre si, como a soma ou a multiplicação. Os elementos são alinhados entre as duas séries pelo seu índice. 

Agora vamos criar uma coluna com o rating multiplicado por 10:

In [38]:
df['rating_0_to_50'] = df['reviews.rating'] * 10

df['rating_0_to_50']

0       50.0
1       50.0
2       50.0
3       20.0
4       50.0
        ... 
9995    30.0
9996    40.0
9997    40.0
9998    10.0
9999    10.0
Name: rating_0_to_50, Length: 10000, dtype: float64

As Series têm também métodos para calcular quantidades estatísticas comuns, como a média (**mean**), a moda (**mode**), e a mediana (**median**), entre outras. Vejamos qual o valor destas quantidades estatísticas nas reviews: 

In [39]:
print(f"\nMean: {df['reviews.rating'].mean()}\n")
print(f"Median: {df['reviews.rating'].median()}\n")
print(f"Mode: {df['reviews.rating'].mode()}")  # retorna uma série, porque pode haver várias modes


Mean: 4.033865

Median: 4.0

Mode: 0    5.0
dtype: float64


Podemos também usar operações mais avançadas na construção de colunas, usando o método **apply**. Podemos passar uma função, e ela será aplicada elemento a elemento. Vamos criar uma coluna que diga se a palavra "romantic" está contida em cada review, apenas para reviews que sejam strings (caso contrário teríamos um erro):

In [40]:
def romantic(review):
    if type(review) == str :
        return ("romantic" in review)

df['is_romantic'] = df['reviews.text'].apply(romantic)

df['is_romantic']

0       False
1        True
2       False
3       False
4       False
        ...  
9995    False
9996    False
9997    False
9998    False
9999    False
Name: is_romantic, Length: 10000, dtype: object

Para colunas de texto, podemos também aceder a métodos de string e aplicá-los individualmente a cada elemento. Para tal apenas precisar de adicionar **.str** antes do método, e de seguida usá-lo como se estivessemos a user com um único string. Vejamos como obter uma versão "upper case" das reviews:

In [41]:
df['reviews.text'].str.upper()

0       OUR EXPERIENCE AT RANCHO VALENCIA WAS ABSOLUTE...
1       AMAZING PLACE. EVERYONE WAS EXTREMELY WARM AND...
2       WE BOOKED A 3 NIGHT STAY AT RANCHO VALENCIA TO...
3       CURRENTLY IN BED WRITING THIS FOR THE PAST HR ...
4       I LIVE IN MD AND THE ALOFT IS MY HOME AWAY FRO...
                              ...                        
9995    IT IS HARD FOR ME TO REVIEW AN OCEANFRONT HOTE...
9996    I LIVE CLOSE BY, AND NEEDED TO STAY SOMEWHERE ...
9997    ROLLED IN 11:30 LAID OUT HEADS DOWN WOKE UP TO...
9998    ABSOLUTELY TERRIBLE..I WAS TOLD I WAS BEING GI...
9999    FILTHY, OUTDATED, NOISY NEIGHBOURS, BUT THIS W...
Name: reviews.text, Length: 10000, dtype: object

Outra funcionalidade bastante útil é verificar se cada elemento de uma Series é igual a um elemento de uma lista. Podemos fazê-lo através do método **isin**, que devolve uma série com True/False para cada elemento da Series, conforme esteja ou não presente na lista.

Vamos usar este étodo para seleccionar todas as reviews dos utilizadores Paula e Ron:

In [42]:
usernames = ['Paula', 'Ron']

df.loc[
    df['reviews.username'].isin(usernames)
].head(3)

Unnamed: 0,id,dateAdded,dateUpdated,address,categories,primaryCategories,city,country,keys,latitude,...,reviews.title,reviews.userCity,reviews.userProvince,reviews.username,sourceURLs,websites,garbage,country_city,rating_0_to_50,is_romantic
0,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,Best romantic vacation ever!!!!,,,Paula,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,this,"US, Rancho Santa Fe",50.0,False
2,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,Amazing Property and Experience,,,Ron,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,garbage,"US, Rancho Santa Fe",50.0,False
47,AWE7dKHFIxWefVJwyLgA,2018-01-28T06:16:26Z,2018-09-10T21:02:11Z,250 Waterfront St,"Hotels,Corporate Lodging,Lodging,Hotel",Accommodation & Food Services,Oxon Hill,US,us/md/oxonhill/250waterfrontst/-1660293559,38.782134,...,Great conference stay,,,Ron,http://www.expedia.com/Hotels.h1880917-p51.Hot...,http://hamptoninn3.hilton.com/en/hotels/maryla...,,"US, Oxon Hill",50.0,False


Podemos também contar o número de valores únicos numa coluna, com o método **nunique**. Por exemplo, vejamos quantos utilizadores diferentes há, comparados com o número de reviews:

In [43]:
utilizadores_unicos = df['reviews.username'].nunique()

print(f'Há {utilizadores_unicos} utilizadores e {df.shape[0]} reviews.')

Há 6942 utilizadores e 10000 reviews.


Podemos obter um array dos valores distintos encontrados numa série com o método **unique** (este método não retorna uma Series, mas sim outro tipo de estrutura, como veremos um pouco mais à frente).

In [44]:
df['reviews.username'].unique()

array(['Paula', 'D', 'Ron', ..., 'Amber406', 'donWoodbury', 'janezr2013'],
      dtype=object)

O método **value_counts** permite combinar estas duas funcionalidades, contando quantas occorrências de cada valor temos numa Series:

In [45]:
df['reviews.username'].value_counts()

A verified traveler    1158
A Traveler              390
Anonymous               164
John                     37
David                    35
                       ... 
Tmothy                    1
Selinthia                 1
Salvador                  1
Scotti280                 1
Barney F                  1
Name: reviews.username, Length: 6942, dtype: int64

Por fim, é importante notar que podemos obter o vector de valores (sem o índice) contido numa Series através do atributo **values**. Estes "arrays" de valores, escondido por trás das abstracções Series/DataFrame, são arrays do **Numpy**, uma library de processamento numérico muito utilizada em Python.

In [46]:
df['reviews.rating'].values

array([5., 5., 5., ..., 4., 1., 1.])

In [47]:
type(df['reviews.rating'].values)

numpy.ndarray

## Limpeza geral dos dados

Agora que sabemos aceder aos dados, vamos fazer uma pequena limpeza inicial, para os podermos comçar a trabalhar com maior detalhe.

Ao analisar a DataFrame, reparamos que há uma coluna chamada garbage:

In [48]:
df.garbage

0          this
1            is
2       garbage
3           NaN
4           NaN
         ...   
9995        NaN
9996        NaN
9997        NaN
9998        NaN
9999        NaN
Name: garbage, Length: 10000, dtype: object

Vamos eliminá-la com o método **drop**:

In [49]:
df_no_garbage = df.drop('garbage', axis=1)

Algumas considerações importantes:

* temos de espcifiar que a "label" da Series que queremos eliminar se encontra ao longo do eixo das colunas (axis=1). Caso contrário estariamos a tentar eliminar uma linha cujo índice fosse "garbage" (que neste caso não existe, por isso teríamos um erro);
* a operação **drop**, e em geral todas as operações no Pandas, não são executadas "inplace", ou seja, a DataFrame original não é modificada. As operações retornam uma DataFrame modificada, que devemos armazenar numa variável. Para realizar uma operação inplace, podemos usar o argument `inplace=True`.

Podemos mudar o nome das colunas com passando um dicionário ao método **rename**. Este dicionário terá como chaves o nome antigo das colunas, e como valor o nome desejado: 

In [50]:
df_renamed = df_no_garbage.rename(columns={
    'categories': 'categorias',
    'address': 'morada'
})

In [51]:
df_renamed.head(3)

Unnamed: 0,id,dateAdded,dateUpdated,morada,categorias,primaryCategories,city,country,keys,latitude,...,reviews.text,reviews.title,reviews.userCity,reviews.userProvince,reviews.username,sourceURLs,websites,country_city,rating_0_to_50,is_romantic
0,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,Our experience at Rancho Valencia was absolute...,Best romantic vacation ever!!!!,,,Paula,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,"US, Rancho Santa Fe",50.0,False
1,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,Amazing place. Everyone was extremely warm and...,Sweet sweet serenity,,,D,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,"US, Rancho Santa Fe",50.0,True
2,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,We booked a 3 night stay at Rancho Valencia to...,Amazing Property and Experience,,,Ron,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,"US, Rancho Santa Fe",50.0,False


Podemos usar o método replace para substituir certos valores por outros:

* na DataFrame inteira, passando um dicionário com pares (valor original, valor de substituição)
* separadamente em certas colunas, passando um dicionário de dicionários, em que as chaves de primeiro nível são o nome de cada coluna em que queremos aplicar substituições, e cada subdicionário contém as substituições que desejamos fazer.

Vamos substituir as ocorrências de **US** por **EUA** na coluna country, e as ocorrências de **5921 Valencia Cir** por **5921 Val C.** na coluna morada:

In [52]:
substituicoes = {
    'country': {
        'US': 'EUA'
    },
    'morada': {
        '5921 Valencia Cir': '5921 Val C.'
    }
}

df_replaced = df_renamed.replace(substituicoes)

In [53]:
df_replaced.head(3)

Unnamed: 0,id,dateAdded,dateUpdated,morada,categorias,primaryCategories,city,country,keys,latitude,...,reviews.text,reviews.title,reviews.userCity,reviews.userProvince,reviews.username,sourceURLs,websites,country_city,rating_0_to_50,is_romantic
0,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Val C.,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,EUA,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,Our experience at Rancho Valencia was absolute...,Best romantic vacation ever!!!!,,,Paula,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,"US, Rancho Santa Fe",50.0,False
1,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Val C.,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,EUA,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,Amazing place. Everyone was extremely warm and...,Sweet sweet serenity,,,D,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,"US, Rancho Santa Fe",50.0,True
2,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Val C.,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,EUA,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,We booked a 3 night stay at Rancho Valencia to...,Amazing Property and Experience,,,Ron,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,"US, Rancho Santa Fe",50.0,False


Podemos também querer substituir todos os valores nulos por um determinado valor. Reparamos anteriormente, na informação da DataFrame, que a coluna `reviews.userCity` tem apenas 4164 valores não-nulos. Vamos substituir todos os valores nulos desta coluna pelo string "desconhecido" usando o método **fillna**:

In [54]:
df_replaced['reviews.userCity'] = df_replaced['reviews.userCity'].fillna("desconhecido")

In [55]:
df_replaced['reviews.userCity']

0              desconhecido
1              desconhecido
2              desconhecido
3                  Richmond
4                    Laurel
               ...         
9995               Wildwood
9996          East Sandwich
9997                Montana
9998               woodbury
9999    Sempeter pri Gorici
Name: reviews.userCity, Length: 10000, dtype: object

Por outro lado, podemos eliminar todas as linhas com valores nulos com o método **dropna**. Se aplicarmos este método sobre uma DataFrame, basta a linha ter um elemento nulo para ser eliminada:

In [56]:
df_replaced.shape

(10000, 26)

In [57]:
df_replaced.dropna().shape

(2705, 26)

## Definir o índice 

Podemos usar uma das nossas colunas como o índice, se tal fizer mais sentido do que usar uma sequência de números. No nosso caso temos a coluna id, que identifica um estabelecimento. Podemos tornar esta coluna no índice da nossa DataFrame, com o método **set_index**:

In [58]:
df_indexed = df_replaced.set_index('id', drop=True)

Usamos `drop=True` para não mantermos uma cópia da coluna quando a tornamos no índice.

Vamos olhar e aceder à nossa nova DataFrame:

In [59]:
df_indexed.head(3)

Unnamed: 0_level_0,dateAdded,dateUpdated,morada,categorias,primaryCategories,city,country,keys,latitude,longitude,...,reviews.text,reviews.title,reviews.userCity,reviews.userProvince,reviews.username,sourceURLs,websites,country_city,rating_0_to_50,is_romantic
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Val C.,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,EUA,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,-117.186136,...,Our experience at Rancho Valencia was absolute...,Best romantic vacation ever!!!!,desconhecido,,Paula,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,"US, Rancho Santa Fe",50.0,False
AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Val C.,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,EUA,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,-117.186136,...,Amazing place. Everyone was extremely warm and...,Sweet sweet serenity,desconhecido,,D,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,"US, Rancho Santa Fe",50.0,True
AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Val C.,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,EUA,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,-117.186136,...,We booked a 3 night stay at Rancho Valencia to...,Amazing Property and Experience,desconhecido,,Ron,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,"US, Rancho Santa Fe",50.0,False


In [60]:
df_indexed.loc['AVwc252WIN2L1WUfpqLP', ['name', 'reviews.username']]

Unnamed: 0_level_0,name,reviews.username
id,Unnamed: 1_level_1,Unnamed: 2_level_1
AVwc252WIN2L1WUfpqLP,Rancho Valencia Resort Spa,Paula
AVwc252WIN2L1WUfpqLP,Rancho Valencia Resort Spa,D
AVwc252WIN2L1WUfpqLP,Rancho Valencia Resort Spa,Ron


Da mesma forma que podemos tornar uma coluna no índice, podemos também tornar o índice numa coluna, e criar um índice novo que seja simplesmente dado pelo número da linha. Desta forma fazemos "reset" ao indíce (**reset_index**) e voltamos ao estado inicial. Vejamos:

In [61]:
df_indexed.reset_index().head(3)

Unnamed: 0,id,dateAdded,dateUpdated,morada,categorias,primaryCategories,city,country,keys,latitude,...,reviews.text,reviews.title,reviews.userCity,reviews.userProvince,reviews.username,sourceURLs,websites,country_city,rating_0_to_50,is_romantic
0,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Val C.,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,EUA,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,Our experience at Rancho Valencia was absolute...,Best romantic vacation ever!!!!,desconhecido,,Paula,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,"US, Rancho Santa Fe",50.0,False
1,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Val C.,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,EUA,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,Amazing place. Everyone was extremely warm and...,Sweet sweet serenity,desconhecido,,D,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,"US, Rancho Santa Fe",50.0,True
2,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Val C.,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,EUA,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,We booked a 3 night stay at Rancho Valencia to...,Amazing Property and Experience,desconhecido,,Ron,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com,"US, Rancho Santa Fe",50.0,False


Podemos também ordenar uma DataFrame pelo índice, usando o método **sort_values**. Neste caso, como o índice é um string, o sorting será por ordem alfabética:

In [62]:
df_sorted = df_indexed.sort_index()

df_sorted.head(3)

Unnamed: 0_level_0,dateAdded,dateUpdated,morada,categorias,primaryCategories,city,country,keys,latitude,longitude,...,reviews.text,reviews.title,reviews.userCity,reviews.userProvince,reviews.username,sourceURLs,websites,country_city,rating_0_to_50,is_romantic
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
AV-TGsFqRxPSIh2RmVF-,2017-11-06T20:51:12Z,2018-09-04T21:27:52Z,107 Merrimac Street,"Hotels,Hotel",Accommodation & Food Services,Boston,EUA,us/ma/boston/107merrimacstreet/93930424,42.363911,-71.0624,...,Bad: Room was small. Good: Free apples and fru...,Free apples and fruit Infused Water in the lobby.,desconhecido,,I-pi,https://www.telegraph.co.uk/travel/destination...,http://theboxerboston.com/,"US, Boston",39.5,False
AV-TGsFqRxPSIh2RmVF-,2017-11-06T20:51:12Z,2018-09-04T21:27:52Z,107 Merrimac Street,"Hotels,Hotel",Accommodation & Food Services,Boston,EUA,us/ma/boston/107merrimacstreet/93930424,42.363911,-71.0624,...,Bad: The pull out couch was extremely uncomfor...,Room was great.,desconhecido,,Btenda,https://www.telegraph.co.uk/travel/destination...,http://theboxerboston.com/,"US, Boston",48.0,False
AV-TGsFqRxPSIh2RmVF-,2017-11-06T20:51:12Z,2018-09-04T21:27:52Z,107 Merrimac Street,"Hotels,Hotel",Accommodation & Food Services,Boston,EUA,us/ma/boston/107merrimacstreet/93930424,42.363911,-71.0624,...,Room too small and ice machine broke nice too ...,Free water and apples,desconhecido,,Martha,https://www.telegraph.co.uk/travel/destination...,http://theboxerboston.com/,"US, Boston",35.5,False


Uma das utilidades de definir o índice é que facilita operações de join entre duas DataFrames, como iremos ver.

## Combinar DataFrames

Podemos também querer combinar duas ou mais DataFrames, combinando a informação que estas contém. No nosso caso, queremos integrar a informação do código postal contida num ficheiro separado, na noss DataFrame das reviews. Podemos fazer isto através de um join.

### Joins

O Pandas suporta operações de join entre duas DataFrames. Esta operação permite "alinhar" duas DataFrames ao longo do seu índice, e transferir algumas colunas de uma DataFrame para a outra. Podemos ver os vários tipos de joins na seguinte ilustração:

<img src="images/joins.png" alt="Python" style="width: 600px;"/>

No nosso caso, vamos querer fazer um **LEFT JOIN**, em que a tabela das reviews é a tabela da esquerda. Isto é: queremos manter todas as rows de reviews, e com base no seu índice, ir buscar os códigos postais correspondentes a uma outra tabela (ficando NaN em todas as linhas para as quais não for encontrado um código postal).

Vejamos como o podemos fazer. Comecemos por carregar o ficheiro dos códigos postais:

In [63]:
df_codigos = pd.read_csv('data/hotel-reviews/postal_codes.csv')

In [64]:
df_codigos.head(3)

Unnamed: 0,id,postalCode,province
0,AVwc252WIN2L1WUfpqLP,92067,CA
1,AVwdOclqIN2L1WUfti38,21076,MD
2,AVwePiAX_7pvs4fzBSAl,98684,WA


Vamos agora definir o índice desta tabela para ser o id, que identifica cada review:

In [65]:
df_codigos_indexed = df_codigos.set_index('id')

Agora que ambas as tabelas estão indexadas de forma semelhante, podemos fazer o join:

In [66]:
df_reviews_com_codigos = df_indexed.join(
    df_codigos_indexed,
    how='left'
)

In [67]:
df_reviews_com_codigos[['name', 'country', 'postalCode', 'province']]

Unnamed: 0_level_0,name,country,postalCode,province
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AV-TGsFqRxPSIh2RmVF-,The Boxer,EUA,2114,MA
AV-TGsFqRxPSIh2RmVF-,The Boxer,EUA,2114,MA
AV-TGsFqRxPSIh2RmVF-,The Boxer,EUA,2114,MA
AV-TGsFqRxPSIh2RmVF-,The Boxer,EUA,2114,MA
AV-TGsFqRxPSIh2RmVF-,The Boxer,EUA,2114,MA
...,...,...,...,...
AWNSHai33-Khe5l_ifzh,Hotel Renew,EUA,96815,HI
AWNSHai33-Khe5l_ifzh,Hotel Renew,EUA,96815,HI
AWNSHai33-Khe5l_ifzh,Hotel Renew,EUA,96815,HI
AWNSHai33-Khe5l_ifzh,Hotel Renew,EUA,96815,HI


Os joins são uma operação extremamente útil no processamento de dados, e é bastante importante praticarmos extensivamente o seu uso.

### Concatenação

Para além de uma concatenação ao longo do eixo das colunas (através do uso de joins) podemos também concatenar ao longo do eixo das linhas, efectivamente adicionando mais linhas a uma DataFrame. Vamos ver como funciona com um exemplo:

In [68]:
df1 = pd.DataFrame(index=[1, 2, 3], data={'x': [1, 2, 3], 'y': [1, 2, 3]})

df1

Unnamed: 0,x,y
1,1,1
2,2,2
3,3,3


In [69]:
df2 = pd.DataFrame(index=[4, 5, 6], data={'z': [1, 2, 3], 'y': [4, 5, 6]})

df2

Unnamed: 0,z,y
4,1,4
5,2,5
6,3,6


In [70]:
df3 = pd.concat([df1, df2])

df3

Unnamed: 0,x,y,z
1,1.0,1,
2,2.0,2,
3,3.0,3,
4,,4,1.0
5,,5,2.0
6,,6,3.0


## GroupBy - agrupar rows e calcular valores

A última operação que vamos aprender é o GroupBy. Esta é uma operação que permite agrupar varias linhas pelo valor de uma ou mais colunas, e depois calcular quantidades em cada um desses grupos (por exemplo: o valor médio de uma certa coluna dentro de cada grupo).

Vamos então tentar responder à questão que nos foi proposta: quais as regiões em que as ratings dos hotéis são mais altas? Comecemos por fazer uma análise por país.

Vamos usar o método **groupby** para agrupar a nossa DataFrame por *country*: 

In [71]:
df_agrupada = df_reviews_com_codigos.groupby('country')

df_agrupada

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f4104979cf8>

Como podemos ver, a operação **groupby** retorna um objecto do tipo **DataFrameGroupBy**. Se tentarmos aceder a uma coluna deste objecto, iremos obter um outro objecto do tipo **SeriesGroupby**.

Ambos estes tipos de objectos contêm a informação dos grupos formatos, que pode ser acedida através do atributo **groups**, um dicionário. Neste dicionário, as chaves são os identificadores de cada grupo (neste caso, o país), e os valores são os indíces das linhas que pertencem a cada grupo.

Vejamos:

In [72]:
df_agrupada.groups

{'EUA': Index(['AV-TGsFqRxPSIh2RmVF-', 'AV-TGsFqRxPSIh2RmVF-', 'AV-TGsFqRxPSIh2RmVF-',
        'AV-TGsFqRxPSIh2RmVF-', 'AV-TGsFqRxPSIh2RmVF-', 'AV-TGsFqRxPSIh2RmVF-',
        'AV-TGsFqRxPSIh2RmVF-', 'AV-TGsFqRxPSIh2RmVF-', 'AV-TGsFqRxPSIh2RmVF-',
        'AV-TGsFqRxPSIh2RmVF-',
        ...
        'AWNSHai33-Khe5l_ifzh', 'AWNSHai33-Khe5l_ifzh', 'AWNSHai33-Khe5l_ifzh',
        'AWNSHai33-Khe5l_ifzh', 'AWNSHai33-Khe5l_ifzh', 'AWNSHai33-Khe5l_ifzh',
        'AWNSHai33-Khe5l_ifzh', 'AWNSHai33-Khe5l_ifzh', 'AWNSHai33-Khe5l_ifzh',
        'AWUPNmq6IxWefVJw3c71'],
       dtype='object', name='id', length=10000)}

In [73]:
df_agrupada.groups.keys()

dict_keys(['EUA'])

Podemos ver que o único pais nos nossos dados são os EUA, o que torna a anãlisa pouco útil. Vamos antes agrupar os valores por cidade.

In [74]:
df_agrupada_cidade = df_reviews_com_codigos.groupby('city')

print(f"Há {len(df_agrupada_cidade.groups.keys())} cidades.")

Há 1021 cidades.


Vamos agora obter o valor médio das reviews em cada cidade. Para isto, podemos seleccionar a coluna **reviews.rating** e aplicar o método **mean**, que será calculado grupo a grupo:

In [75]:
media_por_cidade = df_agrupada_cidade['reviews.rating'].mean()

media_por_cidade

city
Abilene       4.000000
Abingdon      3.666667
Acworth       1.000000
Aiken         3.000000
Ainsworth     4.000000
                ...   
York          2.000000
Youngstown    5.000000
Yountville    5.000000
Yuba City     3.000000
Yuma          4.200000
Name: reviews.rating, Length: 1021, dtype: float64

In [76]:
print(type(media_por_cidade))

<class 'pandas.core.series.Series'>


Podemos ver que ao aplicarmos a média, foi-nos devolvida uma Series. Este é o ponto essencial da operação de GroupBy:

* **Ao aplicarmos uma operação de agregação sobre um objecto GroupBy, vamos obter uma Series com o resultado dessa operação em cada grupo**

Uma operação de agregação define-se como uma operação que utiliza todos os elementos do grupo. 

Podemos também aplicar várias operações de agregação em colunas diferentes, com o método **agg**. Algumas das funções mais comuns podem ser identificadas com o seu nome em formato string (como por exemplo 'min' que calcula o valor mínimo num grupo, 'max' que calcula o maximo, 'mean')...

Vejamos como podíamos obter simultaneamente o valor médio das reviews, número de reviews em cada grupo, e o número de utilizadores distintos em cada grupo:

In [77]:
df_final = df_reviews_com_codigos.groupby(
    'city'
).agg({
    'reviews.rating': ['mean', 'count'],
    'reviews.username': ['nunique']
})

df_final

Unnamed: 0_level_0,reviews.rating,reviews.rating,reviews.username
Unnamed: 0_level_1,mean,count,nunique
city,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Abilene,4.000000,5,5
Abingdon,3.666667,3,3
Acworth,1.000000,1,1
Aiken,3.000000,6,6
Ainsworth,4.000000,1,1
...,...,...,...
York,2.000000,1,1
Youngstown,5.000000,7,7
Yountville,5.000000,6,6
Yuba City,3.000000,1,1


Esta operação de agregação retornou uma DataFrame com multiplos níveis nas colunas (**MultiIndex**). Este é um tema mais avançado e fora do scope deste notebook; por agora, basta sabermos que para aceder a estas colunas, usamos um **tuple** com o nome dos vários níveis:

In [78]:
df_final[('reviews.rating', 'mean')]

city
Abilene       4.000000
Abingdon      3.666667
Acworth       1.000000
Aiken         3.000000
Ainsworth     4.000000
                ...   
York          2.000000
Youngstown    5.000000
Yountville    5.000000
Yuba City     3.000000
Yuma          4.200000
Name: (reviews.rating, mean), Length: 1021, dtype: float64

esta agregação permite-nos fazer uma análise mais detalhada. Imaginemos que não tinhamos calculado o número de utilizadores em cada grupo. Então, podiam haver certas cidades em que o valor médio das reviews era 5 estrelas (perfeito), mas em que tinha havido apenas uma ou duas reviews.

Podemos agora apresentar a nossa recomendação final quanto aos melhores destinos para a empresa direccionar as suas campanhas publicitárias.

Comecemos por filtrar cidades com menos de 100 reviews:

In [79]:
df_filtrada = df_final[
    df_final[('reviews.rating', 'count')] >= 100
]

df_filtrada

Unnamed: 0_level_0,reviews.rating,reviews.rating,reviews.username
Unnamed: 0_level_1,mean,count,nunique
city,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Arlington,4.336406,217,71
Atlanta,4.077922,154,150
Baltimore,4.182609,184,86
Boston,4.277711,249,192
Charleston,4.416107,149,93
Chicago,4.332022,356,271
Hanover,3.576923,130,51
Hyattsville,3.70297,202,90
Kissimmee,4.039109,101,90
Lahaina,4.396552,116,116


E agora, vamos:

* ordená-la por ordem decrescente, usando o método **sort_values**, e indicando a coluna de ordenação, assinalando **ascending** = False;
* seleccionar o top 5, com o método .iloc

In [80]:
top_5 = df_filtrada.sort_values(
    ('reviews.rating', 'mean'),
    ascending=False
).iloc[0:5]

top_5

Unnamed: 0_level_0,reviews.rating,reviews.rating,reviews.username
Unnamed: 0_level_1,mean,count,nunique
city,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Charleston,4.416107,149,93
Lahaina,4.396552,116,116
Arlington,4.336406,217,71
San Francisco,4.334167,120,100
Chicago,4.332022,356,271


E aqui temos a resposta a pergunta que nos foi colocada. Resta apenas guardar o resultado num ficheiro. 

## Output

Podemos exportar as nossas DataFrames para vários tipos de ficheiros, com os métodos **to_<extensão>**.

Vamos guardar o resultado como csv:

In [81]:
top_5.to_csv('data/hotel-reviews/top5.csv')

# Conclusão 

Neste Notebook, aprendemos os básicos de Pandas através de um exemplo de uma tarefa que podia fazer parte do dia a dia de um data scientist. As técnicas aprendidas neste notebook são úteis para vaŕios tipos de problemas, mas para além disso o Pandas tem um grande número de funcionalidades adicionais que não estão presentes neste notebook.

Restam algumas considerações finais sobre o "workflow" de um Data Scientist:

* em geral, os dados que vão encontrar no dia-a-dia podem não ser tão "limpos" e directos como os dados que utilizámos aqui. Na verdade, uma grande parte do tempo de um Data Scientist será passado a entender e organizar dados (não vai ser só treinar modelos de machine learning!)
* uma boa prática (especialmente) ao utilizar o Pandas é guardar cada transformação dos dados numa nova variável, com um nome explícito, e evitar operações "inplace". tentamos seguir este princípio na tarefa deste Notebook. Esta abordagem torna o código mais legível e diminui em geral o número de erros.
* a criar DataFrames (ou quaquer outro tipo de estrutura tabular), **evitem incluir informação quantitativa no nome das colunas**. Para compreender este ponto, vejamos um exemplo, com uma DataFrame que inclui dados sobre a percentagem de três grupos

In [82]:
dados = {
    "grupo": ['grupo_1', 'grupo_2', 'grupo_3'],
    "<25": [33, 31, 39],
    ">=25, <50": [22, 40, 41],
    ">=50": [34, 29, 20]
}
               
df_idades = pd.DataFrame(dados)

df_idades

Unnamed: 0,grupo,<25,">=25, <50",>=50
0,grupo_1,33,22,34
1,grupo_2,31,40,29
2,grupo_3,39,41,20


Esta abordagem é má por duas razões:

* primeiro, força-nos a fazer slicing nas linhas e nas colunas para responder a questões numéricas sobre as idades dos grupos;
* depois, suponhamos que queriamos contabilizar um novo intervale de idades para apenas um dos grupos - seríamos forçados a criar uma nova coluna que seria NaN para todos os outros grupos.

Podemos obter uma versão limpa desta DataFrame com o método **melt**:

In [83]:
df_melted = df_idades.melt(
    id_vars=['grupo'],
    var_name='intervalo de idades', 
    value_name='percentagem'
)

df_melted

Unnamed: 0,grupo,intervalo de idades,percentagem
0,grupo_1,<25,33
1,grupo_2,<25,31
2,grupo_3,<25,39
3,grupo_1,">=25, <50",22
4,grupo_2,">=25, <50",40
5,grupo_3,">=25, <50",41
6,grupo_1,>=50,34
7,grupo_2,>=50,29
8,grupo_3,>=50,20
