# Pandas

<img src="images/python-logo.jpg" alt="Python" style="width: 300px;"/>

O Pandas (https://pandas.pydata.org/) é uma library para análise e manipulação de dados. É uma das ferramentas mais utilizadas por Data Scientists devido à sua flexibilidade e às diversa gama de funcionalidades que oferece. Permite, entre outras coisas:

* carregar dados de várias fontes e tipos de ficheiros diferentes;
* descrever estatisticamente um conjunto de dados;
* fazer a limpeza dos dados;
* fazer cálculos mais complexos sobre os dados: calcular "rolling averages" (valores médios ao longo do tempo), agrupar dados e calcular métricas dentro de cada conjunto, agregar dados de fontes diferentes;
* exportar dados para vários formatos.

Neste notebook vamos explorar várias destas funcionalidades através de um exemplo prático, que nos permitirá passar por cada um destes pontos da "pipeline" de processamento de dados. Depois iremos complementar este conhecimento com algumas técnicas mais avançadas.

## Pandas - definições essenciais

O Pandas assenta sobre duas estruturas de dados particulares: as Series e as DataFrames.

Podemos pensar nestas estruturas como colunas e tabelas: uma DataFrame é semelhante a uma tabela, e cada uma das suas colunas é uma Series. Estas estruturas podem conter vários tipos de dados diferentes, e permitem efectuar vários tipos de operações diferentes.


### Series

Vamos começar por importar o Pandas e construir uma Series:

In [None]:
import pandas as pd

In [None]:
# Vamos criar uma Series com base numa lista:
dados = [35, 42, 55.0, 67]

series_ex = pd.Series(dados)

series_ex

Uma série é muito semelhante a uma lista. Contém:

* um índice que identifica cada elemento.
* valores (que podem ser de vários tipos)

`dtype` refere-se ao tipo de dados contidos na série. Estes tipos de dados têm um certo grau correspondência com os tipos básicos de variáveis de Python (podemos ver que esta série é do tipo int64, um tipo de dados usado para representar números inteiros). Há algumas diferenças, por exemplo: o dtype `object` é usado quando temos uma série de strings, uma série números e strings, e para alguns outros tipos de dados.

A principal diferença entre uma série e uma lista é que o índice de uma série pode ter valores diferentes, não tendo necessariamente de ser 0, 1, 2, ... 
Uma série pode também ter um nome.

Vejamos como podemos criar uma série com um índice diferente, e com um nome:

In [None]:
dados = ['C35', 'D12', 'H54', 'X17']
indice = ['segunda', 'terça', 'quarta', 'quinta']

series_ex = pd.Series(
    data=dados,
    index=indice,
    name='códigos_diários'
)

series_ex

Uma série é semelhante a um dicionário na maneira de aceder aos seus valores: 

In [None]:
series_ex['segunda']

É possível criar uma série a partir de um dicionário:

In [None]:
dicionario = {
    'indice_1': 'valor_1',
    'indice_2': 'valor_2'
}

serie = pd.Series(dicionario)

serie

# DataFrame

Uma DataFrame é essencialmente uma tabela em que cada coluna é uma Series. É possível criar DataFrames a partir de vários iteráveis diferentes como listas, dicionários e séries.

A maneira mais prática de o fazer é usando um dicionário em que o nome de cada coluna é dado pelas chaves do dicionário, e os valores de cada coluna são dados pelos valores do dicionário:

In [None]:
dados = {
    'nomes': ['Fred', 'João', 'Maria'],
    'idades': [26, 27, 28],
    'profissão': ['Data Scientist', 'Biologist', 'Software Engineer']
}

df = pd.DataFrame(dados)

df

A maior parte do processamento de dados em Python pode ser feito usando o Pandas.

# Data Science / Analysis com o Pandas

Devido ao grande número de operações possíveis que podem ser executadas com o Pandas, não seria uma boa abordagem listá-las uma a uma num único notebook. Em vez disso, vamos ver um exemplo de uma tarefa que um Data Scientist poderia ter que realizar no seu dia-a-dia, e a cada passo do caminho serão discutidas as funções mais relevantes.

Vamos entrar no "mindset" de um Data Scientist!

## Tarefa: análise de reviews de hotéis

Imaginem que são um Data Scientist a trabalhar para uma agência de viagens, e vos é pedido que analizem em que regiões os hotéis são em média mais bem classificados, de modo a que a que a empresa possa fazer campanhas publicitárias direccionadas a essas áreas. Para além disso são livres de apresentar quaisquer outras conclusões ou detalhes interessantes que encontrem nos dados.

Foi-vos fornecido um conjuntos de dados (na pasta `data/hotel-reviews`):

* hotel_reviews.csv contém classificações dadas por utilizadores a vários hotéis e outros estabelecimentos;
* postal_codes.csv contém o código postal e província de cada hotel.

Vamos ver, passo a passo, uma possível maneira de abordar este problema.

## Leitura dos dados

Vamos começar por ler os dados. Podemos ver que os dados estão no formato .csv ("comma-separated values"). Para importar os dados para o nosso Notebook, podemos servir-nos da função **read_csv** dos Pandas, que irá ler os dados para uma DataFrame:

In [None]:
df = pd.read_csv('data/hotel-reviews/hotel_reviews.csv')

O pandas fornece várias funções do tipo **read_*extensão*** que nos permitem importar ficheiros de vários formatos diferentes. Estas funções também têm vários aergumentos opcionais para lidar com headers, dar outros nomes às colunas, etc.

O melhor a fazer quando queremos importar um ficheiro com um formato pouco convencional (por exemplo, 2 linhas de headers) será consultar a documentação e procurar uma solução para o nosso caso em particular - é muito provável que a solução já exista e seja simples, dada a importância do passo de leitura do dados.

## Análise inicial

Após carregarmos os dados, o primeiro passo será fazer uma análise inicial, só para começar a formar uma imagem mental do conjunto de dados. É muito importante familiarizarmo-nos com os dados, pois isto desbloqueia novas ideias que podemos explorar.

Para ver as primeiras linhas de uma dataframe, podemos usar o método **head**:

In [None]:
df.head(3)

O mesmo se aplica para as ultimas linhas, com o método **tail**:

In [None]:
df.tail(3)

Podemos ver o formato da nossa DataFrame através da sua **shape**.

Atenção: shape não é um método, mas sim um atributo! Ou seja, é uma propriedade de cada DataFrame a que podemos aceder da seguinte forma:

In [None]:
df.shape

Podemos ver que o atributo **shape** é um tuplo. O primeiro valor dá-nos o número de linhas (10000), e o segundo valor dá-nos o número de colunas (23) da nossa DataFrame.

Podemos ver o tipo de dados que cada coluna contém com o atributo **dtypes**:

In [None]:
df.dtypes

E o nome das colunas com o atributo **columns**:

In [None]:
df.columns

O Pandas fornece também dois métodos muito úteis para descrever uma DataFrame de forma geral. O primeiro é o método **info**. Este método dá-nos a shape, os dtypes, e o número de valores não nulos de uma DataFrame, entre outras informações.

In [None]:
df.info()

O segundo método, ainda mais útil, é o método **describe**. Este método devolve uma DataFrame com uma descrição estatística das colunas numéricas da DataFrame original:

In [None]:
df.describe()

Temos, para cada coluna numérica:

* a contagem de valores por coluna;
* o valor médio, mínimo, máximo e o desvio padrão;
* os percentis 25%, 50% e 75% (podemos ter outros através do argumento percentiles)

## Aceder aos valores da DataFrame ("slicing")

Agora que já conseguimos uma visão geral sobre os dados, vamos aprender extrair os valores que desejamos da DataFrame.

Podemos aceder a conjuntos de valores de uma DataFrame especificando os índices e as colunas que desejamos. A melhor maneira de o fazermos é através do oparedor **loc**, que tem a seguinte sintaxe:

    df.loc[valores_do_indice, valores_das_colunas]
    
Podemos também usar o operador **iloc** se quisermos referir-nos ao índice e as colunas pelo seu número, e não pelo seu nome:

    df.iloc[numero_da_linha, numero_da_coluna]

Vamos começar por extrair a primeira linha da DataFrame:

In [None]:
primeira_linha = df.loc[0]

primeira_linha

Podemos ver que esta operação retorna uma Series ou seja: as linhas de uma DataFrame são também tratadas como Series:

In [None]:
type(primeira_linha)

Vamos agora seleccionar o rating da 3ª linha da DataFrame. Podemos ver, olhando para as colunas da DataFrame, que a coluna de interesse é **reviews.rating**:

In [None]:
df.loc[3, 'reviews.rating']

Um rating bastante baixo! Podemos aceder a coluna **reviews_rating** como se estivessemos a aceder a um valor de um dicionário:

In [None]:
df['reviews.rating']

Sempre que quisermos aceder a mais do que uma coluna, devemos passar uma lista de nomes de colunas:

In [None]:
df.loc[3, ['name', 'reviews.rating']]  # uma única linha: obtemos uma série.

In [None]:
df[['name', 'reviews.rating']]  # múltiplas colunas: obtemos uma DataFrame

Podemos aceder a uma coluna individualmente através da **dot notation** ( . ), se esta coluna não tiver pontos ou espaços no seu nome:

In [None]:
df.name

## Slicing avançado

Para além de aceder a valores, colunas ou linhas individualmente, podemos seleccionar conjuntos de dados com base em condições.

Por exemplo, vamos tentar seleccionar o subconjunto da nossa DataFrame que contenha as piores classificações (1 estrela). Podemos aplicar um operador condicional sobre uma coluna, e o resultado será, **linha a linha**, se cada valor cumpre essa condição:

In [None]:
df['reviews.rating'] == 1.0

Podemos ver que esta opeação condicional nos devolveu uma **Series** com valores booleanos: True se uma determinada linha tinha classificação de 1 estrela, False caso contrário.

Operações de slicing mais complexas são possíveis devido à seguinte propriedade:

- **É possível usar uma Série Booleana para seleccionar linhas de uma DataFrame**

Desta forma, se usarmos **loc** em conjunto com a série que obtivemos anteriormente, vamos seleccionar **todas as linhas para as quais a condição é verdadeira**: 

In [None]:
mas_reviews = df.loc[
    (df['reviews.rating'] == 1.0)
]

In [None]:
mas_reviews.head(3)

In [None]:
mas_reviews.shape

Podemos aplicar condições utilizando várias colunas simultaneamente, seguindo uma lógica de **and/or**.
Há algumas diferenças, devido ao facto destas comparações serem feitas linha-a-linha:

* o "and" é substituído pelo operador **&** 
* o "or" é substituído pelo operador **|** 
* o "not" é substituído pelo operador **~**
* as condições devem estar individualmente entre parêntesis

Vejamos agora classificações de 5 estrelas para hotéis em Nova Iorque, e selecionar apenas o seu nome e o username do utilizador que deixou a review: 

In [None]:
boas_reviews_em_NY = df.loc[
    (df["reviews.rating"] == 5.0) &
    (df["city"] == "New York"),
    ['name', 'reviews.username']
]

boas_reviews_em_NY.head()

Podemos modificar valores numa DataFrame de forma bastante intuitiva. Imaginemos que fomos informados que a review do utilizador *Laurel D* para o *Pearl Hotel* estava errada - na verdade devia ser 1 estrela. Podemos corrigir os dados da seguinte forma:

In [None]:
df.loc[
    (df['reviews.username'] == 'Laurel D') &
    (df['name'] == 'The Pearl Hotel'),
    'reviews.rating'
] = 1.0

In [None]:
df.loc[
    (df['reviews.username'] == 'Laurel D') &
    (df['name'] == 'The Pearl Hotel')
]

Vamos ver mais duas técnicas para seleccionar valor: **mask** e **where**.

Os métodos **mask**/**where** devolvem uma DataFrame onde os valore que cumprem/não cumprem uma determinada condição ficam escondidos, sendo substituido por **NaN** ("not-a-number", o equivalente a None do Pandas). 

In [None]:
df.mask(df.city == 'Rancho Santa Fe').head()  # as primeiras três rows eram desta cidade.

In [None]:
df.where(df.city == 'Rancho Santa Fe').head()

As operações de slicing são essenciais para o uso do Pandas, pois permitem-nos seleccionar exatamente o conjunto de dados que pretendemos analisar.

## Operações sobre Series

As Series permitem um número elevado de operações muito úteis na análise de dados. 

### Criação de novas colunas

Podemos criar novas colunas das seguinte formas:

* atribuindo uma Series a esta coluna; o matching será feito entre o índice da Series, e o índice da DataFrame (e as linhas da DataFrame que não tiverem um elemento correspondente na Series ficarão com o valor NaN);
* atribuindo o mesmo valor a todos os elementos da coluna;
* construindo uma nova coluna a partir de colunas existente.

Das três opções, a última costuma ser a mais comum em análise de dados. Vejamos como podemos criar uma coluna **country_city** que seja a concatenação do país e da cidade:

In [None]:
df['country_city'] = df['country'] + ', ' + df['city']

df['country_city']

As Series suportam várias operações elemento-a-elemento entre si, como a soma ou a multiplicação. Os elementos são alinhados entre as duas séries pelo seu índice. 

Agora vamos criar uma coluna com o rating multiplicado por 10:

In [None]:
df['rating_0_to_50'] = df['reviews.rating'] * 10

df['rating_0_to_50']

As Series têm também métodos para calcular quantidades estatísticas comuns, como a média (**mean**), a moda (**mode**), e a mediana (**median**), entre outras. Vejamos qual o valor destas quantidades estatísticas nas reviews: 

In [None]:
print(f"\nMean: {df['reviews.rating'].mean()}\n")
print(f"Median: {df['reviews.rating'].median()}\n")
print(f"Mode: {df['reviews.rating'].mode()}")  # retorna uma série, porque pode haver várias modes

Podemos também usar operações mais avançadas na construção de colunas, usando o método **apply**. Podemos passar uma função, e ela será aplicada elemento a elemento. Vamos criar uma coluna que diga se a palavra "romantic" está contida em cada review, apenas para reviews que sejam strings (caso contrário teríamos um erro):

In [None]:
def romantic(review):
    if type(review) == str :
        return ("romantic" in review)

df['is_romantic'] = df['reviews.text'].apply(romantic)

df['is_romantic']

Para colunas de texto, podemos também aceder a métodos de string e aplicá-los individualmente a cada elemento. Para tal apenas precisar de adicionar **.str** antes do método, e de seguida usá-lo como se estivessemos a user com um único string. Vejamos como obter uma versão "upper case" das reviews:

In [None]:
df['reviews.text'].str.upper()

Outra funcionalidade bastante útil é verificar se cada elemento de uma Series é igual a um elemento de uma lista. Podemos fazê-lo através do método **isin**, que devolve uma série com True/False para cada elemento da Series, conforme esteja ou não presente na lista.

Vamos usar este étodo para seleccionar todas as reviews dos utilizadores Paula e Ron:

In [None]:
usernames = ['Paula', 'Ron']

df.loc[
    df['reviews.username'].isin(usernames)
].head(3)

Podemos também contar o número de valores únicos numa coluna, com o método **nunique**. Por exemplo, vejamos quantos utilizadores diferentes há, comparados com o número de reviews:

In [None]:
utilizadores_unicos = df['reviews.username'].nunique()

print(f'Há {utilizadores_unicos} utilizadores e {df.shape[0]} reviews.')

Podemos obter um array dos valores distintos encontrados numa série com o método **unique** (este método não retorna uma Series, mas sim outro tipo de estrutura, como veremos um pouco mais à frente).

In [None]:
df['reviews.username'].unique()

O método **value_counts** permite combinar estas duas funcionalidades, contando quantas occorrências de cada valor temos numa Series:

In [None]:
df['reviews.username'].value_counts()

Por fim, é importante notar que podemos obter o vector de valores (sem o índice) contido numa Series através do atributo **values**. Estes "arrays" de valores, escondido por trás das abstracções Series/DataFrame, são arrays do **Numpy**, uma library de processamento numérico muito utilizada em Python.

In [None]:
df['reviews.rating'].values

In [None]:
type(df['reviews.rating'].values)

## Limpeza geral dos dados

Agora que sabemos aceder aos dados, vamos fazer uma pequena limpeza inicial, para os podermos comçar a trabalhar com maior detalhe.

Ao analisar a DataFrame, reparamos que há uma coluna chamada garbage:

In [None]:
df.garbage

Vamos eliminá-la com o método **drop**:

In [None]:
df_no_garbage = df.drop('garbage', axis=1)

Algumas considerações importantes:

* temos de espcifiar que a "label" da Series que queremos eliminar se encontra ao longo do eixo das colunas (axis=1). Caso contrário estariamos a tentar eliminar uma linha cujo índice fosse "garbage" (que neste caso não existe, por isso teríamos um erro);
* a operação **drop**, e em geral todas as operações no Pandas, não são executadas "inplace", ou seja, a DataFrame original não é modificada. As operações retornam uma DataFrame modificada, que devemos armazenar numa variável. Para realizar uma operação inplace, podemos usar o argument `inplace=True`.

Podemos mudar o nome das colunas com passando um dicionário ao método **rename**. Este dicionário terá como chaves o nome antigo das colunas, e como valor o nome desejado: 

In [None]:
nomes = {
    'categories': 'categorias',
    'address': 'morada'
}

df_renamed = df_no_garbage.rename(columns=nomes)

In [None]:
df_renamed.head(3)

Podemos usar o método replace para substituir certos valores por outros:

* na DataFrame inteira, passando um dicionário com pares (valor original, valor de substituição)
* separadamente em certas colunas, passando um dicionário de dicionários, em que as chaves de primeiro nível são o nome de cada coluna em que queremos aplicar substituições, e cada subdicionário contém as substituições que desejamos fazer.

Vamos substituir as ocorrências de **US** por **EUA** na coluna country, e as ocorrências de **5921 Valencia Cir** por **5921 Val C.** na coluna morada:

In [None]:
substituicoes = {
    'country': {
        'US': 'EUA',
        'SP': 'ES'
    },
    'morada': {
        '5921 Valencia Cir': '5921 Val C.'
    }
}

df_replaced = df_renamed.replace(substituicoes)

In [None]:
df_replaced.head(3)

Podemos também querer substituir todos os valores nulos por um determinado valor. Reparamos anteriormente, na informação da DataFrame, que a coluna `reviews.userCity` tem apenas 4164 valores não-nulos. Vamos substituir todos os valores nulos desta coluna pelo string "desconhecido" usando o método **fillna**:

In [None]:
df_replaced['reviews.userCity'] = df_replaced['reviews.userCity'].fillna("desconhecido")

In [None]:
df_replaced['reviews.userCity']

Por outro lado, podemos eliminar todas as linhas com valores nulos com o método **dropna**. Se aplicarmos este método sobre uma DataFrame, basta a linha ter um elemento nulo para ser eliminada:

In [None]:
df_replaced.shape

In [None]:
df_replaced.dropna().shape

## Definir o índice 

Podemos usar uma das nossas colunas como o índice, se tal fizer mais sentido do que usar uma sequência de números. No nosso caso temos a coluna id, que identifica um estabelecimento. Podemos tornar esta coluna no índice da nossa DataFrame, com o método **set_index**:

In [None]:
df_indexed = df_replaced.set_index('id', drop=True)

Usamos `drop=True` para não mantermos uma cópia da coluna quando a tornamos no índice.

Vamos olhar e aceder à nossa nova DataFrame:

In [None]:
df_indexed.head(3)

In [None]:
df_indexed.loc['AVwc252WIN2L1WUfpqLP', ['name', 'reviews.username']]

Da mesma forma que podemos tornar uma coluna no índice, podemos também tornar o índice numa coluna, e criar um índice novo que seja simplesmente dado pelo número da linha. Desta forma fazemos "reset" ao indíce (**reset_index**) e voltamos ao estado inicial. Vejamos:

In [None]:
df_indexed.reset_index().head(3)

Podemos também ordenar uma DataFrame pelo índice, usando o método **sort_index**. Neste caso, como o índice é um string, o sorting será por ordem alfabética:

In [None]:
df_sorted = df_indexed.sort_index()

Uma das utilidades de definir o índice é que facilita operações de join entre duas DataFrames, como iremos ver.

## Combinar DataFrames

Podemos também querer combinar duas ou mais DataFrames, combinando a informação que estas contém. No nosso caso, queremos integrar a informação do código postal contida num ficheiro separado, na noss DataFrame das reviews. Podemos fazer isto através de um join.

### Joins

O Pandas suporta operações de join entre duas DataFrames. Esta operação permite "alinhar" duas DataFrames ao longo do seu índice, e transferir algumas colunas de uma DataFrame para a outra. Podemos ver os vários tipos de joins na seguinte ilustração:

<img src="images/joins.png" alt="Python" style="width: 600px;"/>

No nosso caso, vamos querer fazer um **LEFT JOIN**, em que a tabela das reviews é a tabela da esquerda. Isto é: queremos manter todas as rows de reviews, e com base no seu índice, ir buscar os códigos postais correspondentes a uma outra tabela (ficando NaN em todas as linhas para as quais não for encontrado um código postal).

Vejamos como o podemos fazer. Comecemos por carregar o ficheiro dos códigos postais:

In [None]:
df_codigos = pd.read_csv('data/hotel-reviews/postal_codes.csv')

In [None]:
df_codigos.head(3)

Vamos agora definir o índice desta tabela para ser o id, que identifica cada review:

In [None]:
df_codigos_indexed = df_codigos.set_index('id')

Agora que ambas as tabelas estão indexadas de forma semelhante, podemos fazer o join:

In [None]:
df_reviews_com_codigos = df_indexed.join(
    df_codigos_indexed,
    how='left'
)

In [None]:
df_reviews_com_codigos[['name', 'country', 'postalCode', 'province']]

Os joins são uma operação extremamente útil no processamento de dados, e é bastante importante praticarmos extensivamente o seu uso.

### Concatenação

Para além de uma concatenação ao longo do eixo das colunas (através do uso de joins) podemos também concatenar ao longo do eixo das linhas, efectivamente adicionando mais linhas a uma DataFrame. Vamos ver como funciona com um exemplo:

In [None]:
df1 = pd.DataFrame(index=[1, 2, 3], data={'x': [1, 2, 3], 'y': [1, 2, 3]})

df1

In [None]:
df2 = pd.DataFrame(index=[4, 5, 6], data={'z': [1, 2, 3], 'y': [4, 5, 6]})

df2

In [None]:
df3 = pd.concat([df1, df2], sort=True)

df3

## GroupBy - agrupar rows e calcular valores

A última operação que vamos aprender é o GroupBy. Esta é uma operação que permite agrupar varias linhas pelo valor de uma ou mais colunas, e depois calcular quantidades em cada um desses grupos (por exemplo: o valor médio de uma certa coluna dentro de cada grupo).

Vamos então tentar responder à questão que nos foi proposta: quais as regiões em que as ratings dos hotéis são mais altas? Comecemos por fazer uma análise por país.

Vamos usar o método **groupby** para agrupar a nossa DataFrame por *country*: 

In [None]:
df_agrupada = df_reviews_com_codigos.groupby('country')

df_agrupada

Como podemos ver, a operação **groupby** retorna um objecto do tipo **DataFrameGroupBy**. Se tentarmos aceder a uma coluna deste objecto, iremos obter um outro objecto do tipo **SeriesGroupby**.

Ambos estes tipos de objectos contêm a informação dos grupos formatos, que pode ser acedida através do atributo **groups**, um dicionário. Neste dicionário, as chaves são os identificadores de cada grupo (neste caso, o país), e os valores são os indíces das linhas que pertencem a cada grupo.

Vejamos:

In [None]:
df_agrupada.groups

In [None]:
df_agrupada.groups.keys()

Podemos ver que o único pais nos nossos dados são os EUA, o que torna a anãlisa pouco útil. Vamos antes agrupar os valores por cidade.

In [None]:
df_agrupada_cidade = df_reviews_com_codigos.groupby('city')

print(f"Há {len(df_agrupada_cidade.groups.keys())} cidades.")

Vamos agora obter o valor médio das reviews em cada cidade. Para isto, podemos seleccionar a coluna **reviews.rating** e aplicar o método **mean**, que será calculado grupo a grupo:

In [None]:
media_por_cidade = df_agrupada_cidade['reviews.rating'].mean()

media_por_cidade

In [None]:
print(type(media_por_cidade))

Podemos ver que ao aplicarmos a média, foi-nos devolvida uma Series. Este é o ponto essencial da operação de GroupBy:

* **Ao aplicarmos uma operação de agregação sobre um objecto GroupBy, vamos obter uma Series com o resultado dessa operação em cada grupo**

Uma operação de agregação define-se como uma operação que utiliza todos os elementos do grupo. 

Podemos também aplicar várias operações de agregação em colunas diferentes, com o método **agg**. Algumas das funções mais comuns podem ser identificadas com o seu nome em formato string (como por exemplo 'min' que calcula o valor mínimo num grupo, 'max' que calcula o maximo, 'mean')...

Vejamos como podíamos obter simultaneamente o valor médio das reviews, número de reviews em cada grupo, e o número de utilizadores distintos em cada grupo:

In [None]:
operacoes = {
    'reviews.rating': ['mean', 'count'],
    'reviews.username': ['nunique']
}

df_final = df_reviews_com_codigos.groupby(
    'city'
).agg(operacoes)

df_final

Esta operação de agregação retornou uma DataFrame com multiplos níveis nas colunas (**MultiIndex**). Este é um tema mais avançado e fora do scope deste notebook; por agora, basta sabermos que para aceder a estas colunas, usamos um **tuple** com o nome dos vários níveis:

In [None]:
df_final[('reviews.rating', 'mean')]

Esta agregação permite-nos fazer uma análise mais detalhada. Imaginemos que não tinhamos calculado o número de utilizadores em cada grupo. Então, podiam haver certas cidades em que o valor médio das reviews era 5 estrelas (perfeito), mas em que tinha havido apenas uma ou duas reviews.

Podemos agora apresentar a nossa recomendação final quanto aos melhores destinos para a empresa direccionar as suas campanhas publicitárias.

Comecemos por filtrar cidades com menos de 100 reviews:

In [None]:
df_filtrada = df_final.loc[
    df_final[('reviews.rating', 'count')] >= 100
]

df_filtrada

E agora, vamos:

* ordená-la por ordem decrescente, usando o método **sort_values**, e indicando a coluna de ordenação, assinalando **ascending** = False;
* seleccionar o top 5, com o método .iloc

In [None]:
top_5 = df_filtrada.sort_values(
    ('reviews.rating', 'mean'),
    ascending=False
).iloc[0:5]

top_5

In [None]:
decrescente.iloc[0:5]

E aqui temos a resposta a pergunta que nos foi colocada. Resta apenas guardar o resultado num ficheiro. 

## Output

Podemos exportar as nossas DataFrames para vários tipos de ficheiros, com os métodos **to_<extensão>**.

Vamos guardar o resultado como csv:

In [None]:
top_5.to_csv('data/hotel-reviews/top5.csv')

# Conclusão 

Neste Notebook, aprendemos os básicos de Pandas através de um exemplo de uma tarefa que podia fazer parte do dia a dia de um data scientist. As técnicas aprendidas neste notebook são úteis para vaŕios tipos de problemas, mas para além disso o Pandas tem um grande número de funcionalidades adicionais que não estão presentes neste notebook.

Restam algumas considerações finais sobre o "workflow" de um Data Scientist:

* em geral, os dados que vão encontrar no dia-a-dia podem não ser tão "limpos" e directos como os dados que utilizámos aqui. Na verdade, uma grande parte do tempo de um Data Scientist será passado a entender e organizar dados (não vai ser só treinar modelos de machine learning!)
* uma boa prática (especialmente) ao utilizar o Pandas é guardar cada transformação dos dados numa nova variável, com um nome explícito, e evitar operações "inplace". tentamos seguir este princípio na tarefa deste Notebook. Esta abordagem torna o código mais legível e diminui em geral o número de erros.
* a criar DataFrames (ou quaquer outro tipo de estrutura tabular), **evitem incluir informação quantitativa no nome das colunas**. Para compreender este ponto, vejamos um exemplo, com uma DataFrame que inclui dados sobre a percentagem de três grupos

In [None]:
dados = {
    "grupo": ['grupo_1', 'grupo_2', 'grupo_3'],
    "<25": [33, 31, 39],
    ">=25, <50": [22, 40, 41],
    ">=50": [34, 29, 20]
}
               
df_idades = pd.DataFrame(dados)

df_idades

Esta abordagem é má por duas razões:

* primeiro, força-nos a fazer slicing nas linhas e nas colunas para responder a questões numéricas sobre as idades dos grupos;
* depois, suponhamos que queriamos contabilizar um novo intervale de idades para apenas um dos grupos - seríamos forçados a criar uma nova coluna que seria NaN para todos os outros grupos.

Podemos obter uma versão limpa desta DataFrame com o método **melt**:

In [None]:
df_melted = df_idades.melt(
    id_vars=['grupo'],
    var_name='intervalo de idades', 
    value_name='contagem'
)

df_melted