# Ada - Técnicas de Programação I - Aula 5

In [None]:
import pandas as pd 
import numpy as np 

df = pd.read_csv('https://raw.githubusercontent.com/mdrs-thiago/uerj-topicos-a/main/datasets/bank_marketing/class_bank_marketing.csv')

`Bank Marketing` é o dataset para a avaliação de análise de marketing para uma empresa bancária. Este problema contém informações importantes sobre pessoas que foram contactadas pela empresa de marketing, assim como a situação final (aceitou/rejeitou).

In [None]:
df.head()

## Sumário e algumas operações com DataFrame

O `pandas` possui algumas funcionalidades básicas. Por exemplo, podemos usar:

- `describe` 

- operações como `mean`.

- Valores únicos `unique`

- Contagem de valores `value_counts`

## Alteração de conteúdo de colunas

Podemos alterar a informação de alguma coluna do nosso `DataFrame` usando algumas funções especiais. 

Neste caso, vamos aprender a usar a função `map`

Seu uso é **muito** parecido com o `map` que vimos no módulo anterior.

In [None]:
#O que faz o map que aprendemos anteriormente?

In [None]:
#Vamos normalizar a duração das chamadas. Vamos utilizar o valor mínimo como 0 
# e o máximo como 200. 
df_duration = df['duration']

df_duration.map(lambda x: x/200)

Também temos uma outra estratégia para fazer essa modificação, que é usando o `apply`. A ideia é muito parecida com o `map`

In [None]:
def normalize_duration(row):
    row['duration'] = row['duration']/200
    return row

df.apply(normalize_duration, axis='columns')

E qual é a diferença entre os dois? 

Perceba que o `map` funciona **apenas** em um `pd.Series`, enquanto que o apply é feito em cima de um `pd.DataFrame`. 

Podemos também fazer uma modificação **direta** nos elementos, da mesma forma que criamos uma nova coluna ou fazemos a alteração direta. 

In [None]:
new_df = df.copy() 

new_df.duration = new_df.duration/200

new_df

In [None]:
new_df['day'] + '-' + new_df['month']

In [None]:
#Como contornar? Podemos declarar explicitamente o tipo de cada variável.
new_df['day'].astype(str) + '-' + new_df['month']

## Agrupamento e ordenação

Em alguns casos, queremos ver os dados de forma ordenada, por diferentes formas:

- ordem numérica. 

- ordem alfabética. 

- ordem de data.

Para isso, usamos o método `sort_values`

Parâmetros de `sort_values`:
- `by` nome ou lista de nomes para serem ordenados.
- `ascending` booleano para indicar se a ordem será crescente. 
- `kind` tipo de algoritmo para *sorting*. 


In [None]:
df.sort_values(by='balance')

### Agrupamento 

A ideia é muito parecida com o que fazemos usualmente em SQL. Nesse caso, queremos agrupar dados de uma(s) certa(s) coluna(s) para obter uma visualização agregada dos resultados. 

Para realizar este agrupamento, usaremos o método `groupby`. 

Seu uso é simples, e um tanto quanto parecido com o `sort_values`.

Parâmetro mais usado: `by`.

In [None]:
df.head()

In [None]:
#Vamos ver o valor médio (balance) em função do tipo de trabalho da pessoa. 
df.groupby('job')

In [None]:
df.groupby('job').balance.mean()

In [None]:
df.groupby(['job','education']).balance.mean()

Legal, dados agregados... mas como podemos agregar dados? E o que fazer? Temos aqui duas formas distintas:

- usando `agg`. Neste caso, é uma função que realiza para a gente as operações mais básicas de agregação, como `min`, `max`, `mean`.

- usando `apply`. Método semelhante ao que vimos anteriormente, que servirá para aplicar as transformações nos dados. 

In [None]:
#Vamos pegar informações sobre a pessoa com maior balance, 
# agrupado pela profissão e educação.

df.groupby(['job','education']).apply(lambda df: df.loc[df.duration.idxmax()])

In [None]:
new_df = df.groupby(['job','education']).apply(lambda df: df.loc[df.duration.idxmax()])

In [None]:
new_df.drop(columns=['job','education'], inplace=True)

In [None]:
new_df.reset_index()

## Exercício

Neste exercício, você extrairá informações importantes para a análise de uma rede hoteleira. Neste caso, você trabalhará com a base de dados `Occupancy detection`. Este dataset contém informações de sensores de diferentes quartos do hotel, com o objetivo de identificar a presença do hóspede utilizando apenas os dados aquisitados por estes dispositivos. 

Faça análises na base de dados para descrever o que pode ser importante para determinar se uma pessoa está presente ou não em um quarto. 

Transforme as datas para o formato `dd-mm-yyyy` e gere informações agregadas para cada um dos dias existentes.

Gere também outras análises que sejam pertinentes ao problema. 

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/mdrs-thiago/uerj-topicos-a/main/datasets/occupancy_detection/class_occupancy_detection.csv')

In [None]:
df.tail()