# PANDAS - Processamento de dados
[Guia do pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)
____

Dúvidas?
* Romero Carvalho: romerofcarvalho (discord)
* Allan Suzuki: allansuzuki (discord)

In [None]:
#imports 
import pandas as pd
import numpy as np

# Topicos
1. [Caso prático](#caso-pratico)
2. [O que vamos aprender?](#o-que-vamos-aprender)
3. [Exercícios](#exer)

Caso prático - 10m  (5min em cada)
<br>Concat + merge      (1h)
<br>Pivot + melt        (1h)
<br>Exercícios          (1h) 

# Caso prático <div id="caso-pratico">

## Caso 1

Vamos considerar uma situação com dados relacionados a clientes, médicos, consultas e procedimentos médicos, cada um armazenado em tabelas separadas. Durante a análise dos dados de clientes e médicos, notamos que algumas informações não estão atualizadas. **O desafio** é que extrair todos os dados novamente levaria bastante tempo de processamento.

<!-- `imagem aqui para ilustrar a falta de dados dessas tabelas` -->

O que você faria para solucionar este problema?

<!--- tempo de espera para ver como resolver --->

**SOLUÇÃO**:<!-- Diante dessa questão, a equipe decidiu adotar uma abordagem mais prática: em vez de recarregar todos os dados, a ideia é identificar **apenas** as informações que estão faltando e adicioná-las aos dados desatualizados. -->

## Caso 2

Durante uma reunião estratégica voltada para a identificação de oportunidades e aprimoramentos com os clientes, Alessandra apresentou à equipe de estratégia os resultados de uma enquete pública realizada no site da Unimed e na rua. Esses resultados incluíam dados demográficos (endereço, cidade, estado) e socioeconômicos (renda familiar, tamanho da família, qualidade de vida), bem como a opinião dos participantes em relação à Unimed de 1 a 5, variando de muito ruim a muito bom. No entanto, a equipe enfrentava dificuldades em compreender os insights dos resultados da enquete devido à forma como os dados estavam organizados, já que cada resposta ocupava uma linha e não conseguia visualizar o todo.

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>id_pesquisa</th>
      <th>nome</th>
      <th>idade</th>
      <th>renda</th>
      <th>satisfacao</th>
      <th>recomendacao</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>1</td>
      <td>dados omitidos</td>
      <td>40</td>
      <td>6</td>
      <td>7</td>
      <td>3</td>
    </tr>
    <tr>
      <th>1</th>
      <td>2</td>
      <td>dados omitidos</td>
      <td>56</td>
      <td>7</td>
      <td>4</td>
      <td>2</td>
    </tr>
    <tr>
      <th>2</th>
      <td>3</td>
      <td>dados omitidos</td>
      <td>32</td>
      <td>4</td>
      <td>5</td>
      <td>3</td>
    </tr>
    <tr>
      <th>3</th>
      <td>4</td>
      <td>dados omitidos</td>
      <td>16</td>
      <td>7</td>
      <td>7</td>
      <td>1</td>
    </tr>
    <tr>
      <th>4</th>
      <td>5</td>
      <td>dados omitidos</td>
      <td>72</td>
      <td>9</td>
      <td>3</td>
      <td>1</td>
    </tr>
    <tr>
      <th>5</th>
      <td>6</td>
      <td>dados omitidos</td>
      <td>48</td>
      <td>2</td>
      <td>5</td>
      <td>1</td>
    </tr>
    <tr>
      <th>6</th>
      <td>7</td>
      <td>dados omitidos</td>
      <td>48</td>
      <td>3</td>
      <td>5</td>
      <td>2</td>
    </tr>
    <tr>
      <th>7</th>
      <td>8</td>
      <td>dados omitidos</td>
      <td>40</td>
      <td>5</td>
      <td>7</td>
      <td>1</td>
    </tr>
    <tr>
      <th>8</th>
      <td>9</td>
      <td>dados omitidos</td>
      <td>56</td>
      <td>3</td>
      <td>2</td>
      <td>2</td>
    </tr>
    <tr>
      <th>9</th>
      <td>10</td>
      <td>dados omitidos</td>
      <td>32</td>
      <td>8</td>
      <td>3</td>
      <td>1</td>
    </tr>
    <tr>
      <th>10</th>
      <td>11</td>
      <td>dados omitidos</td>
      <td>80</td>
      <td>10</td>
      <td>7</td>
      <td>1</td>
    </tr>
    <tr>
      <th>11</th>
      <td>12</td>
      <td>dados omitidos</td>
      <td>48</td>
      <td>8</td>
      <td>3</td>
      <td>2</td>
    </tr>
    <tr>
      <th>12</th>
      <td>13</td>
      <td>dados omitidos</td>
      <td>32</td>
      <td>8</td>
      <td>3</td>
      <td>2</td>
    </tr>
    <tr>
      <th>13</th>
      <td>14</td>
      <td>dados omitidos</td>
      <td>16</td>
      <td>9</td>
      <td>5</td>
      <td>1</td>
    </tr>
    <tr>
      <th>14</th>
      <td>15</td>
      <td>dados omitidos</td>
      <td>56</td>
      <td>4</td>
      <td>4</td>
      <td>2</td>
    </tr>
    <tr>
      <th>15</th>
      <td>16</td>
      <td>dados omitidos</td>
      <td>24</td>
      <td>5</td>
      <td>3</td>
      <td>1</td>
    </tr>
    <tr>
      <th>16</th>
      <td>17</td>
      <td>dados omitidos</td>
      <td>32</td>
      <td>5</td>
      <td>6</td>
      <td>2</td>
    </tr>
    <tr>
      <th>17</th>
      <td>18</td>
      <td>dados omitidos</td>
      <td>16</td>
      <td>8</td>
      <td>5</td>
      <td>3</td>
    </tr>
    <tr>
      <th>18</th>
      <td>19</td>
      <td>dados omitidos</td>
      <td>80</td>
      <td>7</td>
      <td>2</td>
      <td>3</td>
    </tr>
    <tr>
      <th>19</th>
      <td>20</td>
      <td>dados omitidos</td>
      <td>72</td>
      <td>9</td>
      <td>4</td>
      <td>3</td>
    </tr>
    <tr>
      <th>20</th>
      <td>21</td>
      <td>dados omitidos</td>
      <td>24</td>
      <td>8</td>
      <td>6</td>
      <td>3</td>
    </tr>
</table>

O que você faria para reestruturar os dados e gerar insights estratégicos mais rapidamente?

**SOLUÇÃO**:<!-- Uma solução eficaz seria reorganizar os dados, pivotando os dados para categorizar por classes socioeconômicas e regiões demográficas. Essa abordagem permitiria visualizar os resultados agregados da opinião pública de maneira mais clara e compreensível. Ao adotar uma perspectiva semelhante à funcionalidade Pivot Table do Excel, a equipe estaria mais familiarizada e apta a extrair insights significativos de maneira mais rápida e eficiente. -->

# O que vamos aprender? <div id="o-que-vamos-aprender">

* [Concat](#Concat)
* [Merge](#Merge)
* [Groupby](#groupby)
* [Pivot](#Pivot)
* [Melt](#Melt)

## Até onde chegamos

&ensp;<img src="./img/recap_lecture.png" alt="create_notebook" width="400"/>

Aprendemos a trabalhar com diversas funções para:
1. carregar dados vindo de fontes externas;
2. localizar dados específicos;
3. realizar cálculos;
4. salvar os dados em outro tipo de arquivo.

Perceba que para aplicar cada uma dessas funções, somente é necessário UM único dataframe.

## Até onde vamos chegar (com este módulo)

&ensp;<img src="./img/lecture_target.png" alt="lecture_target" width="400"/>

Neste módulo vamos conseguir realizar uniões/manipulações entre duas ou mais dataframes ou estruturar um dataframe para outra forma (tal como os dois casos que vimos no começo do módulo).

## Concat 
Source: Documentation [(+info)](https://pandas.pydata.org/docs/reference/api/pandas.concat.html)

As vezes, é preciso um novo conjunto de dados a partir de união de outros dados/tabelas. 

No caso, quando queremos concatenar/unir/empilhar dados num determinado eixo (lembra-se do que significa eixo em DataFrames?), utilizamos a função **pandas.concat** (semelhante a operação UNION do SQL):

>pandas.concat(objs, *, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=None)
<br>&ensp;&ensp;&ensp;&ensp;Concatenate pandas objects along a particular axis.
<br><br>&ensp;&ensp;&ensp;&ensp;Allows optional set logic along the other axes
<br><br>&ensp;&ensp;&ensp;&ensp;Can also add a layer of hierarchical indexing on the concatenation axis, which may be useful if the labels are the same (or overlapping) on the passed axis number.

É possível combinar duas séries:

In [None]:
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
pd.concat()

Bem como combinar dois DataFrames com as mesmas colunas:

In [None]:
df1 = pd.DataFrame([['a', 1], ['b', 2]], columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4]], columns=['letter', 'number'])
pd.concat()

Porém, combinar dois DataFrames que possuem diferentes colunas retorna valores **NaN** (o que é isto mesmo?):

In [None]:
df1 = pd.DataFrame([['a', 1], ['b', 2]], columns=['letter', 'number'])
df3 = pd.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']], columns=['letter', 'number', 'animal']) # one more column
pd.concat()

É possível resetar os índices com o argumento `ignore_index=True`, quando os índices originais não são importantes.

In [None]:
df1 = pd.DataFrame([['a', 1], ['b', 2]], columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4]], columns=['letter', 'number'])

Também é possível combinar os DataFrames pelos índices (ao invés das colunas) utilizando o argumento `axis=1`

In [None]:
#usar o df1
df4 = pd.DataFrame([['bird', 'polly'], ['monkey', 'george']], columns=['animal', 'name']) # new columns

Por fim, também é possível adicionar uma linha a um DataFrame, se a série tiver índices iguais as colunas do DataFrame.

In [None]:
nova_linha = pd.Series({'letter': 'z', 'number': 111})

-----
### Hands-on

1. Você tem uma tarefa de criar um DataFrame no seguinte formato:
<br>
<br>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th>Name</th>
      <th>Class</th>
      <th>InsuranceTotalSpent</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>Ana</td>
      <td>Enterprise</td>
      <td>1200</td>
    </tr>
    <tr>
      <td>Lucas</td>
      <td>Personal</td>
      <td>900</td>
    </tr>
    <tr>
      <td>Isabella</td>
      <td>Enterprise</td>
      <td>1500</td>
    </tr>
    <tr>
      <td>Thiago</td>
      <td>Elite</td>
      <td>800</td>
    </tr>
    <tr>
      <td>Gabriela</td>
      <td>Personal</td>
      <td>1100</td>
    </tr>
  </tbody>
</table>
<br>

Em seguida o teu par te mandou o restante dos dados e pediu para uní-los enquanto ele puxava os dados complementares. Os dados adicionais estão no arquivo `dados_adicionais.csv`.


2. Após a primeira entrega dos dados, um novo cliente apareceu nas bases de dados e teu superior pediu prioridade para incluir esse estimado cliente nos teus dados. Você se lembrou do 1o caso prático desta aula e pediu os dados do novo cliente para incluí-lo:
> Name: Romero F Carvalho
<br> Class: Premium
<br> InsuranceTotalSpent: 90000

## Merge
Source: Documentation [(+info)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html)

Muitas vezes queremos buscar dados adicionais de outro DataFrame que possuem algum interligação / relacionamento entre si. 

Neste caso, utilizamos a função **pandas.merge** (semelhante a operação JOIN do SQL):

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>
<br><br>

>DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=None, indicator=False, validate=None)
<br><br>&ensp;&ensp;&ensp;&ensp;Merge DataFrame or named Series objects with a database-style join.
<br><br>&ensp;&ensp;&ensp;&ensp;A named Series object is treated as a DataFrame with a single named column.

Podemos juntar as informações de dois DataFrames que se relacionam por chaves (keys) comuns entre si:

In [None]:
df_pacientes = pd.DataFrame({'paciente_id': [1, 2, 3], 'idade': [25, 35, 40]})
df_exames = pd.DataFrame({'paciente_id': [1, 2, 4], 'resultado': ['Normal', 'Elevado', 'Ausente']})
df_pacientes.merge()

Se quisermos mudar o tipo da união (qual é a união padrão?), utilizamos o parâmetro `how` que aceita os seguintes valores: 
> how : {‘left’, ‘right’, ‘outer’, ‘inner’, ‘cross’}

In [None]:
df_pacientes = pd.DataFrame({'paciente_id': [1, 2, 3], 'idade': [25, 35, 40]})
df_exames = pd.DataFrame({'paciente_id': [1, 2, 4], 'resultado': ['Normal', 'Elevado', 'Ausente']})
df_pacientes.merge()

Note que, no tipo união `outer`, não há um `paciente_id 4` no `df_pacientes`, por isso não temos a idade dele e, por padrão, nos retorna `NaN`, bem como não temos resultados do exame para o `paciente_id 3`.

Caso as colunas-chave não tenham nomes iguais, podemos utilizando os argumentos `left_on` e `right_on`:

In [None]:
df_pacientes = pd.DataFrame({'paciente_id': [1, 2, 3], 'idade': [25, 35, 40]})
df_exames_outro = pd.DataFrame({'id_pacientes': [1, 2, 4], 'resultado': ['Normal', 'Elevado', 'Ausente']})
df_pacientes.merge()

Se houver colunas que têm o mesmo nome e não serão chave, podemos diferenciá-los pelos argumento suffixes=('rsuff','lsuff'):

In [None]:
df_exames = pd.DataFrame({'paciente_id': [1, 2, 4], 'resultado': ['Normal', 'Elevado', 'Ausente']})
df_renovacao_seguro = pd.DataFrame({'paciente_id': [1, 2, 4], 'resultado': ['Aprovado', 'Aprovado', 'Em analise']})
#sem suffixes

#com suffixes


-----
### Hands-on

1. Teu colega da recepcao pediu os dados das consultas realizadas do arquivo ``. Porém, a tabela não parece conter informações relevantes para um usuário comum. Para resolver isto, uma prática muito comum no SQL é unir tabelas para ter todas as informações em texto, ao invés de códigos.

<br> Na pasta 'nome da pasta aqui' temos 3 csvs que trazem dados dos pacientes, medicos e hospitais. Utilize o merge para identificar todas as informações referentes as consultas realizadas e entregar dados legíveis para o teu colega.

## Groupby <div id="groupby">
Source: Documentation [(+info)](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)

Muitas vezes, estaremos interessados em aplicar técnicas de agrupamentos de dados, tal como somas ou contagens, aplicados a dados que pertençam ao mesmo grupo. 
<br><br>Por exemplo: quantas pessoas de <u>cada</u> **departamento** trabalham na empresa XPTO?

 Para isso, utilizaremos funções como  **DataFrame.groupby()**, semelhante a operação GROUP BY do SQL, e a função [DataFrameGroupBy.agg()](https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.core.groupby.DataFrameGroupBy.agg.html), semelhante as opeações de agregamento no SELECT do SQL.

>DataFrame.groupby(by=None, axis=_NoDefault.no_default, level=None, as_index=True, sort=True, group_keys=True, observed=_NoDefault.no_default, dropna=True)
<br><br>&ensp;&ensp;&ensp;&ensp;Group DataFrame using a mapper or by a Series of columns.
<br><br>&ensp;&ensp;&ensp;&ensp;A groupby operation involves some combination of splitting the object, applying a function, and combining the results. This can be used to group large amounts of data and compute operations on these groups.

Sempre que utilizarmos o groupby, normalmente estamos interessados em agrupar os dados e aplicar uma função de agregamento (ex: max):

In [None]:
df = pd.DataFrame({'animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'],
                   'speed': [380., 370., 24., 26.]})

df.groupby()

Note que se não dissermos qual é a coluna a ser aplicada a função agg(), é aplicado a todas as colunas:

In [None]:
df2 = df.copy() #make a copy
df2['height'] = [100, 105, 95, 90]  # add new data
df.groupby()

É possível também aplicar uma função criada, desde que seja aplicada para o mesmo tipo de objeto resultante do groupby:

In [None]:
def funcao_criada(df_qualquer):
    """
    Funcao que recebe um DataFrame a
    diferença entre o valor max e o min
    """
    df_min = df_qualquer.min()
    df_max = df_qualquer.max()

    return df_max-df_min

df.groupby()    #não tem ()
# df.groupby('animal').agg(func=[max,min,funcao_criada])    #não tem ()

Nota: Normalmente, após um groupby, temos um objeto do tipo `DataFrameGroupBy`, que é composto por vários DataFrames ou Series.

In [None]:
df_groupby = df.groupby('animal')
print('Tipo da variavel df_grouped:',type(df_groupby))

# get one group from groupby
for obj_dentro_do_groupby in df_groupby:
    
    break   # o que acontece se tirar esse`break`?

-----
### Hands-on

Vamos analisar os dados de casos de covid no mundo se encontra no caminho: support_data/covid_country_latest.csv Quantos `confirmed_cases` por dia aconteciam no mundo inteiro? Qual foi o dia com maior quantidade de `confirmed_cases` e `deaths`?

<!-- **Desafio**: Vamos tentar quais foram os top 3 registros por páis com mais `deaths`. Comece primeiro com o dataset inteiro:   -->

In [None]:
**PAUSA**

## Pivot
Source: Documentation [(+info)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot.html)

Muitos usuários estão mais acostumados a olhar tabelas parecidas com as planilhas de MS Excel, comumente utilizando as tabelas dinâmicas (ou *pivot table* em inglês). Para transformar nossos dados em formatos parecidos com este, utilizamos a função DataFrame.pivot()

> DataFrame.pivot(*, columns, index=_NoDefault.no_default, values=_NoDefault.no_default)
<br><br>&ensp;&ensp;&ensp;&ensp;Return reshaped DataFrame organized by given index / column values.
<br><br>&ensp;&ensp;&ensp;&ensp;Reshape data (produce a “pivot” table) based on column values. Uses unique values from specified index / columns to form axes of the resulting DataFrame. This function does not support data aggregation, multiple values will result in a MultiIndex in the columns. See the User Guide for more on reshaping.

Para realzar o pivot, basta dizer qual(is) a(s) columna(s) para os argumentos:
- `index`
- `columns` 
- `values`

<!-- `img de um dataset no pivot` -->

In [None]:
data = {
    'animal': ['Elefante', 'Leão', 'Girafa', 'Tigre', 'Pinguim'],
    'habitat': ['Savana', 'Savana', 'Savana', 'Floresta', 'Polo Sul'],
    'qtd': [10, 15, 8, 12, 20]
}

df_animais_habitat = pd.DataFrame(data)

df_animais_habitat.pivot()

Nota-se que quando não há valores para uma determinada combinação, por padrão retorna (adivinha?) `NaN`.

Caso fosse realizado o mesmo levantamento de antes, mas com novos dados, não seria possível utilizar `pivot()` juntando os dados para ter um resultado somado ao anterior:

In [None]:
novos_levantamentos = pd.DataFrame({
    'animal': ['Elefante', 'Leão', 'Girafa', 'Tigre', 'Pinguim','Elefante'],
    'habitat': ['Savana', 'Savana', 'Savana', 'Floresta', 'Polo Sul','Floresta'],
    'qtd': [5, 10, 15, 8, 25, 10]  # Quantidades diferentes, ultimo é novo registro
})

# adicionando novos_levantamentos
new_df = pd.concat()   # o que isto faz mesmo?

new_df.pivot()
# uai... pq deu erro?

Isso acontece porque esta função não realiza nenhuma função de agregamento (quais são?) quando temos dados diferentes para a a mesma relação índice-coluna!

Nesse caso, devemos utilizar a função DataFrame.pivot_table() com o argumento `aggfunc` com a função de agregamento que queremos.

No caso anterior, queríamos somar quando houvesse novos levantamentos para o mesmo grupo, certo?

In [None]:
new_df.pivot_table()

----
### Hands-on

Lembra do **caso prático 2** no ínicio da aula? Vamos simular um dataset para efetuar esta tarefa:

Durante uma reunião estratégica voltada para a identificação de oportunidades e aprimoramentos com os clientes, Alessandra apresentou à equipe de estratégia os resultados de uma enquete pública realizada no site da Unimed e na rua. Esses resultados incluíam dados pessoais: nome, idade, renda (em salarios mínimos);
e resultados da pesquisa: nível de satisfação e recomendação do serviço.

No entanto, a equipe enfrentava dificuldades em compreender os insights dos resultados da enquete devido à forma como os dados estavam organizados, já que cada resposta ocupava uma linha e não conseguia visualizar o todo.

O que você faria para reestruturar os dados e gerar insights estratégicos mais rapidamente?

In [None]:
def simular_resultados_da_pesquisa(nseed:int=42):
    """
    Criando um DataFrame de pesquisa de satisfação.
    Retorna um pd.DataFrame
    """

    import numpy as np
    np.random.seed(nseed)  # Definindo semente para reprodutibilidade

    # Gerando valores para as colunas
    num_participantes = 1000
    idades = np.arange(16, 81, 8)
    rendas = np.arange(1, 11, 1)
    satisfacao = np.random.randint(1, 8, size=num_participantes)
    recomendacao = np.random.randint(1, 4, size=num_participantes)

    # Criando o DataFrame
    df_pesquisa = pd.DataFrame({
        'id_pesquisa': np.arange(1, num_participantes + 1),
        'nome': ['dados omitidos'] * num_participantes,
        'idade': np.random.choice(idades, size=num_participantes),
        'renda': np.random.choice(rendas, size=num_participantes),
        'satisfacao': satisfacao,
        'recomendacao': recomendacao
    })

    return df_pesquisa

## Melt

Quando precisamos do oposto ao pivot (unpivot), ou seja, quando alguém nos entrega os dados resultantes de um pivot table feito no MS Excel para ser utilizado em uma análise de dados, utilizamos **DataFrame.melt()**.

>DataFrame.melt(id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None, ignore_index=True)
<br><br>&ensp;&ensp;&ensp;&ensp;Unpivot a DataFrame from wide to long format, optionally leaving identifiers set.
<br><br>&ensp;&ensp;&ensp;&ensp;This function is useful to reshape a DataFrame into a format where one or more columns are identifier variables (id_vars), while all other columns, considered measured variables (value_vars), are “unpivoted” to the row axis, leaving just two non-identifier columns, ‘variable’ and ‘value’.

Vamos utilizar os dados pivotados da seção anterior:

In [None]:
# pivot_data = new_df.pivot_table(index='animal',columns='habitat',values='qtd', aggfunc='sum')

Primeiro, vamos olhar como como é o resultado de um pivot_table()

In [None]:
# print('columns:', pivot_data.columns.tolist())
# print('index:', pivot_data.index.name)
# display(pivot_data.head())

Meu id_vars (olha os args do melt) ideal são os dados que estão no `index`, que eu não consigo acessar pelos `['']` porque não é uma coluna (olhar e comparar os dados do exemplo na documentação).

In [None]:
#nao consigo acessar os indices aqui:
# pivot_data['animal'] #erro!

Portanto, uma forma de obter esses dados é fazer com que o índice vire uma coluna do DataFrame:

In [None]:
# pivot_data.reset_index()['animal']   # faz com que o indice comece do 0, além disso, transforma o indíce anterior em coluna

In [None]:
# pivot_data.reset_index().melt()