# PANDAS - Processamento de dados
[Guia do pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)
____

Dúvidas?
* Romero Carvalho: romerofcarvalho (discord)
* Allan Suzuki: allansuzuki (discord)

In [12]:
import numpy as np

def pegar_alguem():
    text_alunos = """Allan Bernard Da Silva

André Rafael Pereira

Bruno Martins Do Nascimento

Caique Antonio Russo

Daniel Alves Da Silva

Diego Fernandes Couto

Ezequias Santos Lima

Guilherme Corgos

Hainati Antunes De Souza

Halyson Da Silva Sander

Isabele Barbosa

Jennefe Morais Da Silva

Joabe Natan Cicero Lazzarini

Jonnata Monteiro Da Silva

Kássia Santos

Leonardo Nyari De Matos Pereira

Lilian Cristine Setto

Mateus Silva Santos

Milton Alves De Souza Neto

Rafael Francisco

Rafael Mendes Oliveira

Rodrigo Martins De Oliveira

Rodrigo Michel Xavier

Samuel Rodrigues De Freitas

Taynan Candido Quitério

Thabata Pinke Grangieri

Thiago Fernandes Rosa

Thiago Oliveira Da Rosa

Vinícius Alberto Camargo Teles

Ítalo Monteiro"""
    alunos = text_alunos.split('\n\n')
    return np.random.choice(alunos,1)[0]



# Topicos
1. [Caso prático](#caso-pratico)
2. [O que vamos aprender?](#o-que-vamos-aprender)
3. [Exercícios](#exer)

Caso prático - 10m  (5min em cada)
<br>Concat + merge      (1h)
<br>Pivot + melt        (1h)
<br>Exercícios          (1h) 

# Caso prático <div id="caso-pratico">

## Caso 1

Vamos considerar uma situação com dados relacionados a clientes, médicos, consultas e procedimentos médicos, cada um armazenado em tabelas separadas. Durante a análise dos dados de clientes e médicos, notamos que algumas informações não estão atualizadas. **O desafio** é que extrair todos os dados novamente levaria bastante tempo de processamento.

`imagem aqui para ilustrar a falta de dados dessas tabelas`

O que você faria para solucionar este problema?

<!--- tempo de espera para ver como resolver --->

**SOLUÇÃO**:<!-- Diante dessa questão, a equipe decidiu adotar uma abordagem mais prática: em vez de recarregar todos os dados, a ideia é identificar **apenas** as informações que estão faltando e adicioná-las aos dados desatualizados. -->

## Caso 2

Durante uma reunião estratégica voltada para a identificação de oportunidades e aprimoramentos com os clientes, Alessandra apresentou à equipe de estratégia os resultados de uma enquete pública realizada no site da Unimed e na rua. Esses resultados incluíam dados demográficos (endereço, cidade, estado) e socioeconômicos (renda familiar, tamanho da família, qualidade de vida), bem como a opinião dos participantes em relação à Unimed de 1 a 5, variando de muito ruim a muito bom. No entanto, a equipe enfrentava dificuldades em compreender os insights dos resultados da enquete devido à forma como os dados estavam organizados, já que cada resposta ocupava uma linha e não conseguia visualizar o todo.

`imagem aqui para ilustrar a forma da tabela`

O que você faria para reestruturar os dados e gerar insights estratégicos mais rapidamente?

**SOLUÇÃO**:<!-- Uma solução eficaz seria reorganizar os dados, pivotando os dados para categorizar por classes socioeconômicas e regiões demográficas. Essa abordagem permitiria visualizar os resultados agregados da opinião pública de maneira mais clara e compreensível. Ao adotar uma perspectiva semelhante à funcionalidade Pivot Table do Excel, a equipe estaria mais familiarizada e apta a extrair insights significativos de maneira mais rápida e eficiente. -->

# O que vamos aprender? <div id="o-que-vamos-aprender">

* [Concat](#Concat)
* [Merge](#Merge)
* [Groupby](#Groupby)
* [Pivot](#Pivot)
* [Melt](#Melt)

## Até onde chegamos

&ensp;<img src="./img/recap_lecture.png" alt="create_notebook" width="400"/>

Aprendemos a trabalhar com diversas funções para:
1. carregar dados vindo de fontes externas;
2. localizar dados específicos;
3. realizar cálculos;
4. salvar os dados em outro tipo de arquivo.

Perceba que para aplicar cada uma dessas funções, somente é necessário UM único dataframe.

## Até onde vamos chegar (com este módulo)

&ensp;<img src="./img/lecture_target.png" alt="lecture_target" width="400"/>

Neste módulo vamos conseguir realizar uniões/manipulações entre duas ou mais dataframes ou estruturar um dataframe para outra forma (tal como os dois casos que vimos no começo do módulo).

## Concat
Source: Documentation [(+info)](https://pandas.pydata.org/docs/reference/api/pandas.concat.html)

As vezes, é preciso um novo conjunto de dados a partir de união de outros dados/tabelas. 

No caso, quando queremos concatenar/unir/empilhar dados num determinado eixo (lembra-se do que significa eixo em DataFrames?), utilizamos a função **pandas.concat** (semelhante a operação UNION do SQL):

>pandas.concat(objs, *, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=None)
<br>&ensp;&ensp;&ensp;&ensp;Concatenate pandas objects along a particular axis.
<br><br>&ensp;&ensp;&ensp;&ensp;Allows optional set logic along the other axes
<br><br>&ensp;&ensp;&ensp;&ensp;Can also add a layer of hierarchical indexing on the concatenation axis, which may be useful if the labels are the same (or overlapping) on the passed axis number.

É possível combinar duas séries:

In [None]:
# s1 = pd.Series(['a', 'b'])
# s2 = pd.Series(['c', 'd'])
# pd.concat([s1, s2])

Bem como combinar dois DataFrames com as mesmas colunas:

In [None]:
# df1 = pd.DataFrame([['a', 1], ['b', 2]], columns=['letter', 'number'])
# df2 = pd.DataFrame([['c', 3], ['d', 4]], columns=['letter', 'number'])
# pd.concat([df1, df2])

Porém, combinar dois DataFrames que possuem diferentes colunas retorna valores **NaN** (o que é isto mesmo?):

In [None]:
# df1 = pd.DataFrame([['a', 1], ['b', 2]], columns=['letter', 'number'])
# df2 = pd.DataFrame([['c', 3], ['d', 4]], columns=['letter', 'number'])
# df3 = pd.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']], columns=['letter', 'number', 'animal']) # one more column
# pd.concat([df1, df3])

É possível resetar os índices com o argumento `ignore_index=True`, quando os índices originais não são importantes.

In [None]:
# df1 = pd.DataFrame([['a', 1], ['b', 2]], columns=['letter', 'number'])
# df2 = pd.DataFrame([['c', 3], ['d', 4]], columns=['letter', 'number'])
# pd.concat([df1, df2, ignore_index=True)

Também é possível combinar os DataFrames pelos índices (ao invés das colunas) utilizando o argumento `axis=1`

In [None]:
# df4 = pd.DataFrame([['bird', 'polly'], ['monkey', 'george']], columns=['animal', 'name']) # new columns
# pd.concat([df1,df4], axis=1)

Por fim, também é possível adicionar uma linha a um DataFrame, se a série tiver índices iguais as colunas do DataFrame.

In [None]:
# nova_linha = pd.Series({'letter': 'z', 'number': 111})
# pd.concat([df1,nova_linha])

-----
### Hands-on

1. Você tem uma tarefa de criar um DataFrame no seguinte formato:
<br>
<br>`img aqui`
<br>
<br>Em seguida o teu par te mandou o restante dos dados e pediu para uní-los enquanto ele puxava os dados complementares. Os dados adicionais estão no arquivo `dados_adicionais.csv`.


2. Após a primeira entrega dos dados, um novo cliente apareceu nas bases de dados e teu superior pediu prioridade para incluir esse estimado cliente nos teus dados. Você se lembrou do 1o caso prático desta aula e pediu os dados do novo cliente para incluí-lo:
> Name: Romero F Carvalho
<br> Class: Premium
<br> InsuranceTotalSpent: 90000

## Merge
Source: Documentation [(+info)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html)

Muitas vezes queremos buscar dados adicionais de outro DataFrame que possuem algum interligação / relacionamento entre si. 

Neste caso, utilizamos a função **pandas.merge** (semelhante a operação JOIN do SQL):

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>
<br><br>

>DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=None, indicator=False, validate=None)
<br><br>&ensp;&ensp;&ensp;&ensp;Merge DataFrame or named Series objects with a database-style join.
<br><br>&ensp;&ensp;&ensp;&ensp;A named Series object is treated as a DataFrame with a single named column.

Podemos juntar as informações de dois DataFrames que se relacionam por chaves (keys) comuns entre si:

In [None]:
# df_pacientes = pd.DataFrame({'paciente_id': [1, 2, 3], 'idade': [25, 35, 40]})
# df_exames = pd.DataFrame({'paciente_id': [1, 2, 4], 'resultado': ['Normal', 'Elevado', 'Ausente']})
# df1.merge(df2, on='key')

Se quisermos mudar o tipo da união (qual é a união padrão?), utilizamos o parâmetro `how` que aceita os seguintes valores: 
> how : {‘left’, ‘right’, ‘outer’, ‘inner’, ‘cross’}

In [None]:
# df_pacientes = pd.DataFrame({'paciente_id': [1, 2, 3], 'idade': [25, 35, 40]})
# df_exames = pd.DataFrame({'paciente_id': [1, 2, 4], 'resultado': ['Normal', 'Elevado', 'Ausente']})
# df1.merge(df2, on='key', how='outer')

Note que, no tipo união `outer`, não há um `paciente_id 4` no `df_pacientes`, por isso não temos a idade dele e, por padrão, nos retorna `NaN`, bem como não temos resultados do exame para o `paciente_id 3`.

Caso as colunas-chave não tenham nomes iguais, podemos unir com os argumentos `left_on` e `right_on`:

In [None]:
# df_pacientes = pd.DataFrame({'paciente_id': [1, 2, 3], 'idade': [25, 35, 40]})
# df_exames_outro = pd.DataFrame({'id_pacientes': [1, 2, 4], 'resultado': ['Normal', 'Elevado', 'Ausente']})
# df1.merge(df2, left_on='paciente_id',right_on='id_pacientes', how='outer')

Se houver colunas que têm o mesmo nome e não serão chave, podemos diferenciá-los pelos argumento suffixes=('rsuff','lsuff'):

In [None]:
# df_exames = pd.DataFrame({'paciente_id': [1, 2, 4], 'resultado': ['Normal', 'Elevado', 'Ausente']})
# df_renovacao_seguro = pd.DataFrame({'paciente_id': [1, 2, 4], 'resultado': ['Aprovado', 'Aprovado', 'Em analise']})
df_exames.merge(df_renovacao_seguro, on='paciente_id')
df_exames.merge(df_renovacao_seguro, on='paciente_id', suffixes=('_exame','_renovacao'))

-----
### Hands-on

1. Teu colega da recepcao pediu os dados das consultas realizadas do arquivo ``. Porém, a tabela não parece conter informações relevantes para um usuário comum. Para resolver isto, uma prática muito comum no SQL é unir tabelas para ter todas as informações em texto, ao invés de códigos.

<br> Na pasta 'nome da pasta aqui' temos 3 csvs que trazem dados dos pacientes, medicos e hospitais. Utilize o merge para identificar todas as informações referentes as consultas realizadas e entregar dados legíveis para o teu colega.

In [None]:
# # Criando DataFrames fictícios
# df_consultas = pd.DataFrame({
#     'id_consulta': [1, 2, 3, 4],
#     'id_medico': [101, 102, 103, 104],
#     'id_paciente': [201, 202, 203, 204],
#     'id_hospital': [301, 302, 303, 304]
# })

# df_medicos = pd.DataFrame({
#     'id_medico': [101, 102, 103, 104],
#     'nome_medico': ['Dr. Smith', 'Dr. Johnson', 'Dra. Davis', 'Dr. Wilson']
#     'especialidade':['Neurologista','Pediatra','Cardiologista','Cardiologista']
# })

# df_pacientes = pd.DataFrame({
#     'id_paciente': [201, 202, 203, 204],
#     'nome_paciente': ['João', 'Maria', 'Carlos', 'Ana'],
#     'idade': [30, 25, 35, 40]
# })

# df_hospitais = pd.DataFrame({
#     'id_hospital': [301, 302, 303, 304],
#     'nome_hospital': ['Hospital A', 'Hospital B', 'Hospital C', 'Hospital D'],
#     'cidade': ['Cidade A', 'Cidade B', 'Cidade C', 'Cidade D']
# })

# # Unindo as tabelas usando merge
# df_merge1 = pd.merge(df_consultas, df_medicos, on='id_medico', how='left')
# df_merge2 = pd.merge(df_merge1, df_pacientes, on='id_paciente', how='left')
# df_final = pd.merge(df_merge2, df_hospitais, on='id_hospital', how='left')

# # Exibindo o resultado final
# print(df_final)


In [None]:
**PAUSA**

## Groupby

In [None]:
texto de ensino

In [None]:
Exer basicos de ensino

In [None]:
Pratica rapida (com textos de apoio)

## Pivot

In [None]:
texto de ensino

In [None]:
Exer basicos de ensino

In [None]:
Pratica rapida (com textos de apoio)

## Melt

In [None]:
texto de ensino

In [None]:
Exer basicos de ensino

In [None]:
Pratica rapida (com textos de apoio)

# Exercícios <div id="exer">

exer1

_blank_

Solução

exer2

_blank_

Solução

exer2

_blank_

Solução

exer4

_blank_

Solução