# Disciplina: Ciência de Dados (DCA-0131)
Prof. Luiz Affonso Guedes

### Departamento de Engenharia de Computação e Automação - DCA

UFRN - 2025

*OBS: Favor fazer cópia do notebook antes de alterá-lo.

## Aula 6 - Pacote Pandas - Parte III
- Conceitos de tratamento avançado de dados: join, merge, groupby, concatenação.

- Exemplo de aplicação.

## Funcionalidades Avançadas para Tratamento de Dataframes
Apresentar as funcionalidades de manipulação de tabelas do tipo GroupBy, Merge, Join e Concatenação.

### GroupBy: Split, Apply, Combine

As agregações simples em muitos casos podem ser suficientes, mas muitas vezes é preciso agregar diversas tabelas condicionalmente em algum rótulo ou índice: isso é implementado na chamada operação groupby. O nome "groupBy" vem de um comando na linguagem do banco de dados SQL, que representa a seguinte sequência de operações: dividir, aplicar, combinar.

Passos: split, apply, combine.
- O passo 'split' envolve dividir e agrupar um DataFrame dependendo do valor da chave especificada.
- O passo 'apply' envolve a computação de alguma função, geralmente um agregado, transformação ou filtragem, dentro dos grupos individuais.
- O passo 'combine' combina os resultados dessas operações em array de saída.

In [None]:
# Exemplo: Importanto Pandas

from pandas import Series, DataFrame
import pandas as pd

In [None]:
# Exemplo de uso de GroupBy
# Definição de um DataFrame Pandas

df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

In [None]:
# Dividindo em grupos em função da coluna-chave 'key'
df.groupby('key')


Observe que o retorno é um objeto do tipo groupyby.

In [None]:
# Aplicando uma operação sobre o dado já agrupado (apply)
df.groupby('key').sum()

In [None]:
# Aplicando uma operação sobre o dado já agrupado (apply)
df.groupby('key').max()

### Abordagem: Agregar, Filtrar, Transformar, Aplicar.
Exemplo de uso dessa abordagem com o dataframe planets, proveniente do pacote Seaborn.

In [None]:
# Arquivo sobre planetas do pacote Seaborn

import seaborn as sns
planets = sns.load_dataset('planets')
planets.shape

In [None]:
# Exemplo com a base de dados 'planets'
planets.head()

In [None]:
# Divide em grupos pela coluna-chave 'method'
planets.groupby('method').head()

In [None]:
# Divide em grupos pela coluna-chave 'method' e filtrar
planets.groupby('method')['orbital_period']

In [None]:
# Divide em grupos pela coluna-chave 'method', filtrar e aplicar
print("Fornece a mediana dos perídos orbitais obtidos pelos diversos existentes no dataframe\n")
planets.groupby('method')['orbital_period'].median()

In [None]:
# Divide em grupos pela coluna-chave 'method', filtrar e aplicar
planets.groupby('method')['year'].describe()


In [None]:
# Divide em grupos pela coluna-chave 'method', filtrar e aplicar
planets.groupby('method')['year'].describe().unstack()

### Combinando Datasets: Merge and Join
Alguns dos mais interessantes estudos de dados provêm da combinação de diferentes fontes de dados. Essas operações podem envolver qualquer coisa, desde concatenação muito direta
de dois conjuntos de dados diferentes para junções e fusões de estilo de banco de dados mais complicadas, que lidam com sobreposições entre os conjuntos de dados.

Pandas possui funções e métodos
que tornam esse tipo de manipulação de dados rápida e prática: funções de concatenação, merge e join.


In [None]:
import pandas as pd
import numpy as np

In [None]:
# Definição de uma função para criação de DataFrames
def make_df(cols, ind):
   data = {c: [str(c) + str(i) for i in ind]
       for c in cols}
   return pd.DataFrame(data, ind)

In [None]:
# Exemplo de DataFrame
make_df('ABC', range(3))

### Funcionalidade de Concatenação


In [None]:
print("Exemplo de concatenação com NumPy")
x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]
np.concatenate([x, y, z])

In [None]:
print("Exemplo de concatenação com NumPy, especificando o eixo")
x = [[1, 2],
[3, 4]]
np.concatenate([x, x], axis=1)

### Observação:
Pandas tem uma função pd.concat(), a qual tem sintaxe similar à np.concatenate, mas contém váriais opções de parâmetros.

Assinatura da função em Pandas v0.18

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
keys=None, levels=None, names=None, verify_integrity=False,
copy=True)

In [None]:
print("Exemplo de uso da função de concatenação de tipo Serie em Pandas")
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

In [None]:
print("Exemplo de uso da função de concatenação de tipo DataFrames em Pandas")
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(df1)
print()
print(df2)
print()
print(pd.concat([df1, df2]))

### Observação:
Por default, a concatenação é realizada por linha no DataFrame (axis=0).

Como no  np.concatenate(), pd.concat() permite especificar o eixo ao qual será realizada a concatenação.

In [None]:
print("Exemplo de uso da função de concatenação de tipo DataFrames em Pandas")

print(" - com seleção do eixo 1")

df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
print(df3)
print()
print(df4)
print()
print("Concatenação pelo eixo 1")
print(pd.concat([df3, df4], axis=1))

### Observação:
Uma diferença importante entre np.concatenate() e pd.concat() é que em Pandas a concatenação preserva os índices, mesmo que o resultado tenha índices duplicados.

In [None]:
print("Exemplo de concatenação")
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index # índices duplicados
print("\nValor de X")
print(x);
print("\nValor de Y")
print(y)
print("\nConcatenação de X e Y")
print(pd.concat([x, y]))

In [None]:
print("\nConcatenação de X e Y, ignorando o índice")
print(pd.concat([x, y], ignore_index=True))

### Observação:
Chaves MultiIndex - Outra alternativa é o uso da opção 'keys' para especificar um label para a fonte de dados.

In [None]:
print("Concatenação com especificação de labels multiIndex")
print(pd.concat([x, y], keys=['x', 'y']))

### Funcionalidade Concatenação com Join
Nos exemplos anteriores concatenamos DataFrames que compartilham os mesmos nomes de colunas. Na prática, porém, dados vêm de diferentes fontes e podem ter diferentes conjuntos de nomes de colunas. O método pd.concat() oferece várias opções para tratar esses casos.

In [None]:
print("DataFrames com nomes de colunas diferentes")
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
print("\nDataFrame dfe5")
print(df5)
print("\nDataFrame dfe6")
print(df6)
print("\nDataFrame concatenado de dfe5 e df6")
print(pd.concat([df5, df6]))

### Observação:
Por default, atribui-se NaN para as entradas para as quais dados não são disponíveis. Para mudar isto, nós podemos especificar uma das várias opções para o parâmetros 'join' e 'join_axes' na função de concatenação.

Por default, o 'join' é a união das coluna (join='outer'), mas nós podemos mudar isto para uma interseção de colunas usando join='inner'.

In [None]:
print("\nDataFrame concatenado de dfe5 e df6, com interseção de colunas")
print(pd.concat([df5, df6], join='inner'))

In [None]:
print("Podemos concatenar 02 dataFrames baseado apenas nos índices de um deles")
res = pd.concat([df5, df6], axis=1)
res = res.reindex(df5.index)
print(res)

## Combinando Datasets: Merge e Join

Uma característica essencial oferecida pela Pandas é o conjunto de operações de join e merge de alto desempenho e em memória. Se você já trabalhou com bancos de dados, você deve estar familiarizado com esse tipo de interação de dados. A interface principal para isso é a função pd.merge( ), e veremos alguns exemplos de como isso pode funcionar na prática.

#### Exemplo com Álgebra Relacional

A função pd.merge() implementa um subconjunto de álgebra relaconal, que é um conjunto de regras formais para manipular dados relacionais e forma a fundamentação teórica das operações disponíveis em muitos banco de dados relacionais.

A função pd.merge() implementa três tipos de joins:
- one-to-one,joins simples com uma das colunas com os mesmos elementos.
- many-to-one, quando uma das "key columns" de um DataFrame contém entradas duplicadas.
- many-to-many, quando colunas de chaves nos dois DataFrames contêm duplicatas chaves de colunas duplicadas.

In [None]:
# Exemplo de Join one-to-one

df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
'hire_date': [2004, 2008, 2012, 2014]})
print("\nDataFrame df1")
print(df1)
print("\nDataFrame df2")
print(df2)

In [None]:
# Exemplo de Join one-to-one
# Agrupamento simple
df3 = pd.merge(df1, df2)
df3

In [None]:
# Many-to-one joins
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
'supervisor': ['Carly', 'Guido', 'Steve']})
print("\n dateFrame df3")
print(df3)
print("\n dateFrame df4")
print(df4)
print("\n dateFrame  df3-df4")
pd.merge(df3, df4)

In [None]:
# Many-to-many joins
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
'Engineering', 'Engineering', 'HR', 'HR'],'skills': ['math', 'spreadsheets', 'coding', 'linux',
'spreadsheets', 'organization']})
print("\n DataFrame df1")
print(df1)
print("\n DataFrame df5")
print(df5)
pd.merge(df1, df5)

### Especificação do Merge usando-se Key

Por default, a função pd.merge() associa uma ou mais colunas a partir dos nomes das colunas - conceito de chave (key).

Quando não há um casamento adequado entre os nomes das colunas, é possível utilizar uma variedade de opções de parâmetros para resolver este problema.


O modo mais simples é especificar explicitamente o nome da coluna chave (key) como palavra-chave (keyword). Porém, esta opção trabalha somente se ambos os DataFrames têm o nome de coluna especificado.

In [None]:
# Exemplo de uso de keyword na função pd.merge()
print("\n DataFrame df1")
print(df1)
print("\n DataFrame df2")
print(df2)
pd.merge(df1, df2, on='employee')

Palavras-chaves left_on and right_on keywords:
- quando se deseja fazer o merge de DataFrames com nomes de colunas diferente.

In [None]:
# Exemplo
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
'salary': [70000, 80000, 120000, 90000]})
print(df1)
print()
print(df3)
pd.merge(df1, df3, left_on="employee", right_on="name")

In [None]:
# Eliminando a coluna redundante

pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1)

Palavras-chaves left_index e right_index:
-  pode-se utilizar o index como chave para fazer o merge em pd.merge().

In [None]:
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')
print(df1a)
print()
print(df2a)

In [None]:
pd.merge(df1a, df2a, left_index=True, right_index=True)

In [None]:
#O método join() é equilavente ao merge(),
# mas no estilo orientado a objetos

df1a.join(df2a)

#### Exemplos
- O que ocorre quando um item aparece numa coluna mas não em outra?


In [None]:
# Exemplo

df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
'food': ['fish', 'beans', 'bread']},
columns=['name', 'food'])
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'],
'drink': ['wine', 'beer']},
columns=['name', 'drink'])
print(df6)
print()
print(df7)
print()
pd.merge(df6, df7)

In [None]:
# Default - interseção
pd.merge(df6, df7, how='inner')

In [None]:
# Uso da união

pd.merge(df6, df7, how='outer')

In [None]:
# Associação pela coluna da esquerda
pd.merge(df6, df7, how='left')

In [None]:
# Associação pela coluna da direita
pd.merge(df6, df7, how='right')

In [None]:
# Exemplo de uso de sufixos
# formato padrão

df8 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
'rank': [1, 2, 3, 4]})
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
'rank': [3, 1, 4, 2]})
print(df8)
print()
print(df9)
print()
pd.merge(df8, df9, on="name")

In [None]:
# Exemplo de uso de sufixos
# Especificando os sufixos

pd.merge(df8, df9, on="name", suffixes=["_L", "_R"])

# Exercício de Aplicação: para fixação dos conteúdos apresentados

Carregue os arquivos no seguinte github: dados do EU.

https://github.com/jakevdp/data-USstates/


In [None]:
# Carregando os arquivos csv
#Código
pop = pd.read_csv('https://raw.githubusercontent.com/jakevdp/data-USstates/master/state-population.csv')
areas = pd.read_csv('https://raw.githubusercontent.com/jakevdp/data-USstates/master/state-areas.csv')
abbrevs = pd.read_csv('https://raw.githubusercontent.com/jakevdp/data-USstates/master/state-abbrevs.csv')

In [None]:
# Verificando os conteúdos dos arquivos

print(pop.head())
print()
print(areas.head())
print()
print(abbrevs.head())

#### Passo 1. Gere um DataFrame (dfMerged), com as seguintes colunas:
    
state/region, ages, year, population, state

In [None]:
# Código do programa de merge dos 03 arquivos
dfMerged = pd.merge(pop, abbrevs, how='outer',left_on='state/region', right_on='abbreviation')
dfMerged = dfMerged.drop('abbreviation', axis= 1)

In [None]:
# Verificação do DataFrame gerado
dfMerged.head()

In [None]:
# Verificação se há algum dado faltando
dfMerged.isnull().any()

In [None]:
# Verificação de quais itens de "population" estão faltando

dfMerged[dfMerged['population'].isnull()].head()

In [None]:
# Verificação de quais state/region têm elementos na coluna "state" com data missing
dfMerged.loc[dfMerged['state'].isnull(), 'state/region'].unique()

In [None]:
# Para resolver o problema de associar Porto Rico com um estado dos EU.
# Só fica faltando resolver a população de Porto Rico (data missing)

dfMerged.loc[dfMerged['state/region'] == 'PR', 'state'] = 'Puerto Rico'
dfMerged.loc[dfMerged['state/region'] == 'USA', 'state'] = 'United States'
dfMerged.isnull().any()

### Passo 2. Gere um DataFrame (dfFinal), com as seguintes colunas:

state/region, ages, year, population, state, area (sq. mi)


In [None]:
# Código de merge para gerar o DataFrame dfFinal
dfFinal = pd.merge(dfMerged, areas, on='state', how='left')

In [None]:
# Verificação do resultado

dfFinal.head()

In [None]:
# Verificação se há data missing

dfFinal.isnull().any()


### Passo 3. Deve haver nulos na coluna da área.
Verifique quais regiões foram ignoradas.

In [None]:
# Código de verificação de quais estados têm data missing nos campos de área
dfFinal['state'][dfFinal['area (sq. mi)'].isnull()].unique()

### Passo 4. Há campos na coluna de área no DataFrame com data missing.
Para resolver esse tipo de problema, podemos inserir o valor apropriado (usando a soma de todas as áreas de estado, por exemplo), mas neste caso, simplesmente elimite os campos com valores nulos.

In [None]:
# código de eliminação de campos com data missing
dfFinal.dropna(inplace=True)
dfFinal.head()


### Passo 5. Obtenha um DataFrame (data2010) da população dos EU em 2010 (apenas o total por estados).
- data2010(state/region, ages, year, population, state,area (sq. mi))


In [None]:
# Código

data2010 = dfFinal.query("year == 2010 & ages == 'total'")
data2010.head()

### Passo 6. Obtenha os 5 estados com maiores densidades populacionais em 2010 (em order decrescente)

In [None]:
# Código

### Passo 7. Obtenha os 5 estados com menores densidades populacionais em 2010 (em order decrescente)

In [None]:
# Código


### Passo 8. Obtenha os 05 estados com maiores proporções de jovens (under 18) em 2010 (apresente o resultado em ordem decrescente)
                            

In [None]:
# Código

### Passo 9. Obtenha a média das populações (total e under18) por estado.
- Sugestão: Utilizar groupBy.

In [None]:
# Código


### Passo 10. Trace um gráfico em relação ao ano (year) do crescimento da população total e de jovens (under18) dos 05 estados mais populosos em 2010.

In [None]:
# Código
