# <span style="color:blue">MBA em Ciência de Dados</span>
# <span style="color:blue">Análise de Dados com Base em Processamento Massivo em Paralelo</span>

## <span style="color:blue">Aula 03: Processo de ETL/ELT</span>
## <span style="color:blue">Exemplo usando Pandas</span>

**Material Produzido por:**<br>
>**Profa. Dra. Cristina Dutra de Aguiar Ciferri**<br>
>**Guilherme Muzzi da Rocha**<br> 
>**Jadson José Monteiro Oliveira**<br> 
>**Leonardo Mauro Pereira Moraes**<br> 

**CEMEAI - ICMC/USP São Carlos**

**Conteúdo**
1. Fontes de Dados

2. Projeto do *Data Mart*

3. Importação usando Pandas

4. Integração de esquemas
   
   4.1. Conflito de nome (sinônimos)
   
   4.2. Conflito semântico
   
   4.3. Padronização das colunas

5. Integração de instâncias
    
    5.1. Considerando a fonte de dados funcionarioRelacional
    
    5.2. Considerando a fonte de dados colaboradorJSON
    
6. Carga dos dados no *Data Mart*

### 1 Fontes de Dados

Os dados dos funcionários estão armazenados em três fontes diferentes.

**Fonte 1**. *funcionarioRelacional.csv*: referente a um banco de dados relacional. Essa fonte armazena os funcionários da área de Engenharia.

**Fonte 2**. *colaboradorJSON.json*: arquivo JSON referente a uma base de dados NoSQL (Not Only SQL). Essa fonte armazena os funcionários da área de *Marketing*.

**Fonte 3**. *empregadoPlanilha.xlsx*: arquivo referente a uma planilha Excel. Essa fonte armazena os funcionários da área de Recursos Humanos. 

Na parte da aula, serão usadas as fontes 1 (funcionarioRelacional) e 2 (colaboradorJSON). A fonte 3 (empregadoPlanilha) será usada na lista de exercícios.



## 2 Projeto do *Data Mart*

O projeto do **data mart** refere-se ao esquema de relação *funcionario*. Esse esquema é definido a seguir, sendo que a chave primária é representada pelo atributo funcPK. 

funcionario (<ins>funcPK</ins>, funcMatricula, funcNome, funcSexo, funcDataNascimento, funcDiaNascimento, funcMesNascimento, funcAnoNascimento, funcCidade, funcEstadoNome, funcEstadoSigla, funcRegiaoNome, funcRegiaoSigla, funcPaisNome, funcPaisSigla)


## 3 Importação usando Pandas 

As fontes de dados são importadas por meio da estrutura `Dataframe`. Essa estrutura permite a leitura das diferentes fontes consideradas: `csv`, `json` e `xlsx`. Quando essas fontes são importadas, elas são unificadas em um formato único, o formato do `Dataframe`, facilitando a manipulação.

In [1]:
import pandas as pd

O comando a seguir realiza a importação dos dados dos funcionários armazenados em *funcionarioRelacional.csv* e armazena o resultado no `Dataframe` chamado funcionarioRelacional.


In [2]:
funcionarioRelacional = pd.read_csv('https://raw.githubusercontent.com/GuiMuzziUSP/ETL_Funcionarios/main/funcionarioRelacional.csv')

Os comandos a seguir exibem a quantidade de funcionários importados e os primeiros elementos de funcionarioRelacional.

In [3]:
print('Quantidade de funcionários importados da Fonte 1 (funcionarioRelacional.csv): ', funcionarioRelacional.shape[0])
funcionarioRelacional.head()

Quantidade de funcionários importados da Fonte 1 (funcionarioRelacional.csv):  56


Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNasc,funcCidade,funcEstado,funcPais
0,1,ALINE ALMEIDA,F,1/1/1990,sao paulo,sp,brasil
1,2,,M,2/2/1990,campinas,sp,brasil
2,3,ARON ANDRADE,M,3/3/1990,santos,sp,brasil
3,4,ADA BARBOSA,,4/4/1990,santo andre,sp,brasil
4,5,ABADE BATISTA,M,5/5/1990,piracicaba,sp,brasil


O comando a seguir realiza a importação dos dados dos funcionários armazenados em *colaboradorJSON.json* e armazena o resultado no `Dataframe` chamado colaboradorJSON.

In [4]:
colaboradorJSON = pd.read_json('https://raw.githubusercontent.com/GuiMuzziUSP/ETL_Funcionarios/main/colaboradorJSON.json')

Os comandos a seguir exibem a quantidade de funcionários importados e os primeiros elementos de colaboradorJSON.

In [5]:
print('Quantidade de funcionários importados da Fonte 2 (colaboradorJSON.json): ', colaboradorJSON.shape[0])
colaboradorJSON.head()

Quantidade de funcionários importados da Fonte 2 (colaboradorJSON.json):  31


Unnamed: 0,colab_matricula,colab_nome,colab_sexo,colab_data_nasc,colab_cidade,colab_estado,colab_pais
0,2,Arao Alves,,,,,
1,4,,1.0,,,,
2,8,,,1990-08-08,,,
3,13,Arao Alves,0.0,,,RJ,BRA
4,52,Adailton Costa,0.0,1951-04-21,Recife,PE,BRA


## 4 Integração de Esquemas

Analisando-se as três fontes de dados, verifica-se que existem vários conflitos de nome e um conflito semântico. Todos esses conflitos devem ser tratados na integração de esquemas, conforme descrito a seguir.

### 4.1 Conflitos de nome (sinônimo)

Um conflito de nome (sinônimo) ocorre quando diferentes nomes são aplicados ao mesmo elemento. funcionarioRelacional, colaboradorJSON e empregadoPlanilha armazenam dados de funcionários. Existem vários conflitos de nome quando  os nomes dos atributos do esquema de relação *funcionario* são comparados com os nomes das colunas oriundas das respectivas fontes de dados. 

A partir da identificação dos conflitos, são definidas as correspondências existentes entre as fontes de dados e o esquema de relação do *data mart*. Essas correspondências são as mesmas que as identificadas no documento textual que acompanha esta aula. Elas são repetidas aqui por completude.

As correspondências entre os esquemas de *funcionario* e funcionarioRelacional são:

1. *funcionario* $\equiv$ funcionarioRelacional

> (a) funcMatricula = funcMatricula

> (b) funcNome = funcNome

> (c) funcSexo = funcSexo

> (d) funcDataNascimento = funcDataNasc

> (e) funcCidade = funcCidade

> (f) funcEstadoSigla = funcEstado

> (g) funcPaisNome = funcPais

De acordo com essas correspondências, o comando a seguir mapeia os nomes das colunas de funcionarioRelacional para os nomes dos atributos de *funcionario*. 


In [6]:
funcionarioRelacional.columns = ['funcMatricula','funcNome','funcSexo','funcDataNascimento','funcCidade','funcEstadoSigla','funcPaisNome']

O comando a seguir exibe a nova estrutura e o primeiro elemento de funcionarioRelacional.

In [7]:
funcionarioRelacional.head(1)

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoSigla,funcPaisNome
0,1,ALINE ALMEIDA,F,1/1/1990,sao paulo,sp,brasil


As correspondências entre os esquemas de funcionario e colaboradorJSON são:

2. *funcionario* $\equiv$ colaboradorJSON

> (a) funcMatricula = colab_matricula

> (b) funcNome = colab_nome

> (c) funcSexo = colab_sexo

> (d) funcDataNascimento = colab_data_nasc

> (e) funcCidade = colab_cidade

> (f) funcEstadoSigla = colab_estado

> (g) funcPaisSigla = colab_pais

De acordo com essas correspondências, o comando a seguir mapeia os nomes das colunas de colaboradorJSON para os nomes dos atributos de *funcionario*.



In [8]:
colaboradorJSON.columns = ['funcMatricula','funcNome','funcSexo','funcDataNascimento','funcCidade','funcEstadoSigla','funcPaisSigla']

O comando a seguir exibe a nova estrutura e o primeiro elemento de colaboradorJSON.

In [9]:
colaboradorJSON.head(1)

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoSigla,funcPaisSigla
0,2,Arao Alves,,,,,


### 4.2 Conflito semântico

Um conflito semântico ocorre quando o mesmo elemento é modelado em diferentes esquemas, porém representando conjuntos que se sobrepõem. Como definido anteriormente, funcionarioRelacional armazena os funcionários da área de Engenharia, enquanto que colaboradorJSON armazena os funcionários da área de *Marketing*. É importante notar que: (i) existem funcionários que são diferentes entre si; (ii) o mesmo funcionário pode estar armazenado em mais do que uma fonte de dados, desde que ele mudou de área de atuação durante a sua trajetória.

Assim, devem ser identificados os funcionários que correspondem à mesma entidade do mundo real. Nesta aplicação de *data warehousing*, isso é feito por meio das **matrículas** dos funcionários, ou seja, considera-se a identificação unívoca das entidades. Considera-se também que os valores referentes à matricula dos funcionários já foram analisados na operação de limpeza dos dados e representam valores acurados. Portanto, `funcMatricula` pode ser usado para identificar os funcionários.

O comando a seguir mostra a quantidade de funcionários que aparecem em ambos funcionarioRelacional e colaboradorJSON, bem como detalhes desses funcionários. Isso significa que o funcionário transitou entre as áreas de Engenharia e *Marketing*. O sufixo `_x` indica colunas de funcionarioRelacional, enquanto que o sufixo `_y` indica colunas de colaboradorJSON. Como resultado, o `DataFrame` funcionario_colaborador possui os funcionários presentes em ambas fontes de dados. Os conflitos têm que ser resolvidos, o que será realizado durante a integração de instâncias.

In [10]:
funcionario_colaborador = funcionarioRelacional.merge(colaboradorJSON, on = 'funcMatricula')
print('Quantidade de mesmos funcionários cadastrados nas fontes 1 e 2: ', funcionario_colaborador.shape[0])

# renomeando algumas colunas sem sufixo
funcionario_colaborador = funcionario_colaborador.rename(columns = {'funcPaisSigla': 'funcPaisSigla_y', 'funcPaisNome': 'funcPaisNome_x'}, inplace = False)

# monstrando algumas colunas do conflito
colunas_display = ['funcMatricula', 'funcNome_x', 'funcNome_y', 'funcCidade_x', 'funcCidade_y', 'funcPaisNome_x', 'funcPaisSigla_y']
funcionario_colaborador[colunas_display]

Quantidade de mesmos funcionários cadastrados nas fontes 1 e 2:  7


Unnamed: 0,funcMatricula,funcNome_x,funcNome_y,funcCidade_x,funcCidade_y,funcPaisNome_x,funcPaisSigla_y
0,2,,Arao Alves,campinas,,brasil,
1,4,ADA BARBOSA,,santo andre,,brasil,
2,8,ABADIAS CAMPOS,,ilha bela,,brasil,
3,13,ABDIEL DIAS,Arao Alves,rio de janeiro,,brasil,BRA
4,64,ABILIO BARBOSA,,,Osasco,,BRA
5,67,ADELMA BORGES,,,,brasil,
6,83,ADENIAS ANDRADE,Adenias Andrade,campinas,,,BRA


### 4.3 Padronização das colunas

O esquema de relação *funcionario* possui vários atributos que não estão presentes nas fontes de dados. Os comandos a seguir visam acrescentar colunas a funcionarioRelacional e colaboradorJSON. É atributído valor NULO para os valores dessas colunas. 

Os comandos a seguir realizam as seguintes ações para funcionarioRelacional. Primeiro, é mostrada a estrutura atual. Depois, são adicionadas as novas colunas, ou seja, as colunas faltantes. Por fim, é exibida a estrutura final.

In [11]:
funcionarioRelacional.columns.tolist()

['funcMatricula',
 'funcNome',
 'funcSexo',
 'funcDataNascimento',
 'funcCidade',
 'funcEstadoSigla',
 'funcPaisNome']

In [12]:
funcionarioRelacional['funcDiaNascimento'] = None
funcionarioRelacional['funcMesNascimento'] = None
funcionarioRelacional['funcAnoNascimento'] = None
funcionarioRelacional['funcEstadoNome'] = None
funcionarioRelacional['funcRegiaoNome'] = None
funcionarioRelacional['funcRegiaoSigla'] = None
funcionarioRelacional['funcPaisSigla'] = None

In [13]:
funcionarioRelacional.columns.tolist()

['funcMatricula',
 'funcNome',
 'funcSexo',
 'funcDataNascimento',
 'funcCidade',
 'funcEstadoSigla',
 'funcPaisNome',
 'funcDiaNascimento',
 'funcMesNascimento',
 'funcAnoNascimento',
 'funcEstadoNome',
 'funcRegiaoNome',
 'funcRegiaoSigla',
 'funcPaisSigla']

Os comandos a seguir realizam as seguintes ações para colaboradorJSON. Primeiro, é mostrada a estrutura atual. Depois, são adicionadas as novas colunas, ou seja, as colunas faltantes. Por fim, é exibida a estrutura final.

In [14]:
colaboradorJSON.columns.tolist()

['funcMatricula',
 'funcNome',
 'funcSexo',
 'funcDataNascimento',
 'funcCidade',
 'funcEstadoSigla',
 'funcPaisSigla']

In [15]:
colaboradorJSON['funcDiaNascimento'] = None
colaboradorJSON['funcMesNascimento'] = None
colaboradorJSON['funcAnoNascimento'] = None
colaboradorJSON['funcEstadoNome'] = None
colaboradorJSON['funcRegiaoNome'] = None
colaboradorJSON['funcRegiaoSigla'] = None
colaboradorJSON['funcPaisNome'] = None

In [16]:
colaboradorJSON.columns.tolist()

['funcMatricula',
 'funcNome',
 'funcSexo',
 'funcDataNascimento',
 'funcCidade',
 'funcEstadoSigla',
 'funcPaisSigla',
 'funcDiaNascimento',
 'funcMesNascimento',
 'funcAnoNascimento',
 'funcEstadoNome',
 'funcRegiaoNome',
 'funcRegiaoSigla',
 'funcPaisNome']

## 5 Integração de Instâncias

Após a integração dos esquemas, é necessário realizar a integração de instâncias. Todas as instâncias presentes em funcionarioRelacional e em colaboradorJSON têm que ser integradas em *funcionario*, considerando o tipo de dados e o formato dos atributos desse esquema de relação.

Os seguintes tipos de dados e formatos são considerados para os atributos de *funcionario*:

a) funcMatricula: numérico;

b) funcNome: alfanumérico, com todas as letras maiúsculas;

c) funcSexo: alfanumérico de 1 caractere, com M indicando masculino e F indicando feminino;

d) funcDataNascimento: alfanumérico, com formato `dia/mês/ano`;

e) funcCidade: alfanumérico, com todas as letras maiúsculas;

f) funcEstadoNome: alfanumérico, com todas as letras maiúsculas;

g) funcEstadoSigla: alfanumérico de 2 caracteres, com todas as letras maiúsculas;

h) funcPaisNome: alfanumérico, com todas as letras maiúsculas;

i) funcPaisSigla: alfanumérico de 3 letras, com todas as letras maiúsculas; 


### 5.1 Considerando a fonte de dados funcionarioRelacional

O comando a seguir exemplifica instâncias de funcionarioRelacional.



In [17]:
funcionarioRelacional.head()

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoSigla,funcPaisNome,funcDiaNascimento,funcMesNascimento,funcAnoNascimento,funcEstadoNome,funcRegiaoNome,funcRegiaoSigla,funcPaisSigla
0,1,ALINE ALMEIDA,F,1/1/1990,sao paulo,sp,brasil,,,,,,,
1,2,,M,2/2/1990,campinas,sp,brasil,,,,,,,
2,3,ARON ANDRADE,M,3/3/1990,santos,sp,brasil,,,,,,,
3,4,ADA BARBOSA,,4/4/1990,santo andre,sp,brasil,,,,,,,
4,5,ABADE BATISTA,M,5/5/1990,piracicaba,sp,brasil,,,,,,,


Para facilitar as manipulações que devem ser realizadas nas instâncias de  funcionarioRelacional, é criada uma classe em Python chamada `ProcessamentoFonteRelacional`. Nessa classe, são criados vários métodos. Cada método é responsável pela tranformação de um dos atributos do conjunto de dados. Para essa fonte foram aplicados os seguintes mapeamentos: e (funcCidade), g (funcEstadoSigla), h (funcPaisNome).

In [18]:
class ProcessamentoFonteRelacional:
  """
  Realiza a tranformacao de um dataframe com formato da fonte 
  funcionarioRelacional para um dataframe que segue os padrões definidos 
  para o esquema de relação funcionario.
  """

  def __init__(self, dados_funcionario):
    self.fonte_dados = dados_funcionario.copy(deep=True)

  def processar_cidade(self, cidade):
    """
    O atributo que representa a cidade em funcionarioRelacional precisa ser
    transformado para caracteres maiúsculos. Esta função realiza essa
    transformação.
    """
    if pd.isna(cidade):
      return None

    return cidade.upper()
    
  def processar_estado_sigla(self, estado):
    """
    O atributo que representa a sigla do estado em funcionarioRelacional 
    precisa ser transformado para caracteres maiúsculos. Essa função realiza 
    essa transformação.
    """
    if pd.isna(estado):
      return None

    return estado.upper()

  def processar_pais_nome(self, paisNome):
    """
    O atributo que representa o nome do país em funcionarioRelacional precisa 
    ser transformado para caracteres maiúsculos. Essa função realiza essa
    transformação.
    """
    if pd.isna(paisNome):
      return None

    return paisNome.upper()

  def executar_transformacoes(self):
    """
    Essa função processa cada atributo do dataframe composto pelos dados da 
    fonte funcionarioRelacional
    """
    
    self.fonte_dados['funcCidade'] = self.fonte_dados.apply(lambda x : self.processar_cidade(x['funcCidade']), axis=1)
    self.fonte_dados['funcEstadoSigla'] = self.fonte_dados.apply(lambda x : self.processar_estado_sigla(x['funcEstadoSigla']), axis=1)
    self.fonte_dados['funcPaisNome'] = self.fonte_dados.apply(lambda x : self.processar_pais_nome(x['funcPaisNome']), axis=1)
    
    return self.fonte_dados

O primeiro comando a seguir realiza o processamento da fonte funcionarioRelacional, enquanto que o segundo comando mostra alguns funcionários de funcionarioRelacional depois de ser realizado o mapeamento para o tipo de dados e o formato de funcionario.

In [19]:
novo_funcionario_relacional = ProcessamentoFonteRelacional(funcionarioRelacional).executar_transformacoes()

In [20]:
novo_funcionario_relacional.head()

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoSigla,funcPaisNome,funcDiaNascimento,funcMesNascimento,funcAnoNascimento,funcEstadoNome,funcRegiaoNome,funcRegiaoSigla,funcPaisSigla
0,1,ALINE ALMEIDA,F,1/1/1990,SAO PAULO,SP,BRASIL,,,,,,,
1,2,,M,2/2/1990,CAMPINAS,SP,BRASIL,,,,,,,
2,3,ARON ANDRADE,M,3/3/1990,SANTOS,SP,BRASIL,,,,,,,
3,4,ADA BARBOSA,,4/4/1990,SANTO ANDRE,SP,BRASIL,,,,,,,
4,5,ABADE BATISTA,M,5/5/1990,PIRACICABA,SP,BRASIL,,,,,,,


### 5.2 Considerando a fonte de dados colaboradorJSON

O comando a seguir exemplifica instâncias de colaboradorJSON.

In [21]:
colaboradorJSON.head()

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoSigla,funcPaisSigla,funcDiaNascimento,funcMesNascimento,funcAnoNascimento,funcEstadoNome,funcRegiaoNome,funcRegiaoSigla,funcPaisNome
0,2,Arao Alves,,,,,,,,,,,,
1,4,,1.0,,,,,,,,,,,
2,8,,,1990-08-08,,,,,,,,,,
3,13,Arao Alves,0.0,,,RJ,BRA,,,,,,,
4,52,Adailton Costa,0.0,1951-04-21,Recife,PE,BRA,,,,,,,


Para facilitar as manipulações que devem ser realizadas nas instâncias de  colaboradorJSON, foi criada uma classe em Python chamada `ProcessamentoFonteJSON`. Nessa classe, são criados vários métodos. Cada método é responsável pela tranformação de um dos atributos do conjunto de dados. Para essa fonte foram aplicados os seguintes mapeamentos: b (funcNome), c (funcSexo), d (funcDataNascimento), e (funcCidade), g (funcEstadoSigla), i (funcPaisSigla).

In [22]:
class ProcessamentoFonteJSON:
  """
  Realiza a tranformacao de um dataframe com formato da fonte colaboradorJSON 
  para um dataframe que segue os padrões definidos pelo esquema de 
  relação funcionario.
  """

  def __init__(self, dados_funcionario):
    self.fonte_dados = dados_funcionario.copy(deep=True)

  def processar_nome(self, nome):
    """
    O atributo que representa a o nome do funcionário em colaboradorJSON 
    precisa ser transformado para caracteres maiúsculos. Essa função realiza 
    essa transformação.
    """
    if pd.isna(nome):
      return None

    return nome.upper()
    
  def processar_sexo(self, sexo):
    """
    O atributo que representa sexo em colaboradorJSON utiliza uma representação
    binária, na qual o valor 0 representa masculino e 1 representa feminino. 
    Essa função é responsável por representar os valores de sexo como M e F,
    respectivamente. 
    """
    if pd.isna(sexo):
      return None

    return 'M' if sexo == 0 else 'F'

  def processar_data(self, data):
    """
    O atributo que representa a data de nascimento em colaboradorJSON precisa 
    ser transformado para o formato 'dia/mês/ano'.  Essa função realiza essa
    transformação.
    """
    if pd.isna(data):
      return None
      
    ano, mes, dia = data.split('-')
    return '%02d/%02d/%d' % (int(dia), int(mes), int(ano))

  def processar_cidade(self, cidade):
    """
    O atributo que representa o nome da cidade em colaboradorJSON precisa ser
    transformado para caracteres minúsculos. Essa função realiza essa
    transformação.
    """
    if pd.isna(cidade):
      return None

    return cidade.upper()
    
  def processar_estado_sigla(self, estado):
    """
    O atributo que representa a sigla do estado em colaboradorJSON precisa ser
    transformado para caracteres minúsculos. Essa função realiza essa
    transformação.
    """
    if pd.isna(estado):
      return None

    return estado.upper()

  def processar_pais_sigla(self, pais):
    """
    O atributo que representa a sigla do pais em colaboradorJSON 
    segue o mesmo padrão adotado pelo atributo funcPaisSigla de funcionario. 
    Portanto, não há necessidade de realizar transformação.
    """
    if pd.isna(pais):
      return None

    return pais.upper()

  def executar_transformacoes(self):
    """
    Essa função processa cada atributo do dataframe composto pelos dados da 
    fonte colaboradorJSON
    """
    self.fonte_dados['funcNome'] = self.fonte_dados.apply(lambda x : self.processar_nome(x['funcNome']), axis=1)
    self.fonte_dados['funcSexo'] = self.fonte_dados.apply(lambda x : self.processar_sexo(x['funcSexo']), axis=1)
    self.fonte_dados['funcDataNascimento'] = self.fonte_dados.apply(lambda x : self.processar_data(x['funcDataNascimento']), axis=1)
    self.fonte_dados['funcCidade'] = self.fonte_dados.apply(lambda x : self.processar_cidade(x['funcCidade']), axis=1)
    self.fonte_dados['funcEstadoSigla'] = self.fonte_dados.apply(lambda x : self.processar_estado_sigla(x['funcEstadoSigla']), axis=1)
    self.fonte_dados['funcPaisSigla'] = self.fonte_dados.apply(lambda x : self.processar_pais_sigla(x['funcPaisSigla']), axis=1)
    
    return self.fonte_dados


O primeiro comando a seguir realiza o processamento da fonte colaboradorJSON,  enquanto que o segundo comando mostra alguns funcionários de colaborador JASON depois de ser realizado o mapeamento para o tipo de dados e o formato de *funcionario*.


In [23]:
novo_colaborador_JSON = ProcessamentoFonteJSON(colaboradorJSON).executar_transformacoes()

In [24]:
novo_colaborador_JSON.head()

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoSigla,funcPaisSigla,funcDiaNascimento,funcMesNascimento,funcAnoNascimento,funcEstadoNome,funcRegiaoNome,funcRegiaoSigla,funcPaisNome
0,2,ARAO ALVES,,,,,,,,,,,,
1,4,,F,,,,,,,,,,,
2,8,,,08/08/1990,,,,,,,,,,
3,13,ARAO ALVES,M,,,RJ,BRA,,,,,,,
4,52,ADAILTON COSTA,M,21/04/1951,RECIFE,PE,BRA,,,,,,,


### 5.4 Integrando as instâncias

Todas as instâncias presentes em novo_funcionario_relacional e novo_colaborador_JSON devem ser integradas. 

Apenas para relembrar, existem funcionários presentes tanto em funcionarioRelacional quanto em colaborador_JSON. O comando a seguir mostra alguns exemplos de colunas que possuem valores diferentes de atributos. Colunas com sufixo `_x` representam colunas de novo_funcionario_relacional, enquanto que colunas com sufixo `_y` representam colunas de novo_colaborador_JSON. 

In [25]:
colunas_display = ['funcNome_x', 'funcNome_y', 'funcCidade_x', 'funcCidade_y', 'funcPaisNome_x', 'funcPaisSigla_y']
novo_funcionario_relacional.merge(right=novo_colaborador_JSON, on='funcMatricula')[colunas_display]

Unnamed: 0,funcNome_x,funcNome_y,funcCidade_x,funcCidade_y,funcPaisNome_x,funcPaisSigla_y
0,,ARAO ALVES,CAMPINAS,,BRASIL,
1,ADA BARBOSA,,SANTO ANDRE,,BRASIL,
2,ABADIAS CAMPOS,,ILHA BELA,,BRASIL,
3,ABDIEL DIAS,ARAO ALVES,RIO DE JANEIRO,,BRASIL,BRA
4,ABILIO BARBOSA,,,OSASCO,,BRA
5,ADELMA BORGES,,,,BRASIL,
6,ADENIAS ANDRADE,ADENIAS ANDRADE,CAMPINAS,,,BRA


Para facilitar o processo, a coluna `funcMatricula` é transformada em índice do `DataFrame`.

In [26]:
def preprocessamento_dataframe(df):
  """
  Clona o DataFrame, e altera o indice para funcMatricula
  """
  ndf = df.copy(deep=True)
  return ndf.set_index('funcMatricula')

In [27]:
novo_funcionario_relacional = preprocessamento_dataframe(novo_funcionario_relacional)
novo_colaborador_JSON = preprocessamento_dataframe(novo_colaborador_JSON)

Um aspecto importante considerado na integração de instâncias é a confiabilidade das fontes, definida da seguinte forma: a fonte 1 é a mais confiável, seguida pela fonte 2.

O comando a seguir escolhe o valor do atributo mais confiável tendo como entrada 2 fontes representadas por A e B.

In [28]:
def processar_conflitos(indices, fonte_A, fonte_B):
  """
  Processa os conflitos das fontes com base na confiabilidade das mesmas,
  sendo a fonte_A a mais confiável.
  """
  columns = fonte_A.columns
  for index in indices:
    a = fonte_A.loc[index]
    b = fonte_B.loc[index]
    for column in columns:
      fonte_A.at[index, column] = b[column] if pd.isna(a[column]) else a[column]
  return fonte_A

O comando a seguir integra instâncias presentes tanto em novo_funcionario_relacional quanto em novo_colaborador_JSON usando como base a confiabilidade das fontes. Os valores dos atributos do primeiro `DataFrame` são escolhidos a menos que sejam valores nulos. Nesse caso, são escolhidos os valores dos atributos do segundo `DataFrame`. Note que, em `df_processado`, são armazenados todos os funcionários da fonte funcionarioRelacional, sendo que, para os funcionários presentes também em colaboradorJSON, ocorre a resolução dos valores dos atributos.

In [29]:
# indices do conflito da fonte 1 (mais confiável) e fonte 2
indices = funcionario_colaborador['funcMatricula'].tolist()
df_processado = processar_conflitos(indices, novo_funcionario_relacional, novo_colaborador_JSON)

In [30]:
df_processado.loc[indices][['funcNome', 'funcCidade', 'funcPaisNome', 'funcPaisSigla']]

Unnamed: 0_level_0,funcNome,funcCidade,funcPaisNome,funcPaisSigla
funcMatricula,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,ARAO ALVES,CAMPINAS,BRASIL,
4,ADA BARBOSA,SANTO ANDRE,BRASIL,
8,ABADIAS CAMPOS,ILHA BELA,BRASIL,
13,ABDIEL DIAS,RIO DE JANEIRO,BRASIL,BRA
64,ABILIO BARBOSA,OSASCO,,BRA
67,ADELMA BORGES,,BRASIL,
83,ADENIAS ANDRADE,CAMPINAS,,BRA


O esquema de relação *funcionario* a ser armazenado no *data mart* deve conter todos os funcionários. Entretanto, como resultado do último comando, esse esquema contém apenas os funcionários presentes na fonte funcionarioRelacional. O comando a seguir incorpora também a *funcionario* todos os funcionários presentes na fonte colaboradorJSON, com exceção dos funcionários já considerados anteriormente. Como resultado, são geradas todas as instâncias de *funcionario*. Na sequência, o próximo comando ilustra algumas linhas geradas.

In [31]:
def interseccao_indices(lst1, lst2):
  """
  Retornar os indices duplicados
  """
  return list(set(lst1).intersection(lst2))


def gera_funcionario(df1, df2):
  """
  Realiza a uniao dos dataframes
  """
  indices1 = df1.index.tolist()
  indices2 = df2.index.tolist()
  # remove os indices duplicados
  indices_drop = interseccao_indices(indices1, indices2)
  df2_drop = df2.drop(indices_drop)
  # retorna a uniao dos dois dataframes
  return df1.append(df2_drop).sort_index()

In [32]:
funcionario = gera_funcionario(df_processado, novo_colaborador_JSON).reset_index().sample(frac=1)

In [33]:
print('Tamanho da fonte final: ', funcionario.shape[0])
display(funcionario)

Tamanho da fonte final:  80


Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoSigla,funcPaisNome,funcDiaNascimento,funcMesNascimento,funcAnoNascimento,funcEstadoNome,funcRegiaoNome,funcRegiaoSigla,funcPaisSigla
11,12,ABDA COSTA,F,12/12/1990,BARUERI,SP,BRASIL,,,,,,,
24,25,ABDENIO BATISTA,M,25/1/1990,RECIFE,PE,BRASIL,,,,,,,
15,16,ABDALLA FERNANDES,M,16/4/1990,,,BRASIL,,,,,,,
49,50,ABELARD CARVALHO,M,19/2/1990,GUARATUBA,PR,BRASIL,,,,,,,
53,54,ADELAR DUARTE,F,23/06/1953,RECIFE,PE,,,,,,,,BRA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
39,40,ABDIEL LIMA,M,9/4/1990,RIO DE JANEIRO,RJ,BRASIL,,,,,,,
77,86,ADENILDE BARROS,,25/2/1985,,,,,,,,,,
20,21,ABDENAGO ALMEIDA,M,21/9/1990,CURITIBA,PR,BRASIL,,,,,,,
70,71,ADEMIL CASTRO,M,10/11/1970,BELO HORIZONTE,MG,,,,,,,,BRA


## 6 Carga dos Dados no *Data Mart*

Antes dos dados serem carregados no *data mart*, devem ser realizados processamentos adicionais. Esses processamentos referem-se a: (i) verificação de valores nulos; e (ii) geração automática de dados para preencher colunas que não foram preenchidas pelos dados oriundos das fontes.

O comando a seguir verifica a presença de valores nulos e também valores de colunas que não foram preenchidas.

In [34]:
funcionario.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 80 entries, 11 to 72
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   funcMatricula       80 non-null     int64 
 1   funcNome            78 non-null     object
 2   funcSexo            78 non-null     object
 3   funcDataNascimento  78 non-null     object
 4   funcCidade          75 non-null     object
 5   funcEstadoSigla     75 non-null     object
 6   funcPaisNome        52 non-null     object
 7   funcDiaNascimento   0 non-null      object
 8   funcMesNascimento   0 non-null      object
 9   funcAnoNascimento   0 non-null      object
 10  funcEstadoNome      0 non-null      object
 11  funcRegiaoNome      0 non-null      object
 12  funcRegiaoSigla     0 non-null      object
 13  funcPaisSigla       26 non-null     object
dtypes: int64(1), object(13)
memory usage: 9.4+ KB


O comando a seguir realiza o preenchimento de dados nas colunas de `funcEstadoNome` usando como base `funcEstadoSigla`.

In [35]:
funcionario['funcEstadoSigla'].unique()

array(['SP', 'PE', None, 'PR', 'RJ', 'MG'], dtype=object)

In [36]:
mapear_estados_nome = {'RJ':'RIO DE JANEIRO', 'SP':'SAO PAULO',\
                  'PR':'PARANA', 'PE':'PERNAMBUCO', 'MG':'MINAS GERAIS'}
funcEstadoNome = lambda x, y: y if pd.isna(x) else mapear_estados_nome[x]
funcionario['funcEstadoNome'] = funcionario.apply(lambda x: funcEstadoNome(x['funcEstadoSigla'], x['funcEstadoNome']), axis=1)

O comando a seguir realiza o preenchimento de dados nas colunas de `funcEstadoSigla` usando como base `funcEstadoNome`.

In [37]:
mapear_estados_sigla = {'RIO DE JANEIRO':'RJ', 'SAO PAULO':'SP',\
                  'PARANA':'PR', 'PERNAMBUCO':'PE', 'MINAS GERAIS':'MG'}
funcEstadoSigla = lambda x, y: y if pd.isna(x) else mapear_estados_sigla[x]
funcionario['funcEstadoSigla'] = funcionario.apply(lambda x: funcEstadoSigla(x['funcEstadoNome'], x['funcEstadoSigla']), axis=1)

Os comandos a seguir realizam o preenchimento de dados nas colunas `funcPaisSigla` e `funcPais`.

In [38]:
funcionario['funcPaisSigla'].unique()

array([None, 'BRA'], dtype=object)

In [39]:
funcionario['funcPaisNome'].unique()

array(['BRASIL', None], dtype=object)

In [40]:
funcionario['funcPaisSigla'] = 'BRA'
funcionario['funcPaisNome'] = 'BRASIL'

O comando a seguir verifica novamente a presença de valores nulos e também valores de colunas que não foram preenchidas. 

In [41]:
funcionario.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 80 entries, 11 to 72
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   funcMatricula       80 non-null     int64 
 1   funcNome            78 non-null     object
 2   funcSexo            78 non-null     object
 3   funcDataNascimento  78 non-null     object
 4   funcCidade          75 non-null     object
 5   funcEstadoSigla     75 non-null     object
 6   funcPaisNome        80 non-null     object
 7   funcDiaNascimento   0 non-null      object
 8   funcMesNascimento   0 non-null      object
 9   funcAnoNascimento   0 non-null      object
 10  funcEstadoNome      75 non-null     object
 11  funcRegiaoNome      0 non-null      object
 12  funcRegiaoSigla     0 non-null      object
 13  funcPaisSigla       80 non-null     object
dtypes: int64(1), object(13)
memory usage: 9.4+ KB


Os comandos a seguir realizam o preenchimento de dados nas colunas   `funcDiaNascimento` e `funcMesNascimento`, e `funcAnoNascimento`. Para tanto, são usados os valores presentes em `funcDataNascimento`.

In [42]:
# extraindo o dia, mês e ano de nascimento
dataNascimento = {'DIA': 0, 'MES': 1, 'ANO': 2}

def processa_data_nascimento(dataNascimento, campo):
  if pd.isna(dataNascimento):
    return None
  return dataNascimento.split('/')[campo]


funcionario['funcDiaNascimento'] = funcionario.apply(lambda x: processa_data_nascimento(x['funcDataNascimento'], dataNascimento['DIA']), axis=1)
funcionario['funcMesNascimento'] = funcionario.apply(lambda x: processa_data_nascimento(x['funcDataNascimento'], dataNascimento['MES']), axis=1)
funcionario['funcAnoNascimento'] = funcionario.apply(lambda x: processa_data_nascimento(x['funcDataNascimento'], dataNascimento['ANO']), axis=1)

Os comandos a seguir realizam o preenchimento de dados nas colunas funcRegiaoNome e funcRegiaoSigla.

In [43]:
mapear_regiao_nome = {'RJ':'SUDESTE', 'SP':'SUDESTE',\
                  'PR':'SUL', 'PE':'NORDESTE', 'MG':'SUDESTE', None:None}
funcionario['funcRegiaoNome'] = funcionario.apply(lambda x: mapear_regiao_nome[x['funcEstadoSigla']], axis=1)

In [44]:
mapear_regiao_sigla = {'SUDESTE':'SE', 'SUL':'S', 'NORDESTE':'NE', None:None}
funcionario['funcRegiaoSigla'] = funcionario.apply(lambda x: mapear_regiao_sigla[x['funcRegiaoNome']], axis=1)

Por fim, tem-se a coluna `funcPK`. Em *funcionario*, já existe a coluna `funcMatricula`, que identifica univocamente cada funcionário. Entretanto, pode ser que o valor dessa coluna seja preenchido com dados muito grandes, contendo letras e números. Nesse caso, quando se projeta o esquema do *data mart*, acrescenta-se uma coluna adicional para representar a chave primária, a qual é preenchida com valores incrementados de 1 em 1 em ordem crescente. 

O comando a seguir acrescenta a coluna funcPK a funcionario.

In [45]:
funcionario.reset_index(drop=True, inplace=True)
funcionario['funcPK'] = list(range(1, funcionario.shape[0]+1))

O comando a seguir ilustra a nova estrutura do esquema de relação *funcionario*, bem como alguns de seus dados

In [46]:
display(funcionario[['funcPK', 'funcMatricula', 'funcNome', 'funcSexo', 'funcCidade', 'funcEstadoNome', 'funcRegiaoNome', 'funcPaisNome']])

Unnamed: 0,funcPK,funcMatricula,funcNome,funcSexo,funcCidade,funcEstadoNome,funcRegiaoNome,funcPaisNome
0,1,12,ABDA COSTA,F,BARUERI,SAO PAULO,SUDESTE,BRASIL
1,2,25,ABDENIO BATISTA,M,RECIFE,PERNAMBUCO,NORDESTE,BRASIL
2,3,16,ABDALLA FERNANDES,M,,,,BRASIL
3,4,50,ABELARD CARVALHO,M,GUARATUBA,PARANA,SUL,BRASIL
4,5,54,ADELAR DUARTE,F,RECIFE,PERNAMBUCO,NORDESTE,BRASIL
...,...,...,...,...,...,...,...,...
75,76,40,ABDIEL LIMA,M,RIO DE JANEIRO,RIO DE JANEIRO,SUDESTE,BRASIL
76,77,86,ADENILDE BARROS,,,,,BRASIL
77,78,21,ABDENAGO ALMEIDA,M,CURITIBA,PARANA,SUL,BRASIL
78,79,71,ADEMIL CASTRO,M,BELO HORIZONTE,MINAS GERAIS,SUDESTE,BRASIL


O comando a seguir verifica a presença de valores nulos em funcionario. Esses valores serão preenchidos com a integração dos dados da fonte de dados 3. Realizar essa integração é a lista de exercícios da aula. 

In [47]:
funcionario.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80 entries, 0 to 79
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   funcMatricula       80 non-null     int64 
 1   funcNome            78 non-null     object
 2   funcSexo            78 non-null     object
 3   funcDataNascimento  78 non-null     object
 4   funcCidade          75 non-null     object
 5   funcEstadoSigla     75 non-null     object
 6   funcPaisNome        80 non-null     object
 7   funcDiaNascimento   78 non-null     object
 8   funcMesNascimento   78 non-null     object
 9   funcAnoNascimento   78 non-null     object
 10  funcEstadoNome      75 non-null     object
 11  funcRegiaoNome      75 non-null     object
 12  funcRegiaoSigla     75 non-null     object
 13  funcPaisSigla       80 non-null     object
 14  funcPK              80 non-null     int64 
dtypes: int64(2), object(13)
memory usage: 9.5+ KB


Como o *data mart* é armazenado seguindo o modelo relacional, o comando a seguir gera um arquivo *.csv* referente a *funcionario*. 

In [48]:
funcionario.to_csv('funcionario.csv')