# <span style="color:blue">MBA em Ciência de Dados</span>
# <span style="color:blue">Análise de Dados com Base em Processamento Massivo em Paralelo</span>

## <span style="color:blue">Aula 03: Processo de ETL/ELT</span>
## <span style="color:blue">Exemplo usando Pandas</span>

**Material Produzido por:**<br>
>**Profa. Dra. Cristina Dutra de Aguiar Ciferri**<br>
>**Guilherme Muzzi da Rocha**<br> 
>**Jadson José Monteiro Oliveira**<br> 
>**Leonardo Mauro Pereira Moraes**<br> 

**CEMEAI - ICMC/USP São Carlos**

**Essa lista de exercícios contém 10 exercícios, os quais estão espalhados ao longo do texto. Por favor, procurem por EXERCÍCIO para encontrar a especificação dos exercícios e também o local no qual os comandos devem ser inseridos.** 

**Recomenda-se fortemente que a lista de exercícios seja respondida antes de se consultar as respostas dos exercícios.** 



**Conteúdo**
1. Fontes de Dados

2. Projeto do *Data Mart*

3. Importação usando Pandas

4. Integração de esquemas
   
   4.1. Conflito de nome (sinônimos)
   
   4.2. Conflito semântico
   
   4.3. Padronização das colunas

5. Integração de instâncias
    
    5.1. Considerando a fonte de dados funcionarioRelacional
    
    5.2. Considerando a fonte de dados colaboradorJSON
    
6. Carga dos dados no *Data Mart*

### 1 Fontes de Dados

Os dados dos funcionários estão armazenados em três fontes diferentes.

**Fonte 1**. *funcionarioRelacional.csv*: referente a um banco de dados relacional. Essa fonte armazena os funcionários da área de Engenharia.

**Fonte 2**. *colaboradorJSON.json*: arquivo JSON referente a uma base de dados NoSQL (Not Only SQL). Essa fonte armazena os funcionários da área de *Marketing*.

**Fonte 3**. *empregadoPlanilha.xlsx*: arquivo referente a uma planilha Excel. Essa fonte armazena os funcionários da área de Recursos Humanos. 

Na parte da aula, serão usadas as fontes 1 (funcionarioRelacional) e 2 (colaboradorJSON). A fonte 3 (empregadoPlanilha) será usada na lista de exercícios.



## 2 Projeto do *Data Mart*

O projeto do **data mart** refere-se ao esquema de relação *funcionario*. Esse esquema é definido a seguir, sendo que a chave primária é representada pelo atributo funcPK. 

funcionario (<ins>funcPK</ins>, funcMatricula, funcNome, funcSexo, funcDataNascimento, funcDiaNascimento, funcMesNascimento, funcAnoNascimento, funcCidade, funcEstadoNome, funcEstadoSigla, funcRegiaoNome, funcRegiaoSigla, funcPaisNome, funcPaisSigla)


## 3 Importação usando Pandas 

As fontes de dados são importadas por meio da estrutura `Dataframe`. Essa estrutura permite a leitura das diferentes fontes consideradas: `csv`, `json` e `xlsx`. Quando essas fontes são importadas, elas são unificadas em um formato único, o formato do `Dataframe`, facilitando a manipulação.

In [None]:
import pandas as pd

O comando a seguir realiza a importação dos dados dos funcionários armazenados em *funcionarioRelacional.csv* e armazena o resultado no `Dataframe` chamado funcionarioRelacional.


In [None]:
funcionarioRelacional = pd.read_csv('https://raw.githubusercontent.com/GuiMuzziUSP/ETL_Funcionarios/main/funcionarioRelacional.csv')

Os comandos a seguir exibem a quantidade de funcionários importados e os primeiros elementos de funcionarioRelacional.

In [None]:
print('Quantidade de funcionários importados da Fonte 1 (funcionarioRelacional.csv): ', funcionarioRelacional.shape[0])
funcionarioRelacional.head()

Quantidade de funcionários importados da Fonte 1 (funcionarioRelacional.csv):  56


Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNasc,funcCidade,funcEstado,funcPais
0,1,ALINE ALMEIDA,F,1/1/1990,sao paulo,sp,brasil
1,2,,M,2/2/1990,campinas,sp,brasil
2,3,ARON ANDRADE,M,3/3/1990,santos,sp,brasil
3,4,ADA BARBOSA,,4/4/1990,santo andre,sp,brasil
4,5,ABADE BATISTA,M,5/5/1990,piracicaba,sp,brasil


O comando a seguir realiza a importação dos dados dos funcionários armazenados em *colaboradorJSON.json* e armazena o resultado no `Dataframe` chamado colaboradorJSON.

In [None]:
colaboradorJSON = pd.read_json('https://raw.githubusercontent.com/GuiMuzziUSP/ETL_Funcionarios/main/colaboradorJSON.json')

Os comandos a seguir exibem a quantidade de funcionários importados e os primeiros elementos de colaboradorJSON.

In [None]:
print('Quantidade de funcionários importados da Fonte 2 (colaboradorJSON.json): ', colaboradorJSON.shape[0])
colaboradorJSON.head()

Quantidade de funcionários importados da Fonte 2 (colaboradorJSON.json):  31


Unnamed: 0,colab_matricula,colab_nome,colab_sexo,colab_data_nasc,colab_cidade,colab_estado,colab_pais
0,2,Arao Alves,,,,,
1,4,,1.0,,,,
2,8,,,1990-08-08,,,
3,13,Arao Alves,0.0,,,RJ,BRA
4,52,Adailton Costa,0.0,1951-04-21,Recife,PE,BRA


**EXERCÍCIO 1**. Realize a importação dos dados dos funcionários armazenados em empregadoPlanilha.xlsx. Considere que essa fonte está localizada na URL https://github.com/GuiMuzziUSP/ETL_Funcionarios/blob/main/empregadoPlanilha.xlsx?raw=true

In [None]:
empregadoPlanilha = pd.read_excel('https://github.com/GuiMuzziUSP/ETL_Funcionarios/blob/main/empregadoPlanilha.xlsx?raw=true')

In [None]:
# imprima a quantidade de instâncias em 'empregadoPlanilha'
print('Quantidade de funcionários importados da Fonte 3 (empregadoPlanilha.xlsx): ', empregadoPlanilha.shape[0])

Quantidade de funcionários importados da Fonte 3 (empregadoPlanilha.xlsx):  29


In [None]:
# imprima as 10 primeiras instâncias de 'empregadoPlanilha'
display(empregadoPlanilha.head(10))

Unnamed: 0,Matrícula do Empregado,Nome do Empregado,Sexo do Empregado,Data de Nascimento,Cidade de Residência,Estado de Residência
0,13,"Dias, Abdiel",,13/01/1990,Rio De Janeiro,Rio de Janeiro
1,16,,,,Praia Seca,Rio de Janeiro
2,32,"Costa, Abdiel",,,Piracicaba,Sao Paulo
3,66,,,05/06/1965,,Sao Paulo
4,67,"Borges, Adelma",,,Rio De Janeiro,Rio de Janeiro
5,77,"Ferreira, Abener",Masculino,16/5/1976,Guaratuba,Parana
6,78,"Garcia, Adenir",Masculino,17/6/1977,Morretes,Parana
7,79,"Gomes, Adenil",Masculino,18/7/1978,Recife,Pernambuco
8,80,"Lima, Abener",Masculino,19/8/1979,Recife,Pernambuco
9,81,"Almeida, Adenevaldo",Masculino,20/9/1980,Recife,Pernambuco


## 4 Integração de Esquemas

Analisando-se as três fontes de dados, verifica-se que existem vários conflitos de nome e um conflito semântico. Todos esses conflitos devem ser tratados na integração de esquemas, conforme descrito a seguir.

### 4.1 Conflitos de nome (sinônimo)

Um conflito de nome (sinônimo) ocorre quando diferentes nomes são aplicados ao mesmo elemento. funcionarioRelacional, colaboradorJSON e empregadoPlanilha armazenam dados de funcionários. Existem vários conflitos de nome quando  os nomes dos atributos do esquema de relação *funcionario* são comparados com os nomes das colunas oriundas das respectivas fontes de dados. 

A partir da identificação dos conflitos, são definidas as correspondências existentes entre as fontes de dados e o esquema de relação do *data mart*. Essas correspondências são as mesmas que as identificadas no documento textual que acompanha esta aula. Elas são repetidas aqui por completude.

As correspondências entre os esquemas de *funcionario* e funcionarioRelacional são:

1. *funcionario* $\equiv$ funcionarioRelacional

> (a) funcMatricula = funcMatricula

> (b) funcNome = funcNome

> (c) funcSexo = funcSexo

> (d) funcDataNascimento = funcDataNasc

> (e) funcCidade = funcCidade

> (f) funcEstadoSigla = funcEstado

> (g) funcPaisNome = funcPais

De acordo com essas correspondências, o comando a seguir mapeia os nomes das colunas de funcionarioRelacional para os nomes dos atributos de *funcionario*. 


In [None]:
funcionarioRelacional.columns = ['funcMatricula','funcNome','funcSexo','funcDataNascimento','funcCidade','funcEstadoSigla','funcPaisNome']

O comando a seguir exibe a nova estrutura e o primeiro elemento de funcionarioRelacional.

In [None]:
funcionarioRelacional.head(1)

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoSigla,funcPaisNome
0,1,ALINE ALMEIDA,F,1/1/1990,sao paulo,sp,brasil


As correspondências entre os esquemas de funcionario e colaboradorJSON são:

2. *funcionario* $\equiv$ colaboradorJSON

> (a) funcMatricula = colab_matricula

> (b) funcNome = colab_nome

> (c) funcSexo = colab_sexo

> (d) funcDataNascimento = colab_data_nasc

> (e) funcCidade = colab_cidade

> (f) funcEstadoSigla = colab_estado

> (g) funcPaisSigla = colab_pais

De acordo com essas correspondências, o comando a seguir mapeia os nomes das colunas de colaboradorJSON para os nomes dos atributos de *funcionario*.



In [None]:
colaboradorJSON.columns = ['funcMatricula','funcNome','funcSexo','funcDataNascimento','funcCidade','funcEstadoSigla','funcPaisSigla']

O comando a seguir exibe a nova estrutura e o primeiro elemento de colaboradorJSON.

In [None]:
colaboradorJSON.head(1)

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoSigla,funcPaisSigla
0,2,Arao Alves,,,,,


**EXERCÍCIO 2**. Considere as correspondências entre os esquemas de funcionario e empregadoPlanilha definidas a seguir:

3. *funcionario* $\equiv$ empregadoPlanilha

> (a) funcMatricula = Matrícula do Empregado

> (b) funcNome = Nome do Empregado

> (c) funcSexo = Sexo do Empregado

> (d) funcDataNascimento = Data de Nascimento

> (e) funcCidade = Cidade de Residência

> (f) funcEstadoNome = Estado de Residência

De acordo com essas regras correspondências, 



**EXERCÍCIO 2a.** Realize o mapeamento dos nomes das colunas de empregadoPlanilha para os nomes dos atributos de *funcionario*.

In [None]:
# realize o mapeamento em 'empregadoPlanilha', de acordo com as instrucoes acima
empregadoPlanilha.columns = ['funcMatricula','funcNome','funcSexo','funcDataNascimento','funcCidade','funcEstadoNome']

**EXERCÍCIO 2b.** Exiba a nova estrutura e o primeiro elemento de empregadoPlanilha.

In [None]:
# imprima a primeira instância de 'empregadoPlanilha'
empregadoPlanilha.head(1)

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoNome
0,13,"Dias, Abdiel",,13/01/1990,Rio De Janeiro,Rio de Janeiro


### 4.2 Conflito semântico

Um conflito semântico ocorre quando o mesmo elemento é modelado em diferentes esquemas, porém representando conjuntos que se sobrepõem. Como definido anteriormente, funcionarioRelacional armazena os funcionários da área de Engenharia, enquanto que colaboradorJSON armazena os funcionários da área de *Marketing*. É importante notar que: (i) existem funcionários que são diferentes entre si; (ii) o mesmo funcionário pode estar armazenado em mais do que uma fonte de dados, desde que ele mudou de área de atuação durante a sua trajetória.

Assim, devem ser identificados os funcionários que correspondem à mesma entidade do mundo real. Nesta aplicação de *data warehousing*, isso é feito por meio das **matrículas** dos funcionários, ou seja, considera-se a identificação unívoca das entidades. Considera-se também que os valores referentes à matricula dos funcionários já foram analisados na operação de limpeza dos dados e representam valores acurados. Portanto, `funcMatricula` pode ser usado para identificar os funcionários.

O comando a seguir mostra a quantidade de funcionários que aparecem em ambos funcionarioRelacional e colaboradorJSON, bem como detalhes desses funcionários. Isso significa que o funcionário transitou entre as áreas de Engenharia e *Marketing*. O sufixo `_x` indica colunas de funcionarioRelacional, enquanto que o sufixo `_y` indica colunas de colaboradorJSON. Como resultado, o `DataFrame` funcionario_colaborador possui os funcionários presentes em ambas fontes de dados. Os conflitos têm que ser resolvidos, o que será realizado durante a integração de instâncias.

In [None]:
funcionario_colaborador = funcionarioRelacional.merge(colaboradorJSON, on = 'funcMatricula')
print('Quantidade de mesmos funcionários cadastrados nas fontes 1 e 2: ', funcionario_colaborador.shape[0])

# renomeando algumas colunas sem sufixo
funcionario_colaborador = funcionario_colaborador.rename(columns = {'funcPaisSigla': 'funcPaisSigla_y', 'funcPaisNome': 'funcPaisNome_x'}, inplace = False)

# apresente o resultado do conflito
colunas_display = ['funcMatricula', 'funcNome_x', 'funcNome_y', 'funcCidade_x', 'funcCidade_y', 'funcPaisNome_x', 'funcPaisSigla_y']
display(funcionario_colaborador[colunas_display])

Quantidade de mesmos funcionários cadastrados nas fontes 1 e 2:  7


Unnamed: 0,funcMatricula,funcNome_x,funcNome_y,funcCidade_x,funcCidade_y,funcPaisNome_x,funcPaisSigla_y
0,2,,Arao Alves,campinas,,brasil,
1,4,ADA BARBOSA,,santo andre,,brasil,
2,8,ABADIAS CAMPOS,,ilha bela,,brasil,
3,13,ABDIEL DIAS,Arao Alves,rio de janeiro,,brasil,BRA
4,64,ABILIO BARBOSA,,,Osasco,,BRA
5,67,ADELMA BORGES,,,,brasil,
6,83,ADENIAS ANDRADE,Adenias Andrade,campinas,,,BRA


**EXERCÍCIO 3.** Especifique comandos similares aos comandos definidos acima para funcionario_colaborador, considerando as seguintes aspectos:

**EXERCÍCIO 3a.** Gere o DataFrame funcionario_empregado, o qual contém os funcionários que aparecem em ambos funcionarioRelacional e empregadoPlanilha. Nesse exercício você utilizará as fontes `funcionarioRelacional` e `empregadoPlanilha`.

In [None]:
funcionario_empregado = funcionarioRelacional.merge(empregadoPlanilha, on = 'funcMatricula')

# apresente o resultado do conflito
print('Quantidade de mesmos funcionários cadastrados nas fontes 1 e 3: ', funcionario_empregado.shape[0])
display(funcionario_empregado)

Quantidade de mesmos funcionários cadastrados nas fontes 1 e 3:  7


Unnamed: 0,funcMatricula,funcNome_x,funcSexo_x,funcDataNascimento_x,funcCidade_x,funcEstadoSigla,funcPaisNome,funcNome_y,funcSexo_y,funcDataNascimento_y,funcCidade_y,funcEstadoNome
0,13,ABDIEL DIAS,M,13/1/1990,rio de janeiro,rj,brasil,"Dias, Abdiel",,13/01/1990,Rio De Janeiro,Rio de Janeiro
1,16,ABDALLA FERNANDES,M,16/4/1990,,,brasil,,,,Praia Seca,Rio de Janeiro
2,32,,M,1/8/1990,,,,"Costa, Abdiel",,,Piracicaba,Sao Paulo
3,86,ADENILDE BARROS,,25/2/1985,,,,"Barros, Adenilde",Feminino,,Piracicaba,Sao Paulo
4,90,,,29/6/1989,sao jose do rio preto,sp,brasil,"Carvalho, Adenilton",Masculino,29/6/1989,,
5,67,ADELMA BORGES,M,6/7/1966,,rj,brasil,"Borges, Adelma",,,Rio De Janeiro,Rio de Janeiro
6,83,ADENIAS ANDRADE,,22/11/1982,campinas,sp,,,Masculino,22/11/1982,Campinas,Sao Paulo


**EXERCÍCIO 3b.** Gere o DataFrame colaborador_empregado, o qual contém os funcionários que aparecem em ambos colaboradorJSON e empregadoPlanilha. Nesse exercício você utilizará as fontes `colaboradorJSON` e `empregadoPlanilha`.

In [None]:
colaborador_empregado = colaboradorJSON.merge(empregadoPlanilha, on = 'funcMatricula')

# apresente o resultado do conflito
print('Quantidade de mesmos funcionários cadastrados nas fontes 2 e 3: ', colaborador_empregado.shape[0])
display(colaborador_empregado)

Quantidade de mesmos funcionários cadastrados nas fontes 2 e 3:  5


Unnamed: 0,funcMatricula,funcNome_x,funcSexo_x,funcDataNascimento_x,funcCidade_x,funcEstadoSigla,funcPaisSigla,funcNome_y,funcSexo_y,funcDataNascimento_y,funcCidade_y,funcEstadoNome
0,13,Arao Alves,0.0,,,RJ,BRA,"Dias, Abdiel",,13/01/1990,Rio De Janeiro,Rio de Janeiro
1,66,Adelita Barros,1.0,,Barueri,,BRA,,,05/06/1965,,Sao Paulo
2,67,,0.0,1966-07-06,,RJ,,"Borges, Adelma",,,Rio De Janeiro,Rio de Janeiro
3,83,Adenias Andrade,0.0,1982-11-22,,,BRA,,Masculino,22/11/1982,Campinas,Sao Paulo
4,99,Adercio Gomes,0.0,,,,,,,7/3/1998,Araguari,Minas Gerais


**EXERCÍCIO 3c.** Gere o DataFrame funcionario_colaborador_empregado, o qual contém os funcionários que aparecem em todas as fontes de dados. Nesse exercício você utilizará os DataFrame `funcionario_colaborador` e `empregadoPlanilha`.

In [None]:
funcionario_colaborador_empregado = funcionario_colaborador.merge(empregadoPlanilha, on = 'funcMatricula')

# apresente o resultado do conflito
print('Quantidade de mesmos funcionários cadastrados nas fontes 1, 2 e 3: ', funcionario_colaborador_empregado.shape[0])
display(funcionario_colaborador_empregado)

Quantidade de mesmos funcionários cadastrados nas fontes 1, 2 e 3:  3


Unnamed: 0,funcMatricula,funcNome_x,funcSexo_x,funcDataNascimento_x,funcCidade_x,funcEstadoSigla_x,funcPaisNome_x,funcNome_y,funcSexo_y,funcDataNascimento_y,funcCidade_y,funcEstadoSigla_y,funcPaisSigla_y,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoNome
0,13,ABDIEL DIAS,M,13/1/1990,rio de janeiro,rj,brasil,Arao Alves,0.0,,,RJ,BRA,"Dias, Abdiel",,13/01/1990,Rio De Janeiro,Rio de Janeiro
1,67,ADELMA BORGES,M,6/7/1966,,rj,brasil,,0.0,1966-07-06,,RJ,,"Borges, Adelma",,,Rio De Janeiro,Rio de Janeiro
2,83,ADENIAS ANDRADE,,22/11/1982,campinas,sp,,Adenias Andrade,0.0,1982-11-22,,,BRA,,Masculino,22/11/1982,Campinas,Sao Paulo


### 4.3 Padronização das colunas

O esquema de relação *funcionario* possui vários atributos que não estão presentes nas fontes de dados. Os comandos a seguir visam acrescentar colunas a funcionarioRelacional e colaboradorJSON. É atributído valor NULO para os valores dessas colunas. 

Os comandos a seguir realizam as seguintes ações para funcionarioRelacional. Primeiro, é mostrada a estrutura atual. Depois, são adicionadas as novas colunas, ou seja, as colunas faltantes. Por fim, é exibida a estrutura final.

In [None]:
funcionarioRelacional.columns.tolist()

['funcMatricula',
 'funcNome',
 'funcSexo',
 'funcDataNascimento',
 'funcCidade',
 'funcEstadoSigla',
 'funcPaisNome']

In [None]:
funcionarioRelacional['funcDiaNascimento'] = None
funcionarioRelacional['funcMesNascimento'] = None
funcionarioRelacional['funcAnoNascimento'] = None
funcionarioRelacional['funcEstadoNome'] = None
funcionarioRelacional['funcRegiaoNome'] = None
funcionarioRelacional['funcRegiaoSigla'] = None
funcionarioRelacional['funcPaisSigla'] = None

In [None]:
funcionarioRelacional.columns.tolist()

['funcMatricula',
 'funcNome',
 'funcSexo',
 'funcDataNascimento',
 'funcCidade',
 'funcEstadoSigla',
 'funcPaisNome',
 'funcDiaNascimento',
 'funcMesNascimento',
 'funcAnoNascimento',
 'funcEstadoNome',
 'funcRegiaoNome',
 'funcRegiaoSigla',
 'funcPaisSigla']

Os comandos a seguir realizam as seguintes ações para colaboradorJSON. Primeiro, é mostrada a estrutura atual. Depois, são adicionadas as novas colunas, ou seja, as colunas faltantes. Por fim, é exibida a estrutura final.

In [None]:
colaboradorJSON.columns.tolist()

['funcMatricula',
 'funcNome',
 'funcSexo',
 'funcDataNascimento',
 'funcCidade',
 'funcEstadoSigla',
 'funcPaisSigla']

In [None]:
colaboradorJSON['funcDiaNascimento'] = None
colaboradorJSON['funcMesNascimento'] = None
colaboradorJSON['funcAnoNascimento'] = None
colaboradorJSON['funcEstadoNome'] = None
colaboradorJSON['funcRegiaoNome'] = None
colaboradorJSON['funcRegiaoSigla'] = None
colaboradorJSON['funcPaisNome'] = None

In [None]:
colaboradorJSON.columns.tolist()

['funcMatricula',
 'funcNome',
 'funcSexo',
 'funcDataNascimento',
 'funcCidade',
 'funcEstadoSigla',
 'funcPaisSigla',
 'funcDiaNascimento',
 'funcMesNascimento',
 'funcAnoNascimento',
 'funcEstadoNome',
 'funcRegiaoNome',
 'funcRegiaoSigla',
 'funcPaisNome']

**EXERCÍCIO 4.** Adicione as colunas faltantes em empregadoPlanilha, de forma similar aos comandos anteriores.

In [None]:
# apresente as colunas de 'empregadoPlanilha'
empregadoPlanilha.columns.tolist()

['funcMatricula',
 'funcNome',
 'funcSexo',
 'funcDataNascimento',
 'funcCidade',
 'funcEstadoNome']

In [None]:
# adicione as colunas faltantes em 'empregadoPlanilha'
empregadoPlanilha['funcDiaNascimento'] = None
empregadoPlanilha['funcMesNascimento'] = None
empregadoPlanilha['funcAnoNascimento'] = None
empregadoPlanilha['funcEstadoSigla'] = None
empregadoPlanilha['funcRegiaoNome'] = None
empregadoPlanilha['funcRegiaoSigla'] = None
empregadoPlanilha['funcPaisNome'] = None
empregadoPlanilha['funcPaisSigla'] = None

In [None]:
# apresente todas as colunas atuais de 'empregadoPlanilha'
empregadoPlanilha.columns.tolist()

['funcMatricula',
 'funcNome',
 'funcSexo',
 'funcDataNascimento',
 'funcCidade',
 'funcEstadoNome',
 'funcDiaNascimento',
 'funcMesNascimento',
 'funcAnoNascimento',
 'funcEstadoSigla',
 'funcRegiaoNome',
 'funcRegiaoSigla',
 'funcPaisNome',
 'funcPaisSigla']

## 5 Integração de Instâncias

Após a integração dos esquemas, é necessário realizar a integração de instâncias. Todas as instâncias presentes em funcionarioRelacional e em colaboradorJSON têm que ser integradas em *funcionario*, considerando o tipo de dados e o formato dos atributos desse esquema de relação.

Os seguintes tipos de dados e formatos são considerados para os atributos de *funcionario*:

a) funcMatricula: numérico;

b) funcNome: alfanumérico, com todas as letras maiúsculas;

c) funcSexo: alfanumérico de 1 caractere, com M indicando masculino e F indicando feminino;

d) funcDataNascimento: alfanumérico, com formato `dia/mês/ano`;

e) funcCidade: alfanumérico, com todas as letras maiúsculas;

f) funcEstadoNome: alfanumérico, com todas as letras maiúsculas;

g) funcEstadoSigla: alfanumérico de 2 caracteres, com todas as letras maiúsculas;

h) funcPaisNome: alfanumérico, com todas as letras maiúsculas;

i) funcPaisSigla: alfanumérico de 3 letras, com todas as letras maiúsculas; 


### 5.1 Considerando a fonte de dados funcionarioRelacional

O comando a seguir exemplifica instâncias de funcionarioRelacional.



In [None]:
funcionarioRelacional.head(3)

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoSigla,funcPaisNome,funcDiaNascimento,funcMesNascimento,funcAnoNascimento,funcEstadoNome,funcRegiaoNome,funcRegiaoSigla,funcPaisSigla
0,1,ALINE ALMEIDA,F,1/1/1990,sao paulo,sp,brasil,,,,,,,
1,2,,M,2/2/1990,campinas,sp,brasil,,,,,,,
2,3,ARON ANDRADE,M,3/3/1990,santos,sp,brasil,,,,,,,


Para facilitar as manipulações que devem ser realizadas nas instâncias de  funcionarioRelacional, é criada uma classe em Python chamada `ProcessamentoFonteRelacional`. Nessa classe, são criados vários métodos. Cada método é responsável pela tranformação de um dos atributos do conjunto de dados. Para essa fonte foram aplicados os seguintes mapeamentos: e (funcCidade), g (funcEstadoSigla), h (funcPaisNome).

In [None]:
class ProcessamentoFonteRelacional:
  """
  Realiza a tranformacao de um dataframe com formato da fonte 
  funcionarioRelacional para um dataframe que segue os padrões definidos 
  para o esquema de relação funcionario.
  """

  def __init__(self, dados_funcionario):
    self.fonte_dados = dados_funcionario.copy(deep=True)

  def processar_cidade(self, cidade):
    """
    O atributo que representa a cidade em funcionarioRelacional precisa ser
    transformado para caracteres maiúsculos. Esta função realiza essa
    transformação.
    """
    if pd.isna(cidade):
      return None

    return cidade.upper()
    
  def processar_estado_sigla(self, estado):
    """
    O atributo que representa a sigla do estado em funcionarioRelacional 
    precisa ser transformado para caracteres maiúsculos. Essa função realiza 
    essa transformação.
    """
    if pd.isna(estado):
      return None

    return estado.upper()

  def processar_pais_nome(self, paisNome):
    """
    O atributo que representa o nome do país em funcionarioRelacional precisa 
    ser transformado para caracteres maiúsculos. Essa função realiza essa
    transformação.
    """
    if pd.isna(paisNome):
      return None

    return paisNome.upper()

  def executar_transformacoes(self):
    """
    Essa função processa cada atributo do dataframe composto pelos dados da 
    fonte funcionarioRelacional
    """
    
    self.fonte_dados['funcCidade'] = self.fonte_dados.apply(lambda x : self.processar_cidade(x['funcCidade']), axis=1)
    self.fonte_dados['funcEstadoSigla'] = self.fonte_dados.apply(lambda x : self.processar_estado_sigla(x['funcEstadoSigla']), axis=1)
    self.fonte_dados['funcPaisNome'] = self.fonte_dados.apply(lambda x : self.processar_pais_nome(x['funcPaisNome']), axis=1)
    
    return self.fonte_dados

O primeiro comando a seguir realiza o processamento da fonte funcionarioRelacional, enquanto que o segundo comando mostra alguns funcionários de funcionarioRelacional depois de ser realizado o mapeamento para o tipo de dados e o formato de funcionario.

In [None]:
novo_funcionario_relacional = ProcessamentoFonteRelacional(funcionarioRelacional).executar_transformacoes()

In [None]:
novo_funcionario_relacional.head(3)

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoSigla,funcPaisNome,funcDiaNascimento,funcMesNascimento,funcAnoNascimento,funcEstadoNome,funcRegiaoNome,funcRegiaoSigla,funcPaisSigla
0,1,ALINE ALMEIDA,F,1/1/1990,SAO PAULO,SP,BRASIL,,,,,,,
1,2,,M,2/2/1990,CAMPINAS,SP,BRASIL,,,,,,,
2,3,ARON ANDRADE,M,3/3/1990,SANTOS,SP,BRASIL,,,,,,,


### 5.2 Considerando a fonte de dados colaboradorJSON

O comando a seguir exemplifica instâncias de colaboradorJSON.

In [None]:
colaboradorJSON.head(3)

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoSigla,funcPaisSigla,funcDiaNascimento,funcMesNascimento,funcAnoNascimento,funcEstadoNome,funcRegiaoNome,funcRegiaoSigla,funcPaisNome
0,2,Arao Alves,,,,,,,,,,,,
1,4,,1.0,,,,,,,,,,,
2,8,,,1990-08-08,,,,,,,,,,


Para facilitar as manipulações que devem ser realizadas nas instâncias de  colaboradorJSON, foi criada uma classe em Python chamada `ProcessamentoFonteJSON`. Nessa classe, são criados vários métodos. Cada método é responsável pela tranformação de um dos atributos do conjunto de dados. Para essa fonte foram aplicados os seguintes mapeamentos: b (funcNome), c (funcSexo), d (funcDataNascimento), e (funcCidade), g (funcEstadoSigla), i (funcPaisSigla).

In [None]:
class ProcessamentoFonteJSON:
  """
  Realiza a tranformacao de um dataframe com formato da fonte colaboradorJSON 
  para um dataframe que segue os padrões definidos pelo esquema de 
  relação funcionario.
  """

  def __init__(self, dados_funcionario):
    self.fonte_dados = dados_funcionario.copy(deep=True)

  def processar_nome(self, nome):
    """
    O atributo que representa a o nome do funcionário em colaboradorJSON 
    precisa ser transformado para caracteres maiúsculos. Essa função realiza 
    essa transformação.
    """
    if pd.isna(nome):
      return None

    return nome.upper()
    
  def processar_sexo(self, sexo):
    """
    O atributo que representa sexo em colaboradorJSON utiliza uma representação
    binária, na qual o valor 0 representa masculino e 1 representa feminino. 
    Essa função é responsável por representar os valores de sexo como M e F,
    respectivamente. 
    """
    if pd.isna(sexo):
      return None

    return 'M' if sexo == 0 else 'F'

  def processar_data(self, data):
    """
    O atributo que representa a data de nascimento em colaboradorJSON precisa 
    ser transformado para o formato 'dia/mês/ano'.  Essa função realiza essa
    transformação.
    """
    if pd.isna(data):
      return None
      
    ano, mes, dia = data.split('-')
    return '%02d/%02d/%d' % (int(dia), int(mes), int(ano))

  def processar_cidade(self, cidade):
    """
    O atributo que representa o nome da cidade em colaboradorJSON precisa ser
    transformado para caracteres minúsculos. Essa função realiza essa
    transformação.
    """
    if pd.isna(cidade):
      return None

    return cidade.upper()
    
  def processar_estado_sigla(self, estado):
    """
    O atributo que representa a sigla do estado em colaboradorJSON precisa ser
    transformado para caracteres minúsculos. Essa função realiza essa
    transformação.
    """
    if pd.isna(estado):
      return None

    return estado.upper()

  def processar_pais_sigla(self, pais):
    """
    O atributo que representa a sigla do pais em colaboradorJSON 
    segue o mesmo padrão adotado pelo atributo funcPaisSigla de funcionario. 
    Portanto, não há necessidade de realizar transformação.
    """
    if pd.isna(pais):
      return None

    return pais.upper()

  def executar_transformacoes(self):
    """
    Essa função processa cada atributo do dataframe composto pelos dados da 
    fonte colaboradorJSON
    """
    self.fonte_dados['funcNome'] = self.fonte_dados.apply(lambda x : self.processar_nome(x['funcNome']), axis=1)
    self.fonte_dados['funcSexo'] = self.fonte_dados.apply(lambda x : self.processar_sexo(x['funcSexo']), axis=1)
    self.fonte_dados['funcDataNascimento'] = self.fonte_dados.apply(lambda x : self.processar_data(x['funcDataNascimento']), axis=1)
    self.fonte_dados['funcCidade'] = self.fonte_dados.apply(lambda x : self.processar_cidade(x['funcCidade']), axis=1)
    self.fonte_dados['funcEstadoSigla'] = self.fonte_dados.apply(lambda x : self.processar_estado_sigla(x['funcEstadoSigla']), axis=1)
    self.fonte_dados['funcPaisSigla'] = self.fonte_dados.apply(lambda x : self.processar_pais_sigla(x['funcPaisSigla']), axis=1)
    
    return self.fonte_dados

O primeiro comando a seguir realiza o processamento da fonte colaboradorJSON,  enquanto que o segundo comando mostra alguns funcionários de colaborador JASON depois de ser realizado o mapeamento para o tipo de dados e o formato de *funcionario*.


In [None]:
novo_colaborador_JSON = ProcessamentoFonteJSON(colaboradorJSON).executar_transformacoes()

In [None]:
novo_colaborador_JSON.head(3)

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoSigla,funcPaisSigla,funcDiaNascimento,funcMesNascimento,funcAnoNascimento,funcEstadoNome,funcRegiaoNome,funcRegiaoSigla,funcPaisNome
0,2,ARAO ALVES,,,,,,,,,,,,
1,4,,F,,,,,,,,,,,
2,8,,,08/08/1990,,,,,,,,,,


### 5.3 Considerando a fonte de dados empregadoPlanilha

**EXERCÍCIO 5.** Para facilitar as manipulações que devem ser realizadas nas instâncias de  empregadoPlanilha, crie uma classe em Python chamada `ProcessamentoFontePlanilha`. Nessa classe, devem criados vários métodos. Cada método deve ser responsável pela tranformação de um dos atributos do conjunto de dados. Para essa fonte devem ser aplicados os seguintes mapeamentos: b) (funcNome), c (funcSexo), e (funcCidade), f (funcEstadoNome).

In [None]:
# visualize a estrutura atual, para em seguida definir como criar a classe de processamento
empregadoPlanilha.head(3)

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoNome,funcDiaNascimento,funcMesNascimento,funcAnoNascimento,funcEstadoSigla,funcRegiaoNome,funcRegiaoSigla,funcPaisNome,funcPaisSigla
0,13,"Dias, Abdiel",,13/01/1990,Rio De Janeiro,Rio de Janeiro,,,,,,,,
1,16,,,,Praia Seca,Rio de Janeiro,,,,,,,,
2,32,"Costa, Abdiel",,,Piracicaba,Sao Paulo,,,,,,,,


In [None]:
class ProcessamentoFontePlanilha:
  """
  Realiza a tranformacao de um dataframe com formato da fonte 3 (Planilha) para
  um dataframe que segue os padrões definidos pelo data warehouse
  """

  def __init__(self, dados_funcionario):
    self.fonte_dados = dados_funcionario.copy(deep=True)

  def processar_nome(self, nome):
    """
    Os nomes coletados a partir da fonte 3 (Planilha) seguem um padrão em que o 
    último nome vêm antes do primeiro. Portanto, esta função é responsável
    por deixar todo o nome capitalizado (em upper case), aplicando o padrão do 
    data warehouse.
    """
    if pd.isna(nome):
      return None

    ultimo, primeiro = nome.split(', ', maxsplit=1)
    nome = '%s %s' % (primeiro.upper(), ultimo.upper())
    return nome

  def processar_sexo(self, sexo):
    """
    O atributo sexo coletados a partir da fonte 3 (Planilha) segue uma
    representação textual, contendo os valores Masculino e Feminino.
    """
    if pd.isna(sexo):
      return None

    return 'M' if sexo == 'Masculino' else 'F'

  def processar_cidade(self, cidade):
    """
    O atributo que representa a cidade na fonte 3 (Planilha) necessita ser
    transformado para caracteres minúsculos; essa função realiza tal
    transformação.
    """

    if pd.isna(cidade):
      return None

    return cidade.upper()
    
  def processar_estado(self, estado):
    """
    O atributo que representa o estado na fonte 3 (Planilha) necessita ser
    transformado para caracteres minúsculos; essa função realiza tal
    transformação.
    """

    if pd.isna(estado):
      return None

    return estado.upper()


  def executar_transformacoes(self):
    """Processa cada atributo do dataframe composto por dados da fonte 3 (Planilha)
    """
    self.fonte_dados['funcNome'] = self.fonte_dados.apply(lambda x : self.processar_nome(x['funcNome']), axis=1)
    self.fonte_dados['funcSexo'] = self.fonte_dados.apply(lambda x : self.processar_sexo(x['funcSexo']), axis=1)
    self.fonte_dados['funcCidade'] = self.fonte_dados.apply(lambda x : self.processar_cidade(x['funcCidade']), axis=1)
    self.fonte_dados['funcEstadoNome'] = self.fonte_dados.apply(lambda x : self.processar_estado(x['funcEstadoNome']), axis=1)

    return self.fonte_dados


In [None]:
# visualize o resultado
novo_empregado_planilha = ProcessamentoFontePlanilha(empregadoPlanilha).executar_transformacoes()

In [None]:
# visualize o resultado
novo_empregado_planilha.head(3)

Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoNome,funcDiaNascimento,funcMesNascimento,funcAnoNascimento,funcEstadoSigla,funcRegiaoNome,funcRegiaoSigla,funcPaisNome,funcPaisSigla
0,13,ABDIEL DIAS,,13/01/1990,RIO DE JANEIRO,RIO DE JANEIRO,,,,,,,,
1,16,,,,PRAIA SECA,RIO DE JANEIRO,,,,,,,,
2,32,ABDIEL COSTA,,,PIRACICABA,SAO PAULO,,,,,,,,


### 5.4 Integrando as instâncias

Todas as instâncias presentes em novo_funcionario_relacional e novo_colaborador_JSON devem ser integradas. 

Apenas para relembrar, existem funcionários presentes tanto em funcionarioRelacional quanto em colaborador_JSON. O comando a seguir mostra alguns exemplos de colunas que possuem valores diferentes de atributos. Colunas com sufixo `_x` representam colunas de novo_funcionario_relacional, enquanto que colunas com sufixo `_y` representam colunas de novo_colaborador_JSON. 

In [None]:
colunas_display = ['funcNome_x', 'funcNome_y', 'funcCidade_x', 'funcCidade_y', 'funcPaisNome_x', 'funcPaisSigla_y']
novo_funcionario_relacional.merge(right=novo_colaborador_JSON, on='funcMatricula')[colunas_display]

Unnamed: 0,funcNome_x,funcNome_y,funcCidade_x,funcCidade_y,funcPaisNome_x,funcPaisSigla_y
0,,ARAO ALVES,CAMPINAS,,BRASIL,
1,ADA BARBOSA,,SANTO ANDRE,,BRASIL,
2,ABADIAS CAMPOS,,ILHA BELA,,BRASIL,
3,ABDIEL DIAS,ARAO ALVES,RIO DE JANEIRO,,BRASIL,BRA
4,ABILIO BARBOSA,,,OSASCO,,BRA
5,ADELMA BORGES,,,,BRASIL,
6,ADENIAS ANDRADE,ADENIAS ANDRADE,CAMPINAS,,,BRA


Para facilitar o processo, a coluna `funcMatricula` é transformada em índice do `DataFrame`.

In [None]:
def preprocessamento_dataframe(df):
  """
  Clona o DataFrame, e altera o indice para funcMatricula
  """
  ndf = df.copy(deep=True)
  return ndf.set_index('funcMatricula')

In [None]:
novo_funcionario_relacional = preprocessamento_dataframe(novo_funcionario_relacional)
novo_colaborador_JSON = preprocessamento_dataframe(novo_colaborador_JSON)
novo_empregado_planilha = preprocessamento_dataframe(novo_empregado_planilha)

Um aspecto importante considerado na integração de instâncias é a confiabilidade das fontes, definida da seguinte forma: a fonte 1 é a mais confiável, seguida pela fonte 2, seguida pela fonte 3 que é a fonte menos confiável.

O comando a seguir escolhe o valor do atributo mais confiável tendo como entrada 2 fontes representadas por A e B.

In [None]:
def processar_conflitos(indices, fonte_A, fonte_B):
  """
  Processa os conflitos das fontes com base na confiabilidade das mesmas,
  Sendo a fonte_A a mais confiável.
  """
  columns = fonte_A.columns
  for index in indices:
    a = fonte_A.loc[index]
    b = fonte_B.loc[index]
    for column in columns:
      fonte_A.at[index, column] = b[column] if pd.isna(a[column]) else a[column]
  return fonte_A

O comando a seguir integra instâncias presentes tanto em novo_funcionario_relacional quanto em novo_colaborador_JSON usando como base a confiabilidade das fontes. Os valores dos atributos do primeiro `DataFrame` são escolhidos a menos que sejam valores nulos. Nesse caso, são escolhidos os valores dos atributos do segundo `DataFrame`. Note que, em `df_processado`, são armazenados todos os funcionários da fonte funcionarioRelacional, sendo que, para os funcionários presentes também em colaboradorJSON, ocorre a resolução dos valores dos atributos.

In [None]:
# comandos para resolver indices do conflito da fonte 1 (mais confiável) e fonte 2
# DataFrame de conflito entre a fonte 1 e fonte 2
indices = funcionario_colaborador['funcMatricula'].tolist()
# processa a integracao
df_processado = processar_conflitos(indices, novo_funcionario_relacional, novo_colaborador_JSON)

In [None]:
# visualiza o resultado da integração, adicao de valores a fonte 1, provenientes da fonte 2
df_processado.loc[indices][['funcNome', 'funcCidade', 'funcPaisNome', 'funcPaisSigla']]

Unnamed: 0_level_0,funcNome,funcCidade,funcPaisNome,funcPaisSigla
funcMatricula,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,ARAO ALVES,CAMPINAS,BRASIL,
4,ADA BARBOSA,SANTO ANDRE,BRASIL,
8,ABADIAS CAMPOS,ILHA BELA,BRASIL,
13,ABDIEL DIAS,RIO DE JANEIRO,BRASIL,BRA
64,ABILIO BARBOSA,OSASCO,,BRA
67,ADELMA BORGES,,BRASIL,
83,ADENIAS ANDRADE,CAMPINAS,,BRA


**EXERCÍCIO 6.** Realize comandos para integrar as instâncias, conforme especificado a seguir.


**EXERCÍCIO 6a.** Realize os dois comandos que aparecem no comentário # comandos para resolver indices ..., porém, considerando conflitos entre a fonte 1 (mais confiável) e a fonte 3 (menos confiável). Para gerar `df_processado`, deve ser usado duas fontes: `df_processado` e `novo_empregado_planilha`. Além disso, utilize o `DataFrame` resultante do conflito da fonte 1 e fonte 3 para identificar os `indices`.

In [None]:
# comandos para resolver indices do conflito da fonte 1 e fonte 3
# DataFrame de conflito entre a fonte 1 e fonte 3
indices = funcionario_empregado['funcMatricula'].tolist()
# processa a integracao
df_processado = processar_conflitos(indices, df_processado, novo_empregado_planilha)

In [None]:
df_processado.loc[indices][['funcNome', 'funcCidade', 'funcPaisNome', 'funcPaisSigla']]

Unnamed: 0_level_0,funcNome,funcCidade,funcPaisNome,funcPaisSigla
funcMatricula,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
13,ABDIEL DIAS,RIO DE JANEIRO,BRASIL,BRA
16,ABDALLA FERNANDES,PRAIA SECA,BRASIL,
32,ABDIEL COSTA,PIRACICABA,,
86,ADENILDE BARROS,PIRACICABA,,
90,ADENILTON CARVALHO,SAO JOSE DO RIO PRETO,BRASIL,
67,ADELMA BORGES,RIO DE JANEIRO,BRASIL,
83,ADENIAS ANDRADE,CAMPINAS,,BRA


**EXERCÍCIO 6b.** Realize os dois comandos que aparecem no comentário # comandos para resolver indices ..., porém, considerando conflitos entre a fonte 2 (mais confiável) e a fonte 3 (menos confiável). Para gerar `df_processado2`, deve ser usado duas fontes: `novo_colaborador_JSON` e `novo_empregado_planilha`. Além disso, utilize o `DataFrame` resultante do conflito da fonte 1 e fonte 3 para identificar os `indices`.

In [None]:
# comandos para resolver indices do conflito da fonte 2 e fonte 3
# DataFrame de conflito entre a fonte 2 e fonte 3
indices = colaborador_empregado['funcMatricula'].tolist()
# processa a integracao
df_processado2 = processar_conflitos(indices, novo_colaborador_JSON, novo_empregado_planilha)

In [None]:
df_processado2.loc[indices][['funcNome', 'funcCidade', 'funcPaisNome', 'funcPaisSigla']]

Unnamed: 0_level_0,funcNome,funcCidade,funcPaisNome,funcPaisSigla
funcMatricula,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
13,ARAO ALVES,RIO DE JANEIRO,,BRA
66,ADELITA BARROS,BARUERI,,BRA
67,ADELMA BORGES,RIO DE JANEIRO,,
83,ADENIAS ANDRADE,CAMPINAS,,BRA
99,ADERCIO GOMES,ARAGUARI,,


O esquema de relação *funcionario* a ser armazenado no *data mart* deve conter todos os funcionários. Entretanto, como resultado do último comando, esse esquema contém apenas os funcionários presentes na fonte funcionarioRelacional. O comando a seguir incorpora também a *funcionario* todos os funcionários presentes na fonte colaboradorJSON, com exceção dos funcionários já considerados anteriormente. Como resultado, são geradas todas as instâncias de *funcionario*. Na sequência, o próximo comando ilustra algumas linhas geradas.

In [None]:
def interseccao_indices(lst1, lst2):
  """
  Retornar os indices duplicados
  """
  return list(set(lst1).intersection(lst2))


def combina_funcionario(df1, df2):
  """
  Realiza a uniao dos dataframes
  """
  indices1 = df1.index.tolist()
  indices2 = df2.index.tolist()
  # remove os indices duplicados
  indices_drop = interseccao_indices(indices1, indices2)
  df2_drop = df2.drop(indices_drop)
  # retorna a uniao dos dois dataframes
  return df1.append(df2_drop).sort_index()

In [None]:
funcionario = combina_funcionario(df_processado, df_processado2)

**EXERCÍCIO 7.** Especifique um comando que incorpore também a `funcionario` todos os funcionarios presentes na fonte `novo_empregado_planilha` (dica: usar a função `combina_funcionario` e a variável `funcionario` produzida acima).

In [None]:
funcionario = combina_funcionario(funcionario, novo_empregado_planilha)

Função para embaralhar os funcionários, e visualização da fonte final (dica: deve conter 100 instâncias).

Nessa etapa, embaralhamos os dados para simular a extração de dados, visto que os dados usualmente veem "bagunçados". Independentemente de `funcMatricula` estar ordenado, algo que raramente ocorre, será atribuído <u>funcPK</u> na fonte final.

In [None]:
funcionario = funcionario.reset_index().sample(frac=1)

In [None]:
print('Tamanho da fonte final: ', funcionario.shape[0])
display(funcionario)

Tamanho da fonte final:  100


Unnamed: 0,funcMatricula,funcNome,funcSexo,funcDataNascimento,funcCidade,funcEstadoSigla,funcPaisNome,funcDiaNascimento,funcMesNascimento,funcAnoNascimento,funcEstadoNome,funcRegiaoNome,funcRegiaoSigla,funcPaisSigla
68,69,ADILHO CARDOSO,M,08/09/1968,ANGRA,RJ,,,,,,,,BRA
0,1,ALINE ALMEIDA,F,1/1/1990,SAO PAULO,SP,BRASIL,,,,,,,
9,10,ADETE CARVALHO,M,10/10/1990,OSASCO,SP,BRASIL,,,,,,,
45,46,ABEDNEGO BARROS,M,15/10/1990,OURO PRETO,MG,BRASIL,,,,,,,
33,34,ABDNEGO DUARTE,M,3/10/1990,RIBEIRAO PRETO,SP,BRASIL,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
81,82,ADENIR ALVES,M,21/10/1981,SAO PAULO,,,,,,SAO PAULO,,,
96,97,ADENOR FERREIRA,M,5/1/1996,PRAIA SECA,,,,,,RIO DE JANEIRO,,,
30,31,ABDIAS CASTRO,M,31/7/1990,SANTO ANDRE,SP,BRASIL,,,,,,,
50,51,ADEILDO CASTRO,M,20/3/1950,MORRETES,PR,BRASIL,,,,,,,


## 6 Carga dos Dados no *Data Mart*

Antes dos dados serem carregados no *data mart*, devem ser realizados processamentos adicionais. Esses processamentos referem-se a: (i) verificação de valores nulos; e (ii) geração automática de dados para preencher colunas que não foram preenchidas pelos dados oriundos das fontes.

O comando a seguir verifica a presença de valores nulos e também valores de colunas que não foram preenchidas.

In [None]:
funcionario.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100 entries, 68 to 71
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   funcMatricula       100 non-null    int64 
 1   funcNome            100 non-null    object
 2   funcSexo            100 non-null    object
 3   funcDataNascimento  100 non-null    object
 4   funcCidade          100 non-null    object
 5   funcEstadoSigla     75 non-null     object
 6   funcPaisNome        52 non-null     object
 7   funcDiaNascimento   0 non-null      object
 8   funcMesNascimento   0 non-null      object
 9   funcAnoNascimento   0 non-null      object
 10  funcEstadoNome      28 non-null     object
 11  funcRegiaoNome      0 non-null      object
 12  funcRegiaoSigla     0 non-null      object
 13  funcPaisSigla       26 non-null     object
dtypes: int64(1), object(13)
memory usage: 11.7+ KB


O comando a seguir realiza o preenchimento de dados nas colunas de `funcEstadoNome` usando como base `funcEstadoSigla`.

In [None]:
funcionario['funcEstadoSigla'].unique()

array(['RJ', 'SP', 'MG', None, 'PE', 'PR'], dtype=object)

In [None]:
mapear_estados_nome = {'RJ':'RIO DE JANEIRO', 'SP':'SAO PAULO',\
                  'PR':'PARANA', 'PE':'PERNAMBUCO', 'MG':'MINAS GERAIS'}
funcEstadoNome = lambda x, y: y if pd.isna(x) else mapear_estados_nome[x]
funcionario['funcEstadoNome'] = funcionario.apply(lambda x: funcEstadoNome(x['funcEstadoSigla'], x['funcEstadoNome']), axis=1)

O comando a seguir realiza o preenchimento de dados nas colunas de `funcEstadoSigla` usando como base `funcEstadoNome`.

**EXERCÍCIO 8.** Implemente o mapeamento de `funcEstadoSigla` utilizando os dados de `funcEstadoNome`.

In [None]:
mapear_estados_sigla = {'RIO DE JANEIRO':'RJ', 'SAO PAULO':'SP',\
                  'PARANA':'PR', 'PERNAMBUCO':'PE', 'MINAS GERAIS':'MG', None:None}
funcEstadoSigla = lambda x, y: y if pd.isna(x) else mapear_estados_sigla[x]
funcionario['funcEstadoSigla'] = funcionario.apply(lambda x: funcEstadoSigla(x['funcEstadoNome'], x['funcEstadoSigla']), axis=1)

Os comandos a seguir realizam o preenchimento de dados nas colunas `funcPaisSigla` e `funcPais`.

In [None]:
funcionario['funcPaisSigla'].unique()

array(['BRA', None], dtype=object)

In [None]:
funcionario['funcPaisNome'].unique()

array([None, 'BRASIL'], dtype=object)

In [None]:
funcionario['funcPaisSigla'] = 'BRA'
funcionario['funcPaisNome'] = 'BRASIL'

O comando a seguir verifica novamente a presença de valores nulos e também valores de colunas que não foram preenchidas. 

In [None]:
funcionario.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100 entries, 68 to 71
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   funcMatricula       100 non-null    int64 
 1   funcNome            100 non-null    object
 2   funcSexo            100 non-null    object
 3   funcDataNascimento  100 non-null    object
 4   funcCidade          100 non-null    object
 5   funcEstadoSigla     100 non-null    object
 6   funcPaisNome        100 non-null    object
 7   funcDiaNascimento   0 non-null      object
 8   funcMesNascimento   0 non-null      object
 9   funcAnoNascimento   0 non-null      object
 10  funcEstadoNome      100 non-null    object
 11  funcRegiaoNome      0 non-null      object
 12  funcRegiaoSigla     0 non-null      object
 13  funcPaisSigla       100 non-null    object
dtypes: int64(1), object(13)
memory usage: 11.7+ KB


Os comandos a seguir realizam o preenchimento de dados nas colunas   `funcDiaNascimento` e `funcMesNascimento`, e `funcAnoNascimento`. Para tanto, são usados os valores presentes em `funcDataNascimento`.

In [None]:
# extraindo o dia, mês e ano de nascimento
dataNascimento = {'DIA': 0, 'MES': 1, 'ANO': 2}

def processa_data_nascimento(dataNascimento, campo):
  if pd.isna(dataNascimento):
    return None
  return dataNascimento.split('/')[campo]


funcionario['funcDiaNascimento'] = funcionario.apply(lambda x: processa_data_nascimento(x['funcDataNascimento'], dataNascimento['DIA']), axis=1)
funcionario['funcMesNascimento'] = funcionario.apply(lambda x: processa_data_nascimento(x['funcDataNascimento'], dataNascimento['MES']), axis=1)
funcionario['funcAnoNascimento'] = funcionario.apply(lambda x: processa_data_nascimento(x['funcDataNascimento'], dataNascimento['ANO']), axis=1)

Os comandos a seguir realizam o preenchimento de dados nas colunas funcRegiaoNome e funcRegiaoSigla.

In [None]:
mapear_regiao_nome = {'RJ':'SUDESTE', 'SP':'SUDESTE',\
                  'PR':'SUL', 'PE':'NORDESTE', 'MG':'SUDESTE', None:None}
funcionario['funcRegiaoNome'] = funcionario.apply(lambda x: mapear_regiao_nome[x['funcEstadoSigla']], axis=1)

**EXERCÍCIO 9.** Implemente o mapeamento de `funcRegiaoSigla` utilizando os dados de `funcRegiaoNome`.

In [None]:
mapear_regiao_sigla = {'SUDESTE':'SE', 'SUL':'S', 'NORDESTE':'NE', None:None}
funcionario['funcRegiaoSigla'] = funcionario.apply(lambda x: mapear_regiao_sigla[x['funcRegiaoNome']], axis=1)

Por fim, tem-se a coluna `funcPK`. Em *funcionario*, já existe a coluna `funcMatricula`, que identifica univocamente cada funcionário. Entretanto, pode ser que o valor dessa coluna seja preenchido com dados muito grandes, contendo letras e números. Nesse caso, quando se projeta o esquema do *data mart*, acrescenta-se uma coluna adicional para representar a chave primária, a qual é preenchida com valores incrementados de 1 em 1 em ordem crescente. 

O comando a seguir acrescenta a coluna funcPK a funcionario.

In [None]:
funcionario.reset_index(drop=True, inplace=True)
funcionario['funcPK'] = list(range(1, funcionario.shape[0]+1))

O comando a seguir ilustra a nova estrutura do esquema de relação *funcionario*, bem como alguns de seus dados

In [None]:
display(funcionario[['funcPK', 'funcMatricula', 'funcNome', 'funcSexo', 'funcCidade', 'funcEstadoNome', 'funcRegiaoNome', 'funcPaisNome']])

Unnamed: 0,funcPK,funcMatricula,funcNome,funcSexo,funcCidade,funcEstadoNome,funcRegiaoNome,funcPaisNome
0,1,69,ADILHO CARDOSO,M,ANGRA,RIO DE JANEIRO,SUDESTE,BRASIL
1,2,1,ALINE ALMEIDA,F,SAO PAULO,SAO PAULO,SUDESTE,BRASIL
2,3,10,ADETE CARVALHO,M,OSASCO,SAO PAULO,SUDESTE,BRASIL
3,4,46,ABEDNEGO BARROS,M,OURO PRETO,MINAS GERAIS,SUDESTE,BRASIL
4,5,34,ABDNEGO DUARTE,M,RIBEIRAO PRETO,SAO PAULO,SUDESTE,BRASIL
...,...,...,...,...,...,...,...,...
95,96,82,ADENIR ALVES,M,SAO PAULO,SAO PAULO,SUDESTE,BRASIL
96,97,97,ADENOR FERREIRA,M,PRAIA SECA,RIO DE JANEIRO,SUDESTE,BRASIL
97,98,31,ABDIAS CASTRO,M,SANTO ANDRE,SAO PAULO,SUDESTE,BRASIL
98,99,51,ADEILDO CASTRO,M,MORRETES,PARANA,SUL,BRASIL


O comando a seguir verifica a presença de valores nulos em funcionario. No vídeo de aula, ainda existiam valores nulos. Ao final desta lista de exercícios, todos os valores devem ter sido preenchidos, de forma que a coluna `Non-Null Count` deve sempre listar `100 non-null`. 

**EXERCÍCIO 10.** Executar o comando a seguir, e verificar se o resultado esperado foi obtido.


In [None]:
funcionario.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   funcMatricula       100 non-null    int64 
 1   funcNome            100 non-null    object
 2   funcSexo            100 non-null    object
 3   funcDataNascimento  100 non-null    object
 4   funcCidade          100 non-null    object
 5   funcEstadoSigla     100 non-null    object
 6   funcPaisNome        100 non-null    object
 7   funcDiaNascimento   100 non-null    object
 8   funcMesNascimento   100 non-null    object
 9   funcAnoNascimento   100 non-null    object
 10  funcEstadoNome      100 non-null    object
 11  funcRegiaoNome      100 non-null    object
 12  funcRegiaoSigla     100 non-null    object
 13  funcPaisSigla       100 non-null    object
 14  funcPK              100 non-null    int64 
dtypes: int64(2), object(13)
memory usage: 11.8+ KB


Como o *data mart* é armazenado seguindo o modelo relacional, o comando a seguir gera um arquivo *.csv* referente a *funcionario*. 

In [None]:
funcionario.to_csv('funcionario.csv')