# <center>Curso de Auditoria de Dados</center>
## <center>Flávio Brito</center>
___

<H1>Análise de Padrões</H1>

O objetivo deste estudo é apresentar algumas técnicas para análise de padrões em dados. Utilizaremos a linguagem R e seus pacotes.

Vamos utilizar o pacote bpa - Basic Pattern Analysis. Este pacote possui funções especiais em análise de padrões em dados. 
É um conjunto de ferraamentas para pré-processamento de dados que ajuda a economizar linhas e linhas de código em busca de padrões de dados sejam conjuntos de caracteres, números ou combinações de números e caracteres. É util para limpeza de dados e estudo de padrões e anomalias.

In [6]:
install.packages("bpa", repos = "https://cloud.r-project.org")

package 'bpa' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\flavi\AppData\Local\Temp\RtmpAzlaRF\downloaded_packages


## Carregando a biblioteca bpa  

In [9]:
library(bpa)

## Carregando os dados de exemplo do pacote

In [11]:
data(messy, package = "bpa")

In [16]:
head(messy)
attach(messy)

Unnamed: 0,Gender,Date,Phone
1,Female,16Aug2001,571 972 510
2,Male,2009-08-21,090 875 285
3,M,01/22/2004,(079)-200-150
4,male,09/02/2008,(129)-006-808
5,Male,February 19 2006,016 651 851
6,Female,16Nov2015,(492)-455-108


Pode-se perceber imediatamente que os valores possuem formatos mistos. Isto é muito comum quando os dados são inseridos manualmente dentro de um sistema e por não ter uma crística de dentrada acabam sendo aceitos pelo sistema transacional, dificultando assim a padronização dos mesmos.

### Utilização básica

In [20]:
get_pattern("(079)-200-150")

In [21]:
get_pattern("016 651 851")

In [25]:
 get_pattern("016 651 851", ws_char = "<BRANCO>")

### Buscando padrões dentro de um Data Frame

Agora examinemos algumas variáveis, buscando não só descobrir os padrões como também a frequência de cada um na variável. 
Voltemos aos dados. Busquemos padrões na variável Date

In [26]:
messy$Date %>%
  get_pattern %>%  # extrai o padrão
  table %>%        # tabula as fraquências
  as.data.frame    # apresenta o resultado como um data frame

Unnamed: 0,.,Freq
1,99/99/9999,259
2,9999-99-99,262
3,99Aaa9999,241
4,Aaaaaaaaaw99w9999,19
5,Aaaaaaaaw99w9999,56
6,Aaaaaaaw99w9999,45
7,Aaaaaaw99w9999,24
8,Aaaaaw99w9999,36
9,Aaaaw99w9999,42
10,Aaaw99w9999,16


Perceba que temos 259 registros no campo Date com formato 99/99/9999 (Ex:01/22/2004) e 241 com formato 99Aaa9999(Ex:16Aug2001) , por exemplo. 

Analisando os dados da variável alvo:

In [28]:
messy$Date %>%
  unique %>%    # extract unique values
  head(50)      # look at first 50 observations

Padronizar os dados através de basic pattern analysis fornece uma representação muito mais clara a respeito dos dados 
que são frequentemente mais usados durante a etapa de pré-processamento

### Analisando todas as variáveis do Data frame de uma só vez

In [31]:
messy %>%
    bpa %>%
    head(10)

Unnamed: 0,Gender,Date,Phone
1,Aaaaaa,99Aaa9999,999w999w999
2,Aaaa,9999-99-99,999w999w999
3,A,99/99/9999,(999)-999-999
4,aaaa,99/99/9999,(999)-999-999
5,Aaaa,Aaaaaaaaw99w9999,999w999w999
6,Aaaaaa,99Aaa9999,(999)-999-999
7,Aaaaaa,9999-99-99,(999)w999w999
8,Aaaaaa,99Aaa9999,999-999-999
9,aaaa,Aaaaaaaaw99w9999,999w999w999
10,Aaaaaa,9999-99-99,999-999-999


Com muitos dados, muitas vezes será mais útil exibir uma lista contendo apenas os padrões únicos para cada coluna de um frame.

In [33]:
# Retorna somente os padôes únicos em formato de lista
bpa(messy, unique_only = TRUE)

$Gender

     A   aaaa   Aaaa aaaaaa Aaaaaa 
   189    110    312     98    291 

$Date

       99/99/9999        9999-99-99         99Aaa9999 Aaaaaaaaaw99w9999 
              259               262               241                19 
 Aaaaaaaaw99w9999   Aaaaaaaw99w9999    Aaaaaaw99w9999     Aaaaaw99w9999 
               56                45                24                36 
     Aaaaw99w9999       Aaaw99w9999 
               42                16 

$Phone

(999)-999-999 (999)w999w999   999-999-999   999w999w999 
          242           250           276           232 


Finalmente, nós incluímos a função match_pattern para extrair os valores de um vetor que coincidam com um padrão especificado.
Por exemplo, o fragmento de código a seguir irá extrair os valores exclusivos de que coincidirem com o padrão padronizado Gender Aaaa.

In [36]:
# Extrai de dentro de Gender os valores que coincidem com o padrão "Aaaa"
match_pattern(messy$Gender, pattern = "Aaaa", unique_only = TRUE)

## Estudo de Caso - Pagamento de Impostos

In [37]:
library(bpa)

In [40]:
nf <-read.csv2("./dados/NotaFiscal.csv", header = TRUE)

In [41]:
head(nf)

Unnamed: 0,CNPJ,UF,Data,NF,Classificacao,Valor
1,21.704.783/0001-64,RJ,01/09/2016,90,ME,"R$30.000,00"
2,21.704.783/0001-64,RJ,02/09/2016,91,ME,"R$40.000,00"
3,03.117.734/0001-43,SP,03/09/2016,2000,MEI,"R$444,00"
4,76.313.316/0001-03,SP,04/09/2016,111,MEI,"R$4,00"
5,06.062.510/0001-70,SP,05/09/2016,222,,"R$4.444,00"
6,16.474.789/0001-52,GO,06/09/2016,33333,,"R$55,00"


In [42]:
nf %>%
    bpa%>%
head(10)

Unnamed: 0,CNPJ,UF,Data,NF,Classificacao,Valor
1,99.999.999/9999-99,AA,99/99/9999,99,AA,"wA$99.999,99w"
2,99.999.999/9999-99,AA,99/99/9999,99,AA,"wA$99.999,99w"
3,99.999.999/9999-99,AA,99/99/9999,9999,AAA,"wA$999,99w"
4,99.999.999/9999-99,AA,99/99/9999,999,AAA,"wA$9,99w"
5,99.999.999/9999-99,AA,99/99/9999,999,,"wA$9.999,99w"
6,99.999.999/9999-99,AA,99/99/9999,99999,,"wA$99,99w"
7,99.999.999/9999-99,AA,99/99/9999,9999999,AAA,"wA$999,99w"
8,99.999.999/9999-99,AA,99/99/9999,999,AA,"wA$999,99w"
9,99.999.999/9999-99,AA,99/99/9999,999,,"wA$9.999,99w"
10,99.999.999/9999-99,AA,99/99/9999,99,AAA,"wA$9.999.999,99w"


In [45]:
# Retorna somente os padôes únicos em formato de lista
bpa(nf, unique_only = TRUE)

$CNPJ

99.999.999/9999-99 
                10 

$UF

AA 
10 

$Data

99/99/9999 
        10 

$NF

     99     999    9999   99999 9999999 
      3       4       1       1       1 

$Classificacao

     AA AAA 
  3   3   4 

$Valor

        wA$9,99w     wA$9.999,99w wA$9.999.999,99w        wA$99,99w 
               1                2                1                1 
   wA$99.999,99w       wA$999,99w 
               2                3 


#### Busca NF por tamanho

In [48]:
nf$NF %>%
  get_pattern %>%  # extrai o padrão
  table %>%        # tabula frequências
  as.data.frame    # apresenta o dado como data frame

Unnamed: 0,.,Freq
1,99,3
2,999,4
3,9999,1
4,99999,1
5,9999999,1


#### Encontrar NF com padrão 99

In [60]:
# Extrai de dentro de Gender os valores que coincidem com o padrão "99"
match_pattern(nf$NF, pattern = "99", unique_only = TRUE)