# Análises estátisticas para o Banco Safra

### Preparação

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statistics import mode


In [None]:
dados_avaliacoes = pd.read_csv("/content/DadosAg0Manipulados.csv", 
                   sep = ';', 
                   decimal= '.', 
                   encoding='latin1')

In [None]:
dados_avaliacoes

In [None]:
dados_avaliacoes.describe()

In [None]:
dados_avaliacoes.shape

#**Função para Análises Univariadas**


Para a realização das análises univarias, o caminho mais prático e intuitivo é realizando a função abaixo:

In [None]:
def analise_univariada(coluna):
  if coluna not in dados_avaliacoes.columns:
    print('Essa coluna não existe')
  else:
    df = dados_avaliacoes[[coluna]].reset_index(drop = True)
    df['quantidade'] = 0
    df_agg = df.groupby(coluna).count()
    df_agg = df_agg.sort_values(['quantidade'], ascending=False).groupby(coluna).head(100)
    print(df_agg)

# **Análise 1:** Coluna de Página de saída. 

---



---




O intuito de realizar essa análise é conhecer quais funcionalidades dentro do AG0 que apresentam mais erros. Assim o banco pode realizar uma estratégia de correção e também entender onde gastar os recursos para melhoria.

In [None]:
analise_univariada('paginaSaida')

             quantidade
paginaSaida            
1.0                 254
3.0                 254
2.0                 245
0.0                 126
4.0                 121


Percebemos que as páginas 1, 2 e 3 apresentaram quantidades semelhantes, por volta de 250 contagens, enquanto as paginas 0 e 4 apresentaram metade disso, em torno de 150. Isso significa que o foco inicialmente maior do banco é corrigir as falhas apresentadas nas saídas da pagina 1, 2 e 3, que representam 753 usuários. 

# **Análise 2:** Coluna de Avaliação. 

---



Essa análise é praticamente um feedback dos usuários para o apolicativo do AG0. É importante que o banco saiba se as tentativas de melhoria do aplicativo estão impactando a análise da avaliação.

In [None]:
analise_univariada('avaliacao.r')

             quantidade
avaliacao.r            
negativa            510
positiva            251
n/ avaliado         239


Percebe-se que as avaliações negativas do aplicativo representam em torno de 50% de todo o banco de dados, um valor muito alto e um grande indicativo de que é necessário medidas para melhorar este quadro. Com os esforços do banco um melhor aplicativo, é imporante seguir de perto esta estatística para entender o quanto os recursos do banco estão impactando a avaliação.

# **Análise 3:** Coluna de Erro. 

Essa análise é muito importante para auxiliar a equipe de TI do banco entender melhor quando e de que maneira os erros estão aparecendo para os usuários. Dessa maneira pode-se definir um ranking de prioridades e recursos para se trabalhar na melhoria do aplicativo AG0.

In [None]:
analise_univariada('erro')

A análise nos mostra que os três erros mais frequentes representam grande porcentagem do banco de dados e devem receber uma atenção especial. O que também fica evidente é que os erros que são passíveis por parte do usuário, como senha incorreta ou chave pix incorreta, são a minoria dos casos, o que evidencia que a maioria dos casos de erros podem ser evitados com uma melhoria das funcionalidades do aplicativo AG0.

# **Análise 4:** Coluna de código.

Nosso banco de dados apenas apresenta dois tipos de erros, 550 e 500. Sendo assim é muito importante conhecer o quanto cada um representa estatisticamente do nosso banco.

In [None]:
analise_univariada('codigo').count()

Apesar de não haver uma grande disparidade da quantidade de códigos, há um pequeno indício de que o código 550 é mais comum, o que deve ser analisade pela equipe de TI interna do banco.

# **Análise 5:** Coluna de Status Saída

Nessa coluna, será feita um a validação estatística para entender o número de clientes que
completam a jornada no aplicativo, para assim traçar um padrão de anomalias. 

In [None]:
analise_univariada('statusSaida')

             quantidade
statusSaida            
1                  5260
0,9                4581
0,8                3740
0                  1870
0,5                1250
0,1                 750
0,2                 660
0,7                 629
0,3                 590
0,4                 460
0,6                 210


# **Análise 6:** Coluna de tempoAcesso

A análise dessa coluna busca encontrar os valores estatísticos do tempo de acesso dos usuários, como a média, o tempo mínimo e máximo e os quartis. 

In [None]:
dados_avaliacoes['tempoAcesso'].describe()

count    20000.000000
mean       241.865050
std        222.914245
min          1.000000
25%         56.000000
50%        163.000000
75%        365.000000
max        900.000000
Name: tempoAcesso, dtype: float64

O que podemos perceber é uma média de tempo de acesso de 247 segundos, o que significa em torno de 4 minutos, já o valor mínimo é de 1 segundo e indica um erro logo no início da navegação. O terceiro quartil indica uma navegação de 322 segundos, já o tempo máximo é muito superior ao último quartil, sendo de 629 segundos, praticamente o dobro do quartil.

# **Função para Análises Bivariadas**

Para realizarmos as análises bivariadas, definimos a funcão abaixo:

In [None]:
def analise_bivariada(coluna1, coluna2):
  if coluna1 not in dados_avaliacoes.columns:
    print('Coluna1 não existe')
  elif coluna2 not in dados_avaliacoes.columns:
    print('Coluna2 não existe')
  else:
    df = dados_avaliacoes[[coluna1, coluna2]].reset_index(drop = True)  
    df['quantidade'] = 0
    df_agg = df.groupby([coluna1, coluna2]).count()
    df_agg = df_agg.sort_values([coluna1, 'quantidade'], ascending=False).groupby(coluna1).head(50)
    return df_agg

# **Análise 7**: paginaSaída, avaliação

Essa análise é importante para entender o quanto a experiência de navegação em cada página do aplicativo impacta na avaliação do usuário

In [None]:
analise_bivariada('paginaSaida', 'erro')

Unnamed: 0_level_0,Unnamed: 1_level_0,quantidade
paginaSaida,erro,Unnamed: 2_level_1
4,"DESCULPE TODOS NOSSOS ATENDENTES ESTÃO OCUPADOS, ASSIM QUE POSSÃVEL ENTRAREMOS EM CONTATO",1850
4,CANAL DE ATENDIMENTO INDISPONÃVEL NO MOMENTO,1300
4,"SUA SOLICITAÃÃO NÃO PODE SER ENVIADA, FAVOR VERIFICAR DADOS INSERIDOS",1100
4,"IDENTIFICAMOS UM PROBLEMA INESPERADO E ENVIAMOS PARA NOSSO TIME TENTAR RESOLVER O QUANTO ANTES, ASSIM QUE POSSÃVEL ENTRAREMOS EM CONTATO.",400
4,"SUA SOLICITAÃÃO JÃ FOI ENVIADA, FAVOR NÃO REPETIR OPERAÃÃO",350
4,NO MOMENTO ESTE SERIVCO ESTA INDISPONIVEL. POR FAVOR TENTE NOVAMENTE MAIS TARDE.,282
4,ERRO INTERNO SERVIDOR,186
4,TIMEOUT,98
4,BAD GATEWAY,12
3,ÃREA PIX INDISPONÃVEL NO MOMENTO,810


In [None]:
dados_avaliacoes.columns

Index(['ï»¿idEntrada', 'sistemaOperacional', 'statusSaida', 'paginaSaida',
       'avaliacao', 'dataErro', 'horaErro', 'tempoAcesso', 'codigo', 'erro'],
      dtype='object')

O que podemos perceber primeiramente é que em todas as páginas de saída a quantidade de avaliação negativa é majoritária, com a avaliação positiva e n/avaliado alternando a depender do número da página. Estatisticamente, as análises negativas representam em torno de 50% das avaliações de cada página, o que está de acordo com nossa análise univariada feita da avaliação. 

# **Análise 8:** codigo, erro

Essa análise nos auxilia a entender quais erros acontecem para os dois códigos que existem de erro. Sendo importante pois nos ajuda a detalhar melhor o erro e conhecer mais profundamente a causa de cada erro.

In [None]:
analise_bivariada('codigo', 'erro')

Podemos perceber que para o erro 550, ocorre uma grande quantidade de erros relativos ao banco de dados, sendo 'Não encontrou Dados para a seleção' o segundo erro mais comum para esse código, e que ao comparado junto com o 'erro na validação de dados complementares e 'erro na validação de dados básicos' representam em torno de 40% dos erros do código 550. Quando comparamos o erro 500, notamos que o erro mais frequente com uma boa margem é o 'desculpe, tivemos um problema e não conseguimos realizar essa operação' o que demanda um estudo para solucioná-lo. Também percebe-se que os erros do código 500 são geralmente devido a erros de conexão com o servidor. 

# **Análise 12:** erro, avaliação

# **Análise 9:** usuarioOnline, codigo

Como o nosso banco de dados é dividido para usuários online e offline, é preferível que se analíse os códigos do erro para cada divisão, ainda mais pois alguns códigos possuem erros que são provenientes de erro de conexão. 

In [None]:
analise_bivariada('usuarioOnline', 'codigo')

Coluna1 não existe


Tanto para usuários online quanto offline percebe-se que o código mais comum, com uma leve margem, é o 550, o que está de acordo com nossa análise univariada. 

# **Análise 10:** usuarioOnline, erro

Assim como analisamos a caluna usuarioOnline, código, a análise com a coluna erro se faz necessária para se entender quais erros são causados para os usuários online que podem aprensentar problemas de conexão. 

In [None]:
analise_bivariada('usuarioOnline', 'erro')

                                                                  quantidade
usuarioOnline erro                                                          
1.0           "NO MOMENTO ESTE SERIVCO ESTA INDISPONIVEL. POR...          56
              "NAO ENCONTROU DADOS PARA A SELECAO"                        37
              "DESCULPE TIVEMOS UM PROBLEMA E NAO CONSEGUIMOS...          34
              "CPF -CNPJ CLIENTE NAO CADASTRADO"                          19
              "CHAVE PIX INCORRETA"                                       18
              "OPS! NÃO FOI POSSIVEL CONSULTAR O SALDO. TENTE...          18
              "ERRO AO EXECUTAR SERVICO: REQUESTCREDITSERVICE"            16
              "INTERNAL SERVER ERROR"                                     16
              "ERRO NA VALIDACAO DE DADOS COMPLEMENTARES"                 15
              "CLIENTE NAO CADASTRADO"                                    13
              "ERRO NA VALIDACAO DE DADOS BASICOS"                        12

O que mais relevante conseguimos notar ao comparar cada erro para usuários online e offline é que o erro "Chave Pix incorreta" possui uma frequência muito maior para usuários online do que offline, sendo que para os usuários online é o quinto erro mais frequento, enquanto para os usuários offline é apenas o segundos menos frequente. Isso indica que para os usuários online, algum problema estrutural do aplicativo do AG0 pode estar ocasionando esse erro. 

# **Análise 11:** UsuarioOnline, avaliação

Essa análise demonstra se existe alguma disparidade entre a experiência de navegação para os usuários online e não online que pode ser mostrada pela avaliação. 

In [None]:
analise_bivariada('usuarioOnline', 'avaliacao.r')

                           quantidade
usuarioOnline avaliacao.r            
1.0           negativa            130
              positiva             63
              n/ avaliado          61
0.0           negativa            380
              positiva            188
              n/ avaliado         178


Segundo essa análise, ambas as navegações online e offline apresentam em torno de 50% de avaliações negativas, o que é compatível com nossa análise univariada de avaliação. A princípio a experiência de navegação para online e offline são semelhantes. 

Essa análise busca entender o quanto cada erro afeta o usuário e sua avaliação do AG0. Alguns erros podem ser apenas momentâneos e não impactar tão negativamente a navegação quanto outros erros que impossibilitam que o usuário realize a ação.

In [None]:
analise_bivariada('erro', 'avaliacao')

Coluna2 não existe


Novamente o que já foi constatado se repete nessa análise, as avaliações negativas para cada erro no geral representam em torno de 50% do grupo. Percebe-se que para alguns erros, as avaliações negativas chegam a ser 3 vezes maiores que as positivas, entretanto para outros erros, essa margem cai para menos de 1,5 vez mais, como no erro "OPS! NÃO FOI POSSIVEL CONSULTAR O SALDO. TENTE NOVAMENTE MAIS TARDE". Essa análise pode servir como um mapa de prioridades para a melhoria do aplicativo. 

# **Análise 13:** código, avaliação

Essa análise e semlhante a (erro, avaliação), buscando detalhar o quanto cada código de erro influencia a experiência do usuário. 

In [None]:
analise_bivariada('codigo', 'avaliacao.r')

                    quantidade
codigo avaliacao.r            
550.0  negativa            272
       n/ avaliado         140
       positiva            121
500.0  negativa            238
       positiva            130
       n/ avaliado          99


O que se percebe é que para os erros com o código 550, os usuário tem uma maior chance de não avaliar o aplicativo, o que explica as avaliações positivas serem a menos frequente de todas. Já para o código 500, as avaliações positivas são a segunda menos frequente. Como não se sabe se os não avaliados tiveram uma experiência positiva ou negativa, o banco deve buscar entender o porquê de tantos usuários não avaliarem a experiência quando o erro 550 acontece.  

# **Análise 14:** usuárioOnline, tempoAcesso

Essa avaliação busca entender as medidas estatísticas do tempo de acesso para os usuários Online e offline do aplicativo. Podemos conhecer os quartis médios de tempo de acesso para cada grupo. 

In [None]:
dados_avaliacoes
df = dados_avaliacoes[['usuarioOnline', 'tempoAcesso']]
df['quantidade'] = 0
print(df.groupby('usuarioOnline')['tempoAcesso'].describe())

O que podemos notar é que os usuários online tiveram em média um maior tempo de acesso do que usuários offline, o que se comprova tanto pela estatística da média do tempo, quanto pelo primeiro, segundo e terceiro quartil. O tempo mínimo e máximo dos usuários offline também é são menores. Uma teoria para explicar isso é de que os usuário navegando online precisam de mais tempo para realizar uma atividade do que navegando offline, por isso gastam mais tempo. 

# **Análise 15:** avaliação, tempoAcesso

Essa análise serve para entender quanto a experiência de navegação do usuário influencia no tempo de acesso do aplicativo.

In [None]:
dados_avaliacoes
df = dados_avaliacoes[['avaliacao.r', 'tempoAcesso']]
df['quantidade'] = 0
print(df.groupby('avaliacao.r')['tempoAcesso'].describe())

             count        mean         std  min     25%    50%     75%    max
avaliacao.r                                                                  
n/ avaliado  234.0  239.294872  117.048514  1.0  155.75  236.0  312.25  629.0
negativa     500.0  247.808000  114.611705  4.0  167.75  247.5  333.25  549.0
positiva     247.0  253.732794  108.359841  7.0  185.50  252.0  309.00  562.0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


Podemos notar que os usuários que tiveram uma navegação positiva segunda a avaliação costumam dispender um tempo maior utilizando o aplicativo. O que pode ser comprovado pela média e por todos os quartis. Isso pode significar também que os usuários que avaliaram negativamente o aplicativo tenham desistido da navegação antes de terem realizado a ação que originalmente desejavam. 

# **Análise 16:** erro, tempoAcesso

Novamente buscamos as estatísticas de tempo de acesso, dessa vez em conjunto com a coluna erro. Assim podemos perceber se um erro ocasiona que o usuário saia do aplicativo, ou se um erro ocorre logo no início do acesso no aplicativo, o que ocasionaria uma média de tempo de acesso menor.

In [None]:
dados_avaliacoes
df = dados_avaliacoes[['erro', 'tempoAcesso']]
df['quantidade'] = 0
print(df.groupby('erro')['tempoAcesso'].describe())

                                                    count        mean  \
erro                                                                    
"CHAVE PIX INCORRETA"                                50.0  241.060000   
"CLIENTE NAO CADASTRADO"                             60.0  251.416667   
"CPF -CNPJ CLIENTE NAO CADASTRADO"                   72.0  254.750000   
"DESCULPE TIVEMOS UM PROBLEMA E NAO CONSEGUIMOS...  127.0  239.779528   
"ERRO AO EXECUTAR SERVICO: REQUESTCREDITSERVICE"     55.0  256.509091   
"ERRO NA VALIDACAO DE DADOS BASICOS"                 60.0  224.400000   
"ERRO NA VALIDACAO DE DADOS COMPLEMENTARES"          63.0  235.031746   
"INTERNAL SERVER ERROR"                              67.0  234.701493   
"NAO ENCONTROU DADOS PARA A SELECAO"                136.0  250.977941   
"NO MOMENTO ESTE SERIVCO ESTA INDISPONIVEL. POR...  196.0  254.739796   
"OPS! NÃO FOI POSSIVEL CONSULTAR O SALDO. TENTE...   71.0  261.718310   
"SENHA INCORRETA"                                  

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


A estatística da média do tempo de uso para cada erro é semelhante e não nos informa nada. Entretanto um dado muito relevante é o tempo mínimo de uso em cada erro. Alguns erros tem um tempo mínimo muito baixo, como "NO MOMENTO ESTE SERIVCO ESTA INDISPONIVEL...", que possui um tempo mínimo de 1 segundo. Outros erros possuem um tempo mínimo relativamente alto, como o ""ERRO AO EXECUTAR SERVICO: REQUESTCREDITSERVICE", que possui 65 segundos de tempo mínimo, o que indica que esse erro  ocorre sempre no meio da navegação do usuário e não no início. 

# **Análise 17:** páginaSaida, tempoAcesso

Com essa análise buscamos entender as estatísticas de tempo de acesso acossiada a pagina de saida. Se uma página possuir uma média maior, isso pode ser um indicativo de que a navegação não está muito intuitivam, se a média foi muito baixa, pode indicar que a navegação está sendo interrompida por um erro logo no início do uso.

In [None]:
dados_avaliacoes
df = dados_avaliacoes[['paginaSaida', 'tempoAcesso']]
df['quantidade'] = 0
print(df.groupby('paginaSaida')['tempoAcesso'].describe())

             count        mean         std  min     25%    50%     75%    max
paginaSaida                                                                  
0.0          122.0  254.172131  111.736163  4.0  180.50  255.5  329.00  549.0
1.0          247.0  252.910931  118.272835  7.0  171.00  248.0  338.00  629.0
2.0          240.0  249.962500  113.703583  5.0  172.50  240.5  316.50  535.0
3.0          252.0  241.916667  114.720434  7.0  158.25  241.5  316.00  563.0
4.0          120.0  234.491667  103.447709  1.0  162.75  234.5  294.25  469.0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


O que podemos notar na avaliação é uma pequena disparidade estatística da pagina de saída 4, que apesar de possuir um tempo de acesso médio similar as outras páginas, possui um tempo mínimo de 1 segundo, um terceiro quartil relativamente menor do que as outras e um tempo máximo de acesso também menor. Isso pode indicar que a navegação para esse página está sendo interrompida por alguma razão, o que explica o tempo mínimo de 1 segundo. 