# Análise de reclamações
Buscamos compreender quais são as empresas mais odiadas

Autor: Gabriel Bhering

In [1]:
import glob
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os

Os dados são provenientes do [kaggle](https://www.kaggle.com/gerosa/procon), e um [script](https://gist.github.com/bhering/d21097f5b125d65fd8c422d81695d7f7) foi rodado para higieniza-los. O que o script faz é remover algumas incoerencias (como traços no campo de CEP), e apagar campos sem dados que estavam preenchidos com `NULL` ou `Nao se aplica`. 

Abaixo estão algumas configurações para otimizar a leitura dos arquivos.

In [2]:
dtypes={
    'AnoCalendario': 'int',
    'DataArquivamento': 'str',
    'DataAbertura': 'str',
    'CodigoRegiao': 'int',
    'Regiao': 'str',
    'UF': 'str',
    'strRazaoSocial': 'str',
    'strNomeFantasia': 'str',
    'Tipo': 'int',
    'NumeroCNPJ': 'str',
    'RadicalCNPJ': 'str',
    'RazaoSocialRFB': 'str',
    'NomeFantasiaRFB': 'str',
    'CNAEPrincipal': 'str',
    'DescCNAEPrincipal': 'str',
    'Atendida': 'str',
    'CodigoAssunto': 'int',
    'DescricaoAssunto': 'str',
    'CodigoProblema': 'str',
    'DescricaoProblema': 'str',
    'SexoConsumidor': 'str',
    'FaixaEtariaConsumidor': 'str',
    'CEPConsumidor': 'str',
}
parse_dates=['DataArquivamento', 'DataAbertura']

Todos os .csv da pasta são lidos e compilados em um único dataframe `df`...

In [3]:
dataset_folder='./datasets/costumer_complaints'
all_files=glob.glob(os.path.join(dataset_folder,"*.csv"))
df=pd.concat((pd.read_csv(f, dtype=dtypes, parse_dates=parse_dates) for f in all_files))

In [12]:
df[['AnoCalendario', 'DataArquivamento', 'DataAbertura', 'Regiao', 'UF', 'strNomeFantasia', 'Atendida', 'DescricaoAssunto', 'DescricaoProblema', 'SexoConsumidor', 'FaixaEtariaConsumidor', 'CEPConsumidor']]

Unnamed: 0,AnoCalendario,DataArquivamento,DataAbertura,Regiao,UF,strNomeFantasia,Atendida,DescricaoAssunto,DescricaoProblema,SexoConsumidor,FaixaEtariaConsumidor,CEPConsumidor
0,2012,2012-07-13 17:37:19,2009-09-17 10:02:24,Sudeste,ES,SAMSUNG,N,"Telefone ( Convencional, Celular, Interfone, E...","Garantia (Abrangência, cobertura, etc.)",M,entre 31 a 40 anos,29115360
1,2012,2012-12-10 09:05:09,2009-09-21 09:01:49,Centro-oeste,GO,AMAZON PC,S,Microcomputador / Produtos de Informática,"Garantia (Abrangência, cobertura, etc.)",M,entre 21 a 30 anos,75911000
2,2012,2012-07-17 15:25:26,2009-09-22 09:49:56,Sudeste,ES,AON AFFINITY DO BRASIL,N,Seguro,Não pagamento de indenização (seguros em geral),M,entre 41 a 50 anos,29045060
3,2012,2012-07-17 14:47:52,2009-10-23 15:58:49,Sudeste,ES,BOM PRECO,N,Microcomputador / Produtos de Informática,"Garantia (Abrangência, cobertura, etc.)",F,entre 41 a 50 anos,29055280
4,2012,2012-12-05 13:50:18,2009-05-15 12:33:24,Centro-oeste,DF,SUDAMERIS,N,Financeira,Cobrança indevida.,F,entre 51 a 60 anos,70238110
5,2012,2012-10-31 10:23:32,2010-02-11 16:35:27,Centro-oeste,GO,,S,Empresa de Cobrança,Cobrança indevida.,M,entre 41 a 50 anos,
6,2012,2012-10-09 14:47:31,2010-03-08 12:25:24,Nordeste,CE,,S,"Telefone ( Convencional, Celular, Interfone, E...",Falta de peca de reposição,M,entre 31 a 40 anos,62960000
7,2012,2012-09-14 14:33:24,2005-08-11 10:16:23,Centro-oeste,GO,SIEMENS CELULARES,N,"Telefone ( Convencional, Celular, Interfone, E...",Falta de peca de reposição,M,entre 21 a 30 anos,75250000
8,2012,2012-09-24 14:39:49,2006-11-07 09:07:41,Centro-oeste,GO,LG,S,Televisão / Vídeo Cassete / Filmadora / Video-...,"Garantia (Abrangência, cobertura, etc.)",M,entre 51 a 60 anos,75240000
9,2012,2012-04-13 16:39:42,2010-02-18 16:27:20,Sudeste,MG,DAKO / GE,S,Fogão e Microondas,Produto com vício,F,Nao Informada,


### Como descrever o quão detestada uma empresa é?
Poderiamos simplesmente analisar a quantidade de reclamações por empresa, embora já de cara isto talvez não seja a melhor forma.

In [10]:
df['strNomeFantasia'].value_counts(normalize=True)

OI                                                    0.017773
SKY                                                   0.014137
CLARO                                                 0.013978
OI FIXO                                               0.011000
SAMSUNG                                               0.009211
VIVO                                                  0.008413
RICARDO ELETRO                                        0.008254
MOTOROLA                                              0.007400
TIM CELULAR                                           0.006362
CCE                                                   0.005699
BANCO BMG                                             0.005353
CASAS BAHIA                                           0.004928
VIVO/TELEFÔNICA                                       0.004912
TELEMAR (OI FIXO E MÓVEL, OI PAGGO, VELOX, OI NET)    0.004404
MAGAZINE LUIZA                                        0.004333
LOJAS INSINUANTE                                      0