# Análise descritiva base de dados PROCON BR

O objetivo deste relátorio é treinar o desenvolvimento de queries em POSTGRESQL bem como praticar alguns conceitos de normalização e correção de dados em tabelas. Para isso será realizada uma análise descritiva dos dados contidos nas bases do 
Sistema Nacional de Informações de Defesa do Consumidor (SINDEC- Procons), disponível em: 
https://dados.mj.gov.br/dataset/cadastro-nacional-de-reclamacoes-fundamentadas-procons-sindec

Essa base de dados consiste de Reclamações fundamentadas dos consumidores que não conseguiram
resolver seus problemas por caminhos mais simples,e então necessitam realizar uma audiência para tentativa 
de resolução, o que pode acontecer tanto pela complexidade da demanda, quanto pelo tipo de postura
adotado pelo fornecedor na resolução do conflito.

Para concluir o objetivo deste relatório, primeiramente é necessario realizar a consolidação dos dados,
uma vez que eles são disponibilizados em arquivos anuais. Foi determinado que os dados a serem analisados correspondem 
ao periodo entre os anos de 2017 e 2021.
Posteriormente será feita uma avaliação com o intuito de identificar possíveis normalizações ou otimizações a serem feitas nas
tabelas. Finalmente as tabelas organizadas serão copiadas para um banco POSTGRESQL aonde serão feitas as queries
para investigarmos os dados.

Trabalho desenvolvido durante o curso LM Tech Data Talents - ministrado pela escola ADA em parceria com a Leroy Merlin por :

Rafael Ribeiro Lima - https://www.linkedin.com/in/rafael-ribeiro-de-lima/

Kelvin Pichinini - https://www.linkedin.com/in/kelvinpichinini/



    
    

### CONSOLIDANDO OS ARQUIVOS ANUAIS

In [2]:
import csv
with open('cnrf2021.csv','r',encoding="utf-8-sig") as file:
    base_consolidada = list(csv.reader(file, delimiter=';'))
    for year in range(2017,2021):            
        with open(f'CNRF{year}.csv','r',encoding="utf-8-sig") as file:
            base = list(csv.reader(file, delimiter=';'))
            if(base[0] == base_consolidada[0]):
                base = base[1:]
            base_consolidada += base
    with open('base_consolidada.csv','w',encoding="utf-8-sig") as final_file:
        writer = csv.writer(final_file, delimiter=';', lineterminator='\n')
        writer.writerows(base_consolidada)

### VERIFICANDO ESTRUTURA DOS DADOS E POSSIVEIS NORMALIZAÇÕES

In [3]:
import pandas as pd
import numpy as np
df = pd.read_csv('base_consolidada.csv',
                 sep=";",
                 encoding="utf-8-sig",
                 on_bad_lines='skip',
                 parse_dates = ['DataArquivamento','DataAbertura'],
                 dtype = {
                     'NumeroCNPJ':str,
                     'RadicalCNPJ':str,
                     'CNAEPrincipal':str,
                     'CodigoAssunto':str,
                     'CodigoProblema':str,
                 })
df.head()

Unnamed: 0,AnoCalendario,DataArquivamento,DataAbertura,CodigoRegiao,Regiao,UF,strRazaoSocial,strNomeFantasia,Tipo,NumeroCNPJ,...,CNAEPrincipal,DescCNAEPrincipal,Atendida,CodigoAssunto,DescricaoAssunto,CodigoProblema,DescricaoProblema,SexoConsumidor,FaixaEtariaConsumidor,CEPConsumidor
0,2021,2021-03-03 10:19:00,2021-01-19 12:00:34,1,Norte,PA,MULTIMARCAS ADMINISTRADORA DE CONSÓRCIOS LTDA,MULTIMARCAS CONSÓRCIOS,1,4124922000161,...,6493000.0,ADMINISTRAÇÃO DE CONSÓRCIOS PARA AQUISIÇÃO DE ...,N,57,"Consórcio de Automóveis ou Automotores, Utilit...",1307.0,Desistência de consorcio,M,entre 21 a 30 anos,68000001.0
1,2021,2021-04-07 10:55:17,2021-02-19 09:33:43,1,Norte,PA,A SARAIVA SOUZA - ME,MERITO CURSOS,1,21364925000191,...,,,N,236,Cursos Livres Outros,5369.0,Cobrança indevida/abusiva,F,entre 31 a 40 anos,68143000.0
2,2021,2021-03-31 09:29:57,2021-02-22 10:48:12,1,Norte,PA,AZUL LINHAS AÉREAS BRASILEIRAS S.A,AZUL LINHAS AÉREAS,1,9296295000160,...,5111100.0,TRANSPORTE AÉREO DE PASSAGEIROS REGULAR,N,276,Agências e Operadoras de viagens (pacotes turí...,5157.0,Recusa injustificada em prestar serviço,F,entre 31 a 40 anos,68040020.0
3,2021,2021-08-03 10:42:54,2021-06-16 11:10:37,1,Norte,PA,AZUL LINHAS AÉREAS BRASILEIRAS S.A,AZUL LINHAS AÉREAS,1,9296295000160,...,5111100.0,TRANSPORTE AÉREO DE PASSAGEIROS REGULAR,N,276,Agências e Operadoras de viagens (pacotes turí...,5760.0,Contrato - Rescisão/alteração unilateral,F,entre 21 a 30 anos,68020620.0
4,2021,2021-09-21 09:22:33,2021-07-16 12:38:52,1,Norte,PA,MOTOROLA INDUSTRIAL LTDA,MOTOROLA,1,1472720000112,...,4652400.0,COMÉRCIO ATACADISTA DE COMPONENTES ELETRÔNICOS...,N,101,"Telefone ( Convencional, Celular, Interfone, E...",,,F,entre 31 a 40 anos,


A base fornecida possui 22 colunas e abaixo segue um resumo do que cada uma representa:
    
    -Data/Período em que reclamação foi aberta e arquivada:
        "AnoCalendario", "DataArquivamento" e "DataAbertura"
    -Localização da ocorrência:
        "CodigoRegiao", "Regiao" e "UF"
    -Dados do fornecedor:
        "strRazaoSocial", "strNomeFantasia","Tipo", "NúmeroCNPJ","RadicalCNPJ", "CNAEPrincipal","DescCNAEPrincipal"
    -Informações sobre o problema ou reclamação:
        "Atendida", "CodigoAssunto", "DescricaoAssunto", "CodigoProblema", "DescricaoProblema"
    -Informações sobre o consumidor:
        "Sexo", "FaixaEtariaConsumidor", "CEPConsumidor"
        
Analisando essa estrutura é possível verificar que não existem colunas com entradas multivaloradas, portanto nenhuma correção
precisa ser feita neste ponto. No entanto, existem colunas em que os valores se repetem muitas vezes e podem ser separados
em outras tabelas. Todas as colunas classificadas acima como "DADOS DO FORNECEDOR" serão substituidas por uma única coluna
chamada de  "CodigoFornecedor", as informações dessas colunas serão armazenadas em outra tabela onde não haverá duplicidade
de registros. Outras duas tabelas também serão criadas para eliminar a duplicidade de registros na tabela principal de reclamações,
serão as tabelas "Assuntos" e "Problemas".

        

As colunas "CodigoRegiao", "Tipo" e "CEPConsumidor" apresentam dados que não serão utilizados em nossa analise e por isso serão removidas.


In [4]:
df.drop(columns=["CodigoRegiao", "Tipo", "CEPConsumidor"], inplace=True)

### Limpando as tabelas

Verificando valores nulos ou faltantes

In [5]:
df.isnull().sum()

AnoCalendario                0
DataArquivamento            25
DataAbertura                12
Regiao                       0
UF                           0
strRazaoSocial               3
strNomeFantasia          20121
NumeroCNPJ                6259
RadicalCNPJ               6496
RazaoSocialRFB           15608
NomeFantasiaRFB          66741
CNAEPrincipal            15608
DescCNAEPrincipal        16172
Atendida                     0
CodigoAssunto               14
DescricaoAssunto            14
CodigoProblema           65440
DescricaoProblema        65440
SexoConsumidor              37
FaixaEtariaConsumidor        0
dtype: int64

#### Corrigindo strNomeFantasia nulo

A solução escolhida aqui foi copiar o valor do campo strRazaoSocial para o campo strNomeFantasia nas linhas que não possuirem um nome fantasia cadastrado

In [6]:
df['strNomeFantasia'].fillna(df['strRazaoSocial'], inplace=True)
df[df['strNomeFantasia'].isnull()]

Unnamed: 0,AnoCalendario,DataArquivamento,DataAbertura,Regiao,UF,strRazaoSocial,strNomeFantasia,NumeroCNPJ,RadicalCNPJ,RazaoSocialRFB,NomeFantasiaRFB,CNAEPrincipal,DescCNAEPrincipal,Atendida,CodigoAssunto,DescricaoAssunto,CodigoProblema,DescricaoProblema,SexoConsumidor,FaixaEtariaConsumidor
9973,2017,2018-05-03 14:03:57,2018-03-16 10:35:54,Nordeste,RN,,,,,,,,,N,145,Motos,,,M,entre 21 a 30 anos
54758,2018,2018-11-28 11:41:57,2018-10-22 12:22:11,Nordeste,RN,,,,,,,,,S,120,Móveis Para Cozinha,,,F,entre 41 a 50 anos
65886,2018,2018-05-03 14:03:57,2018-03-16 10:35:54,Nordeste,RN,,,,,,,,,N,145,Motos,,,M,entre 21 a 30 anos


Esstes 3 casos que sobraram estão muito mal registrados, não possuem informação nenhum sobre a empresa ou sobre o problema, e, por isso serão excluidos

In [7]:
df.dropna(how='any', inplace=True, subset= "strRazaoSocial")


#### Corrigindo nº de CNPJ vazio 

Copiando os NumeroCNPJ e RadicalCNPJ de outros registros que tenham exatamente o mesmo valor de strRazaoSocial

In [8]:
s = df.groupby("strRazaoSocial")["NumeroCNPJ"].transform(lambda x: next(iter(x.mode()), np.nan))
df['NumeroCNPJ'] = df['NumeroCNPJ'].fillna(s)

s = df.groupby("strRazaoSocial")["RadicalCNPJ"].transform(lambda x: next(iter(x.mode()), np.nan))
df['RadicalCNPJ'] = df['RadicalCNPJ'].fillna(s)

Copiando os NumeroCNPJ e RadicalCNPJ de outros registros que tenham exatamente o mesmo valor de strNomeFantasia

In [9]:
s = df.groupby("strNomeFantasia")["NumeroCNPJ"].transform(lambda x: next(iter(x.mode()), np.nan))
df['NumeroCNPJ'] = df['NumeroCNPJ'].fillna(s)

s = df.groupby("strNomeFantasia")["RadicalCNPJ"].transform(lambda x: next(iter(x.mode()), np.nan))
df['RadicalCNPJ'] = df['RadicalCNPJ'].fillna(s)

In [10]:
df['NumeroCNPJ'].isnull().sum()

3606

Restaram 3606 registros onde não foi possível identificar um número de cnpj.

#### Corrigindo CNAEPrincipal e DescCNAEPrincipal vazios
Copiando os CNAEPrincial e DescCNAEPrincipal de outros registros que tenham exatamente o mesmo valor de NumeroCNPJ

In [11]:
s = df.groupby("NumeroCNPJ")["CNAEPrincipal"].transform(lambda x: next(iter(x.mode()), np.nan))
df['CNAEPrincipal'] = df['CNAEPrincipal'].fillna(s)

s = df.groupby("NumeroCNPJ")["DescCNAEPrincipal"].transform(lambda x: next(iter(x.mode()), np.nan))
df['DescCNAEPrincipal'] = df['DescCNAEPrincipal'].fillna(s)


In [12]:
df['CNAEPrincipal'].isnull().sum()


13698

In [13]:
(df['CNAEPrincipal'].isnull() & df['NumeroCNPJ'].notnull()).sum()

10118

Restaram 13698 registros sem informação do CNAE da empresa, destes 10118 possuem um número de CNPJ cadastrado. Para trabalhos futuros recomenda-se alguma técnica de webscrapping ou consultas de api's para encontrar o CNAE de cada empresa buscando pelo seu CNPJ.

#### CodigoAssunto nulo ou vazio

Analisando as 14 entradas abaixo não foi possivel identificar o motivo de não ter sido cadastrado um codigo de assunto. Uma hipotese seria por ser um assunto ainda não categorizado uma vez que o campo DescricaoProblema de todos estes está como "Não se aplica" ou  por ser uma reclamação infudamentada.

In [14]:
df[df['CodigoAssunto'].isnull()]

Unnamed: 0,AnoCalendario,DataArquivamento,DataAbertura,Regiao,UF,strRazaoSocial,strNomeFantasia,NumeroCNPJ,RadicalCNPJ,RazaoSocialRFB,NomeFantasiaRFB,CNAEPrincipal,DescCNAEPrincipal,Atendida,CodigoAssunto,DescricaoAssunto,CodigoProblema,DescricaoProblema,SexoConsumidor,FaixaEtariaConsumidor
90849,2019,2019-09-30 10:27:21,2019-04-24 23:00:16,Sudeste,SP,SKY SERVIÇOS DE BANDA LARGA LTDA,SKY,497373000110,497373,GALAXY BRASIL LTDA.,DIRECTV,6143400,OPERADORAS DE TELEVISÃO POR ASSINATURA POR SAT...,S,,,0,Não se aplica,F,entre 51 a 60 anos
91270,2019,2019-09-30 09:40:21,2019-04-11 23:00:24,Sudeste,SP,CLARO S/A,CLARO / NET / EMBRATEL / CLAROTV,40432544000147,40432544,CLARO S.A.,CLARO,6120501,TELEFONIA MÓVEL CELULAR,S,,,0,Não se aplica,F,entre 21 a 30 anos
92022,2019,2019-09-30 09:47:49,2019-04-16 23:00:12,Sudeste,SP,CLARO S/A,CLARO / NET / EMBRATEL / CLAROTV,40432544000147,40432544,CLARO S.A.,CLARO,6120501,TELEFONIA MÓVEL CELULAR,N,,,0,Não se aplica,M,entre 41 a 50 anos
95169,2019,2019-09-30 09:38:06,2019-04-04 23:00:13,Sudeste,SP,CLARO S/A,CLARO / NET / EMBRATEL / CLAROTV,40432544000147,40432544,CLARO S.A.,CLARO,6120501,TELEFONIA MÓVEL CELULAR,S,,,0,Não se aplica,F,entre 31 a 40 anos
95429,2019,2019-09-30 10:48:13,2019-04-30 23:00:23,Sudeste,SP,CLARO S/A,CLARO / NET / EMBRATEL / CLAROTV,40432544000147,40432544,CLARO S.A.,CLARO,6120501,TELEFONIA MÓVEL CELULAR,N,,,0,Não se aplica,M,entre 61 a 70 anos
96287,2019,2019-09-26 16:12:14,2019-04-25 23:00:16,Sudeste,SP,SKY BRASIL SERVIÇOS LTDA,SKY,72820822000120,72820822,SKY BRASIL SERVICOS LTDA,SKY,6143400,OPERADORAS DE TELEVISÃO POR ASSINATURA POR SAT...,N,,,0,Não se aplica,F,entre 31 a 40 anos
97280,2019,2019-09-30 09:47:49,2019-04-18 23:00:13,Sudeste,SP,GETNINJAS ATIVIDADES DE INTERNET LTDA,GETNINJAS.COM.BR,14127813000151,14127813,GETNINJAS ATIVIDADES DE INTERNET LTDA.,,6319400,"PORTAIS, PROVEDORES DE CONTEÚDO E OUTROS SERVI...",N,,,0,Não se aplica,M,entre 31 a 40 anos
97547,2019,2019-09-30 10:25:43,2019-05-17 23:00:25,Sudeste,SP,CLARO S/A,CLARO / NET / EMBRATEL / CLAROTV,40432544000147,40432544,CLARO S.A.,CLARO,6120501,TELEFONIA MÓVEL CELULAR,N,,,0,Não se aplica,M,entre 61 a 70 anos
99188,2019,2019-09-30 10:30:43,2019-04-26 23:00:15,Sudeste,SP,SKY SERVIÇOS DE BANDA LARGA LTDA,SKY,497373000110,497373,GALAXY BRASIL LTDA.,DIRECTV,6143400,OPERADORAS DE TELEVISÃO POR ASSINATURA POR SAT...,S,,,0,Não se aplica,F,entre 31 a 40 anos
99189,2019,2019-09-30 09:44:36,2019-04-15 23:00:13,Sudeste,SP,TELEFONICA BRASIL S/A,VIVO/TELEFÔNICA,2558157000162,2558157,TELEFONICA BRASIL S.A.,,6110801,SERVIÇOS DE TELEFONIA FIXA COMUTADA - STFC,N,,,0,Não se aplica,F,entre 21 a 30 anos


#### CodigoProblema nulo ou vazio

In [15]:
(df['CodigoProblema'].isnull() & df['DescricaoProblema'].isnull()).sum()

65437

dos 65.440 valores vazios para codigo do problema 65437 também não possuem uma descrição para o problema, dessa forma fica impossível fazer qualquer correção sem informações adicionais.

#### Completando numeros de cnpj com 0's no começo da string

In [16]:
df["NumeroCNPJ"] = df["NumeroCNPJ"].apply(lambda x: str(x).zfill(14))
df.head(2)


Unnamed: 0,AnoCalendario,DataArquivamento,DataAbertura,Regiao,UF,strRazaoSocial,strNomeFantasia,NumeroCNPJ,RadicalCNPJ,RazaoSocialRFB,NomeFantasiaRFB,CNAEPrincipal,DescCNAEPrincipal,Atendida,CodigoAssunto,DescricaoAssunto,CodigoProblema,DescricaoProblema,SexoConsumidor,FaixaEtariaConsumidor
0,2021,2021-03-03 10:19:00,2021-01-19 12:00:34,Norte,PA,MULTIMARCAS ADMINISTRADORA DE CONSÓRCIOS LTDA,MULTIMARCAS CONSÓRCIOS,4124922000161,4124922,MULTIMARCAS ADMINISTRADORA DE CONSORCIOS LTDA,MULTIMARCAS CONSORCIOS,6493000.0,ADMINISTRAÇÃO DE CONSÓRCIOS PARA AQUISIÇÃO DE ...,N,57,"Consórcio de Automóveis ou Automotores, Utilit...",1307,Desistência de consorcio,M,entre 21 a 30 anos
1,2021,2021-04-07 10:55:17,2021-02-19 09:33:43,Norte,PA,A SARAIVA SOUZA - ME,MERITO CURSOS,21364925000191,21364925,,,,,N,236,Cursos Livres Outros,5369,Cobrança indevida/abusiva,F,entre 31 a 40 anos


In [17]:
df.isnull().sum()

AnoCalendario                0
DataArquivamento            25
DataAbertura                12
Regiao                       0
UF                           0
strRazaoSocial               0
strNomeFantasia              0
NumeroCNPJ                   0
RadicalCNPJ               3815
RazaoSocialRFB           15605
NomeFantasiaRFB          66738
CNAEPrincipal            13698
DescCNAEPrincipal        14275
Atendida                     0
CodigoAssunto               14
DescricaoAssunto            14
CodigoProblema           65437
DescricaoProblema        65437
SexoConsumidor              37
FaixaEtariaConsumidor        0
dtype: int64

### EMANCIPANDO TABELA FORNECEDORES

In [18]:
# Copiando valores para nova tabela
fornecedores = df[["strRazaoSocial", "strNomeFantasia", "NumeroCNPJ","RadicalCNPJ","CNAEPrincipal","DescCNAEPrincipal","RazaoSocialRFB","NomeFantasiaRFB"]].copy()
#Removendo valores duplicados
fornecedores.drop_duplicates(subset=['NumeroCNPJ'], inplace=True)
#Adicionando um codigo unico para cada fornecedor
fornecedores['CodigoFornecedor'] = range(1, len(fornecedores) + 1)
#Adicionando cod de fornecedor na tabela principal
df = df.merge(fornecedores[["NumeroCNPJ", "CodigoFornecedor"]], on = 'NumeroCNPJ', how = "left")
#Excluindo colunas com infos do fonercedor na tabela principal
df.drop(columns=["strRazaoSocial", "strNomeFantasia", "NumeroCNPJ","RadicalCNPJ","CNAEPrincipal","DescCNAEPrincipal","RazaoSocialRFB","NomeFantasiaRFB"], inplace=True)


### EMANCIPANDO TABELA ASSUNTOS

In [19]:
# Copiando valores para nova tabela
assuntos = df[["CodigoAssunto", "DescricaoAssunto"]].copy()
#Removendo valores duplicados
assuntos.drop_duplicates(subset=['CodigoAssunto'], inplace=True)
#Excluindo coluna descrição assunto na tabela principal
df.drop(columns=['DescricaoAssunto'], inplace=True)

### EMANCIPANDO TABELA PROBLEMAS

In [20]:
# Copiando valores para nova tabela
problemas = df[["CodigoProblema", "DescricaoProblema"]].copy()
#Removendo valores duplicados
problemas.drop_duplicates(subset=['CodigoProblema'], inplace=True)
#Excluindo coluna descrição assunto na tabela principal
df.drop(columns=['DescricaoProblema'], inplace=True)

### RESULTADO TABELAS

In [21]:
df.head(2)

Unnamed: 0,AnoCalendario,DataArquivamento,DataAbertura,Regiao,UF,Atendida,CodigoAssunto,CodigoProblema,SexoConsumidor,FaixaEtariaConsumidor,CodigoFornecedor
0,2021,2021-03-03 10:19:00,2021-01-19 12:00:34,Norte,PA,N,57,1307,M,entre 21 a 30 anos,1
1,2021,2021-04-07 10:55:17,2021-02-19 09:33:43,Norte,PA,N,236,5369,F,entre 31 a 40 anos,2


In [22]:
fornecedores.head(1)

Unnamed: 0,strRazaoSocial,strNomeFantasia,NumeroCNPJ,RadicalCNPJ,CNAEPrincipal,DescCNAEPrincipal,RazaoSocialRFB,NomeFantasiaRFB,CodigoFornecedor
0,MULTIMARCAS ADMINISTRADORA DE CONSÓRCIOS LTDA,MULTIMARCAS CONSÓRCIOS,4124922000161,4124922,6493000,ADMINISTRAÇÃO DE CONSÓRCIOS PARA AQUISIÇÃO DE ...,MULTIMARCAS ADMINISTRADORA DE CONSORCIOS LTDA,MULTIMARCAS CONSORCIOS,1


In [23]:
problemas.head(2)

Unnamed: 0,CodigoProblema,DescricaoProblema
0,1307,Desistência de consorcio
1,5369,Cobrança indevida/abusiva


In [24]:
assuntos.head(2)

Unnamed: 0,CodigoAssunto,DescricaoAssunto
0,57,"Consórcio de Automóveis ou Automotores, Utilit..."
1,236,Cursos Livres Outros


### CRIANDO OS BANCOS POSTGRESQL

In [25]:
from sqlalchemy import create_engine
import pandas as pd 

engine = create_engine('postgresql+psycopg2://postgres:kelvin@localhost/postgres')
with engine.connect() as conn:
    conn.execute('''DROP TABLE IF EXISTS reclamacoes; ''')
    conn.execute('''DROP TABLE IF EXISTS fornecedores; ''')
    conn.execute('''DROP TABLE IF EXISTS assuntos; ''')
    conn.execute('''DROP TABLE IF EXISTS problemas; ''')
    df.to_sql('reclamacoes', engine, index = False)
    fornecedores.to_sql('fornecedores', engine, index = False)
    assuntos.to_sql('assuntos', engine, index = False)
    problemas.to_sql('problemas', engine, index = False)
engine.dispose()

### Salvando tabelas em csv

In [26]:
df.to_csv('reclamacoes.csv', sep=';', encoding='"utf-8-sig"')
fornecedores.to_csv('fornecedores.csv', sep=';', encoding='"utf-8-sig"')
assuntos.to_csv('assuntos.csv', sep=';', encoding='"utf-8-sig"')
problemas.to_csv('problemas.csv', sep=';', encoding='"utf-8-sig"')

### Fazendo as queries - Tabela Fornecedores

In [27]:
from sqlalchemy import text
with engine.connect() as conn:
    # Query quantidade de registros
    query = text('''SELECT COUNT(*) FROM fornecedores;''')
    df = pd.read_sql_query(query, con = conn)
    print(f'Contagem de registros:', df.values[0])
    
    # Query nomes colunas e tipos
    query = text('''SELECT column_name, data_type FROM information_schema.columns WHERE table_name = 'fornecedores';''')
    df = pd.read_sql_query(query, con = conn)
    print('\nNOME DAS COLUNAS E TIPOS :')
    print(df)
    
    # Primeiro 5 registros
    query = text('''SELECT * FROM fornecedores LIMIT 5''')
    df = pd.read_sql_query(query, con = conn)
engine.dispose()

Contagem de registros: [18397]

NOME DAS COLUNAS E TIPOS :
         column_name data_type
0   CodigoFornecedor    bigint
1    strNomeFantasia      text
2         NumeroCNPJ      text
3        RadicalCNPJ      text
4     strRazaoSocial      text
5  DescCNAEPrincipal      text
6     RazaoSocialRFB      text
7    NomeFantasiaRFB      text
8      CNAEPrincipal      text


Primeiros 5 registros:

In [546]:
df.head()

Unnamed: 0,strRazaoSocial,strNomeFantasia,NumeroCNPJ,RadicalCNPJ,CNAEPrincipal,DescCNAEPrincipal,RazaoSocialRFB,NomeFantasiaRFB,CodigoFornecedor
0,MULTIMARCAS ADMINISTRADORA DE CONSÓRCIOS LTDA,MULTIMARCAS CONSÓRCIOS,4124922000161,4124922,6493000.0,ADMINISTRAÇÃO DE CONSÓRCIOS PARA AQUISIÇÃO DE ...,MULTIMARCAS ADMINISTRADORA DE CONSORCIOS LTDA,MULTIMARCAS CONSORCIOS,1
1,A SARAIVA SOUZA - ME,MERITO CURSOS,21364925000191,21364925,,,,,2
2,AZUL LINHAS AÉREAS BRASILEIRAS S.A,AZUL LINHAS AÉREAS,9296295000160,9296295,5111100.0,TRANSPORTE AÉREO DE PASSAGEIROS REGULAR,AZUL LINHAS AEREAS BRASILEIRAS S.A.,,3
3,MOTOROLA INDUSTRIAL LTDA,MOTOROLA,1472720000112,1472720,4652400.0,COMÉRCIO ATACADISTA DE COMPONENTES ELETRÔNICOS...,MOTOROLA MOBILITY COMERCIO DE PRODUTOS ELETRON...,,4
4,MM TURISMO E VIAGENS S.A,MAXMILHAS,16988607000161,16988607,7490104.0,ATIVIDADES DE INTERMEDIAÇÃO E AGENCIAMENTO DE ...,MAX MILHAS LTDA - ME,MAX MILHAS,5


### Fazendo as queries - Tabela Assuntos

In [540]:
with engine.connect() as conn:
    # Query quantidade de registros
    query = text('''SELECT COUNT(*) FROM assuntos;''')
    df = pd.read_sql_query(query, con = conn)
    print(f'Contagem de registros:', df.values[0])
    
    # Query nomes colunas e tipos
    query = text('''SELECT column_name, data_type FROM information_schema.columns WHERE table_name = 'assuntos';''')
    df = pd.read_sql_query(query, con = conn)
    print('\nNOME DAS COLUNAS E TIPOS :')
    print(df)
    
    # Primeiro 5 registros
    query = text('''SELECT * FROM assuntos LIMIT 5''')
    df = pd.read_sql_query(query, con = conn)
    print('\nPrimeiros 5 registros :')
    print(df)
engine.dispose()

Contagem de registros: [224]

NOME DAS COLUNAS E TIPOS :
        column_name data_type
0     CodigoAssunto      text
1  DescricaoAssunto      text

Primeiros 5 registros :
  CodigoAssunto                                   DescricaoAssunto
0            57  Consórcio de Automóveis ou Automotores, Utilit...
1           236                               Cursos Livres Outros
2           276  Agências e Operadoras de viagens (pacotes turí...
3           101  Telefone ( Convencional, Celular, Interfone, E...
4           156                Transporte  ( Passageiros, Cargas )


### Fazendo as queries - Tabela Problemas

In [552]:
with engine.connect() as conn:
    # Query quantidade de registros
    query = text('''SELECT COUNT(*) FROM problemas;''')
    df = pd.read_sql_query(query, con = conn)
    print(f'Contagem de registros:', df.values[0])
    
    # Query nomes colunas e tipos
    query = text('''SELECT column_name, data_type FROM information_schema.columns WHERE table_name = 'problemas';''')
    df = pd.read_sql_query(query, con = conn)
    print('\nNOME DAS COLUNAS E TIPOS :')
    print(df)
    
    # Primeiro 4 registros
    query = text('''SELECT * FROM problemas LIMIT 4''')
    df = pd.read_sql_query(query, con = conn)
    print('\nPrimeiros 4 registros :')
    print(df)
engine.dispose()

Contagem de registros: [2569]

NOME DAS COLUNAS E TIPOS :
         column_name data_type
0     CodigoProblema      text
1  DescricaoProblema      text

Primeiros 4 registros :
  CodigoProblema                         DescricaoProblema
0           1307                  Desistência de consorcio
1           5369                 Cobrança indevida/abusiva
2           5157   Recusa injustificada em prestar serviço
3           5760  Contrato - Rescisão/alteração unilateral


### Fazendo as queries - Tabela Reclamações

In [558]:
with engine.connect() as conn:
    # Query quantidade de registros
    query = text('''SELECT COUNT(*) FROM reclamacoes;''')
    df = pd.read_sql_query(query, con = conn)
    print(f'Contagem de registros:', df.values[0])
    
    # Query nomes colunas e tipos
    query = text('''SELECT column_name, data_type FROM information_schema.columns WHERE table_name = 'reclamacoes';''')
    df = pd.read_sql_query(query, con = conn)
    print('\nNOME DAS COLUNAS E TIPOS :')
    print(df)
    
    # Primeiro 4 registros
    query = text('''SELECT * FROM reclamacoes LIMIT 4''')
    df = pd.read_sql_query(query, con = conn)
engine.dispose()

Contagem de registros: [115919]

NOME DAS COLUNAS E TIPOS :
              column_name                    data_type
0           AnoCalendario                       bigint
1        DataArquivamento  timestamp without time zone
2            DataAbertura  timestamp without time zone
3        CodigoFornecedor                       bigint
4                      UF                         text
5                Atendida                         text
6           CodigoAssunto                         text
7          CodigoProblema                         text
8          SexoConsumidor                         text
9   FaixaEtariaConsumidor                         text
10                 Regiao                         text


Primeiros 4 registros:

In [557]:
df.head(4)

Unnamed: 0,AnoCalendario,DataArquivamento,DataAbertura,Regiao,UF,Atendida,CodigoAssunto,CodigoProblema,SexoConsumidor,FaixaEtariaConsumidor,CodigoFornecedor
0,2021,2021-03-03 10:19:00,2021-01-19 12:00:34,Norte,PA,N,57,1307,M,entre 21 a 30 anos,1
1,2021,2021-04-07 10:55:17,2021-02-19 09:33:43,Norte,PA,N,236,5369,F,entre 31 a 40 anos,2
2,2021,2021-03-31 09:29:57,2021-02-22 10:48:12,Norte,PA,N,276,5157,F,entre 31 a 40 anos,3
3,2021,2021-08-03 10:42:54,2021-06-16 11:10:37,Norte,PA,N,276,5760,F,entre 21 a 30 anos,3


#### Reclamacoes por faixa etária:

In [58]:
with engine.connect() as conn:
    query = text('''SELECT "FaixaEtariaConsumidor", COUNT(*),ROUND((COUNT(*) / (SUM(COUNT(*)) OVER() )) * 100) as percentual 
                    FROM reclamacoes
                    GROUP BY "FaixaEtariaConsumidor"
                    ORDER BY "FaixaEtariaConsumidor" DESC;''')
    df = pd.read_sql_query(query, con = conn)
engine.dispose()
df.head(20)

Unnamed: 0,FaixaEtariaConsumidor,count,percentual
0,Nao Informada,9993,9.0
1,mais de 70 anos,6754,6.0
2,entre 61 a 70 anos,14472,12.0
3,entre 51 a 60 anos,17774,15.0
4,entre 41 a 50 anos,20947,18.0
5,entre 31 a 40 anos,25296,22.0
6,entre 21 a 30 anos,18343,16.0
7,até 20 anos,2340,2.0


#### Genero dos reclamantes

In [50]:
with engine.connect() as conn:
    query = text('''
                    SELECT "SexoConsumidor" as Genero, COUNT(*) as Quantidade, ROUND((COUNT(*) / (SUM(COUNT(*)) OVER() )) * 100) as percentual
                    FROM reclamacoes r
                    GROUP BY "SexoConsumidor"
                    ORDER BY Quantidade DESC''')
    df = pd.read_sql_query(query, con = conn)
engine.dispose()
df.head(30)

Unnamed: 0,genero,quantidade,percentual
0,F,60217,52.0
1,M,54544,47.0
2,N,1121,1.0
3,,37,0.0


#### Tipo de atividade com mais reclamações

In [633]:
with engine.connect() as conn:
    query = text('''SELECT "DescCNAEPrincipal", COUNT(*) AS quantidade
                    FROM reclamacoes r
                    LEFT JOIN fornecedores f ON r."CodigoFornecedor" = f."CodigoFornecedor"
                    GROUP BY "DescCNAEPrincipal"
                    ORDER BY quantidade DESC
                    OFFSET 1
                    LIMIT 20;''')
    df = pd.read_sql_query(query, con = conn)
engine.dispose()
df.head(10)

Unnamed: 0,DescCNAEPrincipal,quantidade
0,"BANCOS MÚLTIPLOS, COM CARTEIRA COMERCIAL",10795
1,TELEFONIA MÓVEL CELULAR,7739
2,SERVIÇOS DE TELEFONIA FIXA COMUTADA - STFC,6113
3,DISTRIBUIÇÃO DE ENERGIA ELÉTRICA,4852
4,COMÉRCIO VAREJISTA ESPECIALIZADO DE ELETRODOMÉ...,4416
5,SEGUROS DE VIDA,2635
6,COMÉRCIO VAREJISTA DE MÓVEIS,2506
7,SEGUROS NÃO-VIDA,2274
8,CAIXAS ECONÔMICAS,2268
9,"SOCIEDADES DE CRÉDITO, FINANCIAMENTO E INVESTI...",2154


#### 5 estados com maior número de reclamações

In [630]:
with engine.connect() as conn:
    query = text('''SELECT "UF", COUNT(*) AS quantidade from reclamacoes GROUP BY "UF" ORDER BY quantidade DESC LIMIT 5;''')
    df = pd.read_sql_query(query, con = conn)
engine.dispose()
df.head()

Unnamed: 0,UF,quantidade
0,SP,40999
1,GO,17259
2,MG,8550
3,RN,8125
4,MT,7822


#### Média de reclamações por dia

In [66]:
with engine.connect() as conn:
    query = text('''SELECT ROUND(AVG(count)) as Media_reclamações FROM (SELECT DATE_PART('day',"DataAbertura") as dia, COUNT(*) FROM reclamacoes GROUP BY dia ORDER BY dia DESC OFFSET 1) as contagem''')
    df = pd.read_sql_query(query, con = conn)
engine.dispose()
print("Média de reclamações por dia: ",df.values[0][0])

Média de reclamações por dia:  3739.0


#### Reclamações da Leroy Merlin

In [67]:
with engine.connect() as conn:
    query = text('''SELECT COUNT(*) FROM reclamacoes r LEFT JOIN fornecedores f ON r."CodigoFornecedor" = f."CodigoFornecedor" WHERE "strRazaoSocial" LIKE '%LEROY MERLIN%';''')
    count = pd.read_sql_query(query, con = conn)
    query = text('''SELECT * FROM reclamacoes r
                    LEFT JOIN fornecedores f ON r."CodigoFornecedor" = f."CodigoFornecedor"
                    LEFT JOIN problemas p ON r."CodigoProblema" = p."CodigoProblema"
                    LEFT JOIN assuntos a ON r."CodigoAssunto" = a."CodigoAssunto"
                    WHERE "strRazaoSocial" LIKE '%LEROY MERLIN%';''')
    df = pd.read_sql_query(query, con = conn)
engine.dispose()
print(f'Contagem de registros:', count.values[0][0])

Contagem de registros: 32


In [613]:
df.head(30)

Unnamed: 0,AnoCalendario,DataArquivamento,DataAbertura,Regiao,UF,Atendida,CodigoAssunto,CodigoProblema,SexoConsumidor,FaixaEtariaConsumidor,...,RadicalCNPJ,CNAEPrincipal,DescCNAEPrincipal,RazaoSocialRFB,NomeFantasiaRFB,CodigoFornecedor,CodigoProblema.1,DescricaoProblema,CodigoAssunto.1,DescricaoAssunto
0,2021,2021-04-21 14:12:54,2021-04-14 10:27:35,Sudeste,RJ,S,288,2676.0,M,Nao Informada,...,1438784,4744099.0,COMÉRCIO VAREJISTA DE MATERIAIS DE CONSTRUÇÃO ...,,,356,2676.0,Não entrega/demora na entrega do produto,288,Máquinas e Equipamentos
1,2021,2021-08-24 15:28:11,2020-12-29 11:26:57,Sudeste,SP,S,118,2334.0,M,entre 31 a 40 anos,...,1438784,,,,,1929,2334.0,"Garantia (Abrangência, cobertura, etc.)",118,Material de Acabamento de Construção Pronto (P...
2,2017,2017-09-15 12:05:49,2017-08-28 13:36:20,Sudeste,SP,S,87,3117.0,M,Nao Informada,...,1438784,4744099.0,COMÉRCIO VAREJISTA DE MATERIAIS DE CONSTRUÇÃO ...,,,356,3117.0,Desistência de compra (cancelamento de compra),87,"Material de Construção (areia, cimento, tijolo..."
3,2017,2017-12-13 18:14:06,2017-11-17 13:31:38,Centro-oeste,MS,S,93,2620.0,M,entre 41 a 50 anos,...,1438784,,,,,6727,2620.0,Não entrega/demora na entrega do produto,93,Fogão e Microondas
4,2017,2018-05-22 09:27:40,2018-02-09 16:10:54,Nordeste,RN,S,125,,F,entre 31 a 40 anos,...,1438784,,,,,1929,,,125,Aquecedor / Ventilador / Ar Condicionado / Cir...
5,2017,2017-11-01 11:43:09,2017-10-05 07:52:50,Centro-oeste,MS,S,118,2519.0,M,entre 61 a 70 anos,...,1438784,,,,,6727,2519.0,Produto com vício,118,Material de Acabamento de Construção Pronto (P...
6,2017,2017-12-13 08:52:37,2017-11-16 13:12:15,Centro-oeste,MS,S,93,2620.0,M,entre 41 a 50 anos,...,1438784,,,,,6727,2620.0,Não entrega/demora na entrega do produto,93,Fogão e Microondas
7,2017,2017-07-25 14:30:53,2016-02-23 13:22:53,Sudeste,MG,S,140,105.0,M,entre 31 a 40 anos,...,1438784,4744099.0,COMÉRCIO VAREJISTA DE MATERIAIS DE CONSTRUÇÃO ...,LEROY MERLIN COMPANHIA BRASILEIRA DE BRICOLAGEM,,7457,105.0,"Peso, volume e quantidade",140,Eletroeletrônico Importado
8,2017,2017-12-27 14:24:37,2017-10-11 10:29:48,Sudeste,SP,N,92,2308.0,F,entre 61 a 70 anos,...,1438784,4744099.0,COMÉRCIO VAREJISTA DE MATERIAIS DE CONSTRUÇÃO ...,LEROY MERLIN COMPANHIA BRASILEIRA DE BRICOLAGEM,,8172,2308.0,"Garantia (Abrangência, cobertura, etc.)",92,Máquina de Lavar Roupa / Louça e Secadora
9,2017,2017-01-18 14:24:12,2016-10-18 11:19:56,Sudeste,SP,N,87,2551.0,F,entre 21 a 30 anos,...,1438784,4744099.0,COMÉRCIO VAREJISTA DE MATERIAIS DE CONSTRUÇÃO ...,,,356,2551.0,Produto entregue diferente do pedido,87,"Material de Construção (areia, cimento, tijolo..."


In [68]:
with engine.connect() as conn:
    query = text('''SELECT COUNT(*) FROM reclamacoes r LEFT JOIN fornecedores f ON r."CodigoFornecedor" = f."CodigoFornecedor" WHERE "strRazaoSocial" LIKE '%LEROY MERLIN%';''')
    count = pd.read_sql_query(query, con = conn)
    query = text('''SELECT * FROM reclamacoes r
                    LEFT JOIN fornecedores f ON r."CodigoFornecedor" = f."CodigoFornecedor"
                    LEFT JOIN problemas p ON r."CodigoProblema" = p."CodigoProblema"
                    LEFT JOIN assuntos a ON r."CodigoAssunto" = a."CodigoAssunto"
                    WHERE "RadicalCNPJ" = '01438784';''')
    df = pd.read_sql_query(query, con = conn)
engine.dispose()
print(f'Contagem de registros:', count.values[0][0])

Contagem de registros: 32


#### Reclamações Leroy/ano

In [592]:
with engine.connect() as conn:
    query = text('''SELECT "AnoCalendario", COUNT(*) FROM reclamacoes r LEFT JOIN fornecedores f ON r."CodigoFornecedor" = f."CodigoFornecedor" WHERE "strRazaoSocial" LIKE '%LEROY MERLIN%' GROUP BY "AnoCalendario";''')
    df = pd.read_sql_query(query, con = conn)
engine.dispose()
df.head()

Unnamed: 0,AnoCalendario,count
0,2017,8
1,2018,9
2,2019,10
3,2020,3
4,2021,2


#### Assuntos e Problemas Reclamações Leroy

In [608]:
with engine.connect() as conn:
    query = text('''SELECT "DescricaoAssunto", "DescricaoProblema", COUNT(*) as quantidade  FROM reclamacoes r 
                        LEFT JOIN fornecedores f ON r."CodigoFornecedor" = f."CodigoFornecedor"
                        LEFT JOIN assuntos a ON r."CodigoAssunto" = a."CodigoAssunto"
                        LEFT JOIN problemas p ON r."CodigoProblema" = p."CodigoProblema"
                        WHERE "strRazaoSocial" LIKE '%LEROY MERLIN%'
                        GROUP BY "DescricaoProblema", a."DescricaoAssunto" 
                        ORDER BY quantidade DESC ;''')
    df = pd.read_sql_query(query, con = conn)
engine.dispose()
df.head(30)

Unnamed: 0,DescricaoAssunto,DescricaoProblema,quantidade
0,Material de Acabamento de Construção Pronto (P...,,9
1,"Material de Construção (areia, cimento, tijolo...",,4
2,Fogão e Microondas,Não entrega/demora na entrega do produto,2
3,Aquecedor / Ventilador / Ar Condicionado / Cir...,,2
4,Construção / Reforma / Montagem / Acabamento,,2
5,Eletroeletrônico Importado,"Peso, volume e quantidade",1
6,Máquinas e Equipamentos,Produto com vício,1
7,Material de Acabamento de Construção Pronto (P...,Produto com vício,1
8,Televisão / Vídeo Cassete / Filmadora / Video-...,Produto com vício,1
9,"Material de Construção (areia, cimento, tijolo...",Produto entregue diferente do pedido,1


#### Assuntos Reclamacoes Leroy

In [69]:
with engine.connect() as conn:
    query = text('''SELECT "DescricaoAssunto", COUNT(*) as quantidade, ROUND((COUNT(*) / (SUM(COUNT(*)) OVER() )) * 100) as percentual  
                        FROM reclamacoes r 
                        LEFT JOIN fornecedores f ON r."CodigoFornecedor" = f."CodigoFornecedor"
                        LEFT JOIN assuntos a ON r."CodigoAssunto" = a."CodigoAssunto"
                        WHERE "strRazaoSocial" LIKE '%LEROY MERLIN%'
                        GROUP BY a."DescricaoAssunto" 
                        ORDER BY quantidade DESC ;''')
    df = pd.read_sql_query(query, con = conn)
engine.dispose()
df.head(30)

Unnamed: 0,DescricaoAssunto,quantidade,percentual
0,Material de Acabamento de Construção Pronto (P...,11,34.0
1,"Material de Construção (areia, cimento, tijolo...",6,19.0
2,Máquinas e Equipamentos,3,9.0
3,Aquecedor / Ventilador / Ar Condicionado / Cir...,2,6.0
4,Construção / Reforma / Montagem / Acabamento,2,6.0
5,Fogão e Microondas,2,6.0
6,Máquina de Lavar Roupa / Louça e Secadora,1,3.0
7,"Eletroportáteis ( Batedeira, Liqüidificador, E...",1,3.0
8,Eletroeletrônico Importado,1,3.0
9,"Produtos de Decoração ( Cinzeiro, Vasos, Abajur )",1,3.0


#### Problemas reclamações Leroy

In [615]:
with engine.connect() as conn:
    query = text('''SELECT "DescricaoProblema", COUNT(*) as quantidade  FROM reclamacoes r 
                        LEFT JOIN fornecedores f ON r."CodigoFornecedor" = f."CodigoFornecedor"
                        LEFT JOIN problemas p ON r."CodigoProblema" = p."CodigoProblema"
                        WHERE "strRazaoSocial" LIKE '%LEROY MERLIN%'
                        GROUP BY "DescricaoProblema"
                        ORDER BY quantidade DESC ;''')
    df = pd.read_sql_query(query, con = conn)
engine.dispose()
df.head(30)

Unnamed: 0,DescricaoProblema,quantidade
0,,20
1,Produto com vício,3
2,Não entrega/demora na entrega do produto,3
3,"Garantia (Abrangência, cobertura, etc.)",2
4,"Peso, volume e quantidade",1
5,Desistência de compra (cancelamento de compra),1
6,"Contrato/pedido/orçamento (rescisão, descumpri...",1
7,Produto entregue diferente do pedido,1


#### Número de reclamações de empresas da mesma categoria da Leroy

In [625]:
with engine.connect() as conn:
    query = text('''SELECT "CNAEPrincipal" FROM fornecedores f WHERE "strRazaoSocial" LIKE '%LEROY MERLIN%';''')
    df = pd.read_sql_query(query, con = conn)
    cnae_principal = df.values[0][0]
    query = text(f'''SELECT "strNomeFantasia", COUNT(*) as quantidade 
                    FROM reclamacoes r
                    LEFT JOIN fornecedores f ON r."CodigoFornecedor" = f."CodigoFornecedor"
                    WHERE f."CNAEPrincipal" = '{cnae_principal}'
                    GROUP BY "strNomeFantasia"
                    ORDER BY quantidade DESC;''')
    df = pd.read_sql_query(query, con = conn)
    
engine.dispose()

df.head(10)

Unnamed: 0,strNomeFantasia,quantidade
0,MADEIRAMADEIRA COMERCIO ELETRONICO S/A,88
1,LEROY MERLIN COMPANHIA BRASILEIRA DE BRICOLAGEM,22
2,M.I. REVESTIMENTOS LTDA,15
3,CEC.COM.BR,13
4,CASSOL MATERIAIS DE CONSTRUCAO,9
5,ARMAZÉM PARÁ,8
6,DICICO,7
7,SACI,6
8,CARAJÁS,5
9,CASA LIKE AMBIENTES,4
