# <center>**EDA - Consumidor.gov.br**</center>

Projeto de Análise Exploratória de Dados dos registros de reclamações de consumidores brasileiros, sobre um produto ou serviço adquirido, feitas no portal Consumidor.gov.br no ano de 2019. O serviço é oferecido pela Secretaria Nacional do Consumidor, do Ministério da Justiça, e os dados são abertos e disponibilizados  no site <a href="http://dados.gov.br/dataset/reclamacoes-do-consumidor-gov-br1">Dados.gov.br</a>.

# ***Importação das bibliotecas***

In [1]:
# Executar se a biblioteca Unicode não estiver instalada
!pip install unidecode

Collecting unidecode
[?25l  Downloading https://files.pythonhosted.org/packages/9e/25/723487ca2a52ebcee88a34d7d1f5a4b80b793f179ee0f62d5371938dfa01/Unidecode-1.2.0-py2.py3-none-any.whl (241kB)
[K     |█▍                              | 10kB 16.9MB/s eta 0:00:01[K     |██▊                             | 20kB 22.1MB/s eta 0:00:01[K     |████                            | 30kB 15.6MB/s eta 0:00:01[K     |█████▍                          | 40kB 12.8MB/s eta 0:00:01[K     |██████▉                         | 51kB 9.3MB/s eta 0:00:01[K     |████████▏                       | 61kB 8.9MB/s eta 0:00:01[K     |█████████▌                      | 71kB 8.6MB/s eta 0:00:01[K     |██████████▉                     | 81kB 9.5MB/s eta 0:00:01[K     |████████████▏                   | 92kB 9.6MB/s eta 0:00:01[K     |█████████████▋                  | 102kB 8.7MB/s eta 0:00:01[K     |███████████████                 | 112kB 8.7MB/s eta 0:00:01[K     |████████████████▎               | 122kB 8.7

In [2]:
from unidecode import unidecode
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import folium
from folium import plugins

# ***Importação dos dados***

## ***Dataset do site consumidor.gov.br***

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
# Diretório dos arquivos dataset
semestre1 = '/content/drive/MyDrive/Colab Notebooks/Datasets/Consumidor_2019/2019-1-semestre.csv'
semestre2 = '/content/drive/MyDrive/Colab Notebooks/Datasets/Consumidor_2019/2019-2-semestre.csv'

In [5]:
# Leitura do dataset com os dados do primeiro semestre de 2019
dados_consumidor = pd.read_csv(semestre1, sep=';', encoding='utf-8', parse_dates=['Data Finalização'])

In [None]:
# Leitura do dataset com os dados do segundo semestre de 2019
dados_consumidor = pd.concat([dados_consumidor, 
                              pd.read_csv(semestre2, sep=';', encoding='latin1', parse_dates=['Data Finalização'])])

In [None]:
# Resetando os valores do index
dados_consumidor.reset_index(drop=True)

In [None]:
dados_consumidor.dtypes

In [None]:
dados_consumidor.drop('Total', axis=1, inplace=True)

In [None]:
dados_consumidor.isnull().sum()

In [None]:
dados_consumidor.fillna(0, inplace = True)

# ***EDA - Avaliação de Hipóteses***

## ***Há predominância de algum sexo nas reclamações?***

In [None]:
sexo = dados_consumidor['Sexo'].value_counts()

In [None]:
print('Quantidade de reclamações por sexo:\nMasculino - ' + str(sexo[0]) + '\nFeminino - ' + str(sexo[1]))

In [None]:
# Gerando o gráfico
sns.barplot(x=sexo.index, y = sexo, alpha=0.7, palette='bright')
# Obtendo o eixo do gráfico gerado
ax = plt.gca()
# Colocando as informações dos labels e título
ax.set_xlabel(xlabel='Sexo')
ax.set_xticklabels(['Masculino', 'Feminino'])
ax.set_ylabel(ylabel='Quantidade')
ax.set_title(label='Quantidade de reclamações por sexo')
# Definindo o valor limite do eixo Y em 110% do máximo valor encontrado
y_max =sexo.max() * 1.1
ax.set_ylim([0, y_max])
# Inserindo os rótulos com os valores de cada barra 
# Parâmetros: 
#     pp.get_x() + p.get_width()/2 = posição da barra + metade da largura para exibir os valores centralizados na barra
#     p.get_height() = altura da barra para posicionar os valores sobre a barra                   
for p in ax.patches:
    ax.text(p.get_x() + p.get_width()/2, p.get_height(), '%d' % int(p.get_height()), ha='center')
# Exibindo o gráfico
plt.show()

## ***Há predominância de faixa etária nas reclamações?***

In [None]:
faixa_etaria = dados_consumidor['Faixa Etária'].value_counts()
ordem_faixa_etaria = ['até 20 anos', 'entre 21 a 30 anos', 'entre 31 a 40 anos', 'entre 41 a 50 anos', 'entre 51 a 60 anos', 
                      'entre 61 a 70 anos', 'mais de 70 anos']
faixa_etaria = faixa_etaria.loc[ordem_faixa_etaria]

In [None]:
print('Quantidade de reclamações por Faixa Etária:')
print(faixa_etaria)

In [None]:
# Gerando o gráfico
sns.barplot(x=faixa_etaria.index, y=faixa_etaria, alpha=0.7, palette='bright')
# Obtendo o eixo do gráfico gerado
ax = plt.gca()
# Colocando as informações dos labels e título
ax.set_xlabel(xlabel='Faixa Etária')
ax.set_xticklabels(faixa_etaria.index, rotation=45, horizontalalignment='right')
ax.set_ylabel(ylabel='Quantidade')
ax.set_title(label='Quantidade de reclamações por faixa etária')
# Definindo o valor limite do eixo Y em 110% do máximo valor encontrado
y_max = faixa_etaria.max() * 1.1
ax.set_ylim([0, y_max])
# Inserindo os rótulos com os valores de cada barra 
# Parâmetros: 
#     pp.get_x() + p.get_width()/2 = posição da barra + metade da largura para exibir os valores centralizados na barra
#     p.get_height() = altura da barra para posicionar os valores sobre a barra                   
for p in ax.patches:
    ax.text(p.get_x() + p.get_width()/2, p.get_height(), '%d' % int(p.get_height()), ha='center')
# Exibindo o gráfico
plt.show()

## ***Qual a reclamação mais comum?***

In [None]:
grupo_problema = dados_consumidor['Grupo Problema'].value_counts()

In [None]:
print('Quantidade de reclamações por grupo de problema:')
print(grupo_problema)

In [None]:
# Gerando o gráfico
plt.figure(figsize=(8,8))
sns.barplot(x=grupo_problema, y=grupo_problema.index, alpha=0.7, palette='bright', orient='h')
# Obtendo o eixo do gráfico gerado
ax = plt.gca()
# Colocando as informações dos labels e título
ax.set_xlabel(xlabel='Quantidade')
ax.set_ylabel(ylabel='Grupo de Problema')
ax.set_title(label='Quantidade de reclamações por grupo de problema')
# Definindo o valor limite do eixo Y em 110% do máximo valor encontrado
x_max = grupo_problema.max() * 1.15
ax.set_xlim([0, x_max])
# Inserindo os rótulos com os valores de cada barra 
# Parâmetros: 
#     pp.get_x() + p.get_width()/2 = posição da barra + metade da largura para exibir os valores centralizados na barra
#     p.get_height() = altura da barra para posicionar os valores sobre a barra                   
for p in ax.patches:
    ax.text(p.get_width(), p.get_y() + p.get_height()/2, '%d' % int(p.get_width()), ha='left')
# Exibindo o gráfico
plt.show()

## ***Quais segmentos de mercado possuem mais reclamações?***

In [None]:
segmento_mercado = dados_consumidor['Segmento de Mercado'].value_counts()

In [None]:
print('Quantidade de reclamações por segmento de mercado:')
print(segmento_mercado)

In [None]:
# Gerando o gráfico
plt.figure(figsize=(10,10))
sns.barplot(x=segmento_mercado[:10], y=segmento_mercado[:10].index, alpha=0.7, palette='bright', orient='h')
# Obtendo o eixo do gráfico gerado
ax = plt.gca()
# Colocando as informações dos labels e título
ax.set_xlabel(xlabel='Quantidade')
ax.set_ylabel(ylabel='Segmento de Mercado')
ax.set_title(label='Rankings dos 10 segmentos de mercado com mais reclamações')
# Definindo o valor limite do eixo Y em 110% do máximo valor encontrado
x_max = segmento_mercado.max() * 1.1
ax.set_xlim([0, x_max])
# Inserindo os rótulos com os valores de cada barra 
# Parâmetros: 
#     pp.get_x() + p.get_width()/2 = posição da barra + metade da largura para exibir os valores centralizados na barra
#     p.get_height() = altura da barra para posicionar os valores sobre a barra                   
for p in ax.patches:
    ax.text(p.get_width(), p.get_y() + p.get_height()/2, '%d' % int(p.get_width()), ha='left')
# Exibindo o gráfico
plt.show()

### ***Quais os grupos de problemas que mais afetaram o segmento com mais reclamações?***

In [None]:
grupos_segmento = dados_consumidor[dados_consumidor['Segmento de Mercado'] == 'Operadoras de Telecomunicações (Telefonia, Internet, TV por assinatura)']
grupos_segmento = dados_consumidor['Grupo Problema'].value_counts()

In [None]:
print('No segmento de mercado de Operadoras de Telecomunicações, as quantidade de reclamações por grupo de problemas foram:')
print(grupos_segmento)

In [None]:
# Gerando o gráfico
plt.figure(figsize=(8,8))
sns.barplot(x=grupos_segmento, y=grupos_segmento.index, alpha=0.7, palette='bright', orient='h')
# Obtendo o eixo do gráfico gerado
ax = plt.gca()
# Colocando as informações dos labels e título
ax.set_xlabel(xlabel='Quantidade')
ax.set_ylabel(ylabel='Grupos de Problemas')
ax.set_title(label='Reclamações por grupo de problema no segmento de Operadoras de Telecomunicações')
# Definindo o valor limite do eixo Y em 110% do máximo valor encontrado
x_max = grupos_segmento.max() * 1.1
ax.set_xlim([0, x_max])
# Inserindo os rótulos com os valores de cada barra 
# Parâmetros: 
#     pp.get_x() + p.get_width()/2 = posição da barra + metade da largura para exibir os valores centralizados na barra
#     p.get_height() = altura da barra para posicionar os valores sobre a barra                   
for p in ax.patches:
    ax.text(p.get_width(), p.get_y() + p.get_height()/2, '%d' % int(p.get_width()), ha='left')
# Exibindo o gráfico
plt.show()

### ***Quais as empresas desse segmento que apresentam mais reclamações do grupo de problemas mais comum?***

In [None]:
empresas = dados_consumidor[dados_consumidor['Segmento de Mercado'] == 'Operadoras de Telecomunicações (Telefonia, Internet, TV por assinatura)']
empresas = empresas[empresas['Grupo Problema'] == 'Cobrança / Contestação']
empresas = empresas['Nome Fantasia'].value_counts()

In [None]:
# Gerando o gráfico
plt.figure(figsize=(10,10))
sns.barplot(x=empresas, y=empresas.index, alpha=0.7, palette='bright', orient='h')
# Obtendo o eixo do gráfico gerado
ax = plt.gca()
# Colocando as informações dos labels e título
ax.set_xlabel(xlabel='Quantidade')
ax.set_ylabel(ylabel='Grupos de Problemas')
ax.set_title(label='Reclamações por grupo de problema no segmento de Operadoras de Telecomunicações')
# Definindo o valor limite do eixo Y em 110% do máximo valor encontrado
x_max = empresas.max() * 1.1
ax.set_xlim([0, x_max])
# Inserindo os rótulos com os valores de cada barra 
# Parâmetros: 
#     pp.get_x() + p.get_width()/2 = posição da barra + metade da largura para exibir os valores centralizados na barra
#     p.get_height() = altura da barra para posicionar os valores sobre a barra                   
for p in ax.patches:
    ax.text(p.get_width(), p.get_y() + p.get_height()/2, '%d' % int(p.get_width()), ha='left')
# Exibindo o gráfico
plt.show()

## ***Existe alguma relação entre o tempo de resposta e a nota do consumidor?***

In [None]:
correlacao = dados_consumidor[['Tempo Resposta', 'Nota do Consumidor']].corr()
correlacao

In [None]:
plt.figure(figsize=(8,8))
sns.heatmap(data = correlacao, cmap=sns.color_palette("YlOrBr"), square=True);

## ***Qual a proporção de reclamações registradas e não resolvidas?***

In [None]:
print('Reclamações registradas: ' + str(len(dados_consumidor['Avaliação Reclamação'])))
print('Reclamações resolvidas: ' + str(len(dados_consumidor[dados_consumidor['Avaliação Reclamação'] == 'Não Resolvida'])))

In [None]:
reclamacoes = dados_consumidor['Avaliação Reclamação'].value_counts()
labels = ['Não Avaliadas', 'Resolvidas', 'Não Resolvidas']
explode = (0, 0, 0.1) 
plt.figure(figsize=(8,8))
plt.pie(reclamacoes, labels=labels, autopct='%1.1f%%', shadow=True, explode=explode, startangle=180)
plt.axis('equal')
plt.title('Proporção de reclamações não resolvidas')
plt.show()

### ***Para os 10 segmentos de mercado com mais reclamações, qual é essa proporção?***

In [None]:
reclamacoes = dados_consumidor['Segmento de Mercado'].value_counts()
reclamacoes = reclamacoes[0:10].sort_index()

In [None]:
df = dados_consumidor[dados_consumidor['Segmento de Mercado'].isin(reclamacoes.index)]
df = df[df['Avaliação Reclamação']=='Não Resolvida']
nao_resolvidas = df.groupby('Segmento de Mercado')['Segmento de Mercado'].count()

In [None]:
df = dados_consumidor[dados_consumidor['Segmento de Mercado'].isin(reclamacoes.index)]
df = df[df['Avaliação Reclamação']=='Não Avaliada']
nao_avaliadas = df.groupby('Segmento de Mercado')['Segmento de Mercado'].count()

In [None]:
sns.set(style='whitegrid')
plt.figure(figsize=(8, 10))
sns.set_color_codes('bright')
sns.barplot(x=reclamacoes.values, y=reclamacoes.index, label='Reclamações resolvidas', color='g')
sns.barplot(x=nao_resolvidas.values + nao_avaliadas.values, y=nao_resolvidas.index, label='Reclamacoes nao avaliadas', color='y')
sns.barplot(x=nao_resolvidas.values, y=nao_resolvidas.index, label='Reclamacoes nao resolvidas', color='r')
ax = plt.gca()
ax.legend(ncol=1, loc='lower right', frameon=True)
ax.set(ylabel='Segmento de Mercado', xlabel='Reclamações', title = 'Quantidade de registros e suas situações nos 10 segmentos de mercado líderes em reclamações')
sns.despine(left=False, bottom=True)

## ***As compras/contratações realizadas por meio eletrônico geraram mais reclamações que as compras feitas em meios físicos?***

In [None]:
forma_compra = dados_consumidor['Como Comprou Contratou'].value_counts()

In [None]:
# Gerando o gráfico
plt.figure(figsize=(8,8))
sns.barplot(x=forma_compra, y=forma_compra.index, alpha=0.7, palette='bright', orient='h')
# Obtendo o eixo do gráfico gerado
ax = plt.gca()
# Colocando as informações dos labels e título
ax.set_xlabel(xlabel='Quantidade')
ax.set_ylabel(ylabel='Meio de Compra/Contratação')
ax.set_title(label='Quantidade de reclamações por meio de compra/contratação')
# Definindo o valor limite do eixo Y em 110% do máximo valor encontrado
x_max = forma_compra.max() * 1.15
ax.set_xlim([0, x_max])
# Inserindo os rótulos com os valores de cada barra 
# Parâmetros: 
#     pp.get_x() + p.get_width()/2 = posição da barra + metade da largura para exibir os valores centralizados na barra
#     p.get_height() = altura da barra para posicionar os valores sobre a barra                   
for p in ax.patches:
      ax.text(p.get_width(), p.get_y() + p.get_height()/2, '%d' % int(p.get_width()), ha='left')
# Exibindo o gráfico
plt.show()

## ***Existe alguma época do ano em que há uma concentração de reclamações?***

In [None]:
dados_consumidor['Mês'] = dados_consumidor['Data Finalização'].dt.month

In [None]:
datas = dados_consumidor['Mês'].value_counts()

In [None]:
plt.figure(figsize=(20,10))
sns.lineplot(x=datas.index, y = datas.values)
# Obtendo o eixo do gráfico gerado
ax = plt.gca()
# Colocando as informações dos labels e título
ax.set_xlabel(xlabel='Mês')
ax.set_ylabel(ylabel='Quantidade de Registros')
ax.set_title(label='Quantidade de reclamações finalizadas por mês')
# Exibindo o gráfico
plt.show()