# Projeto - Análise e Visualização de Dados

Em nossas aulas, conhecemos as principais bibliotecas para se trabalhar com Análise e Visualização de Dados em Python. Aprendemos também como trabalhar com tabelas e fazer operações sobre elas, de modo que possamos analisar e inferir sobre uma base de dados existente.

Para este projeto, imagine que o seu chefe disponibilize uma base de dados para que você possa analisá-la a partir dos seus conhecimentos em Python. Para essa tarefa, você deve utilizar o Matplotlib para visualização de alguns gráficos e demais bibliotecas, Pandas e NumPy para análise e manipulação dos dados. Com o correto uso das funcionalidades da linguagem, você será capaz de conduzir de maneira correta, a análise e visualização de dados, trabalho básico de um Cientista de Dados.
Para iniciar o seu projeto, siga as instruções abaixo:

* Faça o download dos arquivos disponibilizados nesta aula e armazene na mesma pasta em que irá armazenar os seus arquivos de código.
* Carregue a tabela .csv para que você possa fazer a leitura de dados da mesma
* Imprima parte do conteúdo para verificar se a leitura está acontecendo corretamente
![image.png](attachment:image.png)

**Obs: Nessa primeira etapa, indicada pelas instruções acima, eu já te ajudei, indicando o caminho para carregar a tabela, conforme código abaixo :D #ThanksGod**

In [8]:
# importa a biblioteca pandas
import pandas as pd
# armazena os dados da tabela em uma estrutura tipo data frame
df = pd.read_csv("dadosgovbr---2014.csv",sep = ';', encoding="latin-1")
# visualizar alguns dados da tabela carregada
df.head()

Unnamed: 0,Gestor,Canal de Origem,Região,UF,Cidade,Sexo,Faixa Etária,Ano Abertura,Mês Abertura,Data Abertura,...,Como Comprou Contratou,Procurou Empresa,Respondida,Situação,Avaliação Reclamação,Nota do Consumidor,Análise da Recusa,Edição de Conteúdo,Interação do Gestor,Total
0,Secretaria Nacional do Consumidor,Não identificado,SE,RJ,Itaboraí,M,entre 31 a 40 anos,2014,6,27/06/2014,...,Não comprei / contratei,S,S,Finalizada não avaliada,Não Avaliada,,,N,N,1
1,Instituto Estadual de Proteção e Defesa do Con...,Não identificado,SE,ES,Serra,F,entre 31 a 40 anos,2014,6,11/06/2014,...,Internet,S,S,Finalizada avaliada,Não Resolvida,1.0,,N,N,1
2,Secretaria Nacional do Consumidor,Não identificado,SE,RJ,Volta Redonda,M,entre 31 a 40 anos,2014,6,27/06/2014,...,Internet,S,S,Finalizada avaliada,Resolvida,5.0,,N,N,1
3,Instituto de Promoção e Defesa do Cidadão e Co...,Não identificado,NE,MA,São Luís,F,entre 31 a 40 anos,2014,5,29/05/2014,...,Não comprei / contratei,S,S,Finalizada avaliada,Resolvida,5.0,,N,N,1
4,Secretaria de Desenvolvimento Social e Direito...,Não identificado,NE,PE,Recife,M,entre 21 a 30 anos,2014,6,30/06/2014,...,Internet,S,S,Finalizada não avaliada,Não Avaliada,,,N,N,1


Aí vai uma dica preciosa: Para responder questões relacionadas a frequência de ocorrências, como exemplo, você pode testar o comando a seguir:
         
         df.Região.value_counts()
         
O código acima retorna a quantidade de ocorrências de registros de uma determinada região. Use essa lógica quando necessário.
Em relação as demais questões, consulte diversas fontes, caso necessário, para responder corretamente. Dessa forma, tendo como base o data frame em questão, responda as questões relacionadas:

### Análise de Dados

1. Qual a quantidade de reclamações registradas?
2. Qual é o tempo médio, máximo e mínimo de resposta?
3. Qual é a nota média, máxima e mínima do consumidor?
4. Como podemos correlacionar a nota do consumidor com o tempo de resposta? Explique.
5. Qual a quantidade de reclamações por Sexo?
6. Qual a quantidade de reclamações por Estado?
4. Qual é a porcentagem de reclamações registradas e não respondidas?

### Visualização de Dados

Neste momento iremos trabalhar com visualização de dados. Antes de iniciar a impressão dos gráficos, trate de fazer as configurações iniciais para que a impressão ocorra no Jupyter de maneira correta e com todos os requisitos necessários para melhoria da apresentação como um todo. Faça o melhor possível, como se fosse apresentar para o seu chefe. Siga as instruções a seguir:

5. Gere um gráfico com titulo, nome dos eixos, cor e legenda para as seguintes situações:
   * a) Frequência de reclamações por sexo
   * b) Frequencia de reclamações por estado
   * c) Frequência de reclamações respondidas e não respondidas
6. Imagine que você é um Cientista de Dados responsável por medir a satisfação dos clientes. Para que você possa surpreender seu chefe, você deve fazer duas análises importantes sobre o data frame, incluindo no mínimo dois gráficos com suas devidas personalizações de titulo, nome dos eixos, legenda, estilos etc. Considere que, ao trazer informações relevantes para a empresa em que trabalha, mais chances de ter o seu trabalho reconhecido e de ser um profissional com maior valor no mercado. Capriche nos gráficos!

In [75]:
# Resposta questão 1: 
quantidade_reclamacoes = df['Problema'].count()
print('Quantidade de reclamações registradas: ', quantidade_reclamacoes)

43987


Unnamed: 0,Ano Abertura,Mês Abertura,Prazo Analise Gestor,Tempo Resposta,Nota do Consumidor,Total
count,43987.0,43987.0,1953.0,41961.0,28627.0,43987.0
mean,2014.0,9.550435,4.768049,6.667572,3.007021,1.0
std,0.0,1.898572,4.395177,3.066805,1.6817,0.0
min,2014.0,5.0,0.0,0.0,1.0,1.0
25%,2014.0,8.0,1.0,4.0,1.0,1.0
50%,2014.0,10.0,4.0,8.0,3.0,1.0
75%,2014.0,11.0,8.0,9.0,5.0,1.0
max,2014.0,12.0,15.0,13.0,5.0,1.0


In [None]:
# Resposta questão 2: 
tempo_medio_resposta = df['Tempo Resposta'].mean()
tempo_maximo_resposta = df['Tempo Resposta'].max()
tempo_minimo_respoosta = df['Tempo Resposta'].min()

print("O tempo medio de reposta:", tempo_minimo_respoosta)
print("O tempo maximo de resposta:", tempo_maximo_resposta)
print("O tempo minimo de resposta:", tempo_minimo_respoosta)

In [None]:
# Resposta questão 3: 
nota_media_consumidor = df['Nota do Consumidor'].mean()
nota_maxima_consumidor = df['Nota do Consumidor'].max()
nota_min_consumidor = df['Nota do Consumidor'].min()

print('Nota media do Consumidor: ', nota_media_consumidor)
print('Nota maxima do Consumidor: ', nota_maxima_consumidor)
print('Nota minima do Consumidor: ', nota_min_consumidor)

In [None]:
# Resposta questão 4: 
correlaction = df['Nota do Consumidor'].corr(df['Tempo Resposta'])
print('Correlação entre a nota do consumidor e o tempo de reposta:', correlaction)
# A correlação pode variar de -1 a 1. Um valor próximo de 1 indica uma correlação positiva forte
# (à medida que o tempo de resposta aumenta, a nota do consumidor tende a aumentar),
# um valor próximo de -1 indica uma correlação negativa forte (à medida que o tempo de resposta aumenta,
# a nota do consumidor tende a diminuir), e um valor próximo de 0 indica uma correlação fraca ou nenhuma correlação.

In [None]:
# Resposta questão 5a: 
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns


df = pd.read_csv("dadosgovbr---2014.csv", sep=';', encoding="latin-1")

# Frequencia de reclamações por sexo:
plt.figure(figsize=(8, 6))
sns.set(style="whitegrid")
sns.countplot(data=df, x='Sexo', palette='Set1')

plt.title('Frequencia de Reclamações por Sexo')
plt.xlabel('Sexo', fontsize=14)
plt.ylabel('Frequencia', fontsize=14)


plt.show()


In [None]:
# Resposta questão 5b: 
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

df = pd.read_csv("dadosgovbr---2014.csv", sep=';', encoding="latin-1")

# Frequencia por estado
plt.figure(figsize=(12, 6))
sns.countplot(data=df, x='UF', palette='Set2', order=df['UF'].value_counts().index)

plt.title('Frequencia de reclamações por estado')
plt.xlabel('Estado')
plt.ylabel('Frequencia')

plt.show()


In [None]:
# Resposta questão 5c: 
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

df = pd.read_csv("dadosgovbr---2014.csv", sep=';', encoding="latin-1")

# Frequencia de reclamaçoes respondidas e não respondidas
plt.figure(figsize=(8, 6))
sns.countplot(data=df, x='Respondida', palette='Set3',)
plt.title('Frequencia de Reclamações respondidas e não respondidas')
plt.xlabel('Respondiuda')
plt.ylabel('Frequencia')
plt.xticks([0, 1], ['Não Respondida', 'Respondida'])
plt.show()


In [None]:
# Resposta questão 6a: 
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

df = pd.read_csv("dadosgovbr---2014.csv", sep=';', encoding="latin-1")
plt.figure(figsize=(9, 5))
sns.histplot(data=df, x='Faixa Etária', hue='Nota do Consumidor', palette='coolwarm', multiple='stack')
plt.title('Satisfação do Consumidor por faixa etaria')
plt.xlabel('Faixa Etaria', fontsize=13)
plt.ylabel('Contagem', fontsize=13)
plt.xticks(rotation=45)
plt.show()


In [None]:
# Resposta questão 6b: 
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

# Carregue seus dados
df = pd.read_csv("dadosgovbr---2014.csv", sep=';', encoding="latin-1")

# Calculando as contagens de segmento de mercado
segmento_mercado_counts = df['Segmento de Mercado'].value_counts()
segmento_mercado_labels = segmento_mercado_counts.index

# Criando um gráfico de barras regulares
plt.figure(figsize=(20, 8))
sns.barplot(x=segmento_mercado_labels, y=segmento_mercado_counts, palette='pastel')

# Adicionando rótulos de valor acima das barras
for index, value in enumerate(segmento_mercado_counts):
    plt.text(index, value + 10, str(value), ha='center', fontsize=9)

plt.title('Distribuição de Reclamações por Segmento de Mercado', fontsize=14)
plt.xlabel('Segmento de Mercado', fontsize=12)
plt.ylabel('Contagem', fontsize=12)
plt.xticks(rotation=90)

plt.tight_layout()
plt.show()
