# Exploração de dados
<p>Este notebook realiza uma exploração inicial dos dados, com o objetivo de entender melhor suas características e distribuições.<br>
Através de técnicas de visualização e análise descritiva, foram identificados padrões, outliers e possíveis correlações entre variáveis,<br>
preparando o terreno para análises mais aprofundadas.</p>

---
## Importe das bibliotecas
Instalação e importação das bibliotecas necessárias:

In [1]:
#!pip install pandas matplotlib numpy seaborn sklearn
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import sklearn as sk
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder

---
## Importe do banco de dados via arquivo local
Importação do DataFrame da base de dados da Unipar com a biblioteca pandas:

In [2]:
df = pd.read_csv('BASE DE SINISTRO UNIPAR BRADESCO.csv', decimal=',')

---
## Verificação do pré-processamento
Coleta informações sobre as colunas do DataFrame através do método `info()`:

In [None]:
df.info()

Correção das colunas numéricas em categoricas.

In [None]:
colunas_n_numericas = ["Apolice Sinistro", "Codigo Empresa Sinistro", "Codigo Especialidade Sinistro", "Codigo Servico Sinistro", "Codigo Prestador", "Codigo Grupo Empresa"]
df[colunas_n_numericas] = df[colunas_n_numericas].astype('object')

df.info()

Coleta de informações de estatísticas descritivas das colunas numéricas da base de dados, por meio do método `describe()`:

In [None]:
df.describe()

---
## Exploração gráfica
### Gráfico 'Valor Total por Faixas Etárias'
Geração de um gráfico que relaciona a faixa etária dos segurados com o valor pago do sinistro. Para tanto, foi utilizada a biblioteca `matplotlib` e o método `groupby()`:

In [None]:
# Agrupar os dados
grouped_df = df.groupby('Faixa-Etária Nova Sinistro')['Valor Pago Sinistro'].sum()

# Definir os dados e rótulos
data = grouped_df.values
labels = grouped_df.index

# Definir a paleta de cores com gradiente de frio para quente
colors = sns.color_palette('blend:#eda,#004228', len(data))

sns.set_style("whitegrid")
explode = (0, 0, 0, 0, 0, 0, 0, 0, 0, 0.1)

# Criar o gráfico de pizza
plt.figure(figsize=(10, 6))
wedges, texts, autotexts = plt.pie(data, colors=colors, explode=explode, autopct='%1.1f%%', startangle=90, pctdistance=0.85)

# Adicionar título
plt.title('Percentual do Valor Total por Faixas Etárias', fontsize=20, fontweight='bold')

# Adicionar legenda
legend = plt.legend(labels, loc='lower left', bbox_to_anchor=(1, 0.3, 0.5, 1), fontsize=12)
legend.get_frame().set_facecolor('#c0c0c0')
legend.get_frame().set_edgecolor('none')

# Personalizar a aparência
plt.axis('equal')  # Assegura que a pizza seja desenhada como um círculo.
plt.gca().set_facecolor('#f2f2f2')
plt.tight_layout()

# Mudar a cor do último valor da porcentagem para branco
autotexts[-1].set_color('white')
autotexts[-2].set_color('white')
autotexts[-3].set_color('white')

# Mostrar o gráfico
plt.show()

### Gráfico 'Quantidade de Ativações de Sinistro por Faixa Etária'
Geração de um gráfico que relaciona a faixa etária dos segurado com a quantidade de ativações dos sinistros. Para tanto, foi utilizada a biblioteca `matplotlib` e o método `groupby()`:

In [None]:
# Configurar o estilo do Seaborn
sns.set(style="whitegrid")

# Agrupar por faixa etária e somar os valores pagos
grouped_df = df.groupby('Faixa-Etária Nova Sinistro')['Quantidade'].count()

# Configurar o tamanho da figura e a cor de fundo
plt.figure(figsize=(12, 7), facecolor='white')

# Criar o gráfico de barras com um gradiente de cores
colors = sns.color_palette("blend:#eda,#004228", len(grouped_df))
grouped_df.plot(kind='bar', color=colors)

# Adicionar títulos e rótulos com fontes personalizadas
plt.title('Quantidade de Ativações de Sinistro por Faixa Etária', fontsize=16, weight='bold', color='black')
plt.xlabel('Faixa Etária', fontsize=14, color='black')
plt.ylabel('Quantidade de Ativações', fontsize=14, color='black')
plt.xticks(rotation=45, fontsize=12)
plt.yticks(fontsize=12)

# Adicionar linhas de grade mais discretas
plt.grid(True, which='both', linestyle='--', linewidth=0.5, color='gray', axis='y')

# Remover as bordas desnecessárias
sns.despine()

# Ajustar o layout para evitar sobreposição
plt.tight_layout()

# Mostrar o gráfico
plt.show()

### Gráfico 'Valor Pago por Ano e Mês'
Geração de um gráfico que relaciona o ano e mês com o valor pago do sinistro. Para tanto, foi utilizada a biblioteca `matplotlib` e o método `groupby()`:

In [None]:
# Converter 'No Ano Mes' em um objeto datetime para melhor visualização no gráfico de linha
df['No Ano Mes'] = pd.to_datetime(df['No Ano Mes'], format='%Y%m')

# Agrupar por ano e mês e somar os valores pagos
grouped_df = df.groupby('No Ano Mes')['Valor Pago Sinistro'].sum()

# Configurar o estilo do Seaborn
sns.set(style="whitegrid")

# Criar o gráfico de linha com pontos
plt.figure(figsize=(10, 5), facecolor='white')
plt.plot(grouped_df.index, grouped_df, color='#004228', marker='o', linestyle='-', markersize=8, linewidth=2)

# Adicionar títulos e rótulos com fontes personalizadas
plt.title('Valor Pago por Ano e Mês (07/23 - 06/24)', fontsize=16, weight='bold', color='black')
plt.xlabel('Ano e Mês', fontsize=14, color='black')
plt.ylabel('Valor Pago (R$) em milhões', fontsize=14, color='black')

# Adicionar todos os labels no eixo X com o ano em dois dígitos
plt.xticks(ticks=grouped_df.index, labels=grouped_df.index.strftime('%m/%y'), rotation=45, fontsize=12)
plt.yticks(fontsize=12)

# Adicionar linhas de grade mais discretas
plt.grid(True, which='both', linestyle='--', linewidth=0.5, color='gray')

# Remover as bordas desnecessárias
sns.despine()

# Ajustar o layout para evitar sobreposição
plt.tight_layout()

# Mostrar o gráfico
plt.show()