Importando os pacotes necessários

In [1]:
import pandas as pd
import plotly.express as px

Lendo o arquivos de dados

In [2]:
clientes = pd.read_csv("data/clientes.csv", sep = ";", dtype_backend="numpy_nullable")
clientes.head(5)

Unnamed: 0,Id,Idade,Sexo,Estado Civil,Sinistros,Prêmio,Categoria,Desconto
0,1,64,M,viuvo,0.0,774.464232,Sênior,697.017809
1,2,34,F,divorciado,7.0,1411.800897,Adulto,1411.800897
2,3,84,F,divorciado,2.0,803.922742,Sênior,803.922742
3,4,42,F,casado,2.0,1142.005576,Adulto,1142.005576
4,5,20,M,casado,,940.051137,Jovem,940.051137


In [3]:
print(f"Existem {clientes.shape[0]} linhas no arquivo importado.")

Existem 10000 linhas no arquivo importado.


Preenchendo os valores inválidos de sinistro ocm zero.

In [4]:
clientes["Sinistros"] = clientes["Sinistros"].fillna(0)
clientes.head(5)

Unnamed: 0,Id,Idade,Sexo,Estado Civil,Sinistros,Prêmio,Categoria,Desconto
0,1,64,M,viuvo,0,774.464232,Sênior,697.017809
1,2,34,F,divorciado,7,1411.800897,Adulto,1411.800897
2,3,84,F,divorciado,2,803.922742,Sênior,803.922742
3,4,42,F,casado,2,1142.005576,Adulto,1142.005576
4,5,20,M,casado,0,940.051137,Jovem,940.051137


Ajustando quantidade de casas decimais no prêmio e no desconto.

In [5]:
clientes["Prêmio"] = clientes["Prêmio"].round(2)
clientes["Desconto"] = clientes["Desconto"].round(2)
clientes.head(5)

Unnamed: 0,Id,Idade,Sexo,Estado Civil,Sinistros,Prêmio,Categoria,Desconto
0,1,64,M,viuvo,0,774.46,Sênior,697.02
1,2,34,F,divorciado,7,1411.8,Adulto,1411.8
2,3,84,F,divorciado,2,803.92,Sênior,803.92
3,4,42,F,casado,2,1142.01,Adulto,1142.01
4,5,20,M,casado,0,940.05,Jovem,940.05


Removendo a coluna desconto.

In [6]:
clientes = clientes.drop("Desconto", axis = 1)
clientes.head(5)

Unnamed: 0,Id,Idade,Sexo,Estado Civil,Sinistros,Prêmio,Categoria
0,1,64,M,viuvo,0,774.46,Sênior
1,2,34,F,divorciado,7,1411.8,Adulto
2,3,84,F,divorciado,2,803.92,Sênior
3,4,42,F,casado,2,1142.01,Adulto
4,5,20,M,casado,0,940.05,Jovem


Ordenando clientes pela idade e resetando os indexes.

In [7]:
clientes = clientes.sort_values("Idade").reset_index(drop=True)
clientes.head(5)

Unnamed: 0,Id,Idade,Sexo,Estado Civil,Sinistros,Prêmio,Categoria
0,8550,18,F,viuvo,7,1096.77,Jovem
1,4417,18,F,viuvo,0,913.23,Jovem
2,1275,18,F,divorciado,2,1062.88,Jovem
3,1885,18,F,casado,5,1086.89,Jovem
4,4700,18,M,viuvo,1,1126.91,Jovem


Total de prêmio por estado civil.

In [8]:
clientes.groupby("Estado Civil", as_index = False).agg({"Prêmio": sum})

Unnamed: 0,Estado Civil,Prêmio
0,casado,2457538.44
1,divorciado,2591592.31
2,solteiro,2474958.4
3,viuvo,2468433.14


Contagem de clientes por categoria.

In [9]:
clientes.Categoria.value_counts()

Categoria
Sênior    6986
Adulto    1602
Jovem     1412
Name: count, dtype: Int64

In [10]:
clientes.groupby("Categoria", as_index=False).agg(QuantidadeClientes=("Id", "count"))

Unnamed: 0,Categoria,QuantidadeClientes
0,Adulto,1602
1,Jovem,1412
2,Sênior,6986


Quantidade de clientes por estado civil.

In [15]:
clientes_por_estado_civil = clientes.groupby("Estado Civil", as_index=False).agg(
    QuantidadeClientes=("Id", "count")
)
px.bar(
    clientes_por_estado_civil,
    x="Estado Civil",
    y="QuantidadeClientes",
    color="Estado Civil",
    title="Quantidade de Clientes por Estado Civil",
)

Relação entre idade e prêmio.

In [18]:
px.scatter(clientes, x="Idade", y="Prêmio")

Pie chart da distribuição do sexo.

In [19]:
px.pie(clientes, names="Sexo")

Histograma da quantidade de sinistros.

In [11]:
clientes["Sinistros"] = clientes["Sinistros"].astype("category")
fig = px.histogram(clientes, x="Sinistros")
fig.update_layout(bargap=0.2)
fig.show(display="notebook")