### Intro, importando bibliotecas e fazendo análises básicas.

In [31]:
# Importando bibliotecas necessárias
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Coleta de dados
dados_clinicos = pd.read_csv('dados_clinicos.csv', sep=';', encoding='utf-8')
estado_regiao = pd.read_csv('estado_regiao.csv', sep=';', encoding='utf-8')
dados_pacientes = pd.read_csv('dados_pacientes.csv', sep=';', encoding='utf-8')

In [21]:
print(f'{"-"*50}')
print(f'dados_clinicos INFO:')
print(f'{dados_clinicos.info()}')
print(f'{"-"*50}')
print(f'dados_clinicos HEAD:')
print(f'{dados_clinicos.head()}')
print(f'{"-"*50}')

--------------------------------------------------
dados_clinicos INFO:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 590 entries, 0 to 589
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id_cliente  590 non-null    int64  
 1   peso        585 non-null    float64
 2   colesterol  590 non-null    int64  
 3   genero      590 non-null    object 
dtypes: float64(1), int64(2), object(1)
memory usage: 18.6+ KB
None
--------------------------------------------------
dados_clinicos HEAD:
   id_cliente   peso  colesterol     genero
0           1  102.0         111  Masculino
1           2  115.0         135  Masculino
2           3  115.0         136  Masculino
3           4  140.0         167   Feminino
4           5  130.0         158  Masculino
--------------------------------------------------


In [22]:
print(f'dados_clinicos DESCRIBE:')
print(f'{dados_clinicos.describe()}')

dados_clinicos DESCRIBE:
       id_cliente        peso  colesterol
count  590.000000  585.000000  590.000000
mean   283.696610  143.158974  170.067797
std    156.464182   30.925402   39.325409
min      1.000000   95.000000  102.000000
25%    148.250000  116.000000  135.250000
50%    295.500000  140.000000  169.000000
75%    424.750000  171.000000  207.750000
max    547.000000  203.000000  235.000000


In [23]:
print(f'{"-"*50}')
print(f'dados_pacientes INFO:')
print(f'{dados_pacientes.info()}')
print(f'{"-"*50}')
print(f'dados_pacientes HEAD:')
print(f'{dados_pacientes.head()}')
print(f'{"-"*50}')

--------------------------------------------------
dados_pacientes INFO:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7999 entries, 0 to 7998
Data columns (total 9 columns):
 #   Column                          Non-Null Count  Dtype 
---  ------                          --------------  ----- 
 0   id_cliente                      7999 non-null   int64 
 1    idade                          7999 non-null   int64 
 2    classe_trabalho                7999 non-null   object
 3    escolaridade                   7999 non-null   object
 4    id_estado                      7999 non-null   int64 
 5    estado_civil                   7999 non-null   object
 6    raca                           7999 non-null   object
 7    qtde_filhos                    7999 non-null   object
 8    salario                        7999 non-null   int64 
dtypes: int64(4), object(5)
memory usage: 562.6+ KB
None
--------------------------------------------------
dados_pacientes HEAD:
   id_cliente   idade   classe_

In [24]:
print(f'dados_clinicos DESCRIBE:')
print(f'{dados_pacientes.describe()}')

dados_clinicos DESCRIBE:
        id_cliente        idade    id_estado       salario
count  7999.000000  7999.000000  7999.000000   7999.000000
mean   4000.000000    38.477060    14.094012   3169.312664
std    2309.256735    13.568667     7.821634   3055.862493
min       1.000000    17.000000     1.000000      0.000000
25%    2000.500000    28.000000     7.000000   1100.000000
50%    4000.000000    37.000000    14.000000   2410.000000
75%    5999.500000    47.000000    21.000000   3640.500000
max    7999.000000    90.000000    27.000000  19994.000000


In [25]:
print(f'Valores nulos de dados_clinicos:{dados_clinicos.isna().sum()}\n{"-"*50}\n')
print(f'Valores nulos de dados_pacientes:{dados_pacientes.isna().sum()}\n{"-"*50}\n')
print(f'Valores nulos de dados_clinicos:{estado_regiao.isna().sum()}\n{"-"*50}\n')

Valores nulos de dados_clinicos:id_cliente    0
peso          5
colesterol    0
genero        0
dtype: int64
--------------------------------------------------

Valores nulos de dados_pacientes:id_cliente                        0
 idade                            0
 classe_trabalho                  0
 escolaridade                     0
 id_estado                        0
 estado_civil                     0
 raca                             0
 qtde_filhos                      0
 salario                          0
dtype: int64
--------------------------------------------------

Valores nulos de dados_clinicos:id_estado    0
sigla        0
estado       0
regiao       0
pais         0
dtype: int64
--------------------------------------------------



In [26]:
print(f'Valores nulos de dados_clinicos:{dados_clinicos.loc[dados_clinicos['peso'].isnull()]}\n{"-"*50}\n')

Valores nulos de dados_clinicos:     id_cliente  peso  colesterol     genero
63           64   NaN         211  Masculino
101         102   NaN         230   Feminino
146         147   NaN         171  Masculino
195         196   NaN         143   Feminino
215         216   NaN         180  Masculino
--------------------------------------------------



In [27]:
dados_clinicos.dropna(subset='peso', inplace=True)

In [28]:
dados_clinicos.isna().sum()

id_cliente    0
peso          0
colesterol    0
genero        0
dtype: int64

In [29]:
dados_clinicos.count()

id_cliente    585
peso          585
colesterol    585
genero        585
dtype: int64

In [34]:
import pandas as pd
import matplotlib.pyplot as plt


try:


    # Identificando os id_estado da região Sudeste
    sudeste_ids = estado_regiao[estado_regiao['regiao'] == 'Sudeste']['id_estado'].tolist()
    print(f"IDs dos estados do Sudeste: {sudeste_ids}")

    # Filtrando os residentes da região Sudeste
    residentes_sudeste = dados_pacientes[dados_pacientes['id_estado'].isin(sudeste_ids)]
    total_sudeste = len(residentes_sudeste)
    print(f"Total de residentes na região Sudeste: {total_sudeste}")

    # Criando o histograma das idades com 20 barras
    plt.figure(figsize=(10, 6))
    plt.hist(residentes_sudeste['idade'], bins=20, edgecolor='black', color='skyblue')
    plt.title('Distribuição das Idades dos Residentes na Região Sudeste')
    plt.xlabel('Idade')
    plt.ylabel('Frequência')
    plt.grid(True, linestyle='--', alpha=0.7)
    plt.show()

    # Exibindo estatísticas básicas para ajudar na escolha da opção
    print("\nDescrição das idades na região Sudeste:")
    print(residentes_sudeste['idade'].describe())

except FileNotFoundError as e:
    print(f"Erro: Um dos arquivos não foi encontrado. Verifique os caminhos: {e}")
except Exception as e:
    print(f"Erro inesperado: {e}")

IDs dos estados do Sudeste: [8, 13, 19, 25]
Erro inesperado: 'id_estado'
