In [22]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import numpy as np

In [23]:
# 1. Lendo o arquivo CSV (substitua pelo seu caminho)
caminho_arquivo = '../../Bases/Criados/base_doencas_cardiacas.csv' 
df = pd.read_csv(caminho_arquivo)

# 2. Verificando as primeiras linhas (opcional)
print(df.head())

   V0001  V0015  V0026  V0031  B001  C006  C008  C009  C011  C012  ...  \
0     21      1      1      1   1.0   1.0  81.0   4.0   3.0   2.0  ...   
1     21      1      1      1   2.0   2.0  54.0   4.0   3.0   2.0  ...   
2     21      1      1      1   2.0   2.0  41.0   2.0   1.0   1.0  ...   
3     21      1      1      1   2.0   1.0  62.0   1.0   2.0   1.0  ...   
4     21      1      1      1   2.0   2.0  51.0   4.0   1.0   1.0  ...   

   R03607  R03608  R03610  S065  T001  H001  H002  H003  H004  H010  
0     NaN     NaN     NaN   NaN   2.0   2.0   1.0   NaN   NaN   NaN  
1     NaN     NaN     NaN   1.0   2.0   4.0   NaN   NaN   NaN   NaN  
2     2.0     2.0     2.0   1.0   2.0   3.0   1.0   NaN   NaN   NaN  
3     NaN     NaN     NaN   NaN   2.0   3.0   1.0   NaN   NaN   NaN  
4     NaN     NaN     NaN   1.0   2.0   4.0   NaN   NaN   NaN   NaN  

[5 rows x 158 columns]


In [24]:
# 2. Selecionar colunas numéricas
colunas_numericas = df.select_dtypes(include=['int64', 'float64']).columns

# 3. Criar a pasta 'Imagens' se não existir
os.makedirs('Imagens', exist_ok=True)

# 4. Função para detectar outliers em uma coluna
def tem_outliers(serie):
    q1 = serie.quantile(0.25)
    q3 = serie.quantile(0.75)
    iqr = q3 - q1
    limite_inferior = q1 - 1.5 * iqr
    limite_superior = q3 + 1.5 * iqr
    return any((serie < limite_inferior) | (serie > limite_superior))

# 5. Filtrar colunas que têm outliers
colunas_com_outliers = [col for col in colunas_numericas if tem_outliers(df[col])]

print(f"Colunas com outliers: {colunas_com_outliers}")

# 6. Gerar e salvar box plots apenas para colunas com outliers
for coluna in colunas_com_outliers:
    plt.figure(figsize=(8, 5))
    sns.boxplot(data=df, x=coluna, color='royalblue')
    plt.title(f'Box Plot de {coluna} (Com Outliers)', fontsize=14)
    plt.xlabel('Valores', fontsize=12)
    
    # Salvar o gráfico
    caminho_imagem = f'Imagens/boxplot_{coluna}.png'
    plt.savefig(caminho_imagem, dpi=300, bbox_inches='tight')
    plt.close()

print(f"Gráficos salvos na pasta 'Imagens'!")

Colunas com outliers: ['C008', 'C009', 'C012', 'D00201', 'D008', 'D01301', 'D015', 'E002', 'E003', 'E004', 'E005', 'E011', 'E014011', 'E01605', 'E01602', 'E01604', 'E017', 'E01802', 'E01804', 'E019', 'E027', 'F007011', 'F008011', 'VDF001', 'F016', 'G059', 'G060', 'G062', 'G032', 'I00102', 'I00103', 'I001031', 'C00301', 'I006', 'I00401', 'I00402', 'I00403', 'I012', 'J001', 'J00101', 'J002', 'J00404', 'J01101', 'J060', 'M00203', 'M011011', 'M011021', 'M011051', 'M011071', 'N00101', 'N004', 'N005', 'N008', 'N010', 'N011', 'N012', 'N016', 'P00103', 'P00104', 'P00403', 'P00404', 'P02001', 'P02002', 'P02501', 'P02602', 'P02601', 'P02801', 'P029', 'P03701', 'P050', 'P053', 'P05407', 'P05410', 'P05413', 'P05416', 'P05419', 'P06701', 'P068', 'Q00101', 'Q03001', 'Q060', 'Q06306', 'Q06308', 'Q06309', 'Q06311', 'Q064', 'Q06508', 'Q068', 'Q11006', 'Q128', 'R010', 'R025', 'R028', 'R029', 'R030', 'R031', 'R032', 'R03607', 'R03608', 'R03610', 'S065', 'T001']
Gráficos salvos na pasta 'Imagens'!
