In [209]:
import sklearn
import pandas as pd
import statistics
import matplotlib.pyplot as plt
df = pd.read_excel('dataset.xlsx')

In [210]:
print("O dataset possui {} linhas e {} colunas".format(df.shape[0], df.shape[1]))
df.isnull().sum()

# Definindo a porcentagem máxima de valores nulos permitida
media_porcentagem_nulos_df = df.isna().mean().mean()

# Loop pelas colunas do DataFrame
for coluna in df.columns:
    # Calculando a porcentagem de valores nulos na coluna
    porcentagem_nulos = df[coluna].isnull().sum() / len(df)
    print(f"Coluna {coluna} não eliminada porcentagem de nulos: {porcentagem_nulos:.2%} de valores nulos.")
    # Verificando se a porcentagem de valores nulos na coluna é maior ou igual ao limite máximo permitido
    if porcentagem_nulos >= media_porcentagem_nulos_df:
        # Imprimindo mensagem informando que a coluna será eliminada
        print(f"Coluna {coluna} será eliminada por conter {porcentagem_nulos:.2%} de valores nulos.")
        # Removendo a coluna do DataFrame
        df.drop(columns=[coluna], inplace=True)


O dataset possui 5644 linhas e 111 colunas
There are 88.1% of missing values in the dataset.
Coluna Patient ID não eliminada porcentagem de nulos: 0.00% de valores nulos.
Coluna Patient age quantile não eliminada porcentagem de nulos: 0.00% de valores nulos.
Coluna SARS-Cov-2 exam result não eliminada porcentagem de nulos: 0.00% de valores nulos.
Coluna Patient addmited to regular ward (1=yes, 0=no) não eliminada porcentagem de nulos: 0.00% de valores nulos.
Coluna Patient addmited to semi-intensive unit (1=yes, 0=no) não eliminada porcentagem de nulos: 0.00% de valores nulos.
Coluna Patient addmited to intensive care unit (1=yes, 0=no) não eliminada porcentagem de nulos: 0.00% de valores nulos.
Coluna Hematocrit não eliminada porcentagem de nulos: 89.32% de valores nulos.
Coluna Hematocrit será eliminada por conter 89.32% de valores nulos.
Coluna Hemoglobin não eliminada porcentagem de nulos: 89.32% de valores nulos.
Coluna Hemoglobin será eliminada por conter 89.32% de valores nulos.

In [211]:
for col in df.select_dtypes(include="object").columns:
    if col != "Patient ID":
        df[col].replace({
            "positive": 1,
            "negative": 0,
            "detected": 1,
            "not_detected": 0,
            "present": 1,
            "absent": 0,
            "Não Realizado": float("NaN"),
            "not_done": float("NaN"),
            "<1000": 999
        }, inplace=True)


In [212]:
for coluna in df.columns:
    df[coluna] = df[coluna].fillna(0.0)

df.drop(["Patient ID"], axis=1, inplace=True)
df.dtypes

Patient age quantile                                       int64
SARS-Cov-2 exam result                                     int64
Patient addmited to regular ward (1=yes, 0=no)             int64
Patient addmited to semi-intensive unit (1=yes, 0=no)      int64
Patient addmited to intensive care unit (1=yes, 0=no)      int64
Respiratory Syncytial Virus                              float64
Influenza A                                              float64
Influenza B                                              float64
Parainfluenza 1                                          float64
CoronavirusNL63                                          float64
Rhinovirus/Enterovirus                                   float64
Coronavirus HKU1                                         float64
Parainfluenza 3                                          float64
Chlamydophila pneumoniae                                 float64
Adenovirus                                               float64
Parainfluenza 4          

In [213]:
def find_outliers_IQR(column_name, df):
    q1, q3 = df[column_name].quantile([0.25, 0.75])
    IQR = q3 - q1
    outliers = df[(df[column_name] < q1 - 1.5*IQR) | (df[column_name] > q3 + 1.5*IQR)]
    return outliers

def print_outliers_IQR(df):
    for column in df.columns:
        outliers = find_outliers_IQR(column, df)
        print(f"Outliers da coluna {column}: {outliers.shape[0]}")

In [214]:
print_outliers_IQR(df)

Outliers da coluna Patient age quantile: 0
Outliers da coluna SARS-Cov-2 exam result: 558
Outliers da coluna Patient addmited to regular ward (1=yes, 0=no): 79
Outliers da coluna Patient addmited to semi-intensive unit (1=yes, 0=no): 50
Outliers da coluna Patient addmited to intensive care unit (1=yes, 0=no): 41
Outliers da coluna Respiratory Syncytial Virus: 52
Outliers da coluna Influenza A: 18
Outliers da coluna Influenza B: 77
Outliers da coluna Parainfluenza 1: 3
Outliers da coluna CoronavirusNL63: 45
Outliers da coluna Rhinovirus/Enterovirus: 379
Outliers da coluna Coronavirus HKU1: 20
Outliers da coluna Parainfluenza 3: 10
Outliers da coluna Chlamydophila pneumoniae: 9
Outliers da coluna Adenovirus: 13
Outliers da coluna Parainfluenza 4: 19
Outliers da coluna Coronavirus229E: 9
Outliers da coluna CoronavirusOC43: 8
Outliers da coluna Inf A H1N1 2009: 98
Outliers da coluna Bordetella pertussis: 2
Outliers da coluna Metapneumovirus: 14
Outliers da coluna Parainfluenza 2: 0
Outlier