• 2.1) Add a method to the Dataset class that removes
all samples containing at least one null value (NaN).

In [6]:
import numpy as np
import pandas as pd

# Classe Dataset, onde X são as variáveis independentes e y os rótulos
class Dataset:
    def __init__(self, X, y):
        self.X = X
        self.y = y
    
    def dropna(self):
        # 1. Identificar as linhas que não possuem NaN
        non_nan_mask = ~np.any(np.isnan(self.X), axis=1)
        
        # 2. Filtrar as linhas de X que não têm NaN
        self.X = self.X[non_nan_mask]
        
        # 3. Atualizar o vetor y removendo as entradas correspondentes às linhas removidas
        self.y = self.y[non_nan_mask]
        
        # Retornar o objeto atualizado (self)
        return self
    
    def fillna(self, value):
        # Para cada coluna em X, substitua os NaN pelo valor adequado
        for i in range(self.X.shape[1]):  # Iterar por cada coluna
            if np.any(np.isnan(self.X[:, i])):  # Verificar se a coluna contém NaN
                if value == "mean":
                    fill_value = np.nanmean(self.X[:, i])  # Calcular a média ignorando NaN
                elif value == "median":
                    fill_value = np.nanmedian(self.X[:, i])  # Calcular a mediana ignorando NaN
                else:
                    fill_value = value  # Se for um número, use diretamente

                # Substituir NaN na coluna i pelo valor calculado
                self.X[:, i] = np.where(np.isnan(self.X[:, i]), fill_value, self.X[:, i])
        
        return self 
    
    def remove_by_index(self, index):
        # Verificar se o índice é válido
        if index < 0 or index >= self.X.shape[0]:
            raise IndexError("Index out of bounds")

        # Criar uma máscara que mantém todas as linhas, exceto a que está sendo removida
        mask = np.ones(self.X.shape[0], dtype=bool)  # Máscara inicial com True
        mask[index] = False  # Definir o índice a ser removido como False
        
        # Aplicar a máscara para filtrar X e y
        self.X = self.X[mask]
        self.y = self.y[mask]

        return self  # Retornar o objeto modificado

In [7]:
# Carregar o dataset iris
path = r"C:\Users\tiago\OneDrive\Documentos\GitHub\si\datasets\iris\iris.csv"
iris_df = pd.read_csv(path)

# Converter as variáveis independentes (X) e o vetor de rótulos (y)
X = iris_df.iloc[:, :-1].to_numpy()  # Todas as colunas, exceto a última (variáveis independentes)
y = iris_df.iloc[:, -1].to_numpy()   # A última coluna contém as classes (rótulos)

# Criando o objeto Dataset
dataset = Dataset(X, y)

# Removendo amostras com NaN
dataset.dropna()

# Verificando o resultado
print("X após dropna:", dataset.X)
print("y após dropna:", dataset.y)



X após dropna: [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.1 1.5 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.

2.2) Add a method to the Dataset class that
replaces all null values with another value or the
mean or median of the feature/variable.

In [8]:
# Converter as variáveis independentes (X) e o vetor de rótulos (y)
X = iris_df.iloc[:, :-1].to_numpy()  # Todas as colunas, exceto a última (variáveis independentes)
y = iris_df.iloc[:, -1].to_numpy()   # A última coluna contém as classes (rótulos)

# Adicionando valores NaN para o exemplo
X[0, 0] = np.nan  # Introduzindo um NaN para teste
X[2, 1] = np.nan  # Introduzindo outro NaN para teste

# Criando o objeto Dataset
dataset = Dataset(X, y)

# Preenchendo NaNs com a média das colunas
dataset.fillna("mean")

# Verificando o resultado
print("X após fillna com média:", dataset.X)

X após fillna com média: [[5.84832215 3.5        1.4        0.2       ]
 [4.9        3.         1.4        0.2       ]
 [4.7        3.05302013 1.3        0.2       ]
 [4.6        3.1        1.5        0.2       ]
 [5.         3.6        1.4        0.2       ]
 [5.4        3.9        1.7        0.4       ]
 [4.6        3.4        1.4        0.3       ]
 [5.         3.4        1.5        0.2       ]
 [4.4        2.9        1.4        0.2       ]
 [4.9        3.1        1.5        0.1       ]
 [5.4        3.7        1.5        0.2       ]
 [4.8        3.4        1.6        0.2       ]
 [4.8        3.         1.4        0.1       ]
 [4.3        3.         1.1        0.1       ]
 [5.8        4.         1.2        0.2       ]
 [5.7        4.4        1.5        0.4       ]
 [5.4        3.9        1.3        0.4       ]
 [5.1        3.5        1.4        0.3       ]
 [5.7        3.8        1.7        0.3       ]
 [5.1        3.8        1.5        0.3       ]
 [5.4        3.4        1.7        

• 2.3) Add a method to the Dataset class that
removes a sample by its index. 

In [9]:
# Remover a amostra no índice 5 (por exemplo)
dataset.remove_by_index(5)

# Verificando o resultado
print("X após remoção do índice 5:", dataset.X)
print("y após remoção do índice 5:", dataset.y)


X após remoção do índice 5: [[5.84832215 3.5        1.4        0.2       ]
 [4.9        3.         1.4        0.2       ]
 [4.7        3.05302013 1.3        0.2       ]
 [4.6        3.1        1.5        0.2       ]
 [5.         3.6        1.4        0.2       ]
 [4.6        3.4        1.4        0.3       ]
 [5.         3.4        1.5        0.2       ]
 [4.4        2.9        1.4        0.2       ]
 [4.9        3.1        1.5        0.1       ]
 [5.4        3.7        1.5        0.2       ]
 [4.8        3.4        1.6        0.2       ]
 [4.8        3.         1.4        0.1       ]
 [4.3        3.         1.1        0.1       ]
 [5.8        4.         1.2        0.2       ]
 [5.7        4.4        1.5        0.4       ]
 [5.4        3.9        1.3        0.4       ]
 [5.1        3.5        1.4        0.3       ]
 [5.7        3.8        1.7        0.3       ]
 [5.1        3.8        1.5        0.3       ]
 [5.4        3.4        1.7        0.2       ]
 [5.1        3.7        1.5     