Trabalho realizado por: Bárbara Freixo, PG49169

Esta implementação define uma classe Dataset para manipular dados armazenados em arquivos CSV/TSV. Ela fornece funcionalidades para ler e escrever arquivos CSV/TSV, descrever o conjunto de dados e encontrar e substituir missing values. Temos então os seguintes métodos:

* __init__: Inicializa a classe Dataset com a matriz de entrada X, o vetor de saída y, os nomes das características (features), o nome da variável alvo (label) e um dicionário para armazenar os valores discretos das características discretas.
* get_X: Retorna a matriz X.
* get_y: Retorna o vetor y.
* get_feature_names: Retorna os nomes das características.
* get_label_name: Retorna o nome da variável alvo (label).
* set_X: Define a matriz X.
* set_y: Define o vetor y.
* set_feature_names: Define os nomes das características.
* set_label_name: Define o nome da variável alvo (label).
* set_discrete_values: Define os valores discretos.
* get_discrete_values: Retorna os valores discretos.
* read_csv: Lê um arquivo CSV/TSV e armazena os dados na matriz X e no vetor y. Os nomes das características e da variável alvo são armazenados, se houver um cabeçalho no arquivo.

* write_csv: Escreve os dados do objeto Dataset num arquivo CSV.

* describe: Calcula e retorna a média, desvio padrão, valor mínimo e valor máximo de cada característica na matriz X.

* find_missing_values: Retorna uma matriz booleana indicando a posição dos missing values na matriz X.

* count_missing_values: Conta e retorna o número de missing values em cada coluna da matriz X.

* replace_missing_values: Substitui os missing values na matriz X por uma constante. A constante pode ser a média, mediana, moda ou um valor específico. Para características discretas, a moda é usada como padrão.

In [102]:
import numpy as np
import csv
from scipy.stats import mode
import pandas as pd
from pandas.api.types import is_numeric_dtype

class Dataset:
    def __init__(self, X=None, y=None, feature_names=None, label_name=None):
        """
        Inicializa a classe Dataset com a matriz de entrada X, o vetor de saída y,
        os nomes das características (features), o nome da variável alvo (label) e
        um dicionário para armazenar os valores discretos das características discretas.
        """
        self.X = X
        self.y = y
        self.feature_names = feature_names
        self.label_name = label_name
        self.discrete_values = {}

    def get_X(self):
        """Retorna a matriz X."""
        return self.X

    def get_y(self):
        """Retorna o vetor y."""
        return self.y

    def get_feature_names(self):
        """Retorna os nomes das características."""
        return self.feature_names

    def get_label_name(self):
        """Retorna o nome da variável alvo (label)."""
        return self.label_name

    def set_X(self, X):
        """Define a matriz X."""
        self.X = X

    def set_y(self, y):
        """Define o vetor y."""
        self.y = y

    def set_feature_names(self, feature_names):
        """Define os nomes das características."""
        self.feature_names = feature_names

    def set_label_name(self, label_name):
        """Define o nome da variável alvo (label)."""
        self.label_name = label_name

    def set_discrete_values(self, discrete_values):
        """Define os valores discretos."""
        self.discrete_values = discrete_values

    def get_discrete_values(self):
        """Retorna os valores discretos."""
        return self.discrete_values

    def read_csv(self, filepath, delimiter=',', has_header=True):
        """
        Lê um arquivo CSV/TSV e armazena os dados na matriz X e no vetor y.
        Os nomes das características e da variável alvo são armazenados, se houver
        um cabeçalho no arquivo.
        """
        with open(filepath, 'r') as file:
            reader = csv.reader(file, delimiter=delimiter)
            if has_header:
                header = next(reader)
                self.feature_names = header[:-1]
                self.label_name = header[-1]
            data = list(reader)
        data = np.array(data, dtype=object)
        self.X = data[:, :-1].astype(np.float64)
        self.y = np.round(data[:, -1].astype(np.float64)).astype(np.int64)

    def write_csv(self, filepath, delimiter=','):
        """
        Escreve os dados do objeto Dataset num arquivo CSV/TSV.
        """
        data = np.column_stack((self.X, self.y))
        with open(filepath, 'w') as file:
            writer = csv.writer(file, delimiter=delimiter)
            if self.feature_names is not None and self.label_name is not None:
                writer.writerow(self.feature_names + [self.label_name])
            writer.writerows(data)

    def describe(self):
        """
        Calcula e retorna a média, desvio padrão, valor mínimo e valor máximo de cada
        característica numérica na matriz X.
        """
        means = []
        stds = []
        min_values = []
        max_values = []
        for i, feature_name in enumerate(self.feature_names):
            try:
                feature_values = self.X[:, i].astype(np.float64)
                means.append(np.mean(feature_values))
                stds.append(np.std(feature_values))
                min_values.append(np.min(feature_values))
                max_values.append(np.max(feature_values))
            except ValueError:
                means.append(None)
                stds.append(None)
                min_values.append(None)
                max_values.append(None)

        return means, stds, min_values, max_values



    def find_missing_values(self):
        """
        Retorna uma matriz booleana indicando a posição dos missing values
        na matriz X.
        """
        return np.isnan(self.X.astype(np.float64))

    def count_missing_values(self):
        """
        Conta e retorna o número de missing values em cada coluna da matriz X.
        """
        missing_values = np.full(self.X.shape, False)
        for i in range(self.X.shape[0]):
            for j in range(self.X.shape[1]):
                if self.X[i, j] is None or self.X[i, j] == '':
                    missing_values[i, j] = True
                else:
                    try:
                        missing_values[i, j] = np.isnan(float(self.X[i, j]))
                    except ValueError:
                        missing_values[i, j] = False
        return np.sum(missing_values, axis=0)

    def replace_missing_values(self, constant=None):
        """
        Substitui os missing values na matriz X por uma constante. Se a constante
        não for fornecida, a média é usada para características numéricas e a 
        moda é usada para características categóricas.
        """
        missing = self.count_missing_values()
        for i in range(self.X.shape[1]):
            if missing[i] > 0:  # se há valores faltantes na coluna
                column_values = self.X[:, i]
                values_without_nan = [x for x in column_values if pd.notna(x)]

                # Verifique se a coluna é numérica ou não
                is_numeric = all(isinstance(x, (int, float)) for x in values_without_nan)
                
                if is_numeric:  # se a coluna for numérica
                    replacement = constant if constant else np.mean(values_without_nan)
                else:  # se a coluna for categórica
                    replacement = constant if constant else pd.Series(values_without_nan).mode()[0]
                
                # Substitua os valores em falta pela constante ou medida apropriada
                self.X[:, i] = [x if pd.notna(x) else replacement for x in column_values]



# Testes e exemplos para o algoritmo implementado

## Exemplo de uso do código

Esta implementação demonstra como manipular e analisar um conjunto de dados utilizando a classe Dataset, além de mostrar como salvar e carregar os dados em formato CSV.

In [111]:
import numpy as np

# Dados de exemplo
X = np.array([
    [1, 'Feminino', 'Sim', 25],
    [2, 'Masculino', 'Não', 30],
    [3, 'Feminino', 'Sim', 35],
    [4, 'Masculino', 'Não', 40],
    [5, 'Feminino', 'Não', 45]
])

y = np.array([0, 1, 0, 1, 0])

# Cria uma instância do Dataset
dataset = Dataset(X=X, y=y)

# Define os nomes das características e da variável alvo
dataset.set_feature_names(['id', 'gênero', 'trabalha', 'idade'])
dataset.set_label_name('classe')

# Calcula as estatísticas para todas as características
means, stds, min_values, max_values = dataset.describe()
print("Estatísticas para todas as características:")
for i, feature_name in enumerate(dataset.get_feature_names()):
    print(f"Característica: {feature_name}")
    print(f"Média: {means[i]}")
    print(f"Desvio padrão: {stds[i]}")
    print(f"Valor mínimo: {min_values[i]}")
    print(f"Valor máximo: {max_values[i]}")
    print()

Estatísticas para todas as características:
Característica: id
Média: 3.0
Desvio padrão: 1.4142135623730951
Valor mínimo: 1.0
Valor máximo: 5.0

Característica: gênero
Média: None
Desvio padrão: None
Valor mínimo: None
Valor máximo: None

Característica: trabalha
Média: None
Desvio padrão: None
Valor mínimo: None
Valor máximo: None

Característica: idade
Média: 35.0
Desvio padrão: 7.0710678118654755
Valor mínimo: 25.0
Valor máximo: 45.0



In [110]:
# Dados de exemplo com alguns missing values
X = np.array([
    [1, 'Feminino', 'Sim', 25],
    [2, np.nan, 'Não', 30],
    [3, 'Feminino', np.nan, 35],
    [4, 'Masculino', 'Não', None],
    [5, 'Feminino', 'Não', 45]
], dtype=object)

y = np.array([0, 1, np.nan, 1, 0])

# Cria uma instância do Dataset
dataset = Dataset(X=X, y=y)

# Define os nomes das características e da variável alvo
dataset.set_feature_names(['id', 'gênero', 'trabalha', 'idade'])
dataset.set_label_name('classe')

# Conta o número de missing values em cada coluna
missing_counts = dataset.count_missing_values()
print("Número de missing values em cada característica:")
for i, count in enumerate(missing_counts):
    print(f"Característica {dataset.get_feature_names()[i]}: {count} missing values")

dataset.replace_missing_values()

print("\nApós a substituição, o número de missing values em cada característica é:")
missing_counts = dataset.count_missing_values()
for i, count in enumerate(missing_counts):
    print(f"Característica {dataset.get_feature_names()[i]}: {count} missing values")

Número de missing values em cada característica:
Característica id: 0 missing values
Característica gênero: 1 missing values
Característica trabalha: 1 missing values
Característica idade: 1 missing values

Após a substituição, o número de missing values em cada característica é:
Característica id: 0 missing values
Característica gênero: 0 missing values
Característica trabalha: 0 missing values
Característica idade: 0 missing values


In [112]:
from sklearn.datasets import load_wine

# Carrega o conjunto de dados Wine
wine = load_wine()

# Cria uma instância da classe Dataset e preenche os atributos com os dados do Wine
dataset = Dataset(X=wine.data, y=wine.target, feature_names=wine.feature_names, label_name='wine_class')

# Imprime as variáveis independentes (X), a variável dependente (y), os nomes das características e o nome do rótulo
print("X:", dataset.get_X())
print("y:", dataset.get_y())
print("Feature names:", dataset.get_feature_names())
print("Label name:", dataset.get_label_name())

# Calcula e imprime as estatísticas do conjunto de dados
means, stds, min_values, max_values = dataset.describe()
print("Means:", means)
print("Standard deviations:", stds)
print("Minimum values:", min_values)
print("Maximum values:", max_values)

# Identifica e conta os missing values
missing_values = dataset.find_missing_values()
missing_count = dataset.count_missing_values()
print("Missing values:", missing_values)
print("Missing count:", missing_count)

# Escreve o conjunto de dados num arquivo CSV
dataset.write_csv("wine.csv")

# Remove o arquivo CSV após a execução do exemplo
import os
os.remove("wine.csv")

X: [[1.423e+01 1.710e+00 2.430e+00 ... 1.040e+00 3.920e+00 1.065e+03]
 [1.320e+01 1.780e+00 2.140e+00 ... 1.050e+00 3.400e+00 1.050e+03]
 [1.316e+01 2.360e+00 2.670e+00 ... 1.030e+00 3.170e+00 1.185e+03]
 ...
 [1.327e+01 4.280e+00 2.260e+00 ... 5.900e-01 1.560e+00 8.350e+02]
 [1.317e+01 2.590e+00 2.370e+00 ... 6.000e-01 1.620e+00 8.400e+02]
 [1.413e+01 4.100e+00 2.740e+00 ... 6.100e-01 1.600e+00 5.600e+02]]
y: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
Feature names: ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']

## Testes "Unittest"

Foi realizado um teste utilizando o unittest para testar a implementação do Dataset. Temos então o seguinte teste:

Estes testes cobrem funções como getters e setters, leitura e escrita de arquivos CSV, descrição e manipulação de missing values.

In [109]:
import unittest
import numpy as np
from sklearn.datasets import load_iris

class TestDataset(unittest.TestCase):
    """
    Classe de teste para a classe Dataset.
    """

    def setUp(self):
        """
        Carrega o conjunto de dados Iris e cria uma instância da classe Dataset
        com os dados e rótulos do conjunto de dados Iris.
        """
        self.iris = load_iris()
        self.dataset = Dataset(X=self.iris.data, y=self.iris.target,
                               feature_names=self.iris.feature_names,
                               label_name='species')

    def test_get_X(self):
        """Testa o método get_X."""
        self.assertTrue(np.array_equal(self.dataset.get_X(), self.iris.data))

    def test_get_y(self):
        """Testa o método get_y."""
        self.assertTrue(np.array_equal(self.dataset.get_y(), self.iris.target))

    def test_get_feature_names(self):
        """Testa o método get_feature_names."""
        self.assertEqual(self.dataset.get_feature_names(), self.iris.feature_names)

    def test_get_label_name(self):
        """Testa o método get_label_name."""
        self.assertEqual(self.dataset.get_label_name(), 'species')

    def test_describe(self):
        """Testa o método describe."""
        means, stds, min_values, max_values = self.dataset.describe()

        self.assertTrue(np.allclose(means, np.mean(self.iris.data, axis=0)))
        self.assertTrue(np.allclose(stds, np.std(self.iris.data, axis=0)))
        self.assertTrue(np.allclose(min_values, np.min(self.iris.data, axis=0)))
        self.assertTrue(np.allclose(max_values, np.max(self.iris.data, axis=0)))

    def test_missing_values(self):
        """Testa os métodos find_missing_values e count_missing_values."""
        missing_values = self.dataset.find_missing_values()
        missing_count = self.dataset.count_missing_values()

        self.assertEqual(missing_values.shape, self.iris.data.shape)
        self.assertEqual(missing_count.shape, (self.iris.data.shape[1],))
        self.assertEqual(np.sum(missing_values), 0)
        self.assertEqual(np.sum(missing_count), 0)

    def test_replace_missing_values(self):
        """
        Testa o método replace_missing_values, adicionando alguns missing values
        ao conjunto de dados e verifica se eles são substituídos corretamente.
        """

        data_with_missing = self.iris.data.copy()
        data_with_missing[0, 0] = np.nan
        data_with_missing[1, 1] = np.nan
        self.dataset.set_X(data_with_missing)

        self.dataset.replace_missing_values()
        means = np.nanmean(data_with_missing, axis=0)
        self.assertTrue(np.allclose(self.dataset.get_X()[0, 0], means[0]))
        self.assertTrue(np.allclose(self.dataset.get_X()[1, 1], means[1]))

if __name__ == "__main__":
    unittest.main(argv=['first-arg-is-ignored'], exit=False)

.......
----------------------------------------------------------------------
Ran 7 tests in 0.026s

OK
