
# Gestor de Datasets para Proyectos de Inteligencia Artificial

Este cuaderno permite crear un sistema en Python para **gestionar y analizar datasets** con caracter√≠sticas **num√©ricas** y **categ√≥ricas**.

## ¬øQu√© es un dataset?

Un **dataset** (o conjunto de datos) es una colecci√≥n organizada de informaci√≥n que se utiliza para an√°lisis, aprendizaje autom√°tico o toma de decisiones. Cada **muestra** del dataset representa un caso o registro, y cada **columna** representa una caracter√≠stica o atributo de ese caso.

* **Muestras (filas)**: cada fila contiene los datos de un ejemplo individual.
* **Caracter√≠sticas (columnas)**: cada columna contiene un atributo de los ejemplos.
* **Tipos de caracter√≠sticas**:

  * **Num√©ricas**: valores que se pueden medir y usar en c√°lculos matem√°ticos (ej. edad, altura, peso).
  * **Categ√≥ricas**: valores que representan categor√≠as o etiquetas (ej. color, forma, tipo de material).

### Ejemplo de dataset

Supongamos que tenemos un dataset de personas:

| nombre | edad | altura | color_ojos |
| ------ | ---- | ------ | ---------- |
| Ana    | 25   | 1.70   | azul       |
| Juan   | 30   | 1.82   | marr√≥n     |
| Mar√≠a  | 22   | 1.65   | verde      |

* **Filas**: cada persona es una muestra.
* **Columnas**:

  * `edad` y `altura` ‚Üí num√©ricas
  * `nombre` y `color_ojos` ‚Üí categ√≥ricas

Este cuaderno permitir√°:

1. **Crear datasets** como este.
2. **A√±adir, modificar o eliminar muestras** f√°cilmente.
3. **Guardar y cargar** datasets en formato JSON.
4. **Realizar an√°lisis b√°sicos**:

   * Calcular la **media** de columnas num√©ricas (`edad`, `altura`)
   * Contar la frecuencia de cada categor√≠a en columnas categ√≥ricas (`color_ojos`)


**Objetivos de aprendizaje:**
- Programaci√≥n Orientada a Objetos (POO) con herencia, abstracci√≥n y encapsulaci√≥n
- Sobrecarga de m√©todos
- Uso de decoradores `@property`
- Funciones, listas y diccionarios
- Manejo de ficheros JSON
- Manejo de excepciones

**Instrucciones:**  
- Debes implementar **todos los m√©todos** marcados con `# TODO: implementar`.  



## üß© **Clase Base: `Dataset`**

### üìò Prop√≥sito

Sirve como **clase abstracta** para definir la estructura y comportamiento general de un dataset (colecci√≥n de muestras).
No debe instanciarse directamente, sino a trav√©s de subclases concretas.

### üìã Atributos

* `__nombre`: nombre identificativo del dataset (string).
* `__datos`: lista de muestras, donde cada muestra es un **diccionario** con los datos de una fila.

### üß± Propiedades

* `nombre`: solo lectura. Devuelve el nombre del dataset.
* `datos`: permite acceder y asignar los datos del dataset.

  * Debe ser una **lista de diccionarios**.
  * Si se intenta asignar otro tipo, lanza `TypeError`.

### üîß M√©todos abstractos

* `cargar_fichero(nombre_fichero)`: debe cargar el dataset desde un archivo (normalmente JSON).
* `guardar_fichero(nombre_fichero)`: debe guardar el dataset en un archivo.

### üß† M√©todos concretos

* `a√±adir_muestra(muestra)`:
  Agrega una muestra al dataset.

  * Solo acepta diccionarios.
  * Si se pasa otro tipo, lanza `TypeError`.

* `eliminar_muestra(indice)`:
  Elimina la muestra en la posici√≥n indicada.

  * Si el √≠ndice no existe, lanza `IndexError`.

* `obtener_muestra(indice)`:
  Devuelve la muestra en la posici√≥n indicada.

  * Si el √≠ndice no existe, lanza `IndexError`.





In [None]:
# TODO: Dataset
from abc import ABC, abstractmethod

class Dataset(ABC):
    def __init__(self, nombre):
        self.__nombre = nombre
        self.__datos = []

    @property
    def datos(self):
      return self.datos

    @property
    def nombre(self):
      return self.__nombre

    @datos.setter
    def datos(self, datos):
      self.__datos = datos
    # metodos abstractor
    @abstractmethod
    def cargar_fichero(self, n_fichero):
      pass
    @abstractmethod
    def guardar_fichero(self, n_fichero):
      pass

    def nombre(self):
      return self.__nombre

    def eliminar_muestra(self, indice):
      try:
        del self.__datos[indice]
      except IndexError as e:
        raise e("el indice no existe")

    def anadir_muestra(self, dato):
      self.__datos.append(dato)
    def obtener_muestra(self, indice):
      return self.__datos[indice]

## üî¢ **Clase `DatasetNum√©rico` (hereda de `Dataset`)**

### üìò Prop√≥sito

Gestiona datasets cuyos valores son **num√©ricos** (int o float).

### ‚öôÔ∏è M√©todos sobrescritos y a√±adidos

* `a√±adir_muestra(muestra)`:

  * Puede recibir:

    * Un **diccionario** (comportamiento est√°ndar).
    * Una **tupla**: en este caso convierte la tupla a diccionario tomando las claves del primer elemento ya existente en `datos`.
  * Valida:

    * Que exista al menos una muestra previa (para conocer las columnas).
    * Que la tupla tenga el mismo n√∫mero de elementos que las columnas.
  * Si algo falla, lanza `ValueError`.

* `media(columna)`:

  * Calcula la media aritm√©tica de los valores de una columna.
  * Valida que:

    * La columna exista (`KeyError`).
    * Todos los valores sean num√©ricos (`TypeError`).
  * Devuelve `0` si no hay datos.

* `cargar_fichero(nombre_fichero)`:

  * Abre y carga un fichero JSON.
  * Valida que el fichero exista (`FileNotFoundError`).

* `guardar_fichero(nombre_fichero)`:

  * Guarda los datos actuales como JSON.
  * Si ocurre un error al escribir, lanza `IOError`.



In [None]:
 # TODO: DatasetNumerico
import json
class DatasetNumerico(Dataset):

  def anadir_muestra(self, muestra):
    clave_dataset = list(self.datos[0].keys())
    muestra = dict(zip(clave_dataset, muestra))
    super.anadir_muestra(muestra)

def media(self, columna):
  if not self.datos:
    return 0
  valor = [dato[columna] for dato in self.datos]
  return sum(valor) /len(valor)

def cargar_fichero(self, nombre_fichero):
  with open(nombre_fichero, "r") as f:
    data = json.load(f)
    self.datos = data


def guardar_fichero(self, nombre_fichero):
  with open(nombre_fichero, "w") as f:
    json.dump(self.datos, f, indent=2)



## üî§ **Clase `DatasetCategorico` (hereda de `Dataset`)**

### üìò Prop√≥sito

Gestiona datasets cuyos valores son **categ√≥ricos** (texto, etiquetas, etc.).

### ‚öôÔ∏è M√©todos a√±adidos

* `conteo_categoria(columna)`:

  * Devuelve un diccionario con la **frecuencia de cada categor√≠a** en la columna indicada.
  * Si la columna no existe, lanza `KeyError`.

* `cargar_fichero(nombre_fichero)` y `guardar_fichero(nombre_fichero)`:

  * Funcionan igual que en `DatasetNum√©rico`.
  * Gestionan archivos JSON con los datos categ√≥ricos.



In [None]:
# TODO: DatasetCategorico
class DatasetCategorico(Dataset):

  def conteo_categoria(self, columna):
    conteo = 0
    for muestra in self.datos():

      valor = muestra[columna]
      #print(valor)
      conteo[valor]= conteo.get(valor, 0) + 1
    return conteo
  def cargar_fichero(self, nombre_fichero):
    with open(nombre_fichero, "r") as f:
      data = json.load(f)
      self.datos = data
  def guardar_fichero(self, nombre_fichero):
    with open(nombre_fichero, "w") as f:
      json.dump(self.datos, f, indent=2)


## üóÉÔ∏è **Funci√≥n `cargar_datasets(lista_archivos)`**

### üìò Prop√≥sito

Carga varios datasets desde una lista de archivos JSON.

### üß© Funcionamiento

* Recorre la lista de rutas:

  * Si el archivo **no existe**, muestra una advertencia y lo ignora.
  * Si existe:

    * Carga el contenido JSON.
    * Determina autom√°ticamente el tipo de dataset:

      * Si **todos los valores** son num√©ricos ‚Üí instancia `DatasetNum√©rico`.
      * Si no ‚Üí instancia `DatasetCategorico`.
    * Asigna los datos cargados al objeto dataset.
* Devuelve una lista con los objetos `DatasetNum√©rico` o `DatasetCategorico` creados.



In [None]:
# TODO: cargar_datasets

def numerico(valor):
  return isinstance(valor(int, float))

def cargar_dataset(lista_archivos):
  datasets = []
  for archivo in lista_archivos:
    with open(archivo, "r") as f:
      data = json.load(f)
      if dataset_numerico(data):
        dataset = DatasetNumerico(archivo)
      else:
        dataset = DatasetCategorico(archivo)

      dataset.datos = data
      datasets.append(dataset)
  return datasets

def dataset_numerico(datos):
  for fila in datos:
    for valor in fila.values():
      if not numerico(valor):
        #print(valor)
        return False
  return None


# üß© Funci√≥n: `guardar_datasets()`

## üìò Prop√≥sito general

La funci√≥n `guardar_datasets()` tiene como objetivo **guardar en disco varios objetos `Dataset` (num√©ricos o categ√≥ricos)** en formato **JSON**, utilizando los m√©todos `guardar_fichero()` definidos en las clases `DatasetNum√©rico` y `DatasetCategorico`.

Esta funci√≥n debe ser **complementaria** a `cargar_datasets()`, de forma que ambas gestionen el ciclo completo de lectura y escritura de datasets:

* `cargar_datasets()` ‚Üí Carga m√∫ltiples datasets desde archivos JSON.
* `guardar_datasets()` ‚Üí Guarda m√∫ltiples datasets en archivos JSON.

---

## üì• Par√°metros de entrada

### `datasets` (`list`)

* Lista de objetos `DatasetNum√©rico` o `DatasetCategorico`.
* Cada elemento debe ser una instancia v√°lida de una subclase de `Dataset`.
* Si la lista est√° vac√≠a o contiene elementos inv√°lidos, se deben lanzar las excepciones correspondientes.

### `carpeta_destino` (`str | None`, opcional)

* Ruta de la carpeta donde se guardar√°n los ficheros generados.
* Si es `None`, los archivos se guardan en el directorio actual.
* Si la carpeta no existe, debe crearse autom√°ticamente con `os.makedirs(carpeta_destino, exist_ok=True)`.

---

## üì§ Comportamiento esperado

1. **Validar par√°metros de entrada:**

   * Comprobar que `datasets` sea una lista.
   * Verificar que la lista no est√© vac√≠a.
   * Si se indica `carpeta_destino`, confirmar que sea una cadena de texto.

2. **Crear la carpeta destino (si se especifica):**

   * Si la carpeta no existe, crearla.
   * Si ya existe, continuar sin errores.

3. **Iterar sobre cada dataset de la lista:**

   * Validar que cada objeto sea instancia de la clase `Dataset`.
   * Obtener el nombre del dataset (`ds.nombre`).
   * Asegurar que el nombre termine con la extensi√≥n `.json`.

4. **Construir la ruta completa de guardado:**

   * Si se indic√≥ `carpeta_destino`, concatenarla con el nombre del archivo (`os.path.join()`).
   * Si no, guardar el archivo directamente en el directorio actual.

5. **Guardar los datos:**

   * Llamar al m√©todo `guardar_fichero(ruta_completa)` del dataset.
   * Este m√©todo se encarga de serializar los datos en formato JSON y escribirlos en disco.

6. **Control de errores:**

   * Si ocurre un error durante el guardado (por permisos, espacio en disco, etc.), capturar la excepci√≥n original y volver a lanzarla como un `IOError` con un mensaje descriptivo.

---

## ‚ö†Ô∏è Excepciones a lanzar

| Tipo de excepci√≥n | Condici√≥n que la provoca                             | Mensaje orientativo                                                           |
| ----------------- | ---------------------------------------------------- | ----------------------------------------------------------------------------- |
| `TypeError`       | El par√°metro `datasets` no es una lista              | `"El par√°metro 'datasets' debe ser una lista de objetos Dataset"`             |
| `ValueError`      | La lista `datasets` est√° vac√≠a                       | `"La lista de datasets est√° vac√≠a"`                                           |
| `ValueError`      | Alg√∫n elemento de la lista no es un objeto `Dataset` | `"Objeto inv√°lido en la lista: {type(obj).__name__}"`                         |
| `TypeError`       | `carpeta_destino` no es una cadena                   | `"El par√°metro 'carpeta_destino' debe ser una cadena de texto"`               |
| `IOError`         | Error al guardar un fichero JSON                     | `"No se pudo guardar el dataset '{nombre}' en '{ruta}': {detalle_del_error}"` |

---






In [None]:
# TODO: guardar_datasets

def guardar_datos(datasets, carpeta_destino):



## üìä **Funci√≥n `resumen_dataset(dataset)`**

### üìò Prop√≥sito

Genera un resumen estad√≠stico de un dataset (num√©rico o categ√≥rico).

### üìã Devuelve un diccionario con:

* `num_muestras`: n√∫mero de filas en el dataset.
* `num_columnas`: n√∫mero de columnas (seg√∫n el primer elemento).
* `medias`: medias por columna (si son num√©ricas).
* `conteos`: conteos por categor√≠a (si son categ√≥ricas).

### ‚öôÔ∏è Detalles de implementaci√≥n

* Si el dataset est√° vac√≠o, devuelve un resumen vac√≠o con ceros.
* Intenta calcular la media por cada columna.
  Si falla (no es num√©rica), intenta calcular el conteo de categor√≠as.

---

## üìò **Resumen general de implementaci√≥n**

| Clase / Funci√≥n     | Rol                 | Tipo de datos esperado | Excepciones principales               |
| ------------------- | ------------------- | ---------------------- | ------------------------------------- |
| `Dataset`           | Base abstracta      | Lista de diccionarios  | `TypeError`, `IndexError`             |
| `DatasetNum√©rico`   | Subclase num√©rica   | int, float             | `ValueError`, `KeyError`, `TypeError` |
| `DatasetCategorico` | Subclase categ√≥rica | str, categor√≠as        | `KeyError`                            |
| `cargar_datasets`   | Cargador autom√°tico | Archivos JSON          | `FileNotFoundError`                   |
| `resumen_dataset`   | Resumen estad√≠stico | `Dataset` v√°lido       | Maneja excepciones internamente       |



In [None]:
# TODO: resumen_dataset