# Práctica 1 - Exploración de ficheros locales con distinto formato

## 0. Autoría

* **Autor**: Jorge Cabrera Rodríguez
* **Fecha**: 15/11/2023
* **Asignatura**: Adquisición e Integración de Datos (AID)
* **Máster**: Ciberseguridad e Inteligencia de Datos
* **Universidad**: Universidad de La Laguna (ULL)

## 1. Descripción de la librería

Se busca desarrollar una librería sencilla en _python_ que permita la lectura, manipulación y escritura de conjuntos de datos (_datasets_) almacenados en ficheros locales. Estos ficheros pueden estar escritos en diferentes formatos, como puedan ser:

* _CSV_
* _JSON_
* _XML_

Las funcionalidades que implementa la librería son las siguientes:

1. Leer diferentes ficheros locales de formato _CSV_, _JSON_ y _XML_.
2. Obtener el nombre del fichero y el número de filas del conjunto de datos que contiene.
3. Obtener el contenido completo del conjunto de datos contenido en el fichero.
4. Obtener un subconjunto de datos del conjunto de datos contenido en el fichero acorde a un predicado lógico.
5. Realizar operaciones de manipulación de datos sobre el conjunto de datos original, tales como:
    * Inserción de nuevas filas.
    * Eliminación de filas acorde a un predicado lógico.
    * Modificación de filas acorde a un predicado lógico.
6. Realizar operaciones de modificado de la estructura (_schema_) del conjunto de datos original, tales como:
    * Añadir una nueva columna.
    * Eliminar una columna.
7. Almacenar los cambios realizados a un conjunto de datos de nuevo a un fichero
local.

## 2. Uso de la librería

### 2.1. Lectura de ficheros

El módulo `multi_reader` aporta las siguientes funciones para leer ficheros:

* `read_csv`: Lee un fichero en formato _CSV_.
* `read_json`: Lee un fichero en formato _JSON_.
* `read_xml`: Lee un fichero en formato _XML_.

Estas funciones retornan una clase propia del módulo `multi_reader` llamada `DataFile` que contiene la información del fichero leído.

In [1]:
from multi_reader import *

csv_file = read_csv('../data/iris.csv')
print(f"Tipo de dato de csv_file: {type(csv_file).__name__}", end="\n\n")


xml_file = read_xml('../data/movies.xml')
print(f"Tipo de dato de xml_file: {type(xml_file).__name__}", end="\n\n")


json_file = read_json('../data/country.json')
print(f"Tipo de dato de json_file: {type(json_file).__name__}")

Tipo de dato de csv_file: DataFile

Tipo de dato de xml_file: DataFile

Tipo de dato de json_file: DataFile


En caso de que el fichero no exista, o el formato esperado no coincida con el del fichero, se lanzará una excepción.

In [2]:
from multi_reader import *

try:
    read_csv('../data/movies.xml')
except:
    print('El formato del fichero no coincide!', end="\n\n")


try:
    read_json('Fichero_inexistente.txt')
except:
    print('El fichero no existe!', end="\n\n")

El formato del fichero no coincide!

El fichero no existe!



  data_frame = parsing_function(file_path)


Los métodos de lectura de fichero son las formas esperadas de generar instancias de la clase `DataFile`. La invocación directa del constructor de la clase está implementada, pero desaconsejada.

### 2.2. Obtención de información sobre el conjunto de datos

La clase `DataFile` contiene todos los métodos necesarios para manipular el conjunto de datos. Uno de estos métodos es `summary()`, que nos permite obtener el nombre original del fichero y el número de filas que contiene.

In [3]:
from multi_reader import *

csv_file = read_csv('../data/iris.csv')
print(csv_file.summary(), end="\n\n")


xml_file = read_xml('../data/movies.xml')
print(xml_file.summary(), end="\n\n")


json_file = read_json('../data/country.json')
print(json_file.summary())

iris.csv (150 rows)

movies.xml (14 rows)

country.json (135 rows)


### 2.3. Obtención de contenido del conjunto de datos

El método `content()` permite obtener el contenido completo del conjunto de datos contenido en el fichero, en formato `str`.

In [4]:
from multi_reader import *

csv_file = read_csv('../data/iris_small.csv')
print(csv_file.content())

   sepal_length  sepal_width  petal_length  petal_width         iris
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa


In [5]:
from multi_reader import *

xml_file = read_xml('../data/movies_small.xml')
print(xml_file.content())

   favorite                                       title      format  year rating                                                                                                                                                   description
0      True  Indiana Jones: The raiders of the lost Ark         DVD  1981     PG  'Archaeologist and adventurer Indiana Jones \n        is hired by the U.S. government to find the Ark of the \n        Covenant before the Nazis.'\n        
1      True                              THE KARATE KID  DVD,Online  1984     PG                                                                                                                                                None provided.
2     False                           Back 2 the Future     Blu-ray  1985     PG                                                                                                                                                   Marty McFly


In [6]:
from multi_reader import *

json_file = read_json('../data/country_small.json')
print(json_file.content())

              name code
0          Algeria   DZ
1        Argentina   AR
2        Australia   AU
3          Austria   AT
4  Austria-Hungary  NaN


### 2.4. Filtrado de registros

El método `filter()` nos permite filtrar aquellas filas en el conjunto de datos que cumplan un predicado lógico en concreto. Este predicado lógico debe ser una función que reciba como parámetro una fila del conjunto de datos y devuelva un valor booleano.

El resultado es un nuevo `DataFile` distinto al original, que contiene únicamente las filas que cumplen el predicado lógico.

In [7]:
from multi_reader import *

json_file = read_json('../data/country.json')

filtered_file = json_file.filter(lambda row: row['code'] == 'ES')

print(filtered_file.content())

      name code
112  Spain   ES


In [8]:
from multi_reader import *

xml_file = read_xml('../data/movies.xml')

filtered_file = xml_file.filter(lambda row: row['year'] < 1987)

print(filtered_file.content())

    favorite                                       title      format  year rating                                                                                                                                                   description
0       True  Indiana Jones: The raiders of the lost Ark         DVD  1981     PG  'Archaeologist and adventurer Indiana Jones \n        is hired by the U.S. government to find the Ark of the \n        Covenant before the Nazis.'\n        
1       True                              THE KARATE KID  DVD,Online  1984     PG                                                                                                                                                None provided.
2      False                           Back 2 the Future     Blu-ray  1985     PG                                                                                                                                                   Marty McFly
6      False                            

### 2.5. Operaciones de modificación de datos

#### 2.5.1. Inserción de filas

El método `insert()` permite insertar un conjunto de filas en el conjunto de datos original. El conjunto de filas a insertar debe ser un iterable de filas (tuplas) o una instancia de `DataFile`.

El resultado será un nuevo `DataFile` distinto al original, que contiene las filas del conjunto de datos original más las filas a insertar.

In [9]:
from multi_reader import *

csv_file = read_csv('../data/iris_small.csv')
print(csv_file.content(), end = '\n\n')

inserted_file = csv_file.insert(csv_file)
print(inserted_file.content())

   sepal_length  sepal_width  petal_length  petal_width         iris
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa

   sepal_length  sepal_width  petal_length  petal_width         iris
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa
3           5.1          3.5           1.4          0.2  Iris-setosa
4           4.9          3.0           1.4          0.2  Iris-setosa
5           4.7          3.2           1.3          0.2  Iris-setosa


In [10]:
from multi_reader import *

csv_file = read_csv('../data/iris_small.csv')
print(csv_file.content(), end = '\n\n')

inserted_file = csv_file.insert([
    (2, 3, 2, 1.5, 'Flor desconocida')
])
print(inserted_file.content())

   sepal_length  sepal_width  petal_length  petal_width         iris
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa

   sepal_length  sepal_width  petal_length  petal_width              iris
0           5.1          3.5           1.4          0.2       Iris-setosa
1           4.9          3.0           1.4          0.2       Iris-setosa
2           4.7          3.2           1.3          0.2       Iris-setosa
3           2.0          3.0           2.0          1.5  Flor desconocida


#### 2.5.2. Eliminación de filas

El método `delete()` permite eliminar aquellas filas del conjunto de datos original que cumplan un predicado lógico en concreto. Este predicado lógico debe ser una función que reciba como parámetro una fila del conjunto de datos y devuelva un valor booleano.

El resultado será una nueva instancia de `DataFile` sin las filas eliminadas.

In [11]:
from multi_reader import *

xml_file = read_xml('../data/movies.xml')
print(xml_file.content(), end = '\n\n')

trimmed_file = xml_file.delete(lambda row: row['year'] < 2_000)

print(trimmed_file.content())

    favorite                                       title               format  year   rating                                                                                                                                                                                                                                                                                                                   description
0       True  Indiana Jones: The raiders of the lost Ark                  DVD  1981       PG                                                                                                                                                                  'Archaeologist and adventurer Indiana Jones \n        is hired by the U.S. government to find the Ark of the \n        Covenant before the Nazis.'\n        
1       True                              THE KARATE KID           DVD,Online  1984       PG                                                                                      

#### 2.5.3. Modificación de filas

El método `update()` permite aplicar una modificación (_acción_) a todas aquellas filas del conjunto de datos que cumplan con un predicado lógico.

* El predicado lógico debe de ser una expresión lambda (o una función estándar) que reciba como parámetro una fila del conjunto de datos y devuelva un valor booleano.
* La acción debe ser una función completa que reciba como parámetro una fila (`pd.Series`) del conjunto de datos y modifique sus valores dentro. Esta función no debe devolver nada.

El resultado será una nueva instancia de `DataFile` con las filas modificadas.

In [12]:
from multi_reader import *

csv_file = read_csv('../data/iris_small.csv')
print(csv_file.content(), end = '\n\n')


def update_action(row: pd.Series):
    row['sepal_length'] = 42
    row['petal_length'] *= -3


update_condition = lambda row: row['sepal_length'] > 5


updated_file = csv_file.update(
    condition = update_condition,
    action = update_action
)

print(updated_file.content())

   sepal_length  sepal_width  petal_length  petal_width         iris
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa

   sepal_length  sepal_width  petal_length  petal_width         iris
0          42.0          3.5          -4.2          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa


### 2.6. Operaciones de modificación de estructura

#### 2.6.1. Añadido de columnas

El método `add_field()` permite añadir un campo concreto al conjunto de datos, pudiendo asignar de forma opcinal un valor por defecto para todas las filas.

* El nombre del campo es obligatorio, y debe ser una cadena de texto.
* El valor por defecto es opcional, y puede ser:
    * Valor escalar: Se asignará el mismo valor a todas las filas.
    * Función: Se asignará el valor devuelto por la función a cada fila. Permite acceder a los valores de otras columnas de la fila.

El resultado será una nueva instancia de `DataFile` con el campo añadido.

In [13]:
from multi_reader import *

json_file = read_json('../data/country_small.json')

extended_file = json_file.add_field('Poblacion', expression = -1)

print(extended_file.content())

              name code  Poblacion
0          Algeria   DZ         -1
1        Argentina   AR         -1
2        Australia   AU         -1
3          Austria   AT         -1
4  Austria-Hungary  NaN         -1


In [14]:
from multi_reader import *

json_file = read_json('../data/country_small.json')

extended_file = json_file.add_field(
    'fullname',
    lambda row: row['name'] + " (" + row['code'] + ")"
)

print(extended_file.content())

              name code        fullname
0          Algeria   DZ    Algeria (DZ)
1        Argentina   AR  Argentina (AR)
2        Australia   AU  Australia (AU)
3          Austria   AT    Austria (AT)
4  Austria-Hungary  NaN             NaN


#### 2.6.2. Eliminado de columnas

El método `drop_field()` permite eliminar un campo concreto del conjunto de datos. El nombre del campo es obligatorio, y debe ser una cadena de texto.

El resultado será una nueva instancia de `DataFile` sin el campo eliminado.

In [15]:
from multi_reader import *

xml_file = read_xml('../data/movies.xml')

chopped_file = xml_file.drop_field('description')

print(chopped_file.content())

    favorite                                       title               format  year   rating
0       True  Indiana Jones: The raiders of the lost Ark                  DVD  1981       PG
1       True                              THE KARATE KID           DVD,Online  1984       PG
2      False                           Back 2 the Future              Blu-ray  1985       PG
3      False                                       X-Men         dvd, digital  2000    PG-13
4       True                              Batman Returns                  VHS  1992     PG13
5      False                              Reservoir Dogs               Online  1992        R
6      False                                       ALIEN                  DVD  1979        R
7       True                    Ferris Bueller's Day Off                  DVD  1986     PG13
8      False                             American Psycho             blue-ray  2000  Unrated
9      False                           Batman: The Movie              

### 2.7. Escritura de ficheros

El método `write()` permite escribir el conjunto de datos en un fichero local. El nombre del fichero es obligatorio, y debe ser una cadena de texto.

Dependiendo de la extensión del fichero indicada en la ruta de destino, se escribirá el conjunto de datos en un formato u otro. Los posibles formatos son:

* _CSV_: Extensión `.csv`.
* _JSON_: Extensión `.json`.
* _XML_: Extensión `.xml`.

In [16]:
from multi_reader import *

xml_file = read_xml('../data/movies.xml')

chopped_file = xml_file.drop_field('description')

eighties_movies = chopped_file.filter(lambda row: row['year'] >= 1980 and row['year'] < 1990)

eighties_movies.write('../data/exported_movies.json')