# Práctica 1 - Exploración de ficheros locales con distinto formato

## 0. Autoría

* **Autor**: Jorge Cabrera Rodríguez
* **Fecha**: 15/11/2023
* **Asignatura**: Adquisición e Integración de Datos (AID)
* **Máster**: Ciberseguridad e Inteligencia de Datos
* **Universidad**: Universidad de La Laguna (ULL)

## 1. Descripción de la librería

Se busca desarrollar una librería sencilla en _python_ que permita la lectura, manipulación y escritura de conjuntos de datos (_datasets_) almacenados en ficheros locales. Estos ficheros pueden estar escritos en diferentes formatos, como puedan ser:

* _CSV_
* _JSON_
* _XML_

Las funcionalidades que implementa la librería son las siguientes:

1. Leer diferentes ficheros locales de formato _CSV_, _JSON_ y _XML_.
2. Obtener el nombre del fichero y el número de filas del conjunto de datos que contiene.
3. Obtener el contenido completo del conjunto de datos contenido en el fichero.
4. Obtener un subconjunto de datos del conjunto de datos contenido en el fichero acorde a un predicado lógico.
5. Realizar operaciones de manipulación de datos sobre el conjunto de datos original, tales como:
    * Inserción de nuevas filas.
    * Eliminación de filas acorde a un predicado lógico.
    * Modificación de filas acorde a un predicado lógico.
6. Realizar operaciones de modificado de la estructura (_schema_) del conjunto de datos original, tales como:
    * Añadir una nueva columna.
    * Eliminar una columna.
7. Almacenar los cambios realizados a un conjunto de datos de nuevo a un fichero
local.

## 2. Uso de la librería

### 2.1. Lectura de ficheros

El módulo `multi_reader` aporta las siguientes funciones para leer ficheros:

* `read_csv`: Lee un fichero en formato _CSV_.
* `read_json`: Lee un fichero en formato _JSON_.
* `read_xml`: Lee un fichero en formato _XML_.

Estas funciones retornan una clase propia del módulo `multi_reader` llamada `DataFile` que contiene la información del fichero leído.

In [10]:
from multi_reader import *

csv_file = read_csv('../data/iris.csv')
print(f"Tipo de dato de csv_file: {type(csv_file).__name__}", end="\n\n")


xml_file = read_xml('../data/movies.xml')
print(f"Tipo de dato de xml_file: {type(xml_file).__name__}", end="\n\n")


json_file = read_json('../data/country.json')
print(f"Tipo de dato de json_file: {type(json_file).__name__}")

Tipo de dato de csv_file: DataFile

Tipo de dato de xml_file: DataFile

Tipo de dato de json_file: DataFile


En caso de que el fichero no exista, o el formato esperado no coincida con el del fichero, se lanzará una excepción.

In [5]:
from multi_reader import *

try:
    read_csv('../data/movies.xml')
except:
    print('El formato del fichero no coincide!', end="\n\n")


try:
    read_json('Fichero_inexistente.txt')
except:
    print('El fichero no existe!', end="\n\n")

El formato del fichero no coincide!

El fichero no existe!



  data_frame = parsing_function(file_path)


Los métodos de lectura de fichero son las formas esperadas de generar instancias de la clase `DataFile`. La invocación directa del constructor de la clase está implementada, pero desaconsejada.

### 2.2. Obtención de información sobre el conjunto de datos

La clase `DataFile` contiene todos los métodos necesarios para manipular el conjunto de datos. Uno de estos métodos es `summary()`, que nos permite obtener el nombre original del fichero y el número de filas que contiene.

In [7]:
from multi_reader import *

csv_file = read_csv('../data/iris.csv')
print(csv_file.summary(), end="\n\n")


xml_file = read_xml('../data/movies.xml')
print(xml_file.summary(), end="\n\n")


json_file = read_json('../data/country.json')
print(json_file.summary())

iris.csv (150 rows)

movies.xml (14 rows)

country.json (135 rows)


### 2.3. Obtención de contenido del conjunto de datos

El método `content()` permite obtener el contenido completo del conjunto de datos contenido en el fichero, en formato `str`.

In [11]:
from multi_reader import *

csv_file = read_csv('../data/iris.csv')
print(csv_file.content())

     sepal_length  sepal_width  petal_length  petal_width             iris
0             5.1          3.5           1.4          0.2      Iris-setosa
1             4.9          3.0           1.4          0.2      Iris-setosa
2             4.7          3.2           1.3          0.2      Iris-setosa
3             4.6          3.1           1.5          0.2      Iris-setosa
4             5.0          3.6           1.4          0.2      Iris-setosa
5             5.4          3.9           1.7          0.4      Iris-setosa
6             4.6          3.4           1.4          0.3      Iris-setosa
7             5.0          3.4           1.5          0.2      Iris-setosa
8             4.4          2.9           1.4          0.2      Iris-setosa
9             4.9          3.1           1.5          0.1      Iris-setosa
10            5.4          3.7           1.5          0.2      Iris-setosa
11            4.8          3.4           1.6          0.2      Iris-setosa
12            4.8        

In [12]:
from multi_reader import *

xml_file = read_xml('../data/movies.xml')
print(xml_file.content())

    favorite                                       title               format  year   rating                                                                                                                                                                                                                                                                                                                   description
0       True  Indiana Jones: The raiders of the lost Ark                  DVD  1981       PG                                                                                                                                                                  'Archaeologist and adventurer Indiana Jones \n        is hired by the U.S. government to find the Ark of the \n        Covenant before the Nazis.'\n        
1       True                              THE KARATE KID           DVD,Online  1984       PG                                                                                      

In [13]:
from multi_reader import *

json_file = read_json('../data/country.json')
print(json_file.content())

                                  name code
0                              Algeria   DZ
1                            Argentina   AR
2                            Australia   AU
3                              Austria   AT
4                      Austria-Hungary  NaN
5                      Austrian Empire  NaN
6                           Azerbaijan   AZ
7                           Bangladesh   BD
8                             Barbados   BB
9                              Bavaria   DE
10                             Belarus   BY
11                       Belgian Congo   CD
12                             Belgium   BE
13                              Bosnia   BA
14              Bosnia and Herzegovina   BA
15                              Brazil   BR
16                       British India   IN
17        British Mandate of Palestine   IL
18   British Protectorate of Palestine   IL
19                 British West Indies   LC
20                            Bulgaria   BG
21                              

### 2.4. Filtrado de registros

### 2.5. Operaciones de modificación de datos

#### 2.5.1. Inserción de filas

#### 2.5.2. Eliminación de filas

#### 2.5.3. Modificación de filas

### 2.6. Operaciones de modificación de estructura

#### 2.6.1. Añadido de columnas

#### 2.6.2. Eliminado de columnas

### 2.7. Escritura de ficheros