# Trabajos Bases de Datos a Gran Escala, 2023-2024

En las siguientes transparencias se incluyen los trabajos propuestos para la asignatura. Cada trabajo incluye el estudio de una base de datos no vista en clase y la importación de los datos de Stackoverflow.

**El trabajo será INDIVIDUAL**

Más de un alumno podrá elegir el mismo trabajo, pero como máximo un trabajo podrá ser elegido por dos alumnos. Se entregará una memoria (y código, si se ha generado) en
una tarea abierta a tal fin.

La **fecha de entrega será el día del examen de la asignatura**.

Para apuntarse a un trabajo el alumno tendrá que:

1. Conectarse al servidor. 
   Usuario: alumno2324, 
   pass: (se enviará aparte en un mensaje en el aula virtual)
  
   ```bash
   $ mysql -hdsevilla-proxy.inf.um.es -P3307 -ualumno2324 -p<password> --default-char-set=utf8 --protocol=tcp trabajos2324
  ```
  Esto también se puede hacer en el notebook de SQL cambiando la cadena de conexión de la celda del Notebook de la sesión 2 a:

```sql
%%sql 
mysql+pymysql://alumno2324:<password>@dsevilla-proxy.inf.um.es:3307/?charset=utf8mb4
```

2. Añadir una entrada a la tabla `asignacion_trabajos` con su dni, nombre y id del trabajo elegido.

3. Se pueden listar qué trabajos hay y cuáles quedan libres:

```
mysql> use trabajos2324;
Database changed
mysql> select id,titulo from trabajos;
+-----+-----------------------+
| id  | titulo                |
+-----+-----------------------+
| Txx | Título                |
| ... | .................     |
+-----+-----------------------+
mysql> select * from asignados;
+-----+-----------------------+------------+
| id  | titulo                | nasignados |
+-----+-----------------------+------------+
| Txx | Título                |          0 |
| ... | ................      |          0 |
+-----+-----------------------+------------+
```

- Las tablas disponibles:

```
mysql> show tables;
+---------------------+
| Tables_in_trabajos  |
+---------------------+
| asignacion_trabajos |
| asignados           |
| trabajos            |
+---------------------+
```

## T01 -- Open TSDB

- Pasos de instalación de la base de datos
- Descripción de la base de datos, modo de funcionamiento,
  posibilidades de modelado de datos y características (si permite
  transacciones, framework de procesamiento map/reduce, replicación
  multiservidor, etc.)
- Mostrar cómo importar los datos de Stackoverflow
- Mostrar cómo redistribuir los datos de Stackoverflow de forma
  óptima (uso de series de datos, como si, por ejemplo, comentarios,
  posts, etc. se ejecutaran en un stream)
- Mostrar cómo se realizarían las consultas RQ1 a RQ4 de los
  artículos vistos en la sesión 2
- Realizar pruebas de eficiencia comparada con alguna de las bases de
  datos vistas en la asignatura
- http://opentsdb.net/

## T02 -- Apache Cassandra

- Pasos de instalación de la base de datos
- Descripción de la base de datos, modo de funcionamiento,
  posibilidades de modelado de datos y características (si permite
  transacciones, framework de procesamiento map/reduce, replicación
  multiservidor, lenguaje de consultas CQL, etc.)
- Mostrar cómo importar los datos de Stackoverflow
- Mostrar cómo redistribuir los datos de Stackoverflow de forma
  óptima (uso de agregación siguiendo el modelo de documentos)
- Mostrar cómo se realizarían las consultas RQ1 a RQ4 de los
  artículos vistos en la sesión 2
- Realizar pruebas de eficiencia comparada con alguna de las bases de
  datos vistas en la asignatura


## T03 -- OrientDB

- Pasos de instalación de la base de datos
- Descripción de la base de datos, modo de funcionamiento,
  posibilidades de modelado de datos y características (si permite
  transacciones, framework de procesamiento map/reduce, replicación
  multiservidor, lenguaje de consultas, grafos vs. documentos, etc.)
- Mostrar cómo importar los datos de Stackoverflow
- Mostrar cómo redistribuir los datos de Stackoverflow de forma
  óptima (uso de agregación y grafos)
- Mostrar cómo se realizarían las consultas RQ1 a RQ4 de los
  artículos vistos en la sesión 2
- Realizar pruebas de eficiencia comparada con alguna de las bases de
  datos vistas en la asignatura

## T04 -- Redis

- Pasos de instalación de la base de datos
- Descripción de la base de datos, modo de funcionamiento,
  posibilidades de modelado de datos y características (si permite
  transacciones, _framework_ de procesamiento map/reduce, replicación
  multiservidor, lenguaje de consultas, uso de varias estructuras de
  datos (listas, mapas), etc.)
- Mostrar cómo importar los datos de Stackoverflow
- Mostrar cómo redistribuir los datos de Stackoverflow de forma
  óptima (uso de diferentes estructuras de datos)
- Mostrar cómo se realizarían las consultas RQ1 a RQ4 de los
  artículos vistos en la sesión 2
- Realizar pruebas de eficiencia comparada con alguna de las bases de
  datos vistas en la asignatura

## T05 -- Elasticsearch

- Pasos de instalación de la base de datos
- Descripción de la base de datos, modo de funcionamiento,
  posibilidades de modelado de datos y características (si permite
  transacciones, organización en etiquetas, búsquedas complejas,
  replicación multiservidor, lenguaje de consultas, etc.)
- Mostrar cómo importar los datos de Stackoverflow
- Mostrar cómo redistribuir los datos de Stackoverflow de forma
  óptima (organización de etiquetas)
- Mostrar cómo se realizarían las consultas RQ1 a RQ4 de los
  artículos vistos en la sesión 2
- Realizar pruebas de eficiencia comparada con alguna de las bases de
  datos vistas en la asignatura

## T06 -- CouchBase y N1QL

- Pasos de instalación de la base de datos
- Descripción de la base de datos, modo de funcionamiento,
  posibilidades de modelado de datos y características (si permite
  transacciones, organización en etiquetas, búsquedas complejas,
  replicación multiservidor, lenguaje de consultas N1QL, etc.)
- Mostrar cómo importar los datos de Stackoverflow
- Mostrar cómo redistribuir los datos de Stackoverflow de forma
  óptima (documentos y consultas)
- Mostrar cómo se realizarían las consultas RQ1 a RQ4 de los
  artículos vistos en la sesión 2
- Realizar pruebas de eficiencia comparada con alguna de las bases de
  datos vistas en la asignatura

## T07 -- Riak

- Pasos de instalación de la base de datos
- Descripción de la base de datos, modo de funcionamiento,
  posibilidades de modelado de datos y características (si permite
  transacciones, framework de procesamiento map/reduce, replicación
  multiservidor, etc.)
- Mostrar cómo importar los datos de Stackoverflow
- Mostrar cómo redistribuir los datos de Stackoverflow de forma
  óptima (uso de agregación siguiendo el modelo de documentos)
- Mostrar cómo se realizarían las consultas RQ1 a RQ4 de los
  artículos vistos en la sesión 2
- Realizar pruebas de eficiencia comparada con alguna de las bases de
  datos vistas en la asignatura

## T08 -- RethinkDB

- https://rethinkdb.com/. Pasos de instalación de la base de datos
- Descripción de la base de datos, modo de funcionamiento,
  posibilidades de modelado de datos y características (si permite
  transacciones, framework de procesamiento map/reduce, replicación
  multiservidor, etc.)
- Mostrar cómo importar los datos de Stackoverflow
- Mostrar cómo redistribuir los datos de Stackoverflow de forma
  óptima (uso de agregación donde sea posible)
- Mostrar cómo se realizarían las consultas RQ1 a RQ4 de los
  artículos vistos en la sesión 2
- Realizar pruebas de eficiencia comparada con alguna de las bases de
  datos vistas en la asignatura

## T09 -- InfluxDB

- https://www.influxdata.com/. Pasos de instalación de la base de datos.
- Descripción de la base de datos, modo de funcionamiento,
  posibilidades de modelado de datos y características (si permite
  transacciones, tratamiento de series temporales, uso del API HTTP,
  replicación multiservidor, etc.)
- Mostrar cómo importar los datos de Stackoverflow
- Mostrar cómo redistribuir los datos de Stackoverflow de forma
  óptima (uso de agregación donde sea posible)
- Mostrar cómo se realizarían las consultas RQ1 a RQ4 de los
  artículos vistos en la sesión 2
- Realizar pruebas de eficiencia comparada con alguna de las bases de
  datos vistas en la asignatura


## T10 -- Accumulo

- http://accumulo.apache.org/. Pasos de instalación de la base de datos
- Descripción de la base de datos, modo de funcionamiento,
  posibilidades de modelado de datos y características (si permite
  transacciones, tratamiento de columnas, replicación multiservidor, etc.)
- Mostrar cómo importar los datos de Stackoverflow
- Mostrar cómo redistribuir los datos de Stackoverflow de forma
  óptima (uso de columnas)
- Mostrar cómo se realizarían las consultas RQ1 a RQ4 de los
  artículos vistos en la sesión 2
- Realizar pruebas de eficiencia comparada con alguna de las bases de
  datos vistas en la asignatura

## T11 -- ArangoDB

- https://www.arangodb.com/. Pasos de instalación de la base de
  datos
- Descripción de la base de datos, modo de funcionamiento,
  posibilidades de modelado de datos y características (si permite
  transacciones, framework de procesamiento map/reduce, replicación
  multiservidor, lenguaje de consultas AQL, grafos vs. documentos, etc.)
- Mostrar cómo importar los datos de Stackoverflow
- Mostrar cómo redistribuir los datos de Stackoverflow de forma
  óptima (uso de agregación y grafos)
- Mostrar cómo se realizarían las consultas RQ1 a RQ4 de los
  artículos vistos en la sesión 2
- Realizar pruebas de eficiencia comparada con alguna de las bases de
  datos vistas en la asignatura

## T12 -- Tecnologías Serverless

- Pasos de uso de cada plataforma. Al menos: AWS Lambda y Azure
  Functions (también se puede considerar Google UDF)
- Descripción del modo de funcionamiento,
  posibilidades de modelado de datos y características
- Mostrar cómo trabajar con los datos de Stackoverflow
- Mostrar cómo se realizarían las consultas RQ1 a RQ4 de los
  artículos vistos en la sesión 2
- Realizar pruebas de eficiencia comparada con alguna de las bases de
  datos vistas en la asignatura

## T13 -- Apache Drill

- http://drill.apache.org/. Pasos de instalación de la herramienta
- Descripción de la herramienta, posibilidades de carga de datos, posibilidades de uso de ficheros de diferentes fuentes.
- Mostrar cómo usar directamente los datos de Stackoverflow (de CSV por ejemplo, y también de una base de datos MySQL).
- Comparar la eficiencia con respecto a la base de datos por debajo.

## T14 -- Apache Pig

- Pasos de instalación de la herramienta
- Descripción de la herramienta, posibilidades de transformación y
  carga de datos, modos de funcionamiento, posibilidades de proceso de
  datos, etc.
- Mostrar cómo trabajar con los datos CSV de Stackoverflow y mostrar
  cómo se realizarían las consultas RQ1 a RQ4 de los artículos vistos en la
  sesión 2
- Realizar pruebas de eficiencia comparada con alguna de las bases de
  datos vistas en la asignatura

## T15 -- Apache Nifi

- https://nifi.apache.org/
- Pasos de instalación
- Descripción de la herramienta, modo de funcionamiento,
  posibilidades de modelado de datos y características
- Mostrar cómo importar en flujo los datos de Stackoverflow
- Mostrar cómo se realizarían las consultas RQ1 a RQ4 de los
  artículos vistos en la sesión 2

## T16 -- Apache Druid

- https://druid.apache.org/
- Pasos de instalación
- Descripción de la herramienta, modo de funcionamiento,
  posibilidades de modelado de datos y características
- Mostrar cómo importar los datos de Stackoverflow
- Mostrar consultas sobre la base de datos de StackOverflow y si se
  podrían realizar las consultas RQ1 a RQ4 de los artículos vistos en la
  sesión 2

## T17 -- ClickHouse

- https://clickhouse.com/
- Pasos de instalación
- Descripción de la BD
- Mostrar cómo importar los datos de Stackoverflow
- Es una base de datos SQL pero tiene características columnares. Mostrar posibles optimizaciones para realizar RQ1 a RQ4 vistos en la sesión 2

## T18 -- SurrealDB

- https://surrealdb.com/
- Pasos de instalación
- Descripción de la BD
- Mostrar cómo importar los datos de Stackoverflow
- Es una base de datos SQL pero tiene características de varios paradigmas. Mostrar posibles optimizaciones para realizar RQ1 a RQ4 vistos en la sesión 2

## T19 -- EdgeDB

- https://edgedb.com/
- Pasos de instalación
- Descripción de la BD
- Mostrar cómo importar los datos de Stackoverflow
- Es una base de datos SQL pero tiene características de varios paradigmas. Mostrar posibles optimizaciones para realizar RQ1 a RQ4 vistos en la sesión 2

## T20 -- RavenDB

- https://ravendb.net/
- Pasos de instalación
- Descripción de la BD
- Mostrar cómo importar los datos de Stackoverflow
- Es una base de datos NoSQL. Mostrar posibles optimizaciones para realizar RQ1 a RQ4 vistos en la sesión 2

## T21 -- ScyllaDB

- https://www.scylladb.com/
- Pasos de instalación
- Descripción de la BD
- Mostrar cómo importar los datos de Stackoverflow
- Es una base de datos NoSQL similar a Cassandra. Mostrar posibles optimizaciones para realizar RQ1 a RQ4 vistos en la sesión 2

## T22 -- Apache Geode

- https://geode.apache.org/
- Pasos de instalación, distribución en regiones
- Descripción de la BD
- Mostrar cómo importar los datos de Stackoverflow
- Mostrar posibles optimizaciones para realizar RQ1 a RQ4 vistos en la sesión 2
- Mostrar cómo construir un API REST