### 1: De los sistemas de archivos a las bases de datos

#### Contexto histórico y desafíos de la gestión de datos

Antes del desarrollo de las bases de datos modernas, la gestión de la información se realizaba a través de **sistemas basados en archivos**. Este enfoque, si bien fue útil en su momento, presentaba una serie de deficiencias significativas que impulsaron la necesidad de una tecnología superior.

Las principales problemáticas de los sistemas de archivos son las siguientes:

* **Redundancia de datos:** Ocurre cuando la misma información se duplica en múltiples archivos, lo que conduce a inconsistencias y a un uso ineficiente del almacenamiento.

  * **Ejemplo Práctico:** En un partido político, el equipo de campaña mantiene un archivo `campaña.csv` con los contactos de los militantes, mientras el equipo de comunicación usa un archivo `comunicacion.csv` con datos similares. Si un militante cambia su correo electrónico, pero solo se actualiza en el archivo de campaña, se genera una inconsistencia que puede llevar a la pérdida de comunicación.

* **Aislamiento de datos:** La información fragmentada en diversos archivos con formatos dispares dificulta su integración y el acceso unificado para el análisis.

  * **Ejemplo Práctico:** Un analista de una ONG necesita correlacionar la afiliación a un sindicato (dato en un archivo `afiliados_sindicato.xlsx`) con los patrones de voto (dato en otro archivo `votantes_elecciones.csv`). Al no existir un identificador único que vincule ambos archivos, la tarea se vuelve manual, tediosa y propensa a errores.

* **Problemas de integridad:** Es la dificultad para asegurar la validez y consistencia de los datos. En un sistema de archivos, no hay mecanismos automáticos que impidan, por ejemplo, que en un campo de `Edad` se ingrese un valor negativo, comprometiendo la calidad del análisis.

* **Problemas de seguridad:** Las políticas de control de acceso son rudimentarias, ya que la seguridad se gestiona a nivel de archivo completo, no de datos individuales.

  * **Ejemplo Práctico:** Una ONG maneja datos sensibles de donantes en un archivo `donantes.xlsx`. Si un analista junior necesita acceder a la fecha de donación, el archivo completo debe ser compartido, dándole acceso a información confidencial (como montos de donación o direcciones) que no necesita.

* **Acceso concurrente:** El acceso simultáneo al mismo archivo por múltiples usuarios puede provocar conflictos y la corrupción de los datos.

  * **Ejemplo Práctico:** En un parlamento, dos secretarios intentan registrar los votos de los legisladores en el mismo archivo `votacion_ley.txt` al mismo tiempo. Un sistema de archivos podría bloquear el acceso a uno de ellos o, en el peor de los casos, sobrescribir los cambios, perdiendo información crucial.

---

### 2: El Modelo Relacional y sus Componentes

#### La solución: Bases de datos y el modelo relacional

Para superar las limitaciones de los sistemas de archivos, se desarrollaron los **Sistemas de Gestión de Bases de Datos (DBMS)**. Un DBMS es un conjunto de programas que permite crear, mantener y controlar el acceso a una base de datos, que es una **colección compartida de datos relacionados** que representa una porción del mundo real, como una institución política o un estudio de opinión.

En el **modelo relacional**, los datos se organizan en **tablas** (también llamadas relaciones) que agrupan información sobre una entidad específica.

#### Componentes de una tabla

Cada tabla se compone de:

* **Campos (o atributos):** Cada columna de una tabla se denomina campo y representa una característica de la entidad.
* **Registros (o tuplas):** Cada fila de una tabla se conoce como registro y contiene un conjunto de datos para un solo elemento de la entidad.
* **Dominio:** Es el conjunto de todos los valores posibles para un atributo.

#### Ejemplo Práctico: El registro de legisladores

Para ilustrar estos conceptos, consideremos el diseño de una base de datos para el Congreso. En lugar de usar archivos, toda la información se almacena en una tabla central llamada **`Legisladores`**:

| ID\_Legislador | Nombre\_Completo | Partido\_Politico | Distrito\_Electoral | Periodo\_Actual |
| :------------- | :--------------- | :---------------- | :------------------ | :-------------- |
| 101            | Ana García       | PJ                | 05                  | 2022-2026       |
| 102            | Pedro López      | FR                | 12                  | 2022-2026       |
| 103            | Sofía Rodríguez  | APR               | 05                  | 2022-2026       |

* **Tabla (`Legisladores`):** Agrupa todos los datos sobre los representantes.
* **Campos (`ID_Legislador`, `Nombre_Completo`, etc.):** Describen una propiedad de un legislador.
* **Registros (cada fila):** Representan a un legislador en particular, como Ana García.
* **Dominio:** El dominio para el campo `Partido_Politico` es el conjunto de todos los partidos políticos válidos.

Un **DBMS** permite que múltiples usuarios accedan y manipulen esta información de forma simultánea, segura y coherente, eliminando la mayoría de los problemas de los sistemas de archivos y facilitando el análisis de datos en la Ciencia Política.



###  Comparativa: Sistema de Archivos vs. Sistema de Gestión de Bases de Datos (DBMS)

| Característica | Sistema de Archivos | Sistema de Gestión de Bases de Datos (DBMS) |
| :--- | :--- | :--- |
| **Redundancia de datos** | Alta | Baja |
| **Aislamiento de datos** | Alto | Bajo |
| **Integridad de datos** | Baja | Alta |
| **Seguridad** | Baja | Alta |
| **Acceso Concurrente** | Nulo | Alto |

### 3: Características y Beneficios de un Sistema de Gestión de Bases de Datos (DBMS)

El paso de los sistemas de archivos a un **Sistema de Gestión de Bases de Datos (DBMS)** no solo resolvió los problemas de redundancia y aislamiento, sino que introdujo nuevas funcionalidades que transformaron la gestión de datos en una disciplina estratégica. A continuación, exploraremos las características distintivas de un DBMS y cómo benefician la investigación y el trabajo en Ciencia Política.

---

### Beneficios Fundamentales de un DBMS

1. **Naturaleza autodescriptiva y metadatos:**
   Un DBMS no solo contiene los datos, sino también la **metadata**. Los metadatos son "datos sobre los datos", es decir, la información que define y describe la estructura de la base de datos y las relaciones entre las tablas. Esta separación de la definición de los datos de los programas de aplicación es lo que lo diferencia fundamentalmente de los sistemas de archivos tradicionales.

   * **Ejemplo Práctico:** En un ministerio de gobierno, la base de datos de ciudadanos incluye no solo los nombres y direcciones, sino también metadatos que indican que el campo `ID_Ciudadano` es una clave única y que el campo `Fecha_Nacimiento` es de tipo `fecha`. Los analistas pueden usar esta información para consultas y reportes sin tener que adivinar la estructura de la tabla.

2. **Independencia de datos e independencia de programas:**
   En un DBMS, la estructura de los datos se almacena en un catálogo del sistema, no en los programas. Esto significa que si se cambia la estructura de una tabla (por ejemplo, añadiendo una nueva columna), los programas que acceden a esa tabla no necesitan ser modificados. A esta característica se la denomina **independencia de programas y datos**.

   * **Ejemplo Práctico:** Un investigador de opinión pública ha diseñado una base de datos de encuestas. Si decide agregar un nuevo campo llamado `Nivel_Educacion` a la tabla `Encuestas`, no necesita modificar los programas que generan los reportes de intención de voto por edad, ya que la base de datos gestiona el cambio de forma transparente.

3. **Soporte para múltiples vistas de datos:**
   Un DBMS permite crear múltiples **vistas** de una misma base de datos, donde cada vista es un subconjunto de los datos adaptado para un usuario o grupo de usuarios específico. Esto asegura que los usuarios solo vean la información que les concierne, sin exponer datos innecesarios.

   * **Ejemplo Práctico:** En una campaña electoral, el equipo de comunicación solo necesita los nombres de los votantes y su `email`, mientras que el equipo de campo requiere sus nombres y `dirección`. Un DBMS puede proporcionarles vistas diferentes de la misma base de datos de votantes, sin que ninguno de los dos equipos acceda a la información del otro.

4. **Control de la redundancia y refuerzo de las restricciones de integridad:**
   Un DBMS idealmente almacena cada dato en un solo lugar. Si bien la redundancia puede existir para optimizar el rendimiento, está estrictamente controlada. Además, el sistema puede definir y aplicar **restricciones de integridad**, que son reglas para asegurar que los datos sean válidos.

   * **Ejemplo Práctico:** En una base de datos para el registro de votantes, se puede establecer una restricción para que el campo `Edad` sea siempre un número positivo y que el campo `Fecha_Registro` no sea posterior a la fecha actual. Esto evita errores de entrada y garantiza la calidad de los datos para futuros análisis.

5. **Restricción de acceso no autorizado:**
   Un DBMS cuenta con un subsistema de seguridad que permite establecer diferentes tipos de cuentas de usuario y controlar sus permisos de acceso. Un usuario puede tener **acceso de solo lectura**, mientras que otro puede tener privilegios de **lectura y escritura**.

   * **Ejemplo Práctico:** Una organización de derechos humanos que gestiona una base de datos de activistas puede dar a su equipo de investigación acceso de solo lectura para generar informes, mientras que el equipo de administración tendría privilegios de lectura y escritura para actualizar la información de contacto, garantizando la confidencialidad y la seguridad de los datos sensibles.

6. **Provisión de copias de seguridad y recuperación:**
   Un DBMS incluye mecanismos separados para realizar copias de seguridad y recuperar los datos en caso de fallos del sistema o del hardware. Este sistema de respaldo asegura que los datos se puedan restaurar a su estado original, protegiendo la información de una posible pérdida.

---

La integración de todas estas características hace que un DBMS sea una herramienta esencial para manejar grandes volúmenes de datos de manera organizada.


### 4: Tipos de Modelos de Datos

Los **modelos de datos** son los conceptos y las herramientas que utilizamos para describir la estructura de una base de datos. Sirven como un mapa para organizar y entender cómo se relacionan los datos entre sí, actuando como una capa de abstracción entre cómo el usuario ve la información y cómo la máquina la almacena.

Existen dos categorías principales de modelos de datos:

---

#### 1. Modelos de Datos Conceptuales de Alto Nivel

Estos modelos están diseñados para ser cercanos a la forma en que las personas perciben la información. Su objetivo es representar el mundo real de manera intuitiva, sin preocuparse por los detalles de la implementación técnica. El ejemplo más común es el **Modelo de Entidad-Relación (E-R)**.

* **Entidades:** Son objetos del mundo real que son de interés para la base de datos. Pensemos en ellos como sustantivos. Por ejemplo, en Ciencia Política, una entidad podría ser un **`Legislador`**, un **`Votante`** o un **`Proyecto de Ley`**.
* **Atributos:** Son las propiedades o características que describen una entidad. Por ejemplo, la entidad **`Legislador`** puede tener atributos como `Nombre`, `Partido Político` y `Distrito`.
* **Relaciones:** Son las asociaciones o vínculos entre dos o más entidades. Por ejemplo, una relación podría describir que un **`Legislador`** `presenta` un **`Proyecto de Ley`**.

**Ejemplo Práctico:**

Imaginemos que una organización no gubernamental (ONG) quiere crear una base de datos para monitorear el progreso de una iniciativa legislativa.

* **Entidades:** `Legislador`, `Proyecto de Ley`, `Voto`.
* **Atributos:**
    * `Legislador`: `ID_Legislador`, `Nombre`, `Partido`.
    * `Proyecto de Ley`: `ID_Proyecto`, `Título`, `Fecha_Presentación`.
    * `Voto`: `ID_Voto`, `Tipo` (a favor, en contra, abstención).
* **Relaciones:**
    * `Presenta`: Un `Legislador` puede `presentar` uno o varios `Proyectos de Ley`.
    * `Vota_en`: Un `Legislador` `vota_en` un `Proyecto de Ley`.

Este modelo conceptual nos permite diseñar el esquema de la base de datos de la ONG de manera clara, lógica e independiente de cualquier sistema de software específico.

---

#### 2. Modelos de Datos Lógicos Basados en Registros

Estos modelos están más cerca de la forma en que se almacenan los datos en la computadora, pero aún mantienen una capa de abstracción para los usuarios. Los tres modelos más conocidos en esta categoría son:

* **Modelo Relacional:** Es el modelo más popular y el que hemos estado usando en las clases anteriores. Los datos se organizan en **tablas** bidimensionales (llamadas `relaciones`), con filas (`registros`) y columnas (`campos`). La conexión entre tablas se realiza a través de campos comunes. Por ejemplo, las tablas `Legisladores` y `Proyectos_de_Ley` se conectarían a través del campo `ID_Legislador` para saber quién presentó qué.
* **Modelo Jerárquico:** Representa los datos en una estructura de **árbol**, donde cada registro tiene un solo "padre" y múltiples "hijos".
* **Modelo de Red:** Es una extensión del modelo jerárquico que permite que un registro "hijo" tenga múltiples "padres", lo que genera una estructura más flexible.

El **modelo relacional** es el más utilizado hoy en día por su simplicidad, flexibilidad y el soporte que ofrecen lenguajes de consulta como SQL (que veremos más adelante), lo que lo convierte en la base de la mayoría de los sistemas de bases de datos modernos.



### 5: El Modelo Entidad-Relación (E-R)

El **Modelo de Entidad-Relación (E-R)** es un enfoque conceptual de alto nivel para diseñar bases de datos. Su objetivo es representar la estructura de los datos de manera intuitiva y visual, reflejando cómo las entidades del mundo real se relacionan entre sí. Es el primer paso en la creación de una base de datos, actuando como un mapa o un plano antes de pasar a la implementación técnica.

---

### Componentes del Modelo E-R

El modelo E-R se basa en tres componentes principales:

1.  **Entidades:** Son los objetos del mundo real que se desean representar en la base de datos. Una entidad es un sustantivo o un objeto sobre el cual se almacena información.
    * **Tipos de Entidades:**
        * **Entidad Fuerte:** Un tipo de entidad que existe de forma independiente. Tiene un identificador único, llamado **clave primaria**.
        * **Entidad Débil:** Un tipo de entidad que no puede existir por sí misma; su existencia depende de otra entidad fuerte. No tiene una clave primaria completa por sí misma.
        * **Ejemplo:** `Legislador` es una **entidad fuerte**, ya que un legislador existe de forma independiente. `Logro_Legislativo`, que podría depender del `Legislador` que lo presentó, podría ser una **entidad débil**.

2.  **Atributos:** Son las propiedades o características que describen a una entidad. Cada atributo toma valores de un **dominio**.
    * **Tipos de Atributos:**
        * **Atributo Simple:** No se puede descomponer en partes más pequeñas. Por ejemplo, `Nombre` de un `Legislador`.
        * **Atributo Compuesto:** Puede ser dividido en subpartes. Por ejemplo, `Dirección`, que se puede descomponer en `Calle`, `Ciudad` y `País`.
        * **Atributo de Valor Único:** Un solo valor para cada entidad. Por ejemplo, un `Legislador` tiene una única `Fecha_Nacimiento`.
        * **Atributo de Valor Múltiple:** Puede tener varios valores para una entidad. Un `Legislador` podría tener múltiples `Teléfonos`.
        * **Atributo Derivado:** Se puede calcular a partir de otros atributos. La `Edad` se puede derivar de la `Fecha_Nacimiento`.
        * **Clave:** Un atributo o un conjunto de atributos que identifica de forma única a un registro en la entidad.

3.  **Relaciones:** Son las asociaciones o vínculos entre dos o más entidades. Una relación puede ser conceptualizada como un verbo que conecta las entidades (sustantivos).
    * **Tipos de Relaciones (Cardinalidad):**
        * **Uno a Uno (1:1):** Un registro de la Entidad A se relaciona con un solo registro de la Entidad B.
        * **Uno a Muchos (1:N):** Un registro de la Entidad A se relaciona con varios registros de la Entidad B.
        * **Muchos a Muchos (N:M):** Varios registros de la Entidad A se relacionan con varios registros de la Entidad B.

---

### Caso Práctico: Diseño de una base de datos para un Parlamento

Para integrar estos conceptos, diseñemos una porción de una base de datos para un parlamento que registre la actividad de los legisladores.

**Paso 1: Identificar Entidades**
* **`Legislador`**: Representa a cada miembro del parlamento.
* **`Proyecto_de_Ley`**: Representa cada iniciativa legislativa.
* **`Comisión`**: Representa cada comité parlamentario.



**Paso 2: Definir Atributos para cada Entidad**
* **`Legislador`**
    * `ID_Legislador` (Clave): Un identificador único.
    * `Nombre_Completo` (Compuesto): `Nombre`, `Apellido`.
    * `Fecha_Nacimiento` (Simple).
    * `Edad` (Derivado, de `Fecha_Nacimiento`).
    * `Teléfono` (Valor Múltiple).
    * `Distrito_Electoral` (Simple).

* **`Proyecto_de_Ley`**
    * `ID_Proyecto` (Clave).
    * `Título` (Simple).
    * `Fecha_Presentación` (Simple).
    * `Estado` (Simple): `Aprobado`, `En_Comisión`, `Rechazado`, etc.

* **`Comisión`**
    * `ID_Comision` (Clave).
    * `Nombre_Comision` (Simple).
    * `Presupuesto` (Simple).

**Paso 3: Establecer Relaciones entre las Entidades**
* **`Presenta`**: La relación entre `Legislador` y `Proyecto_de_Ley`.
    * Un `Legislador` puede presentar muchos `Proyectos_de_Ley`.
    * Un `Proyecto_de_Ley` es presentado por un solo `Legislador`.
    * **Cardinalidad: Uno a Muchos (1:N)**.

* **`Participa`**: La relación entre `Legislador` y `Comisión`.
    * Un `Legislador` puede participar en muchas `Comisiones`.
    * Una `Comisión` puede tener muchos `Legisladores`.
    * **Cardinalidad: Muchos a Muchos (N:M)**.

* **`Asignado_a`**: La relación entre `Proyecto_de_Ley` y `Comisión`.
    * Un `Proyecto_de_Ley` se asigna a una sola `Comisión`.
    * Una `Comisión` puede tener muchos `Proyectos_de_Ley`.
    * **Cardinalidad: Uno a Muchos (1:N)**.

Utilizar las siguientes herramientas:

* https://app.diagrams.net/

* https://lucid.app/


### 6 Clasificación de SGBD

Los sistemas de gestión de bases de datos se pueden clasificar de varias maneras. Una de las más comunes se basa en su estructura, que puede ser centralizada o distribuida.

#### SGBD Centralizado

En un sistema centralizado, toda la base de datos y el software que la maneja residen en un único lugar físico. Imaginen una gran computadora o un servidor donde se guarda toda la información. Los usuarios acceden a esta base de datos a través de una red.

**Ejemplo en Ciencia Política:** Consideren una base de datos de un partido político en el que toda la información de sus miembros, incluyendo datos de contacto, historial de donaciones y afiliación, se almacena en un solo servidor en la sede central. Cada oficina regional o militante que necesite consultar o actualizar esta información debe conectarse a ese servidor único.

#### SGBD Distribuido

En contraste, un sistema distribuido reparte tanto la base de datos como el software SGBD en varios sitios conectados por una red de computadoras. Esto significa que los datos pueden estar en diferentes lugares, pero los usuarios los perciben como una sola base de datos.

**Ejemplo:** Piensen en un proyecto de monitoreo electoral internacional. Un equipo puede tener datos sobre los votantes en Buenos Aires en un servidor, mientras que otro equipo en Montevideo tiene datos sobre la participación electoral, y un tercero en Santiago tiene datos de los resultados oficiales. Todas estas bases de datos están interconectadas y los analistas pueden hacer consultas que combinan datos de las tres ciudades como si estuvieran en un solo lugar.

#### SGBD Homogéneo y Heterogéneo

Los sistemas distribuidos se pueden subdividir aún más:

**Sistemas distribuidos homogéneos:** Todos los sitios utilizan el mismo tipo de software SGBD[cite: 6]. Volviendo al ejemplo del monitoreo electoral, esto sería si todas las oficinas (Buenos Aires, Montevideo, Santiago) usaran la misma plataforma de base de datos.

**Sistemas distribuidos heterogéneos:** Los sitios utilizan diferentes tipos de SGBD[cite: 6]. Por ejemplo, la oficina de Buenos Aires podría usar una plataforma, la de Montevideo otra y la de Santiago una tercera, pero todas están configuradas para interactuar y compartir información de manera coordinada.

### 7 El Modelo de Datos Relacional
Este modelo nos permite describir el mundo real como una colección de relaciones, que podemos visualizar como tablas. Las relaciones se componen de filas y columnas, y a través de ellas podemos organizar y almacenar la información de manera estructurada y coherente.

Relación (o Tabla): Es una estructura bidimensional que contiene datos sobre un tema específico.

Atributo (o Columna): Cada columna en una tabla representa una característica o propiedad de la entidad que se está describiendo.

Tupla (o Fila): Cada fila en una tabla representa un registro individual, es decir, una instancia específica de esa entidad.

Ejemplo
Imaginemos que estamos construyendo una base de datos para analizar el comportamiento electoral. Podríamos tener una tabla llamada "Votantes", donde cada fila es una tupla que representa a un votante individual.

| ID_Votante | Nombre_Completo | Edad | Partido_Afiliado | Domicilio_Voto |
|------------|-----------------|------|------------------|----------------|
| 101        | Juan Pérez      | 45   | Partido Azul     | Mesa 32        |
| 102        | Ana Gómez       | 32   | Partido Rojo     | Mesa 15        |
| 103        | Pedro López     | 61   | Independiente    | Mesa 32        |


En este ejemplo:

La tabla completa es la relación "Votantes".

Las columnas "ID_Votante", "Nombre_Completo", "Edad", "Partido_Afiliado" y "Domicilio_Voto" son los atributos.

Cada fila, como la de "Juan Pérez", es una tupla que contiene toda la información de un votante específico.

Este modelo nos permite analizar con precisión, por ejemplo, cuántos votantes de cada partido están asignados a una misma mesa de votación, o cómo se distribuyen por rango de edad. Esta claridad y estructura son esenciales para cualquier proyecto de análisis de datos en la Ciencia Política.