# Ejercicio Formativo 1 Capítulo 6

## Importando Librerías

In [1]:
import json
import sqlite3

## Misión 1: Lectura y exploración de datos

In [2]:
with open('laureates.json', encoding = 'utf8') as laureates_file:
    laureates = json.load(laureates_file)

In [3]:
for index in range(5):
    print(laureates[index])

{'id': '1', 'firstname': 'Wilhelm Conrad', 'surname': 'Röntgen', 'born': '1845-03-27', 'died': '1923-02-10', 'bornCountry': 'Prussia (now Germany)', 'bornCountryCode': 'DE', 'bornCity': 'Lennep (now Remscheid)', 'diedCountry': 'Germany', 'diedCountryCode': 'DE', 'diedCity': 'Munich', 'gender': 'male', 'prizes': [{'year': '1901', 'category': 'physics', 'share': '1', 'motivation': '"in recognition of the extraordinary services he has rendered by the discovery of the remarkable rays subsequently named after him"', 'affiliations': [{'name': 'Munich University', 'city': 'Munich', 'country': 'Germany'}]}]}
{'id': '2', 'firstname': 'Hendrik A.', 'surname': 'Lorentz', 'born': '1853-07-18', 'died': '1928-02-04', 'bornCountry': 'the Netherlands', 'bornCountryCode': 'NL', 'bornCity': 'Arnhem', 'diedCountry': 'the Netherlands', 'diedCountryCode': 'NL', 'gender': 'male', 'prizes': [{'year': '1902', 'category': 'physics', 'share': '2', 'motivation': '"in recognition of the extraordinary service they

In [4]:
firstLaureates = laureates[0]
for (key, value) in firstLaureates.items():
    print(f"{key}: {value}")

id: 1
firstname: Wilhelm Conrad
surname: Röntgen
born: 1845-03-27
died: 1923-02-10
bornCountry: Prussia (now Germany)
bornCountryCode: DE
bornCity: Lennep (now Remscheid)
diedCountry: Germany
diedCountryCode: DE
diedCity: Munich
gender: male
prizes: [{'year': '1901', 'category': 'physics', 'share': '1', 'motivation': '"in recognition of the extraordinary services he has rendered by the discovery of the remarkable rays subsequently named after him"', 'affiliations': [{'name': 'Munich University', 'city': 'Munich', 'country': 'Germany'}]}]


La información resultante esta organizada en una lista de diccionarios donde cada diccionario corresponde a un ganador de un premio Nobel.

Al revisar la información de la base de datos, se pudo discernir que no todos los elemento de `laureates`, que son diccionarios, tienen todas las llaves que deberían tener. Para poder trabajar con estos datos de manera más limpia se eliminaron los diccionarios que no tenían todas las llaves.

In [5]:
allKeys = laureates[0].keys()

In [6]:
filterLaureates = list(filter(lambda laureate: laureate.keys() == allKeys, laureates))

## Misión 2: Modelación de entidades

A partir de la información, se puede distinguir las entidades: Ganadores del premio Nobel, Premios y Afiliación. A continuación se describen los atributos que tendrán cada una de las entidades:

- **Ganadores del premio Nobel**: Tiene los siguientes campos:
    - `wid`: Identificador único del ganador. Tendrá un campo de tipo INTEGER.
    - `firstname`: Nombre del ganador. Tendrá un campo de tipo TEXT.	
    - `surname`: Apellido del ganador. Tendrá un campo de tipo TEXT.
    - `born`: Fecha de nacimiento del ganador. Tendrá un campo de tipo DATE.
    - `died`: Fecha de muerte del ganador. Tendrá un campo de tipo DATE.
    - `bornCountry`: País de nacimiento del ganador. Tendrá un campo de tipo TEXT.
    - `bornCountryCode`: Código del país de nacimiento del ganador. Tendrá un campo de tipo TEXT.
    - `bornCity`: Ciudad de nacimiento del ganador. Tendrá un campo de tipo TEXT.
    - `diedCountry`: País de muerte del ganador. Tendrá un campo de tipo TEXT.
    - `diedCountryCode`: Código del país de muerte del ganador. Tendrá un campo de tipo TEXT.
    - `diedCity`: Ciudad de muerte del ganador. Tendrá un campo de tipo TEXT.
    - `gender`: Género del ganador. Tendrá un campo de tipo TEXT.
- **Premios**: Tienes los siguientes campos:
    - `pid`: Identificador único del premio. Tendrá un campo de tipo INTEGER.
    - `year`: Año en que se otorgó el premio. Tendrá un campo de tipo INTEGER.
    - `category`: Categoría del premio. Tendrá un campo de tipo TEXT.
    - `share`: Número de ganadores del premio. Tendrá un campo de tipo INTEGER.
    - `motivation`: Motivación del premio. Tendrá un campo de tipo TEXT.
- **Afiliación**: La afiliación corresponden a la institución o lugar al que estaba asociado el ganador al momento de recibir el premio. Tiene los siguientes campos:
    - `aid`: Identificador único de la institución. Tendrá un campo de tipo INTEGER.
    - `name`: Nombre de la institución. Tendrá un campo de tipo TEXT.
    - `city`: Ciudad de la institución. Tendrá un campo de tipo TEXT.
    - `country`: País de la institución. Tendrá un campo de tipo TEXT.

Para estar definir la cardinalidad de las relaciones, se revisará a más detalle la información obtenida, esto de igual forma se intuye a partir de los nombres pero considere apropiado revisar la información.

- Una persona puede tener varios premios?
- Una persona puede tener varias afiliaciones?

In [7]:
ganadoresVariosPremios = []
for laureate in filterLaureates:
    if len(laureate["prizes"]) > 1:
        ganadoresVariosPremios.append(
            {
                "id": laureate["id"],
                "fullname": f"{laureate['firstname']} {laureate['surname']}",
                "premios": len(laureate["prizes"])
            }
        )

In [8]:
print(ganadoresVariosPremios)

[{'id': '6', 'fullname': 'Marie Curie', 'premios': 2}, {'id': '66', 'fullname': 'John Bardeen', 'premios': 2}, {'id': '217', 'fullname': 'Linus Pauling', 'premios': 2}, {'id': '222', 'fullname': 'Frederick Sanger', 'premios': 2}]


In [9]:
ganadoresVariasAfiliaciones = []
for laureate in filterLaureates:
    for prize in laureate["prizes"]:
        if len(prize["affiliations"]) > 1:
            ganadoresVariasAfiliaciones.append(
            {
                "id": laureate["id"],
                "fullname": f"{laureate['firstname']} {laureate['surname']}",
                "afiliaciones": len(prize["affiliations"])
            }
        )

In [10]:
print(ganadoresVariasAfiliaciones)

[{'id': '54', 'fullname': 'Hideki Yukawa', 'afiliaciones': 2}, {'id': '62', 'fullname': 'Walther Bothe', 'afiliaciones': 2}, {'id': '71', 'fullname': 'Igor Y. Tamm', 'afiliaciones': 2}, {'id': '114', 'fullname': 'Abdus Salam', 'afiliaciones': 2}, {'id': '142', 'fullname': 'Georges Charpak', 'afiliaciones': 2}, {'id': '189', 'fullname': 'Carl Bosch', 'afiliaciones': 2}, {'id': '190', 'fullname': 'Friedrich Bergius', 'afiliaciones': 2}, {'id': '195', 'fullname': 'Peter Debye', 'afiliaciones': 2}, {'id': '198', 'fullname': 'Richard Kuhn', 'afiliaciones': 2}, {'id': '199', 'fullname': 'Adolf Butenandt', 'afiliaciones': 2}, {'id': '216', 'fullname': 'Hermann Staudinger', 'afiliaciones': 2}, {'id': '220', 'fullname': 'Nikolay Semenov', 'afiliaciones': 2}, {'id': '250', 'fullname': 'Ilya Prigogine', 'afiliaciones': 2}, {'id': '302', 'fullname': 'Paul Ehrlich', 'afiliaciones': 2}, {'id': '328', 'fullname': 'William P. Murphy', 'afiliaciones': 2}, {'id': '348', 'fullname': 'Egas Moniz', 'afilia

Entonces, se puede concluir que:

- Un ganador del premio Nobel tiene asociados uno o varios premios.
- Un ganador del premio Nobel puede tener una o varias afiliaciones.

## Misión 3: Creación de tablas

Para crear la base de datos se usa un código similar al que se vio en clase, pero con las tablas y campos un poco diferentes.

In [11]:
connection = sqlite3.connect('laureates.db')
cursor = connection.cursor()

In [12]:
cursor.execute(
    "CREATE TABLE IF NOT EXISTS Winners(wid INTEGER PRIMARY KEY, firstname TEXT, surname TEXT, born DATE, died DATE, bornCountry TEXT, bornCountryCode TEXT, bornCity TEXT, diedCountry TEXT, diedCountryCode TEXT, diedCity TEXT, gender TEXT)"
)
cursor.execute(
    "CREATE TABLE IF NOT EXISTS Prizes(pid INTEGER PRIMARY KEY, year INTEGER, category TEXT, share INTEGER, motivation TEXT)"
)
cursor.execute(
    "CREATE TABLE IF NOT EXISTS Affiliations(aid INTEGER PRIMARY KEY, name TEXT, city TEXT, country TEXT)"
)

<sqlite3.Cursor at 0x260a76695c0>

Un cambio a resaltar es que para crear la tabla se agrego `IF NOT EXISTS` para que si la tabla ya existe no se cree de nuevo.

## Misión 4: Creación de tablas de relación entre entidades

En el enunciado se nos decía que para las relaciones entre las entidades que tuvieran una cardinalidad mayor a 1 se debía crear una tabla de relación. En este caso, se creará una tabla de relación entre los ganadores del premio Nobel y los premios, ya que un ganador puede tener varios premios. Y de forma análoga, se creará una tabla de relación entre los ganadores del premio Nobel y las afiliaciones, ya que un ganador puede tener varias afiliaciones.

La manera de crear estas tablas de relación es similar a la creación de las tablas de las entidades, pero con la diferencia de que se deben agregar los campos que hacen referencia a las tablas que se están relacionando, en nuestro caso, `wid` y `pid` para la tabla de relación entre ganadores y premios, y `wid` y `aid` para la tabla de relación entre ganadores y afiliaciones.

In [13]:
cursor.execute(
    "CREATE TABLE IF NOT EXISTS WinnersPrizes(winner_id INTEGER, prize_id INTEGER, FOREIGN KEY (winner_id) REFERENCES Winners, FOREIGN KEY (prize_id) REFERENCES Prizes)"
)
cursor.execute(
    "CREATE TABLE IF NOT EXISTS WinnersAffiliations(winner_id INTEGER, affiliation_id INTEGER, FOREIGN KEY (winner_id) REFERENCES Winners, FOREIGN KEY (affiliation_id) REFERENCES Affiliations)"
)

<sqlite3.Cursor at 0x260a76695c0>

Finalmente, se hace un `commit` para guardar los cambios en la base de datos y se cierra la conexión.

In [14]:
connection.commit()
connection.close()

Revisamos si efectivamente se creo:

In [15]:
connection = sqlite3.connect('laureates.db')
cursor = connection.cursor()

cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
print("Tablas:\n")
for table in cursor.fetchall():
    print(table[0])
    cursor.execute(f'PRAGMA table_info([{table[0]}])')
    print(cursor.fetchall())
    print()
connection.close()

Tablas:

Winners
[(0, 'wid', 'INTEGER', 0, None, 1), (1, 'firstname', 'TEXT', 0, None, 0), (2, 'surname', 'TEXT', 0, None, 0), (3, 'born', 'DATE', 0, None, 0), (4, 'died', 'DATE', 0, None, 0), (5, 'bornCountry', 'TEXT', 0, None, 0), (6, 'bornCountryCode', 'TEXT', 0, None, 0), (7, 'bornCity', 'TEXT', 0, None, 0), (8, 'diedCountry', 'TEXT', 0, None, 0), (9, 'diedCountryCode', 'TEXT', 0, None, 0), (10, 'diedCity', 'TEXT', 0, None, 0), (11, 'gender', 'TEXT', 0, None, 0)]

Prizes
[(0, 'pid', 'INTEGER', 0, None, 1), (1, 'year', 'INTEGER', 0, None, 0), (2, 'category', 'TEXT', 0, None, 0), (3, 'share', 'INTEGER', 0, None, 0), (4, 'motivation', 'TEXT', 0, None, 0)]

Affiliations
[(0, 'aid', 'INTEGER', 0, None, 1), (1, 'name', 'TEXT', 0, None, 0), (2, 'city', 'TEXT', 0, None, 0), (3, 'country', 'TEXT', 0, None, 0)]

WinnersPrizes
[(0, 'winner_id', 'INTEGER', 0, None, 0), (1, 'prize_id', 'INTEGER', 0, None, 0)]

WinnersAffiliations
[(0, 'winner_id', 'INTEGER', 0, None, 0), (1, 'affiliation_id', '

Como se puede observar se crearon las tablas con los campos que fueron especificados previamente.

## Misión 5: Carga de datos en las tablas

En primer lugar, se crean diccionarios que almacenarán la información de las entidades y se inicializan los ids de cada entidad en 1.

In [16]:
affiliations = {}
winners = {}
prizes = {}
aid = 1
wid = 1
pid = 1

Previamente para los ganadores del premio Nobel, se eliminaron los diccionarios que no tenían todas las llaves, ahora se guardarán todas las llaves que debiesen tener los dicccionarios de premios y afiliacionespara realizar un filtro similar.

In [17]:
allKeysPrizes = filterLaureates[0]["prizes"][0].keys()

In [18]:
allKeysAffiliations = filterLaureates[0]["prizes"][0]["affiliations"][0].keys()

In [19]:
print(allKeysPrizes)

dict_keys(['year', 'category', 'share', 'motivation', 'affiliations'])


In [20]:
print(allKeysAffiliations)

dict_keys(['name', 'city', 'country'])


Extraemos la información de los diccionarios y la cargamos en las tablas correspondientes.

In [21]:
for laureate in filterLaureates:
    winner = (
        laureate["firstname"],
        laureate["surname"],
        laureate["born"],
        laureate["died"],
        laureate["bornCountry"],
        laureate["bornCountryCode"],
        laureate["bornCity"],
        laureate["diedCountry"],
        laureate["diedCountryCode"],
        laureate["diedCity"],
        laureate["gender"],
    )
    if winner not in winners:
        winners[winner] = wid
        wid += 1
        
        for prize in laureate["prizes"]:
            if prize.keys() == allKeysPrizes:
                newPrize = (
                    prize["year"],
                    prize["category"],
                    prize["share"],
                    prize["motivation"],
                )
                if newPrize not in prizes:
                    prizes[newPrize] = pid
                    pid += 1
                    
                for affiliation in prize["affiliations"]:
                    if isinstance(affiliation, dict) and affiliation.keys() == allKeysAffiliations:
                        newAffiliation = (
                            affiliation["name"],
                            affiliation["city"],
                            affiliation["country"],
                        )
                        if newAffiliation not in affiliations:
                            affiliations[newAffiliation] = aid
                            aid += 1

Desglozamos el código para que sea más entendible:

```python
for laureate in filterLaureates:
    winner = (
        laureate["firstname"],
        laureate["surname"],
        laureate["born"],
        laureate["died"],
        laureate["bornCountry"],
        laureate["bornCountryCode"],
        laureate["bornCity"],
        laureate["diedCountry"],
        laureate["diedCountryCode"],
        laureate["diedCity"],
        laureate["gender"],
    )
    if winner not in winners:
        winners[winner] = wid
        wid += 1
```

En este segmento lo que se hace es iterar todos los diccionarios de ganadores del premio Nobel que fueron filtrados en la misión 1, estos tendrán toda la información para todas las entidades. Luego por cada diccionario se crea una tupla con la información que se necesita para la tabla de ganadores del premio Nobel, si esta tupla no está en el diccionario `winners`, se agrega con el id correspondiente. 

¿Por qué se hace esto? Para evitar que se repitan los datos en la tabla. En el código visto en clase, se realizaba una acción similar, con esto me refiero a que se usaba como llave el valor de la tupla y como valor el id, para evitar que se repitieran los datos, como en esta ocasión el valor en sí tiene muchos atributos es necesario hacer una tupla con todos los atributos para representar el valor correctamente y revisar si se repite o no.

Además, el hecho de guardar en tuplas servirá para realizar la inserción a la base de datos de manera más sencilla.



```python
for prize in laureate["prizes"]:
    if prize.keys() == allKeysPrizes:
        newPrize = (
            prize["year"],
            prize["category"],
            prize["share"],
            prize["motivation"],
        )
        if newPrize not in prizes:
            prizes[newPrize] = pid
            pid += 1
```

En esta parte del código se hace algo similar a lo anterior, pero en este caso se itera sobre los premios de cada ganador del premio Nobel, se revisar si los premios poseen todas las llaves necesarias (esto es para evitar insertar valores nulos), se crea una tupla con la información necesaria para la tabla de premios, si esta tupla no está en el diccionario `prizes`, se agrega con el id correspondiente.

```python
for affiliation in prize["affiliations"]:
    if isinstance(affiliation, dict) and affiliation.keys() == allKeysAffiliations:
        newAffiliation = (
            affiliation["name"],
            affiliation["city"],
            affiliation["country"],
        )
        if newAffiliation not in affiliations:
            affiliations[newAffiliation] = aid
            aid += 1
```

Por último, en este segmento se realiza un procedimiento equivalente pero para las afiliaciones, algunos puntos a destacar son los siguientes:

- Se revisa si las afiliaciones del premio incluso si este ya fue ingresado en el diccionario de los premios, esto es porque si bien puede ser el mismo premio, se interpreto que las afiliaciones hacían referencia a las instituciones a las que pertenecían los ganadores al momento de recibir el premio, por lo que no necesariamente tener el mismo premio implica tener las mismas afiliaciones.

- Se agrega una condición más para revisar si la afiliación es un diccionario, esto es porque en la información se encontraron afiliaciones que no eran diccionarios, por lo que se agrega esta condición para evitar errores.

Un punto importante a señalar en esta parte, es que se estan considerando instancias distintas de premios y afiliaciones si algunos de sus valores son distintos, es decir, puede que hayan premios o afiliaciones que tengan los mismos valores en algunos campos pero si tienen un campo distinto se consideran como instancias distintas. Esto es más que nada debido a la interpretación de los datos, ya que se consideró que si un campo era distinto, entonces se trataba de una instancia distinta.

Ahora se revisa nuevamente la información para crear los diccionarios con las relaciones.

In [22]:
winnersPrizes = []
winnersAffiliations = []

In [23]:
for laureate in filterLaureates:
    keyWinner = (
        laureate["firstname"],
        laureate["surname"],
        laureate["born"],
        laureate["died"],
        laureate["bornCountry"],
        laureate["bornCountryCode"],
        laureate["bornCity"],
        laureate["diedCountry"],
        laureate["diedCountryCode"],
        laureate["diedCity"],
        laureate["gender"],
    )
    for prize in laureate["prizes"]:
        if prize.keys() == allKeysPrizes:
            keyPrize = (
                prize["year"],
                prize["category"],
                prize["share"],
                prize["motivation"],
            )
            winnersPrizes.append((winners[keyWinner], prizes[keyPrize]))
            for affiliation in prize["affiliations"]:
                if isinstance(affiliation, dict) and affiliation.keys() == allKeysAffiliations:
                    keyAffiliation = (
                        affiliation["name"],
                        affiliation["city"],
                        affiliation["country"],
                    )
                    winnersAffiliations.append((winners[keyWinner], affiliations[keyAffiliation]))

Nuevamente desglozamos el código para que sea más entendible:

```python
for laureate in filterLaureates:
    keyWinner = (
        laureate["firstname"],
        laureate["surname"],
        laureate["born"],
        laureate["died"],
        laureate["bornCountry"],
        laureate["bornCountryCode"],
        laureate["bornCity"],
        laureate["diedCountry"],
        laureate["diedCountryCode"],
        laureate["diedCity"],
        laureate["gender"],
    )
```

Al igual que en el caso anterior, se iteran los diccionarios de ganadores del premio Nobel que fueron filtrados en la misión 1 y se crea una tupla con los datos, esta vendría siendo la llave para el diccionario de winners.

```python
for prize in laureate["prizes"]:
    if prize.keys() == allKeysPrizes:
        keyPrize = (
            prize["year"],
            prize["category"],
            prize["share"],
            prize["motivation"],
        )
        winnersPrizes.append((winners[keyWinner], prizes[keyPrize]))
```

En este segmento se itera sobre los premios de cada ganador del premio Nobel, se revisa si los premios poseen todas las llaves necesarias, luego se crea una tupla con los datos del premio que se esta iterando, esta sería la llave para el diccionario de prizes, luego se agrega una tupla con los ids de los ganadores y los premios a la lista `winnersPrizes`.

```python
for affiliation in prize["affiliations"]:
    if isinstance(affiliation, dict) and affiliation.keys() == allKeysAffiliations:
        keyAffiliation = (
            affiliation["name"],
            affiliation["city"],
            affiliation["country"],
        )
        winnersAffiliations.append((winners[keyWinner], affiliations[keyAffiliation]))
```

Por último, se realiza un procedimiento similar al anterior pero para las afiliaciones, se itera sobre las afiliaciones de cada premio, se revisa si las afiliaciones son diccionarios y si poseen todas las llaves necesarias, luego se crea una tupla con los datos de la afiliación que se esta iterando, esta sería la llave para el diccionario de affiliations, luego se agrega una tupla con los ids de los ganadores y las afiliaciones a la lista `winnersAffiliations`.

Con esto tendríamos toda la información de las entidades en estructuras de datos que nos permitirán realizar la inserción a la base de datos de manera más sencilla. A continuación, se imprimen los resultados: (se dejo comentado para que en GitHub no se muestre la información)

In [24]:
#print(winners)

In [25]:
#print(prizes)

In [26]:
#print(affiliations)

In [27]:
#print(winnersPrizes)

In [28]:
#print(winnersAffiliations)

Insertamos la información en la base de datos.

In [29]:
connection = sqlite3.connect('laureates.db')
cursor = connection.cursor()

for winner, wid in winners.items():
    cursor.execute(
        "INSERT INTO Winners(wid, firstname, surname, born, died, bornCountry, bornCountryCode, bornCity, diedCountry, diedCountryCode, diedCity, gender) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)",
        (wid, *winner)
    )

for prize, pid in prizes.items():
    cursor.execute(
        "INSERT INTO Prizes(pid, year, category, share, motivation) VALUES (?, ?, ?, ?, ?)",
        (pid, *prize)
    )

for affiliation, aid in affiliations.items():
    cursor.execute(
        "INSERT INTO Affiliations(aid, name, city, country) VALUES (?, ?, ?, ?)",
        (aid, *affiliation)
    )

for winner_id, prize_id in winnersPrizes:
    cursor.execute(
        "INSERT INTO WinnersPrizes(winner_id, prize_id) VALUES (?, ?)",
        (winner_id, prize_id)
    )

for winner_id, affiliation_id in winnersAffiliations:
    cursor.execute(
        "INSERT INTO WinnersAffiliations(winner_id, affiliation_id) VALUES (?, ?)",
        (winner_id, affiliation_id)
    )

connection.commit()
connection.close()

Ahora se desglosa el código para que sea más entendible:

```python
for winner, wid in winners.items():
    cursor.execute(
        "INSERT INTO Winners(wid, firstname, surname, born, died, bornCountry, bornCountryCode, bornCity, diedCountry, diedCountryCode, diedCity, gender) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)",
        (wid, *winner)
    )
```

Se iteran los elementos del diccionario de ganadores, se obtiene el id y la tupla con los datos del ganador, recordar que `items()` nos entrega la llave y el valor del diccionario, y que la llave eran los datos de la entidad mientras que el valor era el id. Luego se crea una tupla con el id y los datos del ganador, y se inserta en la tabla de ganadores del premio Nobel. La parte de `*winner` es para desempaquetar la tupla y pasar los valores como argumentos.

```python
for winner_id, prize_id in winnersPrizes:
    cursor.execute(
        "INSERT INTO WinnersPrizes(winner_id, prize_id) VALUES (?, ?)",
        (winner_id, prize_id)
    )
```

En este segmento lo que se hace es iterar sobre la lista `winnersPrizes` que contiene tuplas con los ids de los ganadores y los premios, luego se insertan estos datos en la tabla de relación entre ganadores y premios. Este procedimiento se realiza de manera similar para la tabla de relación entre ganadores y afiliaciones.