# Actividad Evaluada 1

## Administrativos

- El trabajo es individual. Puedes consultar y discutir con tus compañeras y compañeros, pero a la hora de escribir el código, no puedes compartirlo con nadie. Puedes usar recursos como internet y modelos de lenguaje, pero tienes que ser explícito en la cita o en el lugar donde los usaste.

- La entrega es el viernes 21 de marzo a las 20:00 horas. El úncio archivo a entregar es una copia de tu notebook, que deberás subir en canvas antes de ese día/hora. 

- Si tienes dudas, aprovéchanos, vamos a estar en la sala para ayudar. Recuerda que el objetivo en estas actividades es aprender y evaluar al mismo tiempo, ¡está bien si no todo sale a la primera!.

## Enunciado

### Datos

Trabajaremos con: 

- Una tabla de `People(id, name, department)`, que almacena el identificador, nombre y el área de donde trabajan personas en una organización. 
- Una tabla de `Projects(id, name, month, year)`, con el id y el nombre de los proyectos en esa organización. Por simplicidad, vamos a guardar el momento de inicio de los proyectos basado en el mes y año en el que partieron como números enteros.
- Una relación entre ambas entidades, llamada `People_Projects(person_id, project_id)` que relaciona las personas con los proyectos en que trabajan. Cabe destacar que la relación entre estas es de 1 a $n$: cada persona participa en a lo más un proyecto, y los proyectos pueden tener a muchas personas trabajando en ellos.

Acá va un ejemplo de como se podrían ver los datos:

In [1]:
people = [
    (1, "John Smith", "IT"),
    (5, "Sarah Johnson", "Management"),
    (2, "Michael Chen", "Management"),
    (3, "Emma Wilson", "IT"),
    (10, "David Rodriguez", "HR"),
    (4, "Lisa Thompson", "Finance"),
    (6, "Robert Kim", "Finance"),
    (15, "Maria Garcia", "IT"),
    (7, "James Anderson", "Management"),
    (22, "Emily Brown", "Management"),
    (31, "Thomas Lee", "IT"),
    (11, "Ana Martinez", "HR"),
    (9, "William Taylor", "Finance"),
    (33, "Sophie Parker", "IT"),
]

projects = [
    (1, "ERP Implementation", 3, 2024),
    (2, "Cloud Migration", 6, 2024),
    (3, "Mobile App Development", 4, 2024),
    (4, "Cybersecurity Upgrade", 8, 2023),
    (5, "Data Analytics Platform", 11, 2023),
    (6, "Website Redesign", 2, 2024),
    (7, "HR Digital Transformation", 9, 2023),
    (8, "Customer Portal", 5, 2024),
    (9, "AI Chatbot Integration", 7, 2023),
    (10, "Infrastructure Modernization", 12, 2023)
]

# Formato (person_id, project_id)
people_projects = [
    (1, 1), (2, 3), (10, 1), 
    (5, 2), (6, 2), (33, 2), 
    (15, 3), (3, 4), (31, 4), 
    (7, 5), (9, 5), (4, 6), 
    (11, 7), (22, 8)
]

#### Manejo de datos 

Vamos a construir una clase `Table`, para acceder a los datos de arriba. El acceso es mediante un iterador, que implementa `iter()` y `next()`, y mediante `index_access(id_indice, element)`, que permite acceder a elementos como si fuera un hash-index.


In [2]:
class Table:
    def __init__(self, data):
        self.data = data
        self.indexes = []

    def __iter__(self):
        self.current_iter = 0
        return self

    def __next__(self):
        if self.current_iter < len(self.data):
            value = self.data[self.current_iter]
            self.current_iter += 1
            return value
        else:
            raise StopIteration

    def create_primary_index(self, position):
        index = {}
        for tup in self.data:
            index[tup[position]] = tup
        self.indexes.append(index)
        return len(self.indexes) - 1

    def index_access(self, index_id, element):
        return self.indexes[index_id][element]

In [3]:
## Ejemplo de como iterar una tabla

table_people = Table(people)
iterador = iter(table_people)
for x in iterador:
    print(x)

(1, 'John Smith', 'IT')
(5, 'Sarah Johnson', 'Management')
(2, 'Michael Chen', 'Management')
(3, 'Emma Wilson', 'IT')
(10, 'David Rodriguez', 'HR')
(4, 'Lisa Thompson', 'Finance')
(6, 'Robert Kim', 'Finance')
(15, 'Maria Garcia', 'IT')
(7, 'James Anderson', 'Management')
(22, 'Emily Brown', 'Management')
(31, 'Thomas Lee', 'IT')
(11, 'Ana Martinez', 'HR')
(9, 'William Taylor', 'Finance')
(33, 'Sophie Parker', 'IT')


In [4]:
## Crear un índice en el atributo id de People (posición 0)
# Luego se usa para encontrar la tupla con id 3

table_people.create_primary_index(0)
table_people.index_access(0, 3)

(3, 'Emma Wilson', 'IT')

<img style="margin: 0 auto;display: block;" src="https://i.ibb.co/yc6Y8JMP/A-adir-un-t-tulo.png" alt="Portada" border="0"></a>

### Parte 1 [0,5 pts] - Consultas con índices primarios

1. Crea los índices necesarios para contestar la siguiente consulta en un tiempo acotado por la cantidad de personas en la base de datos, y detalla la estrategia para contestar esta consulta con los índices:

```SQL
SELECT People.name, Projects.name 
FROM People, Projects, People_Projects
WHERE People.id = People_Projects.person_id 
  AND Projects.id = People_Projects.project_id
```

2. Ejecuta un script que conteste esta consulta, a partir de las instancias de clase `Table` que creaste, usando solamente el iterador y la función `index_access` provistas para esa tabla. Tu script debe usar adecuadamente los índices y tu estrategia sugerida en el punto anterior.

In [5]:
### Parte 1.1

# Se necesita crear una tabla de asociaciones entre personas y proyectos
# Tiene el siguiente formato: (people_id, project_id) 
table_associations = Table(people_projects)

# Crear tablas para los proyectos
table_projects = Table(projects)

# Creamos los índices en las tablas de personas y proyectos 
table_people.create_primary_index(0)
table_projects.create_primary_index(0)


0

In [6]:
proyectos_asociados = {}
# 1. Iterar sobre la tabla de asociaciones
for association in iter(table_associations):
    # 2. Obtener el id de la persona y el id del proyecto
    person_id, project_id = association
    # 3. Usar el índice de la tabla de personas para obtener el nombre de la persona
    person = table_people.index_access(0, person_id)
    # 4. Usar el índice de la tabla de proyectos para obtener el nombre del proyecto
    project = table_projects.index_access(0, project_id)
    if person[1] not in proyectos_asociados:
        proyectos_asociados[person[1]] = [project[1]]
    else: 
        proyectos_asociados[person[1]].append(project[1])


for person, actual_projects in proyectos_asociados.items():
    print(f"{person} está trabajando en el(los) proyecto(s): {', '.join(actual_projects)}")


John Smith está trabajando en el(los) proyecto(s): ERP Implementation
Michael Chen está trabajando en el(los) proyecto(s): Mobile App Development
David Rodriguez está trabajando en el(los) proyecto(s): ERP Implementation
Sarah Johnson está trabajando en el(los) proyecto(s): Cloud Migration
Robert Kim está trabajando en el(los) proyecto(s): Cloud Migration
Sophie Parker está trabajando en el(los) proyecto(s): Cloud Migration
Maria Garcia está trabajando en el(los) proyecto(s): Mobile App Development
Emma Wilson está trabajando en el(los) proyecto(s): Cybersecurity Upgrade
Thomas Lee está trabajando en el(los) proyecto(s): Cybersecurity Upgrade
James Anderson está trabajando en el(los) proyecto(s): Data Analytics Platform
William Taylor está trabajando en el(los) proyecto(s): Data Analytics Platform
Lisa Thompson está trabajando en el(los) proyecto(s): Website Redesign
Ana Martinez está trabajando en el(los) proyecto(s): HR Digital Transformation
Emily Brown está trabajando en el(los) pr

**Parte 1.2 - Explicación**

<p>Mi resolución hace lo siguiente: 

<ol>
  <li> Recuperamos los id de las personas y proyecto</li>
  <li> Creamos la tabla de asosiación (personas y proyectos)</li>
  <li> Iteramos por la tabla de asociación, recuperamos los nombres y proyectos</li>
  <li> Añadimos a un diccionario el nombre del la persona (key) y añadimos los proyectos correspondientes en una lista (value)</li>
</ol>


La complejidad de este proyecto será O(n), Donde n es la cantidad de asociasiones. 
</p>

### Parte 2 [1 pto] - Índices secundarios

Ahora quieres contestar de forma eficiente (es decir, en un tiempo acotado por la cantidad de personas en el área IT) la consulta:

```SQL
SELECT People.name, Projects.name 
FROM People, Projects, People_Projects
WHERE People.id = People_Projects.person_id 
  AND Projects.id = People_Projects.project_id
  AND People.department = 'IT'
```

1. Explica por qué con la estructura de índices de la clase Table no puedes responder esta consulta de forma eficiente.
2. Escribe una función llamada `create_secondary_index` que reciba una columna `c`, y genere un diccionario donde la llave sean los elementos de esa columna, y el valor sea la lista de tuplas cuyo valor en la posición `c` corresponda a la llave.
3. Ejecuta un script que conteste esta consulta, a partir de las instancias de clase Table que creaste, usando solamente el iterador y la función `index_access` provistas para esa tabla. Tu script debe usar adecuadamente los índices y tu estrategia sugerida en los puntos anteriores.

**Parte 2.1 - Explicación**

<p> La clase de Table actual permite crear índices solo para una columna específica. Esto no permite hacer busquedas más complejas  que involucren múltiples columnas. Esto significaría que tendríamos que recuperar todas las columnas de la tabla para encontrar la materia. Falta soportes para relaciones entre tablas y presenta limitaciones al solo poder recuperar los índices de una columna. </p>

In [7]:
# Parte 2.2 
# Si prefieres, puedes volver a escribir el código asociado a la clase Table
# En caso de que tengas que hacer modificaciones menores a otros métodos
class Table_2:
    def __init__(self, data):
        self.data = data
        self.indexes = []

    def __iter__(self):
        self.current_iter = 0
        return self

    def __next__(self):
        if self.current_iter < len(self.data):
            value = self.data[self.current_iter]
            self.current_iter += 1
            return value
        else:
            raise StopIteration

    def create_primary_index(self, position):
        index = {}
        for tup in self.data:
            index[tup[position]] = tup
        self.indexes.append(index)
        return len(self.indexes) - 1
    
    def create_secondary_index(self, col):
        if not self.data or col < 0 or col >= len(self.data[0]):
            raise IndexError("El índice de columna está fuera del rango de los datos.")
        index = {}
        for tup in self.data:
            key = tup[col]  
            if key not in index:
                index[key] = []  # Inicializar la lista si la clave no existe
            else:
                index[key].append(tup)  # Agregar la tupla a la lista correspondiente
        return index

    def index_access(self, index_id, element):
        return self.indexes[index_id][element]
    


In [8]:
#Redefine la tabla para que apoye el nuevo método de índice secundario
table_people_2 = Table_2(people)
# Mantenemos los valores anteriores

In [9]:
### Parte 2.3

# Queremos recuperar solo los nombres y proyectos de las personas que pertenecen al departamento 'IT'

# Creamos un índice secundario en la columna del departamento (posición 2)
depto_members = table_people_2.create_secondary_index(2)['IT']
# Creamos un índices primarios 
table_people_2.create_primary_index(0)
table_projects.create_primary_index(0)

IT_projects = {}

for association in iter(table_associations):
    
    person_id, project_id = association
    person = table_people_2.index_access(0, person_id)
    
    # Verificar si la persona pertenece al departamento 'IT'
    if person in depto_members:
        actual_project = table_projects.index_access(0, project_id)
        if person[1] not in IT_projects:
            IT_projects[person[1]] = [actual_project[1]]
        else: 
            IT_projects[person[1]].append(actual_project[1])


for person, it_projects in IT_projects.items():
    print(f"{person} que pertenece al depertamento de IT está trabajando en el(los) proyecto(s): {', '.join(it_projects)}")

Sophie Parker que pertenece al depertamento de IT está trabajando en el(los) proyecto(s): Cloud Migration
Maria Garcia que pertenece al depertamento de IT está trabajando en el(los) proyecto(s): Mobile App Development
Emma Wilson que pertenece al depertamento de IT está trabajando en el(los) proyecto(s): Cybersecurity Upgrade
Thomas Lee que pertenece al depertamento de IT está trabajando en el(los) proyecto(s): Cybersecurity Upgrade


### Parte 3 [1.5 pts] - Índices multicolumna

Ahora quieres contestar de forma eficiente la consulta 

```SQL
SELECT * 
FROM Projects
WHERE Projects.month = 10 AND Projects.year = 2023
```

1. Explica por qué los índices que tienes ahora no te sirven para ejecutar esta consulta en una sola lectura.
2. Implementa un sistema de índices multicolumna para contestar esta consulta y crea un script que muestre su uso. Puedes volver a reescribir toda la clase `Table` si quieres.



**Parte 3.1 - Explicación**

La clase solo crea indices primarios y secundarios que se mapean en diccionarios, esto no es suficiente para acceder columnas en solo una lectura. Si se crean múltiples índices (primarios y secundarios) para resolver la consulta definida puede llevar a múltiples lecturas en lugar de una sola.

In [10]:
# Parte 3.2
# Escribe el código acá

class Table_3:
    def __init__(self, data):
        self.data = data
        self.indexes = []

    def __iter__(self):
        self.current_iter = 0
        return self

    def __next__(self):
        if self.current_iter < len(self.data):
            value = self.data[self.current_iter]
            self.current_iter += 1
            return value
        else:
            raise StopIteration

    def create_primary_index(self, position):
        index = {}
        for tup in self.data:
            index[tup[position]] = tup
        self.indexes.append(index)
        return len(self.indexes) - 1
    
    def create_multi_columns_index(self, cols):
        if not self.data or any(col < 0 or col >= len(self.data[0]) for col in cols):
            raise IndexError("El índice de columna está fuera del rango de los datos.")
        index = {}
        for tup in self.data:
            key = tuple(tup[col] for col in cols)
            if key not in index:
                index[key] = [tup]
            else:
                index[key].append(tup)
        return index

    def index_access(self, index_id, element):
        return self.indexes[index_id][element]
    


In [11]:
#Redefine la tabla para que apoye el nuevo método de índice multi-columnas
table_projects_3 = Table_3(projects)

# Codigo probando el nuevo método de índice multi-columnas
# multi_col_index = table_projects_3.create_multi_columns_index([1, 2])
# multi_col_index

In [12]:
# Queremos recuperar toda la información de los proyectos del año 2023 y del mes 10

# Creamos un índice multi-columnas en la columna del año (posición 2) y mes (posición 3)
coincidencias = 0

columnas_recuperadas = table_projects_3.create_multi_columns_index([2, 3])

for fecha, data in columnas_recuperadas.items():
    if fecha[0] == 10 and fecha[1] == 2023:
        for proyecto in data:
            print(f"El proyecto {proyecto[1]} fue realizado en el año {fecha[0]} y mes {fecha[1]}")
            coincidencias += 1
print(f"Se encontraron {coincidencias} coincidencias para el año 2023 y mes 10")


Se encontraron 0 coincidencias para el año 2023 y mes 10


In [13]:
# Como no hubo coincidencias, definiré una nueva variable que incluya el año 2023 y mes 10
# Peticion a ChatGPT "Crea 10 proyectos ficticios, has que 3 se hicieran el año 2023 y mes 10. 
# Sigue el siguiente formato: (ID, Nombre, mes, año). El ID debe ser un número aleatorio"

fake_proyects = [
    (23, 'Project Alpha', 10, 2023),
    (45, 'Project Beta', 9, 2023),
    (12, 'Project Gamma', 10, 2023),
    (67, 'Project Delta', 10, 2023),
    (34, 'Project Epsilon', 11, 2023),
    (89, 'Project Zeta', 8, 2022),
    (56, 'Project Eta', 5, 2023),
    (78, 'Project Theta', 10, 2022),
    (90, 'Project Iota', 12, 2023),
    (11, 'Project Kappa', 3, 2023),
]

added_projects = Table_3(fake_proyects)
# Repetimos el proceso de creación de índice multi-columnas
coincidencias = 0
nuevas_columnas_recuperadas = added_projects.create_multi_columns_index([2, 3])

for fecha, data in nuevas_columnas_recuperadas.items():
    if fecha[0] == 10 and fecha[1] == 2023:
        for proyecto in data:
            print(f"El proyecto {proyecto[1]} fue realizado en el año {fecha[0]} y mes {fecha[1]}")
            coincidencias += 1
print(f"Se encontraron {coincidencias} coincidencias para el año 2023 y mes 10")

El proyecto Project Alpha fue realizado en el año 10 y mes 2023
El proyecto Project Gamma fue realizado en el año 10 y mes 2023
El proyecto Project Delta fue realizado en el año 10 y mes 2023
Se encontraron 3 coincidencias para el año 2023 y mes 10


Parte 4 [0.5 pts] - Agregación

Ahora quieres hacer una consulta que te permita contar las personas por área de la empresa:

```SQL
SELECT People.department, COUNT(*)
FROM People
```

1. Explica cómo puedes usar la estructura de índices actual para contestar esta consulta de forma eficiente.
2. Crea un script que use la estructura de tablas e índices creada hasta ahora para contestar esta consulta acorde a la estrategia que describiste en el punto anterior.

**Parte 4.1 - Explicación**

Previamente cree ```create_secondary_index``` en ```Tabla_2``` este me permitia recuperar la información basandome en un index que no fuera el principal. Puedo calcular cuantas personas hay por los index de las personas que pertenecen en el departamento. 


In [14]:
# Parte 4.2
# Escribe el código acá

# Nuevamente definimos la tabla para que apoye la Tabla 2

people_table_2 = Table_2(people)

# Usaremos create_secondary_index para crear un índice secundario en la columna del departamento (posición 2)
depto_members = table_people_2.create_secondary_index(2)


In [15]:
# Hare una función que reciba el diccionario de depto_members y retorne un diccionario con el número de personas por departamento
# Me aseguraré que la función se asegure que no se repitan los ID de personas

# y que cuente solo una vez a cada persona por departamento

def contador_depto(depto_memebers):
    depto_count = {}
    for depto, members in depto_memebers.items():
        # Usamos un set para evitar contar duplicados
        unique_members = set(members)
        depto_count[depto] = len(unique_members)
    return depto_count

In [16]:
cantidad_depto = contador_depto(depto_members)

for depto, cantidad in cantidad_depto.items():
    print(f"El departamento {depto} tiene {cantidad} personas.")

El departamento IT tiene 4 personas.
El departamento Management tiene 3 personas.
El departamento HR tiene 1 personas.
El departamento Finance tiene 2 personas.


### Parte 5 [2 pts] - Joins en relaciones n:n 

Ahora imagina que la tabla `People_Projects` es $n$ a $n$: una persona puede participar en muchos proyectos y un proyecto puede tener muchas personas involucradas. 

Ahora te interesa hacer la consulta:

```SQL
SELECT People.name, Projects.name 
FROM People, Projects, People_Projects
WHERE People.id = People_Projects.person_id 
  AND Projects.id = People_Projects.project_id
  AND People.department = 'IT'
```

Y también te interesa hacer la consulta:

```SQL
SELECT People.name, Projects.name 
FROM People, Projects, People_Projects
WHERE People.id = People_Projects.person_id 
  AND Projects.id = People_Projects.project_id
  AND Projects.month = 10 
  AND Projects.year = 2023
```

1. Explica cómo debes indexar las tablas para poder responder a ambas consultas de forma eficiente. ¿Te basta con un índice para la tabla `People_Projects` o necesitas más?
2. Extiende la tabla `People_Projects` para que refleje este nuevo escenario. Luego crea los índices necesarios para responder la consulta.
3. Crea un script para responder la primera consulta de join que mostramos en este apartado.
4. Crea un script para responder la segunda consulta de join que te mostramos en este apartado.

**Parte 5.1 - Explicación**

Para indexar las tablas people y projects hay que usar people_projects. No es suficiente con indexar un par de columnas a people_projects porque necesitamos: ```nombre_persona```, ```nombre_proyecto```, ```departamento```, ```mes_proyecto``` y ```proyecto_year```

Sale más practico conectar todo a travez de un Join y eliminar los valores extra.  

In [17]:
# Parte 5.2
# Definimos Tabla_Definitiva que incluya la funciones de Table_2, Table_3 y creamos una función llamada join. 

class Table_Definitiva:
    def __init__(self, data):
        self.data = data
        self.indexes = []

    def __iter__(self):
        self.current_iter = 0
        return self

    def __next__(self):
        if self.current_iter < len(self.data):
            value = self.data[self.current_iter]
            self.current_iter += 1
            return value
        else:
            raise StopIteration

    def create_primary_index(self, position):
        index = {}
        for tup in self.data:
            index[tup[position]] = tup
        self.indexes.append(index)
        return len(self.indexes) - 1
    
    def create_secondary_index(self, col):
        if not self.data or col < 0 or col >= len(self.data[0]):
            raise IndexError("El índice de columna está fuera del rango de los datos.")
        index = {}
        for tup in self.data:
            key = tup[col]  
            if key not in index:
                index[key] = []  # Inicializar la lista si la clave no existe
            else:
                index[key].append(tup)  # Agregar la tupla a la lista correspondiente
        return index
    
    def create_multi_columns_index(self, cols):
        if not self.data or any(col < 0 or col >= len(self.data[0]) for col in cols):
            raise IndexError("El índice de columna está fuera del rango de los datos.")
        index = {}
        for tup in self.data:
            key = tuple(tup[col] for col in cols)
            if key not in index:
                index[key] = [tup]
            else:
                index[key].append(tup)
        return index
    
    def index_access(self, index_id, element):
        return self.indexes[index_id][element]
    
    def join(self, other_table, left_on, right_on):
        joined_data = []
        for row in self.data:
            for other_row in other_table.data:
                if row[left_on] == other_row[right_on]:
                    joined_data.append(row + other_row)
        return joined_data

In [18]:
# Todas las tablas se redefiniran con instancias de Table_Definitiva
people_table_def = Table_Definitiva(people)
projects_table_def = Table_Definitiva(projects)
associations_table_def = Table_Definitiva(people_projects)

In [19]:
#Unimos las tablas de personas y asociaciones
joined_data = people_table_def.join(associations_table_def, 0, 0)
joined_table = Table_Definitiva(joined_data)

# Unimos la tabla de unida previamente con la tabla de proyectos
total_data = joined_table.join(projects_table_def, 4, 0)

clean_data = []
# Limpiamos los datos para evitar duplicados
for value in total_data:
    #Formato de cada tupla: (person_name, department, project_name, month, year)
    clean_data.append((value[1], value[2], value[6], value[7], value[8]))

total_table = Table_Definitiva(clean_data)

In [20]:
# Creamos un índice secundario en la columna del departamento (posición 2)
# Esto nos permitirá acceder a los miembros de cada departamento
depto_members = total_table.create_secondary_index(1)

In [21]:
# Parte 5.3
# Para la primera Query queremos saber el nombre de las personas y los proyectos en los que están trabajando en el departamento de IT.
it_members_projects = depto_members['IT']

for person in it_members_projects:
    print(f"{person[0]} está trabajando en el(los) proyecto(s): {person[2]} ")

Emma Wilson está trabajando en el(los) proyecto(s): Cybersecurity Upgrade 
Maria Garcia está trabajando en el(los) proyecto(s): Mobile App Development 
Thomas Lee está trabajando en el(los) proyecto(s): Cybersecurity Upgrade 
Sophie Parker está trabajando en el(los) proyecto(s): Cloud Migration 


In [22]:
# Parte 5.4
# Para la segunda Query queremos saber el nombre de las personas y los proyectos que se hayan realizado en 
# el mes de octubre del año 2023.

# Creamos un índice multi-columnas en la columna del año (posición 6) y mes (posición 5)
octubre_2023_projects = total_table.create_multi_columns_index([3, 4])
coincidencias = 0
for fecha, data in octubre_2023_projects.items():
    if fecha[0] == 10 and fecha[1] == 2023:
        for proyecto in data:
            print(f"El proyecto {proyecto[2]}  por {proyecto[0]} fue realizado en el año {fecha[1]} y mes {fecha[0]}")
            coincidencias += 1

print(f"Se encontraron {coincidencias} coincidencias para el año 2023 y mes 10")

Se encontraron 0 coincidencias para el año 2023 y mes 10


In [23]:
# Como mencioné previamente, no hay proyectos en octubre del año 2023, por lo que no se encontraron coincidencias.
# Definiré una nueva variable que incluya el año 2023 y mes 10
# Peticion a ChatGPT "Crea 10 proyectos ficticios, has que 3 se hicieran el año 2023 y mes 10. 
# Sigue el siguiente formato: (person_id, person_name, department, project_id, project_name, month, year). El ID debe ser un número aleatorio"

fake_proyectos = [
    ('Alice Johnson', 'IT', 'Desarrollo de Aplicación Móvil', 10, 2023),
    ('Bob Smith', 'IT', 'Migración a la Nube', 10, 2023),
    ('Charlie Brown', 'Marketing', 'Campaña de Redes Sociales', 9, 2023),
    ('Diana Prince', 'IT', 'Implementación de Seguridad', 11, 2023),
    ('Ethan Hunt', 'Recursos Humanos', 'Reclutamiento de Talento', 12, 2023),
    ('Fiona Gallagher', 'IT', 'Actualización de Servidores', 10, 2023),
    ('George Clooney', 'Finanzas', 'Análisis de Costos', 8, 2023),
    ('Hannah Montana', 'IT', 'Desarrollo de Software de Gestión', 7, 2023),
    ('Ian Malcolm', 'Ciencia', 'Investigación de Mercado', 6, 2023),
    ('Julia Roberts', 'Marketing', 'Lanzamiento de Producto', 5, 2023)
]

# Creamos la tabla total falsa con los nuevos proyectos
fake_table_def = Table_Definitiva(fake_proyectos)

# Hacemos el proceso nuevamente de la nueva Query
fake_octubre_2023_projects = fake_table_def.create_multi_columns_index([3, 4])
coincidencias = 0
for fecha, data in fake_octubre_2023_projects.items():
    if fecha[0] == 10 and fecha[1] == 2023:
        for proyecto in data:
            print(f"El proyecto {proyecto[2]}  por {proyecto[0]} fue realizado en el año {fecha[1]} y mes {fecha[0]}")
            coincidencias += 1

print(f"Se encontraron {coincidencias} coincidencias para el año 2023 y mes 10")

El proyecto Desarrollo de Aplicación Móvil  por Alice Johnson fue realizado en el año 2023 y mes 10
El proyecto Migración a la Nube  por Bob Smith fue realizado en el año 2023 y mes 10
El proyecto Actualización de Servidores  por Fiona Gallagher fue realizado en el año 2023 y mes 10
Se encontraron 3 coincidencias para el año 2023 y mes 10


### Parte 6 [0.5 pts] - ¿Por qué no indexamos todo?

Hasta ahora hemos visto cómo los índices nos ayudan a contestar consultas más rápido, y por lo mismo, podríamos estar tentados a indexar todas las columnas de nuestra base de datos. Por lo mismo, ahora explica:

1. Por qué no es buena indexar todas las columnas de la base de datos, o incluso hacer más índices de los necesarios.
2. Qué es lo que tendrías en consideración al momento de escoger los índices que vas a crear en tu base de datos.

**Parte 6 - Respuesta**

<p>

<ol>
  <li> Porque no hay que indexar más datos de los necesarios</li>

  Porque si indexaramos todos los valores ocuparía demasiado espacio de almacenamiento. Conciderando que en el curso ocuparemos bases de datos masivas es mejor mantener bases más pequeñas.
  Además, esto aumenta la complejidad de las Query realizadas, porque al administrar y mantener los datos hay que ir chequeando cuales son útiles o si hay datos repetidos.  Los datos de este estilo pueden entorpecer las respuestas del programa y dar respuestas suboptimas. 
  En resumen indexar datos demas podría ser contraproducente porque afecta en la administración de los datos y las respuestas ante Queries. Además de tener un límite de almacenamiento que no puede ser excedido. 
  
  <li> Como elegir indices</li>

  Para elegir buenos indices hay que considerar el tipo de consultas que se harán más comunes y óptimizar los indices para facilitar y óptimizar la respuesta de las Queries. 
  También hay que considerar cuales son los datos que son únicos (ID, RUT, ect.) y cuales se repiten y entregan poca información entre personas (genero, color de ojos, ect.) Porque tienen valores de mayor o menor importancia. 
  En resumen hay que balancear la consideración del tipo de datos y las consultas más frecuentes
</ol>
</p>

**Referencias**

Para resolver estos ejercicios me base principalmente en el código de ZachAstro llamado [table.py](https://gist.github.com/ZachAstro/5442714) que fui adaptando al código en cada pregunta. 

Me apoye de la inteligencia artificial [Blackbox](https://www.blackbox.ai/) para resolver errores y adaptar los códigos. También para hacer los dataset falsos en la pregunta 3 y 5. 

