# Exercici Bases de dades NoSQL (MongoDB)

## Obtenció de les dades:

En primer lloc, obtenim les dades de la pàgina de l'Institut d'Estadística de Catalunya:

In [None]:
!wget https://www.idescat.cat/serveis/consultes/es/censph_10_mun_2023.csv

--2024-10-21 09:49:06--  https://www.idescat.cat/serveis/consultes/es/censph_10_mun_2023.csv
Resolving www.idescat.cat (www.idescat.cat)... 83.247.152.144
Connecting to www.idescat.cat (www.idescat.cat)|83.247.152.144|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 16656228 (16M) [text/csv]
Saving to: ‘censph_10_mun_2023.csv’


2024-10-21 09:49:09 (6.04 MB/s) - ‘censph_10_mun_2023.csv’ saved [16656228/16656228]



## Transformació de les dades:

Seguidament procesem del fitxer csv que hem obtingut per adaptar-lo a un fitxer que puguem importar directament des del nostre equip mitjançant l'aplicació **MongoDB Compass**, tal i com hem vist a la documentacio d'aquesta unitat.

### Aquest pas és important perquè elimina algunes files que fan nosa pel correcte funcionament de l'activitat.


In [None]:
import csv,json


def read_csv_to_dict(file_path):
    data = []
    with open(file_path, mode='r', newline='', encoding='utf-8-sig') as csvfile:
        reader = csv.DictReader(csvfile, delimiter=';')
        for row in reader:
            modified_row = {
                "municipio": row["municipio"],
                "edad": row["edad"],
                "sexo": row["sexo"],
                "poblacion": row["valor"]}
            if row['municipio'] != 'Catalunya' and row['sexo'] in ("hombres", "mujeres") and row["edad"].split(' ')[0].isdigit():
                modified_row["edad"] = int(row["edad"].split(' ')[0])
                modified_row["poblacion"] = int(row["valor"])
                data.append(modified_row)
    return data

def save_json(data, file_path):
    with open(file_path, 'w') as f:
        json.dump(data, f)

def read_json_to_dict(file_path):
    with open(file_path, mode='r', encoding='utf-8-sig') as jsonfile:
        data = json.load(jsonfile)
    return data


file_path ="./censph_10_mun_2023.csv"
data = read_csv_to_dict(file_path)
file_path = "./cens_2023.json"
save_json(data, file_path)


# Aquí haureu de realitzar la connexió amb el vostre clúster de MongoDB Atlas tal i com heu fet a l'activitat de la lliçó: **(2 punts)**

In [None]:
!pip install pymongo[srv]



In [None]:
# Aquí el teu codi
user=''
secret=''


from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

uri = f"mongodb+srv://{user}:{secret}@iabm04b0eac3.hvitu.mongodb.net/?retryWrites=true&w=majority&appName=IABM04B0EAC3"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

db = client["IABM04B0_RSA_EAC3"]
collection = db["cens2023"]

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


In [None]:
# funció per desar desde python el json del cens
# Llegeix el contingut de l'arxiu JSON
# with open("cens_2023.json") as file:
#     data = json.load(file)

# # Inserta el contingut a la col·lecció
# collection.insert_many(data)

# print("Dades inserides correctament!")

Dades inserides correctament!


## Importar les dades procesades

Al executar l'script anterior s'haurà generat el fitxer cens_2023.json, baixeu aquest fitxer al vostre equip i importeu el seu contingut mitjançant l'aplicació MongoDB Compass a la mateixa conl·lecció al núvol de MontgoDB Atlas que heu fet servir al cas pràctic de la lliço: 'practica-ioc', a una nova base de dades: 'cens_2023' dins d'una nova col·lecció anomenada 'municipis'.

**És important recordar que no podeu continuar a partir d'aquest punt si no teniu al vostre MongoDB Atlas les dades del cens de l'any 2023 degudament importades.**

## Generació d'una nova Aggregation Pipeline


A continuació, crea una Aggregation pipeline que mostri quants homes i quantes dones estaven censats a Barcelona l'any 2023: **(1 punt)**

In [None]:
# filtrar les persones del municipi Barcelona
stage_barcelona = {'$match': {'municipio':'Barcelona'}}

stage_homes = {'$match':{'sexo':'hombres'}}
stage_dones = {'$match':{'sexo':'mujeres'}}

suma = {"$group": {"_id": None, "total": {"$sum": "$poblacion"}}}

# agregar homes de barcelona i fer el sumatori de la poblacion
ciutadans_barcelona = collection.aggregate([stage_barcelona, stage_homes, suma])
print(f"Homes censats a Barcelona: {ciutadans_barcelona.next()['total']}")

# agregar dones de barcelona i fer el sumatori de la poblacion
ciutadans_barcelona = collection.aggregate([stage_barcelona, stage_dones, suma])
print(f"Dones censades a Barcelona: {ciutadans_barcelona.next()['total']}")


Homes censats a Barcelona: 788057
Dones censades a Barcelona: 867899


Fes el mateix, però ara amb tota la població de Catalunya agrupada en un únic registre. **(1 punt)**


In [None]:
# Aquí el teu codi
# Agregar només amb suma
cencs_catalunya = collection.aggregate([suma])
print(f"Ciutadans censats a Catalunya: {cencs_catalunya.next()['total']}")

Ciutadans censats a Catalunya: 7901963


Fes el mateix, però amb els habitants de Catalunya majors d'edat i menors de 65 anys. **(1 punt)**


In [None]:
# Aquí el teu codi
# ordenar per fer mes eficient les operacions de comparacio amb el camp edat
stage_ordena = {'$sort': {'edad': 1}}

# filtre per obtenir els ciutadans dins l'edat
stage_edat = {'$match': {'edad': {'$gte': 18, '$lte': 65}}}

#execució del filtre
cencs_catalunya_in_edat = collection.aggregate([stage_ordena, stage_edat, suma])
print(f"Ciutadans censats a Catalunya: {cencs_catalunya_in_edat.next()['total']} majors de 18 i menors de 65 anys")

Ciutadans censats a Catalunya: 5083187 majors de 18 i menors de 65 anys
