# PEC 1: INTRODUCCIÓN A LOS DATOS


En esta práctica vamos a retomar el contacto con los datos y vamos a hacer un repaso con los formatos de datos más habituales.

**NOTA:**  Para cargar los ficheros de datos se recomienda que se guarden en la carpeta del google drive donde se está trabajando. Una vez guardados, se debe montar la unidad del drive para poder acceder y referenciar la ruta para cargar los datos.

El código que permite cargar la unidad drive es:

```
from google.colab import drive
drive.mount('/content/drive')

```

Alternativamente se puede trabajar con una copia guardada localmente y abrir el Notebook desde la terminal.

_Ejemplo:_

In [5]:
#from google.colab import drive
#drive.mount('/content/drive')

In [6]:
import json
import pandas as pd


ruta =  ("/Users/juan/Desktop/A ESTUDIOS JUAN"
        "/UOC/2024 1 Captura y preparacion "
        "de datos/PEC 1 Enunciado")
#with open("/Users/juan/Desktop/A ESTUDIOS JUAN/UOC/2024 1 Captura y preparacion de datos/PEC 1 Enunciado/data/parques-eolicos_JSON.json") as file:
#with open("/content/drive/My Drive/.../fichero_datos.json") as file:
#    data=json.load(file)

## Ejercicio 1

**Muestra un ejemplo de cada uno de los siguientes tipos de datos y justifica el por qué. Los ejemplos tienen que ser de la página de datos abiertos del ayuntamiento de Barcelona (https://opendata-ajuntament.barcelona.cat/data/es/dataset)**

1. datos estructurados
2. datos semi-estructuradas
3. datos no estructurados

> NOTA: No es necesario que se compartan los datasets junto con la entrega de la PEC, es suficiente con referenciarlos, hacer una captura del dataset o copiar algunas instancias del dataset.

_Respuesta:_


Dato estructurado: un csv por ejemplo https://opendata-ajuntament.barcelona.cat/data/es/dataset/xarxasoroll-equipsmonitor-instal que es la red de monitorizácion de ruido ambiental del ayuntamiento de Barcelona. Son filas y columnas y tiene una estructura clara.

Dato semiestructurado: https://opendata-ajuntament.barcelona.cat/data/es/dataset/servei-cataleg-metadades-csw
Es un formato XML, propio de estructuras jerarquicas de un dato semiestructurado.

Dato no estructurado: https://opendata-ajuntament.barcelona.cat/data/es/dataset/carrers-pacificats-bici-bcn 
    Si bien es un sitio web con dataset, y de base, eso quiere decir que casi todos, o todos los datos seran semi o estructurados,
    despues de buscar y buscar he decidido elegir este por varios motivos, aunque como he dicho, es dudoso poder elegir uno:
        Su formato principal es ZIP, y tiene varios archivos en el interior, por tanto no esta organizado y si alguno de 
        sus archivos es estructurado, tampoco esta directamente accesible.
    

## Ejercicio 2

El formato JSON (JavaScript Object Notation) es un formato de texto sencillo para el intercambio de datos, ampliamente utilizado. En Python, la librería **json** permite abrir datos de este tipo, asignarlos a una variable y trabajar con ellos.

La función **json.load()** permite parsear una cadena JSON y convertirla en un diccionario de Python.

De forma inversa, si tenemos un objeto python, lo podemos convertir en una cadena JSON utilizando **json.dumps()**.

Una vez cargado el JSON, éste puede ser visualizado manteniendo la identación propia del JSON para hacer más fácil su interpretación mediante la modificación de los argumentos de la función json.dumps()

_Ejemplo:_

```
import json

#ejemplo_json es una cadena json
parsed_json = json.loads(ejemplo_json)
print(json.dumps(parsed_json, indent=4, sort_keys=True))

```

_Ejemplo de leer un JSON desde un archivo de texto o archivo JSON._


```
with open('nombre_archivo.json') as archivo_json:
    parsed_json = json.load(archivo_json)

```





**En este ejercicio trabajaremos con el dataset parques-eolicos_JSON.json en lo referente a los parques eólicos de Castilla y León. Se pide:**

1. **Cargar** y **visualizar** correctamente indentado lo JSON.
2. Mostrar con código el **número de registros**, qué **campos** contiene y de qué **tipo** son.
3. Transformar el json a un **dataframe** ayudandote de la librería pandas, de forma que cada campo diferente sea una columna.
4. **Visualizar** las 5 primeras filas y obtener las **dimensiones del DataFrame**.
5. Guardar el dataframe generado **como csv**.
6. **Cargar el csv** guardado en su punto anterior.
7. **Visualizar** las 5 primeras filas y obtener las **dimensiones del DataFrame**.
8. Mantiene los **mismos campos** el **csv generado y lo json facilitado** en el enunciado? Pasa lo mismo con el **tipo de dato** que Pandas asocia a cada columna?

Con los **datos del CSV** parques-eolicos_CSV.csv, responder:

9. **Cargar** y **visualizar** correctamente el CSV como Dataframe.
10. Coger el **Dataframe provinente del JSON** (apartado 3) y **eliminar todas las columnas que no sean 'nombre' y 'fecha_puesta_en_marcha'**.
11. Hacer un **merge del Dataframe provinente del CSV** para **añadirle la fecha de puesta en marcha en base al nombre** del parque.
12. Con este último Dataframe, **mostrar los detalles de los siguientes parques**:
    - El que tiene más aerogeneradores.
    - El que tiene más potencia instalada.
    - El que tiene los aerogeneradores con más potencia unitaria.
    - El último en entrar en servicio.

Pregunta 1:




In [15]:
def cargar_json(ruta: str) -> dict:
    """Cargar archivo JSON."""
    with open(ruta, 'r') as archivo_json:
        return json.load(archivo_json)

def mostrar_json_indentado(json_data: dict) -> None:
    """Mostrar JSON indentado."""
    print(json.dumps(json_data, indent=4, sort_keys=True))

# Ejecucion
json_data = cargar_json(ruta+
                        "/data/parques-eolicos_JSON.json")
mostrar_json_indentado(json_data)

[
    {
        "fecha_puesta_en_marcha": "2000-04-01",
        "no": 1,
        "no_aerogeneradores": 22.0,
        "nombre": "ALDEAVIEJA",
        "pot_unit_kw": 660,
        "potencia_total_kw": 14520,
        "provincia": "AV",
        "tecnologia": "GAMESA",
        "termino_municipal": "St\u00aa. M\u00aa del Cubillo y Ojos Albos"
    },
    {
        "fecha_puesta_en_marcha": "2002-03-01",
        "no": 2,
        "no_aerogeneradores": 32.0,
        "nombre": "ALTOS DE CARTAGENA",
        "pot_unit_kw": 660,
        "potencia_total_kw": 21120,
        "provincia": "AV",
        "tecnologia": "MADE",
        "termino_municipal": "Las Navas del Marqu\u00e9s"
    },
    {
        "fecha_puesta_en_marcha": "2004-04-01",
        "no": 3,
        "no_aerogeneradores": 4.0,
        "nombre": "AMPLIACION CRUZ DE HIERRO",
        "pot_unit_kw": 1650,
        "potencia_total_kw": 6600,
        "provincia": "AV",
        "tecnologia": "GAMESA",
        "termino_municipal": "Santa Mar\u00eda

Pregunta 2:




In [17]:
def obtener_informacion_registros(json_data: dict) -> None:
    """Mostrar numero de registros y tipos de datos."""
    num_registros = len(json_data)
    campos_y_tipos = {clave: type(valor) for clave, valor in json_data[0].items()}
    
    print(f"Numero de registros: {num_registros}")
    print("Campos y tipos:", campos_y_tipos, '\n')

# Ejecucion
obtener_informacion_registros(json_data)

Numero de registros: 261
Campos y tipos: {'no': <class 'int'>, 'nombre': <class 'str'>, 'termino_municipal': <class 'str'>, 'provincia': <class 'str'>, 'potencia_total_kw': <class 'int'>, 'tecnologia': <class 'str'>, 'no_aerogeneradores': <class 'float'>, 'pot_unit_kw': <class 'int'>, 'fecha_puesta_en_marcha': <class 'str'>} 



Pregunta 3:




In [19]:

def json_a_dataframe(json_data: dict) -> pd.DataFrame:
    """Convertir JSON a DataFrame."""
    return pd.DataFrame(json_data)

# Ejecucion
df_parques = json_a_dataframe(json_data)

Pregunta 4:




In [21]:
def visualizar_dataframe(nombre_df: str, df: pd.DataFrame) -> None:
    """Mostrar las 5 primeras filas y dimensiones."""
    print(f"Primeras filas de {nombre_df}:\n")
    print(df.head())
    print("\n\n\n")
    print(f"Dimensiones de {nombre_df}: {df.shape}")

# Ejecucion
visualizar_dataframe("df_parques",df_parques)

Primeras filas de df_parques:

   no                     nombre  \
0   1                 ALDEAVIEJA   
1   2         ALTOS DE CARTAGENA   
2   3  AMPLIACION CRUZ DE HIERRO   
3   4                      AVILA   
4   5                CABEZA MESA   

                                   termino_municipal provincia  \
0                   Stª. Mª del Cubillo y Ojos Albos        AV   
1                              Las Navas del Marqués        AV   
2                            Santa María del Cubillo        AV   
3                        Ávila y Tornadizos de Ávila        AV   
4  San Juan del Olmo, Muñana, Vadillo Sierra y Am...        AV   

   potencia_total_kw tecnologia  no_aerogeneradores  pot_unit_kw  \
0              14520     GAMESA                22.0        660.0   
1              21120       MADE                32.0        660.0   
2               6600     GAMESA                 4.0       1650.0   
3              11880     GAMESA                18.0        660.0   
4              

Pregunta 5:




In [23]:
def guardar_dataframe_csv(df: pd.DataFrame, nombre_archivo: str) -> None:
    """Guardar DataFrame como CSV."""
    df.to_csv(nombre_archivo, index=False)

# Ejecucion
guardar_dataframe_csv(df_parques, ruta+'/parques-eolicos_mi_CSV.csv')

Pregunta 6:




In [25]:
def cargar_csv(ruta: str, encoding: str) -> pd.DataFrame:
    """Carga un CSV."""
    return pd.read_csv(ruta, encoding=encoding)


# Ejecucion
df_parques_csv = cargar_csv(ruta+'/parques-eolicos_mi_CSV.csv', "utf-8")

Pregunta 7:




In [27]:
# Reutilizo funcion de Ejercicio 4 para visualizarlo
visualizar_dataframe("df_parques_csv",df_parques_csv)

Primeras filas de df_parques_csv:

   no                     nombre  \
0   1                 ALDEAVIEJA   
1   2         ALTOS DE CARTAGENA   
2   3  AMPLIACION CRUZ DE HIERRO   
3   4                      AVILA   
4   5                CABEZA MESA   

                                   termino_municipal provincia  \
0                   Stª. Mª del Cubillo y Ojos Albos        AV   
1                              Las Navas del Marqués        AV   
2                            Santa María del Cubillo        AV   
3                        Ávila y Tornadizos de Ávila        AV   
4  San Juan del Olmo, Muñana, Vadillo Sierra y Am...        AV   

   potencia_total_kw tecnologia  no_aerogeneradores  pot_unit_kw  \
0              14520     GAMESA                22.0        660.0   
1              21120       MADE                32.0        660.0   
2               6600     GAMESA                 4.0       1650.0   
3              11880     GAMESA                18.0        660.0   
4          

Pregunta 8:




In [29]:
def comparar_campos_y_tipos(df_json: pd.DataFrame, df_csv: pd.DataFrame) -> None:
    """Compara campos y tipos entre JSON y CSV."""
    print("Columnas de datos en JSON:")
    print(df_json.columns)
    print("Columnas de datos en CSV:")
    print(df_csv.columns)
    print(f"\nSon los mismos campos? : {df_json.columns.equals(df_csv.columns)}")
    print("Tipos de datos en JSON:")
    print(df_json.dtypes)
    print("Tipos de datos en CSV:")
    print(df_csv.dtypes)
    print(f"\nSon los mismos tipos? : {df_json.dtypes.equals(df_csv.dtypes)}")

# Ejecucion
comparar_campos_y_tipos(df_parques, df_parques_csv)

Columnas de datos en JSON:
Index(['no', 'nombre', 'termino_municipal', 'provincia', 'potencia_total_kw',
       'tecnologia', 'no_aerogeneradores', 'pot_unit_kw',
       'fecha_puesta_en_marcha'],
      dtype='object')
Columnas de datos en CSV:
Index(['no', 'nombre', 'termino_municipal', 'provincia', 'potencia_total_kw',
       'tecnologia', 'no_aerogeneradores', 'pot_unit_kw',
       'fecha_puesta_en_marcha'],
      dtype='object')

Son los mismos campos? : True
Tipos de datos en JSON:
no                          int64
nombre                     object
termino_municipal          object
provincia                  object
potencia_total_kw           int64
tecnologia                 object
no_aerogeneradores        float64
pot_unit_kw               float64
fecha_puesta_en_marcha     object
dtype: object
Tipos de datos en CSV:
no                          int64
nombre                     object
termino_municipal          object
provincia                  object
potencia_total_kw           i

Pregunta 9:




In [31]:
# Reutilizo funcion del ejercicio 4 para visualizarlo y 6 para cargarlo
df_parques_csv = cargar_csv(ruta+'/data/parques-eolicos_CSV.csv', "utf-8")
visualizar_dataframe("df_parques_csv",df_parques_csv)

Primeras filas de df_parques_csv:

   Num                     nombre  \
0    1                 ALDEAVIEJA   
1    2         ALTOS DE CARTAGENA   
2    3  AMPLIACION CRUZ DE HIERRO   
3    4                      AVILA   
4    5                CABEZA MESA   

                                             termino provincia  potencia  \
0                 StÂª. MÂª del Cubillo y Ojos Albos        AV     14520   
1                             Las Navas del MarquÃ©s        AV     21120   
2                           Santa MarÃ­a del Cubillo        AV      6600   
3                      Ãvila y Tornadizos de Ãvila        AV     11880   
4  San Juan del Olmo, MuÃ±ana, Vadillo Sierra y A...        AV     29600   

  tecnologia  Num AEROGENERADORES  POT. UNIT. (kW)  
0     GAMESA                 22.0            660.0  
1       MADE                 32.0            660.0  
2     GAMESA                  4.0           1650.0  
3     GAMESA                 18.0            660.0  
4     VESTAS        

Pregunta 10:




In [33]:
def eliminar_columnas(df: pd.DataFrame, columnas_a_conservar: list) -> pd.DataFrame:
    """Elimina columnas que no se necesitan."""
    return df[columnas_a_conservar]

# Ejecucion
df_reducido = eliminar_columnas(df_parques, ['nombre', 'fecha_puesta_en_marcha'])
visualizar_dataframe("df_reducido",df_reducido)

Primeras filas de df_reducido:

                      nombre fecha_puesta_en_marcha
0                 ALDEAVIEJA             2000-04-01
1         ALTOS DE CARTAGENA             2002-03-01
2  AMPLIACION CRUZ DE HIERRO             2004-04-01
3                      AVILA             2000-04-01
4                CABEZA MESA             2011-06-21




Dimensiones de df_reducido: (261, 2)


Pregunta 11:




In [35]:
def hacer_merge(df_csv: pd.DataFrame, df_json: pd.DataFrame, clave: str) -> pd.DataFrame:
    """Hace merge de dos DataFrames."""
    return pd.merge(df_csv, df_json, on=clave, how='left')


df_merge = hacer_merge(cargar_csv(ruta+'/data/parques-eolicos_CSV.csv', "utf-8")
    , df_reducido, 'nombre')
visualizar_dataframe("df_merge",df_merge)

Primeras filas de df_merge:

   Num                     nombre  \
0    1                 ALDEAVIEJA   
1    2         ALTOS DE CARTAGENA   
2    3  AMPLIACION CRUZ DE HIERRO   
3    4                      AVILA   
4    5                CABEZA MESA   

                                             termino provincia  potencia  \
0                 StÂª. MÂª del Cubillo y Ojos Albos        AV     14520   
1                             Las Navas del MarquÃ©s        AV     21120   
2                           Santa MarÃ­a del Cubillo        AV      6600   
3                      Ãvila y Tornadizos de Ãvila        AV     11880   
4  San Juan del Olmo, MuÃ±ana, Vadillo Sierra y A...        AV     29600   

  tecnologia  Num AEROGENERADORES  POT. UNIT. (kW) fecha_puesta_en_marcha  
0     GAMESA                 22.0            660.0             2000-04-01  
1       MADE                 32.0            660.0             2002-03-01  
2     GAMESA                  4.0           1650.0             

In [36]:
df_merge.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 261 entries, 0 to 260
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Num                     261 non-null    int64  
 1   nombre                  261 non-null    object 
 2   termino                 261 non-null    object 
 3   provincia               261 non-null    object 
 4   potencia                261 non-null    int64  
 5   tecnologia              261 non-null    object 
 6   Num AEROGENERADORES     260 non-null    float64
 7   POT. UNIT. (kW)         260 non-null    float64
 8   fecha_puesta_en_marcha  257 non-null    object 
dtypes: float64(2), int64(2), object(5)
memory usage: 18.5+ KB


Pregunta 12:




In [38]:
def parque_maximo(df: pd.DataFrame, columna: str) -> pd.Series:
    """Obtiene el parque con el valor máximo en una columna específica."""
    if columna == "fecha_puesta_en_marcha":
        df[columna] = pd.to_datetime(df[columna])
        return df.loc[df[columna].idxmax()]  
    else:
        return df.loc[df[columna].astype(float).idxmax()] 

# Ejecucion
parque_aerogeneradores = parque_maximo(df_merge, 'Num AEROGENERADORES')
print("Parque con más aerogeneradores:\n", parque_aerogeneradores)

parque_potencia_instalada = parque_maximo(df_merge, 'potencia')
print("Parque con más potencia instalada:\n", parque_potencia_instalada)

parque_potencia_unitaria = parque_maximo(df_merge, 'POT. UNIT. (kW)')
print("Parque con más potencia unitaria:\n", parque_potencia_unitaria)

parque_ultimo_servicio = parque_maximo(df_merge, 'fecha_puesta_en_marcha')
print("Último parque en entrar en servicio:\n", parque_ultimo_servicio)

Parque con más aerogeneradores:
 Num                                      78
nombre                    PARAMO DE POZA II
termino                      Poza de la Sal
provincia                                BU
potencia                              48740
tecnologia                        ECOTECNIA
Num AEROGENERADORES                    67.0
POT. UNIT. (kW)                       750.0
fecha_puesta_en_marcha           2002-08-01
Name: 76, dtype: object
Parque con más potencia instalada:
 Num                                         16
nombre                    ALTO DE LA DEGOLLADA
termino                            Castrojeriz
provincia                                   BU
potencia                                 50000
tecnologia                              GAMESA
Num AEROGENERADORES                       25.0
POT. UNIT. (kW)                         2000.0
fecha_puesta_en_marcha              2010-12-22
Name: 15, dtype: object
Parque con más potencia unitaria:
 Num                          

## Ejercicio 3

En este ejercicio se trabaja con ficheros separados por comas (CSV). Con tal finalidad, se pide:

PARTE 1:

1. **Cargar los csv** 2024_padro.csv y 2024_biblioteques.csv y **visualizar las primeras filas** de los dataframes.
2. Mostrar las **dimensiones** de los DataFrames
3. Mostrar el **tipo de dato** de cada columna de los dataframes.

PARTE 2:

4. Crear un **diccionario a partir del dataframe del padrón**. Las claves de este diccionario tienen que ser el campo ‘barri’ (barrio). Los valores del diccionario tienen que ser al mismo tiempo otros diccionarios donde las claves sean los campos 'Dones' (Mujeres), 'Homes' (Hombres) y 'Total' y los valores, el valor que tenga cada campo mencionado.
5. Crear un **diccionario a partir del dataframe de las biliotecas**. Las claves de este diccionario tienen que ser el campo ‘Nom_Equipament’ (nombre equipamiento). Los valores del diccionario tienen que ser al mismo tiempo otros diccionarios donde las claves sean los campos 'Nom_Districte' (Nombre del distrito), 'Nom_Barri' (nombre del barrio) y 'Valor' (visitas a 2024 de las bibliotecas).

PARTE 3:

6. **Crear un diccionario** que sea la combinación de los dos anteriores añadiendo un campo nuevo a cada biblioteca del diccionario de las bibliotecas. **Este nuevo campo se llamará ‘Padro’ y su valor será la información relativa al padrón que se corresponda con el barrio de la biblioteca**. En los casos donde no exista valor de padrón, asignar el valor de ‘N/A’. **Visualizar el diccionario resultante.**
7. **Coincide el valor de registros con el del número de instancias del DataFrame inicial de bibliotecas?**
8. **Cuántos hombres, mujeres y visitas están asignadas a la 'Biblioteca Clara'?**
9. Añadir al diccionario un **nuevo parámetro 'Ratio' por cada biblioteca que será el cálculo del parámetro 'Valor' dividido entre el padrón 'Total'. Visualizar el diccionario resultante.**
10. Del diccionario, crear un **Dataframe con dos columnas: Biblioteca y Ratio. Mostrar el DataFrame e interpretar la ratio.**
11. Hay una biblioteca que no tiene parámetro 'Ratio'. **¿Por qué? Investiga y explica qué está pasando.** **¡Pregunta necesaria para evaluar la parte 3!**

PARTE 1:




Pregunta 1:




In [43]:
def visualizar_primeras_filas(nombre:str, df: pd.DataFrame) -> None:
    """Muestra las primeras filas del DataFrame."""
    print(f"Primeras filas de {nombre}:\n", df.head())

In [44]:
df_padro = cargar_csv(ruta+"/data/2024_padro.csv", "latin1")
visualizar_primeras_filas("df_padro",df_padro)

Primeras filas de df_padro:
   Data_Referencia  Codi_Districte Nom_Districte  Codi_Barri Nom_Barri  AEB  \
0      2024-01-01               1  Ciutat Vella           1  el Raval    1   
1      2024-01-01               1  Ciutat Vella           1  el Raval    1   
2      2024-01-01               1  Ciutat Vella           1  el Raval    1   
3      2024-01-01               1  Ciutat Vella           1  el Raval    1   
4      2024-01-01               1  Ciutat Vella           1  el Raval    2   

   Seccio_Censal  Valor  SEXE  
0           1001    628     1  
1           1001    681     2  
2           1002    625     1  
3           1002    657     2  
4           1003   1663     1  


In [45]:
df_bibliotecas = cargar_csv(ruta+"/data/2024_biblioteques.csv", "utf-8")
visualizar_primeras_filas("df_bibliotecas",df_bibliotecas)

Primeras filas de df_bibliotecas:
     Any Indicador                                     Nom_Equipament   Valor  \
0  2024   Visites            Biblioteca Barceloneta - La Fraternitat   36427   
1  2024   Visites                   Biblioteca Francesca Bonnemaison  135968   
2  2024   Visites                      Biblioteca Gotic - Andreu Nin   55849   
3  2024   Visites                   Biblioteca Sant Pau - Santa Creu  109357   
4  2024   Visites  Biblioteca Esquerra de l'Eixample - Agusti Cen...  271719   

   Codi_Districte Nom_Districte  Codi_Barri  \
0               1  Ciutat Vella           3   
1               1  Ciutat Vella           4   
2               1  Ciutat Vella           2   
3               1  Ciutat Vella           1   
4               2      Eixample           9   

                              Nom_Barri  
0                        la Barceloneta  
1  Sant Pere Santa Caterina i la Ribera  
2                        el Barri Gotic  
3                              el

Pregunta 2:




In [47]:
def mostrar_dimensiones(nombre: str, df: pd.DataFrame) -> None:
    """Mostrar dimensiones del DataFrame."""
    print(f"Dimensiones de {nombre}: {df.shape} ")

In [48]:
mostrar_dimensiones("df_padro",df_padro)

Dimensiones de df_padro: (2136, 9) 


In [49]:
mostrar_dimensiones("df_bibliotecas",df_bibliotecas)

Dimensiones de df_bibliotecas: (40, 8) 


Pregunta 3:




In [51]:
def mostrar_tipos_columnas(df: pd.DataFrame) -> None:
    """Mostrar tipos de datos por columna."""
    print(df.dtypes)

In [52]:
mostrar_tipos_columnas(df_padro)

Data_Referencia    object
Codi_Districte      int64
Nom_Districte      object
Codi_Barri          int64
Nom_Barri          object
AEB                 int64
Seccio_Censal       int64
Valor               int64
SEXE                int64
dtype: object


In [53]:
mostrar_tipos_columnas(df_bibliotecas)

Any                int64
Indicador         object
Nom_Equipament    object
Valor              int64
Codi_Districte     int64
Nom_Districte     object
Codi_Barri         int64
Nom_Barri         object
dtype: object


PARTE 2:




Pregunta 4:




In [56]:
from typing import Dict

def crear_diccionario_padro(df: pd.DataFrame) -> Dict[str, Dict[str, int]]:
    """Crear diccionario del padrón con barrios como claves."""
    
    diccionario_padro = {}
    
    agrupado = df.groupby(['Nom_Barri', 'SEXE'])['Valor'].sum().unstack(fill_value=0)
    
    for barrio, fila in agrupado.iterrows():
        diccionario_padro[barrio] = {
            'Dones': fila.get(1, 0),  # Asumiendo que 1 es mujeres
            'Homes': fila.get(2, 0),  # Asumiendo que 2 es hombres
            'Total': fila.sum()         # Sumar ambos para obtener el total
        }
    
    return diccionario_padro

# Crear el diccionario del padrón
diccionario_padro = crear_diccionario_padro(df_padro)
print(diccionario_padro)

{'Baro de Viver': {'Dones': 1344, 'Homes': 1268, 'Total': 2612}, 'Can Baro': {'Dones': 4997, 'Homes': 4528, 'Total': 9525}, 'Can Peguera': {'Dones': 1141, 'Homes': 1039, 'Total': 2180}, 'Canyelles': {'Dones': 3603, 'Homes': 3194, 'Total': 6797}, 'Ciutat Meridiana': {'Dones': 5668, 'Homes': 5422, 'Total': 11090}, 'Diagonal Mar i el Front Maritim del Poblenou': {'Dones': 6924, 'Homes': 6570, 'Total': 13494}, 'Horta': {'Dones': 16389, 'Homes': 14702, 'Total': 31091}, 'Hostafrancs': {'Dones': 8471, 'Homes': 7721, 'Total': 16192}, 'Montbau': {'Dones': 2873, 'Homes': 2413, 'Total': 5286}, 'Navas': {'Dones': 11882, 'Homes': 10529, 'Total': 22411}, 'Pedralbes': {'Dones': 6658, 'Homes': 5840, 'Total': 12498}, 'Porta': {'Dones': 16253, 'Homes': 15076, 'Total': 31329}, 'Provencals del Poblenou': {'Dones': 11158, 'Homes': 10354, 'Total': 21512}, 'Sagrada Familia': {'Dones': 28608, 'Homes': 24217, 'Total': 52825}, 'Sant Andreu': {'Dones': 30941, 'Homes': 27710, 'Total': 58651}, 'Sant Antoni': {'Don

Pregunta 5:




In [58]:
def crear_diccionario_bibliotecas(df: pd.DataFrame) -> Dict[str, Dict[str, str]]:
    """Diccionario de bibliotecas con nombre del lugar como clave."""
    diccionario_bibliotecas = {}
    for distrito, fila in df.iterrows():
        diccionario_bibliotecas[fila['Nom_Equipament']] = {
            'Nom_Districte': fila['Nom_Districte'],
            'Nom_Barri': fila['Nom_Barri'],
            'Valor': fila['Valor']
        }
    return diccionario_bibliotecas

In [59]:
# Crear diccionario de bibliotecas
diccionario_bibliotecas = crear_diccionario_bibliotecas(df_bibliotecas)
print(diccionario_bibliotecas)

{'Biblioteca Barceloneta - La Fraternitat': {'Nom_Districte': 'Ciutat Vella', 'Nom_Barri': 'la Barceloneta', 'Valor': 36427}, 'Biblioteca Francesca Bonnemaison': {'Nom_Districte': 'Ciutat Vella', 'Nom_Barri': 'Sant Pere Santa Caterina i la Ribera', 'Valor': 135968}, 'Biblioteca Gotic - Andreu Nin': {'Nom_Districte': 'Ciutat Vella', 'Nom_Barri': 'el Barri Gotic', 'Valor': 55849}, 'Biblioteca Sant Pau - Santa Creu': {'Nom_Districte': 'Ciutat Vella', 'Nom_Barri': 'el Raval', 'Valor': 109357}, "Biblioteca Esquerra de l'Eixample - Agusti Centelles": {'Nom_Districte': 'Eixample', 'Nom_Barri': "la Nova Esquerra de l'Eixample", 'Valor': 271719}, 'Biblioteca Fort Pienc': {'Nom_Districte': 'Eixample', 'Nom_Barri': 'el Fort Pienc', 'Valor': 100233}, 'Biblioteca Joan Miro': {'Nom_Districte': 'Eixample', 'Nom_Barri': "la Nova Esquerra de l'Eixample", 'Valor': 162696}, 'Biblioteca Sagrada Familia - J M Ainaud de Lasarte': {'Nom_Districte': 'Eixample', 'Nom_Barri': 'la Sagrada Familia', 'Valor': 7947

PARTE 3:




Pregunta 6:




In [62]:
def combinar_diccionarios(
    dic_bibliotecas: Dict[str, Dict[str, str]],
    dic_padro: Dict[str, Dict[str, int]]
) -> Dict[str, Dict[str, Dict]]:
    """Combinar diccionarios y añadir padrón."""
    for biblioteca, info in dic_bibliotecas.items():
        barrio = info['Nom_Barri']
        if barrio in dic_padro:
            dic_bibliotecas[biblioteca]['Padro'] = dic_padro[barrio]
        else:
            dic_bibliotecas[biblioteca]['Padro'] = 'N/A'
    return dic_bibliotecas


In [63]:
# Combono diccionarios
diccionario_combinado = combinar_diccionarios(diccionario_bibliotecas, diccionario_padro)
print(diccionario_combinado)

{'Biblioteca Barceloneta - La Fraternitat': {'Nom_Districte': 'Ciutat Vella', 'Nom_Barri': 'la Barceloneta', 'Valor': 36427, 'Padro': {'Dones': 7389, 'Homes': 7137, 'Total': 14526}}, 'Biblioteca Francesca Bonnemaison': {'Nom_Districte': 'Ciutat Vella', 'Nom_Barri': 'Sant Pere Santa Caterina i la Ribera', 'Valor': 135968, 'Padro': {'Dones': 11368, 'Homes': 11105, 'Total': 22473}}, 'Biblioteca Gotic - Andreu Nin': {'Nom_Districte': 'Ciutat Vella', 'Nom_Barri': 'el Barri Gotic', 'Valor': 55849, 'Padro': {'Dones': 9901, 'Homes': 17321, 'Total': 27222}}, 'Biblioteca Sant Pau - Santa Creu': {'Nom_Districte': 'Ciutat Vella', 'Nom_Barri': 'el Raval', 'Valor': 109357, 'Padro': {'Dones': 22288, 'Homes': 24646, 'Total': 46934}}, "Biblioteca Esquerra de l'Eixample - Agusti Centelles": {'Nom_Districte': 'Eixample', 'Nom_Barri': "la Nova Esquerra de l'Eixample", 'Valor': 271719, 'Padro': {'Dones': 31107, 'Homes': 27192, 'Total': 58299}}, 'Biblioteca Fort Pienc': {'Nom_Districte': 'Eixample', 'Nom_Ba

Pregunta 7:




In [65]:
def verificar_registros(df: pd.DataFrame, dic: Dict[str, Dict]) -> bool:
    """Verificar si el número de registros coincide."""
    return len(df) == len(dic)

# vefifico coincidencia de registros
coinciden_registros = verificar_registros(df_bibliotecas, diccionario_combinado)
print(f"¿Coinciden los registros? {coinciden_registros}")

¿Coinciden los registros? True


Pregunta 8:




In [67]:
def obtener_informacion_biblioteca(dic: Dict[str, Dict], nombre: str) -> Dict:
    """Obtener información de una biblioteca."""
    return dic.get(nombre, 'No encontrada')

# obtengo informacion de la 'Biblioteca Clara'
info_clara = obtener_informacion_biblioteca(diccionario_combinado, 'Biblioteca Clara')
print(info_clara)

{'Nom_Districte': 'Sarria-Sant Gervasi', 'Nom_Barri': 'les Tres Torres', 'Valor': 54173, 'Padro': {'Dones': 8678, 'Homes': 7715, 'Total': 16393}}


Pregunta 9:




In [69]:
def calcular_ratio(dic: Dict[str, Dict]) -> None:
    """Añadir campo 'Ratio' a cada biblioteca."""
    for biblioteca, info in dic.items():
        padro = info['Padro']
        if padro != 'N/A' and padro['Total'] > 0:
            dic[biblioteca]['Ratio'] = info['Valor'] / padro['Total']
        else:
            dic[biblioteca]['Ratio'] = 'N/A'

# Añadir campo ratio
calcular_ratio(diccionario_combinado)
print(diccionario_combinado)

{'Biblioteca Barceloneta - La Fraternitat': {'Nom_Districte': 'Ciutat Vella', 'Nom_Barri': 'la Barceloneta', 'Valor': 36427, 'Padro': {'Dones': 7389, 'Homes': 7137, 'Total': 14526}, 'Ratio': 2.5077103125430265}, 'Biblioteca Francesca Bonnemaison': {'Nom_Districte': 'Ciutat Vella', 'Nom_Barri': 'Sant Pere Santa Caterina i la Ribera', 'Valor': 135968, 'Padro': {'Dones': 11368, 'Homes': 11105, 'Total': 22473}, 'Ratio': 6.050282561295777}, 'Biblioteca Gotic - Andreu Nin': {'Nom_Districte': 'Ciutat Vella', 'Nom_Barri': 'el Barri Gotic', 'Valor': 55849, 'Padro': {'Dones': 9901, 'Homes': 17321, 'Total': 27222}, 'Ratio': 2.051612666225847}, 'Biblioteca Sant Pau - Santa Creu': {'Nom_Districte': 'Ciutat Vella', 'Nom_Barri': 'el Raval', 'Valor': 109357, 'Padro': {'Dones': 22288, 'Homes': 24646, 'Total': 46934}, 'Ratio': 2.3300166190821154}, "Biblioteca Esquerra de l'Eixample - Agusti Centelles": {'Nom_Districte': 'Eixample', 'Nom_Barri': "la Nova Esquerra de l'Eixample", 'Valor': 271719, 'Padro':

Pregunta 10:




In [71]:
def crear_dataframe_ratio(dic: Dict[str, Dict]) -> pd.DataFrame:
    """Crear DataFrame con Biblioteca y Ratio."""
    datos = {'Biblioteca': [], 'Ratio': []}
    for biblioteca, info in dic.items():
        datos['Biblioteca'].append(biblioteca)
        datos['Ratio'].append(info['Ratio'])
    return pd.DataFrame(datos)

# DataFrame de Biblioteca y Ratio
df_ratio = crear_dataframe_ratio(diccionario_combinado)
print(df_ratio)

                                           Biblioteca      Ratio
0             Biblioteca Barceloneta - La Fraternitat    2.50771
1                    Biblioteca Francesca Bonnemaison   6.050283
2                       Biblioteca Gotic - Andreu Nin   2.051613
3                    Biblioteca Sant Pau - Santa Creu   2.330017
4   Biblioteca Esquerra de l'Eixample - Agusti Cen...   4.660783
5                               Biblioteca Fort Pienc   2.775077
6                                Biblioteca Joan Miro   2.790717
7   Biblioteca Sagrada Familia - J M Ainaud de Las...        N/A
8                Biblioteca Sant Antoni - Joan Oliver   3.846917
9                              Biblioteca Sofia Barat   0.957181
10                            Biblioteca Jaume Fuster  23.300995
11  Biblioteca Vallcarca i els Penitents - M Anton...   2.671723
12                          Biblioteca Vila de Gracia   4.823945
13                  Biblioteca El Carmel - Juan Marse   2.629416
14               Bibliote

Pregunta 11:




In [73]:
def investigar_biblioteca_sin_ratio(dic: Dict[str, Dict]) -> None:
    """Investigar por qué una biblioteca no tiene ratio."""
    for biblioteca, info in dic.items():
        if info['Ratio'] == 'N/A':
            print(f"La biblioteca {biblioteca} no tiene ratio. Puede ser porque no hay datos de padrón o el total es 0.")
    print("Comprobacion hecha, si no hay ningun aviso, es que no hay ninguna biblioteca sin ratio")
            
investigar_biblioteca_sin_ratio(diccionario_combinado)

La biblioteca Biblioteca Sagrada Familia - J M Ainaud de Lasarte no tiene ratio. Puede ser porque no hay datos de padrón o el total es 0.
Comprobacion hecha, si no hay ningun aviso, es que no hay ninguna biblioteca sin ratio


In [74]:
df_padro[df_padro['Nom_Barri'].str.contains("Sagrada Familia", case=False, na=False)]

Unnamed: 0,Data_Referencia,Codi_Districte,Nom_Districte,Codi_Barri,Nom_Barri,AEB,Seccio_Censal,Valor,SEXE
148,2024-01-01,2,Eixample,6,Sagrada Familia,23,2021,803,1
149,2024-01-01,2,Eixample,6,Sagrada Familia,23,2021,726,2
150,2024-01-01,2,Eixample,6,Sagrada Familia,23,2022,696,1
151,2024-01-01,2,Eixample,6,Sagrada Familia,23,2022,649,2
152,2024-01-01,2,Eixample,6,Sagrada Familia,23,2023,575,1
...,...,...,...,...,...,...,...,...,...
211,2024-01-01,2,Eixample,6,Sagrada Familia,27,2052,837,2
212,2024-01-01,2,Eixample,6,Sagrada Familia,27,2053,1008,1
213,2024-01-01,2,Eixample,6,Sagrada Familia,27,2053,891,2
214,2024-01-01,2,Eixample,6,Sagrada Familia,27,2054,1059,1


In [75]:
df_ratio[df_ratio['Biblioteca'].str.contains("Sagrada Familia", case=False, na=False)]

Unnamed: 0,Biblioteca,Ratio
7,Biblioteca Sagrada Familia - J M Ainaud de Las...,


In [76]:
df_bibliotecas[df_bibliotecas['Nom_Barri'].str.contains("Sagrada Familia", case=False, na=False)]

Unnamed: 0,Any,Indicador,Nom_Equipament,Valor,Codi_Districte,Nom_Districte,Codi_Barri,Nom_Barri
7,2024,Visites,Biblioteca Sagrada Familia - J M Ainaud de Las...,79479,2,Eixample,6,la Sagrada Familia


In [77]:
df_bibliotecas['Nom_Barri'] = df_bibliotecas['Nom_Barri'].replace("la Sagrada Familia", "Sagrada Familia")
diccionario_bibliotecas = crear_diccionario_bibliotecas(df_bibliotecas)
diccionario_combinado = combinar_diccionarios(diccionario_bibliotecas, diccionario_padro)
calcular_ratio(diccionario_combinado)

df_ratio = crear_dataframe_ratio(diccionario_combinado)


In [78]:
investigar_biblioteca_sin_ratio(diccionario_combinado)

Comprobacion hecha, si no hay ningun aviso, es que no hay ninguna biblioteca sin ratio


In [79]:
df_ratio[df_ratio['Biblioteca'].str.contains("Sagrada Familia", case=False, na=False)]

Unnamed: 0,Biblioteca,Ratio
7,Biblioteca Sagrada Familia - J M Ainaud de Las...,1.504572


In [80]:
# conclusion, faltaba hacer match en el campo Nom_Barri por la falta del articulo 'la'
investigar_biblioteca_sin_ratio(diccionario_combinado)

Comprobacion hecha, si no hay ningun aviso, es que no hay ninguna biblioteca sin ratio


## Ejercicio 4

Existen diferentes repositorios o páginas web que permiten el acceso a múltiples datasets con finalidades académicas o de consulta ciudadana. Posibles fuentes abiertas de información podrían ser las siguientes:

- OpenData de ayuntamientos:
    - Valencia (https://valencia.opendatasoft.com/pages/home/)
    - Madrid (https://datos.madrid.es/portal/site/egob)
    - Barcelona (https://opendata-ajuntament.barcelona.cat/ca)
    ...
- https://datos.gob.es/es/
- https://archive.ics.uci.edu/ml/datasets.php
- https://www.kaggle.com/datasets
- https://bigml.com/gallery/datasets
- https://toolbox.google.com/datasetsearch
...

**En esta actividad se pide que se exploren los repositorios facilitados anteriormente y se escoja un dataset que contenga al menos variables numéricas y categóricas.**

**Se solicita:**

1. **Indicar cuál ha sido la motivación por la que se ha escogido el dataset. Esta cuestión es de respuesta obligatoria para evaluar la originalidad de la realización del ejercicio.**
3. **Describir el dataset.**
4. **Describir a qué se refieren las columnas que forman el dataset. ¿Que representan?**
5. **¿De qué tipo son cada una de las columnas o variables del dataset?**
6. **Cargar el dataset en un dataframe y revisar que los tipos de datos se hayan definido correctamente. Si no están bien definidos, cambiar el tipo de dato que corresponda**.
7. **Visualizar las primeras filas del dataframe**.
8. **Hacer una propuesta de anális o objetivo de análisis que se podria llevar a cabo con el dataset. ¿Que tipo de conclusiones podríamos obtener?**


---
https://www.kaggle.com/datasets/thomasfranois/worlds-best-restaurants

- **Indicar cuál ha sido la motivación por la que se han escogido los dos datasets. Esta cuestión es de respuesta obligatoria para evaluar la originalidad de la realización del ejercicio**

_Respuesta:_ Me gusta comer, y qué mejor que un dataset con los mejores 50 restaurantes de cada año en el mundo. Ademas seguro que la mayoría son caros y me permite utliziar el dataset durante mucho tiempo
https://www.kaggle.com/datasets/thomasfranois/worlds-best-restaurants

- **Describir el datatet**

_Respuesta:_ Tiene 7 columnas: fecha, ranking, restaurante, lugar, latitud, longitud, pais,...  y 1050 registros.

- **Describir a qué se refieren las columnas que forman el dataset.¿Que representan?**

_Respuesta:_ Representan cada restaurante nominado entre los 50 mejores restaurantes mundiales de cada año

- **De qué tipo son cada una de las columnas o variables del dataset?**

_Respuesta:_todas numérico y string pais y lugar

- **Cargar el dataframe y revisar que los tipos de datos se hayan definido correctamente.**

_Respuesta:_ cargo el df y después hago un describe

In [93]:
df = pd.read_csv('WorldsBestRestaurants.csv')

In [94]:
df.describe(include='all')

Unnamed: 0,year,rank,restaurant,location,country,lat,lng
count,1050.0,1050.0,1050,1050,1050,1050.0,1050.0
unique,,,257,135,42,,
top,,,Mugaritz,Paris,United States,,
freq,,,17,103,145,,
mean,2012.142857,25.490476,,,,35.231239,0.070343
std,6.276788,14.43213,,,,24.690886,61.607445
min,2002.0,1.0,,,,-38.336369,-122.870051
25%,2007.0,13.0,,,,35.824923,-3.737738
50%,2012.0,25.0,,,,43.318237,2.351377
75%,2017.0,38.0,,,,48.857548,12.568337


- **Visualizar las primeras filas del dataframe.**

In [96]:
# Visualizar las primeras filas del dataframe.
df.head()

Unnamed: 0,year,rank,restaurant,location,country,lat,lng
0,2002,1,El Bulli,Roses,Spain,42.263949,3.179553
1,2002,2,Restaurant Gordon Ramsay,London,United Kingdom,51.507218,-0.127586
2,2002,3,The French Laundry,Yountville,United States,38.401578,-122.36081
3,2002,4,Rockpool,Sydney,Australia,-33.86882,151.209295
4,2002,5,Spoon des Iles,Ile Maurice,Mauritius,-20.348404,57.552152


- **Hacer una propuesta de análisis o objetivo de análisis que se podria llevar a cabo con el dataset. ¿Que tipo de conclusiones podriamos obtener?**

_Respuesta:_ top paises, ciudades y continentes en restaurantes en el ranking,

## Ejercicio 5

Un caso particular de JSON muy utilizados en datos con referencias geográficas son los GEO-JSON. Este tipo de datos tienen un formato JSON donde uno de los campos su la latitud y la longitud (o coordenadas x y y si se utiliza otro sistema de referencia).

En este ejercicio trabajaremos con un dataset utilizado para tener geolocalitzados los centros de salud de la provincia de Alacant. Se pide:

1. **Cargar el geo-JSON** centros-sanitarios.geojson
2. Mostrar el **número de entradas** que hay al JSON
3. Extraer las **coordenadas, el tipo de centro (CS_TIPO), el número de camas (CS_CAMAS) y de ucis (CS_UCI)** y guardarlo en un DataFrame.
4. Mostrar los tipos de **centro únicos** que hay al DataFrame ("Consultorio", "Ambulatorio", etc).
5. Contar **cuántas entradas hay al Dataframe por tipo de centro**.
6. **Representar al mapa** los centros que aparecen al JSON e indicar como _tooltip_ el tipo. Utilizar como referencia el ejemplo que se muestra a continuación.
7. Repetir la representación anterior pero **modificando el color de los 3 tipos de centro siguientes: 'Centro de salud', 'Consultorio local', 'Hospital general'** (resultados apartado 5).
8. Contar **cuantas camas y ucis tiene** Alacant.

Para hacer la representación en el mapa, se va a utilizar la librería folium, la cual es una librería muy intuitiva de utilizar para hacer pequeñas representacions geograficas (https://python-visualization.github.io/folium/index.html).

La particularidad de esta librería es que las localizaciones deben estar dadas en latitud y longitud. Para este ejercicio ya las tenemos en latitud y longiud, pero de no ser el caso previamente a representar los valores de las coordenadas dadas en el json, se debería hacer una transformación de sistema de referencia. Para ello, se podría utilizar la librería pyproj (https://pypi.org/project/pyproj/). En este ejercicio, de todos modos, no va a ser necesario.

_Ejemplo representación dos puntos en mapa con folium:_

In [103]:
## inicialización de las coordenadas (en lat i long)

import warnings
warnings.filterwarnings("ignore")

lon1= -0.376125
lat1= 39.470515

lon2= -0.37513888888889
lat2= 39.475611111111

In [104]:
!pip install folium



In [105]:
# Cargar folium y crear data
import folium

tooltip1='Ajuntament'
tooltip2='Catedral'

m = folium.Map(location=[lat1, lon1])
folium.Marker([lat1, lon1], icon=folium.Icon(color='red'), tooltip=tooltip1).add_to(m)
folium.Marker([lat2, lon2], icon=folium.Icon(color='blue'), tooltip=tooltip2).add_to(m)

<folium.map.Marker at 0x136b2da60>

In [106]:
m

Pregunta 1:




In [108]:
def cargar_geojson(ruta: str) -> dict:
    """Cargar archivo GeoJSON."""
    with open(ruta, 'r') as archivo_geojson:
        return json.load(archivo_geojson)

def contar_entradas_geojson(geojson_data: dict) -> int:
    """Contar el número de entradas en el GeoJSON."""
    return len(geojson_data['features'])

In [109]:
geojson_data = cargar_geojson(ruta+'/data/centros-sanitarios.geojson')

num_entradas = contar_entradas_geojson(geojson_data)
print(f"Número de entradas en el GeoJSON: {num_entradas}")

Número de entradas en el GeoJSON: 393


Pregunta 2:




In [111]:
def extraer_datos_geojson(geojson_data: dict) -> pd.DataFrame:
    """Extraer coordenadas, tipo de centro, camas y ucis y guardarlo en un DataFrame."""
    datos = []
    for feature in geojson_data['features']:
        coordenadas = feature['geometry']['coordinates']
        tipo_centro = feature['properties']['CS_TIPO']
        camas = feature['properties'].get('CS_CAMAS', 0)
        ucis = feature['properties'].get('CS_UCI', 0)
        
        datos.append({
            'Latitud': coordenadas[1],
            'Longitud': coordenadas[0],
            'Tipo': tipo_centro,
            'Camas': camas,
            'UCIs': ucis
        })
    
    return pd.DataFrame(datos)


df_centros = extraer_datos_geojson(geojson_data)

In [112]:
print(df_centros.head())

    Latitud  Longitud               Tipo Camas UCIs
0  38.78054  -0.51644  Consultorio local     0    0
1  38.79498  -0.40206  Consultorio local     0    0
2  38.67489  -0.33096  Consultorio local     0    0
3  38.77306  -0.55562  Consultorio local     0    0
4  38.76102  -0.35363  Consultorio local     0    0


Pregunta 3:




In [114]:
def mostrar_tipos_centro(df: pd.DataFrame) -> None:
    """Mostrar los tipos de centros únicos."""
    tipos_unicos = df['Tipo'].unique()
    print("Tipos de centros únicos:", tipos_unicos)

mostrar_tipos_centro(df_centros)

Tipos de centros únicos: ['Consultorio local' 'Centro de salud' 'Otros centros sanitarios'
 'Ambulatorio, centro especialidades o policlínicas' 'Hospital general'
 'Hospitales otras especialidades' 'Hospital geriátrico y larga estancia'
 'Hospital psiquiátrico' 'Centros de urgencia y casas de socorro']


Pregunta 4:




In [116]:
def contar_centros_por_tipo(df: pd.DataFrame) -> pd.Series:
    """Contar cuántas entradas hay por tipo de centro."""
    return df['Tipo'].value_counts()


centros_por_tipo = contar_centros_por_tipo(df_centros)
print(centros_por_tipo)

Tipo
Consultorio local                                    175
Otros centros sanitarios                              91
Centro de salud                                       85
Ambulatorio, centro especialidades o policlínicas     16
Hospital general                                      13
Hospitales otras especialidades                        7
Hospital psiquiátrico                                  3
Hospital geriátrico y larga estancia                   2
Centros de urgencia y casas de socorro                 1
Name: count, dtype: int64


Pregunta 5:




In [118]:
import folium

def representar_centros_mapa(df: pd.DataFrame) -> folium.Map:
    """Representar los centros en un mapa y mostrar el tipo de centro como tooltip."""
    m = folium.Map(location=[38.3452, -0.481006], zoom_start=10)  # Ubicación en Alacant

    for _, row in df.iterrows():
        folium.Marker(
            [row['Latitud'], row['Longitud']],
            tooltip=row['Tipo']
        ).add_to(m)

    return m


mapa_centros = representar_centros_mapa(df_centros)
mapa_centros

Pregunta 6:




In [120]:
def representar_centros_con_color(df: pd.DataFrame) -> folium.Map:
    """Representar los centros en un mapa modificando el color según el tipo."""
    m = folium.Map(location=[38.3452, -0.481006], zoom_start=10)

    colores = {
        'Centro de salud': 'red',
        'Consultorio local': 'blue',
        'Hospital general': 'green'
    }

    for _, row in df.iterrows():
        color = colores.get(row['Tipo'])#, 'yellow')  
        folium.Marker(
            [row['Latitud'], row['Longitud']],
            icon=folium.Icon(color=color),
            tooltip=row['Tipo']
        ).add_to(m)

    return m


mapa_centros_colores = representar_centros_con_color(df_centros)
mapa_centros_colores

Pregunta 7:




In [122]:
def contar_camas_uci(df: pd.DataFrame) -> None:
    """Contar el número total de camas y UCIs en Alacant."""
    df['Camas'] = pd.to_numeric(df['Camas'], errors='coerce').fillna(0)
    df['UCIs'] = pd.to_numeric(df['UCIs'], errors='coerce').fillna(0)

    print(f"Total camas en Alacant: {df['Camas'].sum()}")
    print(f"Total UCIs en Alacant: {df['UCIs'].sum()}")

contar_camas_uci(df_centros)

Total camas en Alacant: 5993.0
Total UCIs en Alacant: 21




---


