## Generación dataset final:

### Importación de librerías:

In [2]:
import pandas as pd
import glob
from functools import reduce

### Generación fichero con las características de los Barrios de Barcelona:

In [64]:
# Ruta de los archivos CSV:
ruta_archivos = '../03-Ficheros Procesados/*.csv'

# Lista de todos los archivos CSV en la carpeta:
archivos_csv = glob.glob(ruta_archivos)

# Inicialización de una lista vacía:
dataframes = []

# Iteración sobre la lista de archivos CSV:
for i, archivo in enumerate(archivos_csv):
    if i == 0:
        # Lectura el primer archivo CSV, incluyendo el encabezado:
        df = pd.read_csv(archivo)
    else:
        # Lectura del resto de archivos quitando el encabezado:
        df = pd.read_csv(archivo, header=0)
    
    # Inclusión a la lista:
    dataframes.append(df)

# Concatenación de todos los DataFrames:
df_concatenado = pd.concat(dataframes, ignore_index=True)

# Unión por año, distrito y barrio:
keys = df_concatenado[['Anno', 'Cod_Barrio', 'Cod_Distrito']].drop_duplicates()
resultado = pd.merge(keys, df_concatenado, on=['Anno', 'Cod_Barrio', 'Cod_Distrito'], how='left')

# Reemplazar los valores nulos por cero:
resultado = resultado.fillna(0)

# Unificación de los nombres de los barrios:
barrios_unificados = {
    1: "el Raval",
    2: "el Barri Gòtic",
    3: "la Barceloneta",
        4: "Sant Pere, Santa Caterina i la Ribera",
    5: "el Fort Pienc",
    6: "la Sagrada Família",
    7: "la Dreta de l'Eixample",
    8: "l'Antiga Esquerra de l'Eixample",
    9: "la Nova Esquerra de l'Eixample",
    10: "Sant Antoni",
    11: "el Poble-sec",
    12: "la Marina del Prat Vermell",
    13: "la Marina de Port",
    14: "la Font de la Guatlla",
    15: "Hostafrancs",
    16: "la Bordeta",
    17: "Sants - Badal",
    18: "Sants",
    19: "les Corts",
    20: "la Maternitat i Sant Ramon",
    21: "Pedralbes",
    22: "Vallvidrera, el Tibidabo i les Planes",
    23: "Sarrià",
    24: "les Tres Torres",
    25: "Sant Gervasi - la Bonanova",
    26: "Sant Gervasi - Galvany",
    27: "el Putxet i el Farró",
    28: "Vallcarca i els Penitents",
    29: "el Coll",
    30: "la Salut",
    31: "la Vila de Gràcia",
    32: "el Camp d'en Grassot i Gràcia Nova",
    33: "el Baix Guinardó",
    34: "Can Baró",
    35: "el Guinardó",
    36: "la Font d'en Fargues",
    37: "el Carmel",
    38: "la Teixonera",
    39: "Sant Genís dels Agudells",
    40: "Montbau",
    41: "la Vall d'Hebron",
    42: "la Clota",
    43: "Horta",
    44: "Vilapicina i la Torre Llobeta",
    45: "Porta",
    46: "el Turó de la Peira",
    47: "Can Peguera",
    48: "la Guineueta",
    49: "Canyelles",
    50: "les Roquetes",
    51: "Verdun",
    52: "la Prosperitat",
    53: "la Trinitat Nova",
    54: "Torre Baró",
    55: "Ciutat Meridiana",
    56: "Vallbona",
    57: "la Trinitat Vella",
    58: "Baró de Viver",
    59: "el Bon Pastor",
    60: "Sant Andreu",
    61: "la Sagrera",
    62: "el Congrés i els Indians",
    63: "Navas",
    64: "el Camp de l'Arpa del Clot",
    65: "el Clot",
    66: "el Parc i la Llacuna del Poblenou",
    67: "la Vila Olímpica del Poblenou",
    68: "el Poblenou",
    69: "Diagonal Mar i el Front Marítim del Poblenou",
    70: "el Besòs i el Maresme",
    71: "Provençals del Poblenou",
    72: "Sant Martí de Provençals",
    73: "la Verneda i la Pau"
} 
# Unificación de los nombres de los distritos:

distritos_unificados = {
    1: "Ciutat Vella",
    2: "L'Eixample",
    3: "Sants-Montjuïc",
    4:"Les Corts",
    5:"Sarrià-Sant Gervasi",
    6:"Gràcia",
    7:"Horta-Guinardó",
    8:"Nou Barris",
    9:"Sant Andreu",
    10:"Sant Martí"
}
# Se convierte a entero el código del barrio y se mapea con el diccionario de barrios:
resultado['Cod_Barrio'] = resultado['Cod_Barrio'].astype(int)
resultado['Nom_Barrio'] = resultado['Cod_Barrio'].map(barrios_unificados)

# Se eliminan los posibles registros con el código de barrio mal informado:
resultado = resultado[resultado['Cod_Barrio']>0]

# Se convierte a entero el código del distrito y se mapea con el diccionario de distritos:
resultado['Cod_Distrito'] = resultado['Cod_Distrito'].astype(int)
resultado['Nom_Distrito'] = resultado['Cod_Distrito'].map(distritos_unificados)

# Se eliminan los posibles registros con el código de distrito mal informado:
resultado = resultado[resultado['Cod_Distrito']>0]

# Generación de dataset final:
resultado.to_csv('../04-Dataset Finales/dataset_BCN.csv', encoding='UTF-8', index=False, sep=';', decimal=',')


### Generación fichero con los equipamientos de los Barrios de Barcelona:

In [55]:
# Lectura de los CSV que contienen los equipamentos procesados, incluyendo el encabezado:

asociaciones = pd.read_csv('../03-Listados Procesados/listado_asociaciones_procesado.csv', sep=';')
atencion_primaria =  pd.read_csv('../03-Listados Procesados/listado_atencion_primaria_procesado.csv', sep=';')
centros_comerciales =  pd.read_csv('../03-Listados Procesados/listado_centros_comerciales_procesado.csv', sep=';')
educacion =  pd.read_csv('../03-Listados Procesados/listado_educacion_procesado.csv', sep=';')
mercados =  pd.read_csv('../03-Listados Procesados/listado_mercados_procesado.csv', sep=';')
sanidad =  pd.read_csv('../03-Listados Procesados/listado_sanidad_procesado.csv', sep=';')


In [56]:
# Cuenta del número de asociaciones distintas en cada barrio:
n_asociaciones = asociaciones.groupby(['cod_barrio','cod_distrito','nom_barrio','nom_distrito'])['Asociacion'].nunique().reset_index()

# Adaptación de las columnas:
n_asociaciones.columns = ['cod_barrio','cod_distrito','nom_barrio','nom_distrito', 'N_asociaciones']
n_asociaciones['cod_barrio'] = n_asociaciones['cod_barrio'].str.replace(',', '.').astype(float).astype(int)
n_asociaciones['cod_distrito'] = n_asociaciones['cod_distrito'].str.replace(',', '.').astype(float).astype(int)


In [57]:
# Cuenta del número de atención primaria distintas en cada barrio:
n_aten_prim = atencion_primaria.groupby(['cod_barrio','cod_distrito','nom_barrio','nom_distrito'])['Centro_sanitario'].nunique().reset_index()

# Adaptación de las columnas:
n_aten_prim.columns = ['cod_barrio','cod_distrito','nom_barrio','nom_distrito', 'N_establecimientos_aten_primaria']


In [58]:
# Cuenta del número de centros comerciales distintos en cada barrio:
n_cc = centros_comerciales.groupby(['cod_barrio','cod_distrito','nom_barrio','nom_distrito'])['Centro_comercial'].nunique().reset_index()

# Adaptación de las columnas:
n_cc.columns = ['cod_barrio','cod_distrito','nom_barrio','nom_distrito', 'N_centros_comerciales']

In [59]:
# Cuenta del número de asociaciones distintas en cada barrio:
n_c_educativos = educacion.groupby(['cod_barrio','cod_distrito','nom_barrio','nom_distrito'])['Centro_educativo'].nunique().reset_index()

# Adaptación de las columnas:
n_c_educativos.columns = ['cod_barrio','cod_distrito','nom_barrio','nom_distrito', 'N_centros_educativos']
n_c_educativos['cod_barrio'] = n_c_educativos['cod_barrio'].str.replace(',', '.').astype(float).astype(int)
n_c_educativos['cod_distrito'] = n_c_educativos['cod_distrito'].str.replace(',', '.').astype(float).astype(int)

In [60]:
# Cuenta del número de asociaciones distintas en cada barrio:
n_mercados = mercados.groupby(['cod_barrio','cod_distrito','nom_barrio','nom_distrito'])['Mercado'].nunique().reset_index()

# Adaptación de las columnas:
n_mercados.columns = ['cod_barrio','cod_distrito','nom_barrio','nom_distrito', 'N_mercados']

In [61]:
# Cuenta del número de asociaciones distintas en cada barrio:
n_sanidad = sanidad.groupby(['cod_barrio','cod_distrito','nom_barrio','nom_distrito'])['Centro_sanitario'].nunique().reset_index()

# Adaptación de las columnas:
n_sanidad.columns = ['cod_barrio','cod_distrito','nom_barrio','nom_distrito', 'N_puntos_sanitarios']

In [62]:
dataframes=[n_asociaciones, n_aten_prim, n_c_educativos, n_cc, n_mercados,n_sanidad]

# Concatenación de todos los DataFrames:
df_concatenado = pd.concat(dataframes, ignore_index=True)

# Unión por distrito y barrio:
keys = df_concatenado[['cod_barrio', 'cod_distrito', 'nom_barrio', 'nom_distrito']].drop_duplicates()
resultado = pd.merge(keys, df_concatenado, on=['cod_barrio', 'cod_distrito','nom_barrio', 'nom_distrito'], how='left')

# Reemplazar los valores nulos por cero y agrupar en una única línea todos los KPIs por barrio:
resultado = resultado.fillna(0)
resultado = resultado.groupby(['cod_barrio', 'cod_distrito', 'nom_barrio', 'nom_distrito']).sum().reset_index()
resultado.to_csv('../04-Dataset Finales/dataset_equipamentos_BCN.csv', encoding='UTF-8', index=False, sep=';', decimal=',')
