In [205]:
#IMPORTS
import json
import geopandas as gpd
import numpy as numpy
import pandas as pd


# Setting up barrios_gdf for cleaning

In this section, we read barrios_carcteristicas.geojson from datos/datos_out and we transform it into a dataframe using geopandas library

In [206]:
#SETTING UP barrios_caracteristicas as GDF

# SETTING UP BARRIOS DF
path = 'datos/datos_out/barrios_caracteristicas_final.geojson'


#CARGAMOS LOS DATOS DE LOS BARRIOS
with open(path) as json_file:
    json_data = json.load(json_file)

barrios_json = []
for i in range(len(json_data['features'])):
    barrios_json.append(json_data['features'][i])           #Guardamos resto de campos de geojson


barrios_gdf = gpd.GeoDataFrame.from_features(barrios_json)
barrios_gdf.crs = 'epsg:4326' #Aseguramos que la proyección es la adecuada para coordenadas GPS

In [207]:
# TRANSFORMING MY DF FROM GEOPANDAS TO PANDAS

barrios_df = pd.DataFrame(barrios_gdf)

barrios_df


Unnamed: 0,geometry,coddistrit,gis_gis_barrios_area,object_id_barrio,linkid,codbarrio,coddistbar,geo_point_2d,nombre_barrio,last_edited_user,...,num_colegios,id_caract_num_colegios,num_chargestations,id_caract_num_chargestations,pm25,id_caract_pm25,num_contenedores,id_caract_num_contenedores,num_transporte,id_caract_num_transporte
0,"POLYGON ((-0.33459 39.45478, -0.33326 39.45487...",11,917112.56250,62,0,5,115,"[39.44628964870906, -0.3326600366971329]",NATZARET,,...,6.0,2,,8,10.0,5,184.0,7,11.0,1
1,"POLYGON ((-0.38124 39.45463, -0.38281 39.44951...",9,374887.53125,63,0,3,093,"[39.45082750748332, -0.3853982961775011]",LA CREU COBERTA,,...,1.0,2,2.0,8,21.0,5,162.0,7,8.0,1
2,"POLYGON ((-0.34709 39.47548, -0.34144 39.47379...",13,,76,0,2,132,"[39.47198431553791, -0.3450427029615464]",CIUTAT JARDI,,...,5.0,2,,8,12.0,5,238.0,7,10.0,1
3,"POLYGON ((-0.28767 39.55682, -0.28829 39.55654...",17,,601,18,5,175,"[39.55880504953868, -0.3031699565111558]",RAFALELL-VISTABELLA,,...,,2,,8,12.0,5,,7,,1
4,"POLYGON ((-0.33151 39.48561, -0.33254 39.48046...",13,,137,0,5,135,"[39.48035805242704, -0.3410905938386986]",LA CARRASCA,,...,10.0,2,,8,12.0,5,237.0,7,21.0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
83,"POLYGON ((-0.39047 39.47825, -0.38996 39.47754...",3,496668.75000,28,0,3,033,"[39.473565513491664, -0.39098170775459257]",LA PETXINA,,...,11.0,2,,8,12.0,5,279.0,7,14.0,1
84,"POLYGON ((-0.37567 39.47381, -0.37423 39.47351...",1,438658.31250,37,0,6,016,"[39.47010643870186, -0.3760489821791233]",SANT FRANCESC,,...,2.0,2,2.0,8,12.0,5,580.0,7,27.0,1
85,"POLYGON ((-0.35018 39.42223, -0.35011 39.42227...",19,,249,0,3,193,"[39.406290326215334, -0.33967854582733203]",PINEDO,,...,2.0,2,,8,10.0,5,185.0,7,14.0,1
86,"POLYGON ((-0.36720 39.50425, -0.36767 39.50338...",15,,201,0,1,151,"[39.494312122911424, -0.3699310988383476]",ELS ORRIOLS,,...,9.0,2,,8,,5,214.0,7,21.0,1


In [208]:
#Checking columns of barrios_df
barrios_df.columns

Index(['geometry', 'coddistrit', 'gis_gis_barrios_area', 'object_id_barrio',
       'linkid', 'codbarrio', 'coddistbar', 'geo_point_2d', 'nombre_barrio',
       'last_edited_user', 'last_edited_date', '%_zona_verde',
       'id_caract_%_zona_verde', 'nivel_acustico', 'id_caract_nivel_acustico',
       'num_hospitales', 'id_caract_num_hospitales', 'num_colegios',
       'id_caract_num_colegios', 'num_chargestations',
       'id_caract_num_chargestations', 'pm25', 'id_caract_pm25',
       'num_contenedores', 'id_caract_num_contenedores', 'num_transporte',
       'id_caract_num_transporte'],
      dtype='object')

In [209]:
# Eliminamos columnas que no necesitamos. Como identificativo unívoco para cada barrio nos quedaremos con el object_id_barrio. 
# Por tanto eliminaremos las siguientes columnas que no nos aportan informacion relevante (coddistrit, linkid, codbarrio, coddistbar, last_edited_user, last_edited_date)
# El area la eliminamos porque la calculamos con python

barrios_df = barrios_df.drop(['coddistrit', 'linkid', 'codbarrio', 'coddistbar', 'last_edited_user', 'last_edited_date', 'gis_gis_barrios_area'], axis = 1)

# Comprobamos ue se han eliminado correctamente las columnas:

barrios_df.columns


Index(['geometry', 'object_id_barrio', 'geo_point_2d', 'nombre_barrio',
       '%_zona_verde', 'id_caract_%_zona_verde', 'nivel_acustico',
       'id_caract_nivel_acustico', 'num_hospitales',
       'id_caract_num_hospitales', 'num_colegios', 'id_caract_num_colegios',
       'num_chargestations', 'id_caract_num_chargestations', 'pm25',
       'id_caract_pm25', 'num_contenedores', 'id_caract_num_contenedores',
       'num_transporte', 'id_caract_num_transporte'],
      dtype='object')

In [210]:
# Eliminamos las filas de los barrios que no pertenecen al nucleo urbano de Valencia, ya que los datasets escogidos son inconsistentes y concentran más los datos en el nucleo urbano
# Se eliminan barrios(EL PALMAR, EL PERELLONET, EL SALER, PINEDO, LES CASES DE BARCENA, MASSAROJOS, MAHUELLA-TAULADELLA, RAFALELL-VISTABELLA)

blacklist = ['EL PALMAR', 'EL PERELLONET', 'EL SALER', 'PINEDO', 'LES CASES DE BARCENA', 'MASSARROJOS', 'MAHUELLA-TAULADELLA', 'RAFALELL-VISTABELLA']

for i in blacklist:
    barrios_df = barrios_df.drop(barrios_df.loc[barrios_df['nombre_barrio'] == i].index)


barrios_df

Unnamed: 0,geometry,object_id_barrio,geo_point_2d,nombre_barrio,%_zona_verde,id_caract_%_zona_verde,nivel_acustico,id_caract_nivel_acustico,num_hospitales,id_caract_num_hospitales,num_colegios,id_caract_num_colegios,num_chargestations,id_caract_num_chargestations,pm25,id_caract_pm25,num_contenedores,id_caract_num_contenedores,num_transporte,id_caract_num_transporte
0,"POLYGON ((-0.33459 39.45478, -0.33326 39.45487...",62,"[39.44628964870906, -0.3326600366971329]",NATZARET,0.118869,3,3.0,6,1.0,4,6.0,2,,8,10.0,5,184.0,7,11.0,1
1,"POLYGON ((-0.38124 39.45463, -0.38281 39.44951...",63,"[39.45082750748332, -0.3853982961775011]",LA CREU COBERTA,0.037566,3,3.5,6,,4,1.0,2,2.0,8,21.0,5,162.0,7,8.0,1
2,"POLYGON ((-0.34709 39.47548, -0.34144 39.47379...",76,"[39.47198431553791, -0.3450427029615464]",CIUTAT JARDI,0.205871,3,3.5,6,,4,5.0,2,,8,12.0,5,238.0,7,10.0,1
4,"POLYGON ((-0.33151 39.48561, -0.33254 39.48046...",137,"[39.48035805242704, -0.3410905938386986]",LA CARRASCA,0.187377,3,3.5,6,,4,10.0,2,,8,12.0,5,237.0,7,21.0,1
7,"POLYGON ((-0.35762 39.49410, -0.35762 39.49409...",202,"[39.49635509681184, -0.36282126402044845]",SANT LLORENS,0.076189,3,3.0,6,,4,8.0,2,,8,,5,270.0,7,11.0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
82,"POLYGON ((-0.38139 39.49868, -0.38120 39.49693...",9,"[39.493005640921645, -0.3910022045676008]",BENICALAP,0.154520,3,3.0,6,3.0,4,18.0,2,,8,26.0,5,831.0,7,43.0,1
83,"POLYGON ((-0.39047 39.47825, -0.38996 39.47754...",28,"[39.473565513491664, -0.39098170775459257]",LA PETXINA,0.087284,3,4.0,6,1.0,4,11.0,2,,8,12.0,5,279.0,7,14.0,1
84,"POLYGON ((-0.37567 39.47381, -0.37423 39.47351...",37,"[39.47010643870186, -0.3760489821791233]",SANT FRANCESC,0.134529,3,4.0,6,,4,2.0,2,2.0,8,12.0,5,580.0,7,27.0,1
86,"POLYGON ((-0.36720 39.50425, -0.36767 39.50338...",201,"[39.494312122911424, -0.3699310988383476]",ELS ORRIOLS,0.153242,3,3.0,6,1.0,4,9.0,2,,8,,5,214.0,7,21.0,1


In [211]:
# Checking index: obtenemos el indice que corresponde a cada fila de nuestro DF
barrios_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 80 entries, 0 to 87
Data columns (total 20 columns):
 #   Column                        Non-Null Count  Dtype   
---  ------                        --------------  -----   
 0   geometry                      80 non-null     geometry
 1   object_id_barrio              80 non-null     int64   
 2   geo_point_2d                  80 non-null     object  
 3   nombre_barrio                 80 non-null     object  
 4   %_zona_verde                  76 non-null     float64 
 5   id_caract_%_zona_verde        80 non-null     int64   
 6   nivel_acustico                80 non-null     float64 
 7   id_caract_nivel_acustico      80 non-null     int64   
 8   num_hospitales                44 non-null     float64 
 9   id_caract_num_hospitales      80 non-null     int64   
 10  num_colegios                  76 non-null     float64 
 11  id_caract_num_colegios        80 non-null     int64   
 12  num_chargestations            15 non-null     float6

In [212]:
# Para cada caracteristica rellenamos los valores faltantes (NaN) con 0s en caso de que el valor sea cuantitativo. (%_zona_verde, num_hospitales, num_colegios, num_chargestations, num_contenedores)
myList = ['%_zona_verde', 'num_hospitales', 'num_colegios', 'num_chargestations', 'num_contenedores', 'num_transporte']

for i in myList:
    barrios_df[i] = barrios_df[i].fillna(0)

barrios_df.loc[barrios_df['num_colegios'] == 0] # Comprobamos la columna colegios para ver que se ha rellenado correctamente

barrios_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 80 entries, 0 to 87
Data columns (total 20 columns):
 #   Column                        Non-Null Count  Dtype   
---  ------                        --------------  -----   
 0   geometry                      80 non-null     geometry
 1   object_id_barrio              80 non-null     int64   
 2   geo_point_2d                  80 non-null     object  
 3   nombre_barrio                 80 non-null     object  
 4   %_zona_verde                  80 non-null     float64 
 5   id_caract_%_zona_verde        80 non-null     int64   
 6   nivel_acustico                80 non-null     float64 
 7   id_caract_nivel_acustico      80 non-null     int64   
 8   num_hospitales                80 non-null     float64 
 9   id_caract_num_hospitales      80 non-null     int64   
 10  num_colegios                  80 non-null     float64 
 11  id_caract_num_colegios        80 non-null     int64   
 12  num_chargestations            80 non-null     float6

In [213]:
# CHANGING DATA TYPES
# Los hospitales, colegios, contenedores, estaciones de transporte son valores discretos que en nuestro df vienen como float64. Los cambiamos a int64

myList = ['num_hospitales', 'num_colegios', 'num_contenedores', 'num_transporte']

for i in myList:
    barrios_df[i] = barrios_df[i].astype('int64')

# Las estaciones de carga (num_chargestations) están presentes en muy pocos barrios. Por tanto nos interesa ver en qué barrios están presentes estas. Para ello haremos que la columna num_chargestations sea bool. De forma que
# indique True, cuando un barrio tiene estaciones de carga y False cuando no. Le cambiamos el nobre a la columna num_chargestations por chargestations para no indicar el nombre de la columna que es un número

barrios_df['num_chargestations'] = barrios_df['num_chargestations'].astype('bool')
barrios_df = barrios_df.rename(columns = {'num_chargestations' : 'chargestations'})

barrios_df.info()



<class 'pandas.core.frame.DataFrame'>
Int64Index: 80 entries, 0 to 87
Data columns (total 20 columns):
 #   Column                        Non-Null Count  Dtype   
---  ------                        --------------  -----   
 0   geometry                      80 non-null     geometry
 1   object_id_barrio              80 non-null     int64   
 2   geo_point_2d                  80 non-null     object  
 3   nombre_barrio                 80 non-null     object  
 4   %_zona_verde                  80 non-null     float64 
 5   id_caract_%_zona_verde        80 non-null     int64   
 6   nivel_acustico                80 non-null     float64 
 7   id_caract_nivel_acustico      80 non-null     int64   
 8   num_hospitales                80 non-null     int64   
 9   id_caract_num_hospitales      80 non-null     int64   
 10  num_colegios                  80 non-null     int64   
 11  id_caract_num_colegios        80 non-null     int64   
 12  chargestations                80 non-null     bool  

In [214]:
# Comprobamos los valores de la columna num_chargestations:
barrios_df['chargestations']

# Efectivamente, si en un barrio hay estaciones de carga se almacena el valor como true. Si no es False

0     False
1      True
2     False
4     False
7     False
      ...  
82    False
83    False
84     True
86    False
87    False
Name: chargestations, Length: 80, dtype: bool

In [221]:
# Finalmente nos queda lidiar con los nulos para el indice de pm25 (contaminación). Vamos a ver los barrios que tienen como null este valor:

barrios_df.loc[barrios_df['pm25'].isna()]



Unnamed: 0,geometry,object_id_barrio,geo_point_2d,nombre_barrio,%_zona_verde,id_caract_%_zona_verde,nivel_acustico,id_caract_nivel_acustico,num_hospitales,id_caract_num_hospitales,num_colegios,id_caract_num_colegios,chargestations,id_caract_num_chargestations,pm25,id_caract_pm25,num_contenedores,id_caract_num_contenedores,num_transporte,id_caract_num_transporte


In [216]:
# Aqui se muestra cómo se reparten los valores para el indice de pm25. Vemos que el más repetido es 12

barrios_df['pm25'].value_counts()

12.0    15
21.0    10
10.0     9
26.0     8
17.0     5
7.0      4
14.0     2
Name: pm25, dtype: int64

In [217]:
# Para rellenar los valores null de pm25 podemos calcular el indice de pm25 medio del resto de barrios y asignarselo a los barrios que no tienen este valor definido:

########################################
###########    AQUIIIII      ###########

# Agrupar por zonas en los que falte pm25 y asignar pm25 de barrios colindantes

# Estos son  los barrios donde falta el pm25 agrupados por su localización
NORTE = ['SANT LLORENS', 'CARPESA', 'BENIFARAIG', 'TORREFIEL', 'TORMOS', 'POBLE NOU', 'SANT ANTONI', 'BENIMACLET', 'MARXALENES', 'ELS ORRIOLS']
CENTRO = ['EL CARME', 'EXPOSICIO', 'MESTALLA', 'LA SEU', 'JAUME ROIG', 'TRINITAT', 'LES TENDETES', 'MORVEDRE', 'CIUTAT UNIVERSITARIA']
SUR = ["SANT MARCEL.LI", "LA TORRE", "FAITANAR", "EL FORN D'ALCEDO", "FAVARA", "L'HORT DE SENABRE", "CAMI REAL"]
ESTE = ['LA MALVA-ROSA']

# Para rellenar estos valores asignaremos un indice de pm25 conocido de un barrio que pertenezca a una zona determinada. Por ejemplo, para los barrios del norte cogemos el pm25 de un barrio del norte y lo ponemos para le resto de barrios de la lista que no tienen pm25

# Almacenamos los valores de pm25 para los barrios de cada zona
pm25_norte = int(barrios_df.loc[barrios_df['nombre_barrio'] == 'BENIMAMET']['pm25'])
pm25_centro = int(barrios_df.loc[barrios_df['nombre_barrio'] == 'EL PLA DEL REMEI']['pm25'])
pm25_sur = int(barrios_df.loc[barrios_df['nombre_barrio'] == 'MALILLA']['pm25'])
pm25_este = int(barrios_df.loc[barrios_df['nombre_barrio'] == 'CABANYAL-CANYAMELAR']['pm25'])
 
# for i in NORTE:
#     barrios_df.loc[barrios_df['nombre_barrio'] == i] = barrios_gdf.fillna(26)  # Rellenamos el indice de pm25 de los barrios del norte con el pm25 de 



# barrios_df['pm25'] = barrios_df['pm25'].fillna(barrios_df['pm25'].mean())

# barrios_df
    
# for i in blacklist:
#     barrios_df = barrios_df.drop(barrios_df.loc[barrios_df['nombre_barrio'] == i].index)
    


In [223]:
# Rellenamos el indice de pm25 de los barrios del norte con el pm25 de los barrios elegidos en la celda anterior
for i in barrios_df['nombre_barrio']:
    if i in NORTE:
        barrios_df.loc[barrios_df['nombre_barrio'] == i] = barrios_df.fillna(pm25_norte)
    elif i in CENTRO:
        barrios_df.loc[barrios_df['nombre_barrio'] == i] = barrios_df.fillna(pm25_centro)
    elif i in SUR:
        barrios_df.loc[barrios_df['nombre_barrio'] == i] = barrios_df.fillna(pm25_sur)
    elif i in ESTE:
        barrios_df.loc[barrios_df['nombre_barrio'] == i] = barrios_df.fillna(pm25_este)


barrios_df[['nombre_barrio', 'pm25']]


Unnamed: 0,nombre_barrio,pm25
0,NATZARET,10.0
1,LA CREU COBERTA,21.0
2,CIUTAT JARDI,12.0
4,LA CARRASCA,12.0
7,SANT LLORENS,26.0
...,...,...
82,BENICALAP,26.0
83,LA PETXINA,12.0
84,SANT FRANCESC,12.0
86,ELS ORRIOLS,26.0


In [222]:
barrios_df.isnull().sum()

geometry                        0
object_id_barrio                0
geo_point_2d                    0
nombre_barrio                   0
%_zona_verde                    0
id_caract_%_zona_verde          0
nivel_acustico                  0
id_caract_nivel_acustico        0
num_hospitales                  0
id_caract_num_hospitales        0
num_colegios                    0
id_caract_num_colegios          0
chargestations                  0
id_caract_num_chargestations    0
pm25                            0
id_caract_pm25                  0
num_contenedores                0
id_caract_num_contenedores      0
num_transporte                  0
id_caract_num_transporte        0
dtype: int64