In [74]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [75]:
df = pd.read_csv('files/datos_agregados_ciudades.csv', sep=';')

Los campos que contiene este dataset son:

- Nombre del municipio (municipios españoles de más de 75.000 habitantes)
- Provincia
- Comunidad Autónoma
- Población (fuente de datos: INE, 2022)
- Kilómetros de carril bici en el municipio por cada 100.000 habitantes (fuentes de datos: El País, La Sexta, ayuntamientos)
- Precios de viviendas en alquiler por metro cuadrado (fuente: Idealista, marzo 2023)
- Distancia a Madrid en km (fuente: Google Maps)
- Tiempo medio de viaje en coche a Madrid (fuente: Google Maps)
- Tiempo medio de viaje en tren o autobús a Madrid (fuente: Google Maps)
- Distancia a Barcelona en km (fuente: Google Maps)
- Tiempo medio de viaje en coche a Barcelona (fuente: Google Maps)
- Tiempo medio de viaje en tren o autobús a Barcelona (fuente: Google Maps)
- Aeropuerto internacional más cercano (fuentes: AENA, Google Maps)
- Número de conexiones del aeropuerto internacional más cercano (fuente: AENA)
- Distancia en km al aeropuerto internacional más cercano (fuente: Google Maps)
- Temperatura máxima media en ºC (fuente: Weatherspark)
- Temperatura mínima media en ºC (fuente: Weatherspark)
- Número de visitantes internacionales (turistas) al año (pendiente de completar)
- Precio medio de venta de viviendas por metro cuadrado (fuente: Idealista, marzo 2023)
- Patrimonio de la Humanidad: Si dispone o no de uno o varios Patrimonios (fuente: Wikipedia)
- Porcentaje de Días con calidad de aire “Buena” (fuente: Ministerio para la Transición Ecológica y Reto Demográfico)
- Porcentaje de Días con calidad de aire “Razonablemente Buena” (fuente: Ministerio para la Transición Ecológica y Reto Demográfico)
- Porcentaje de Días con calidad de aire “Regular” (fuente: Ministerio para la Transición Ecológica y Reto Demográfico)
- Porcentaje de Días con calidad de aire “Desfavorable” (fuente: Ministerio para la Transición Ecológica y Reto Demográfico)
- Porcentaje de Días con calidad de aire “Muy Desfavorable” (fuente: Ministerio para la Transición Ecológica y Reto Demográfico)
- Porcentaje de Días con calidad de aire “Extremadamente Desfavorable” (fuente: Ministerio para la Transición Ecológica y Reto Demográfico)
- Ponderación calidad del aire: Cálculo propio a partir de los 6 valores anteriores
- Horas de sol medias anuales (fuente: AEMET)

In [76]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 29 columns):
 #   Column                                                         Non-Null Count  Dtype  
---  ------                                                         --------------  -----  
 0   Municipio                                                      101 non-null    object 
 1   Provincia                                                      101 non-null    object 
 2   Comunidad Autónoma                                             101 non-null    object 
 3   Habitantes (2022)                                              101 non-null    float64
 4   Carril Bici                                                    101 non-null    object 
 5   Precios alquiler                                               101 non-null    object 
 6   Distancia a Madrid (km)                                        101 non-null    float64
 7   Tiempo medio 
de viaje a Madrid 
en coche                     

Obj -> Float -- Carril Bici, Precios alquiler, Distancia al aeropuerto internacional más cercano (km), Precio medio vivienda (EUR/m2), % días calidad del aire Buena, % días calidad del aire Razonablemente Buena, % días calidad del aire Regular, % días calidad del aire Desfavorable, % días calidad del aire Muy Desfavorable, % días calidad del aire Extremadamente Desfavorable, Ponderación calidad del aire y Horas de Sol medias anuales

Tiempo -- Tiempo medio de viaje a Madrid en coche, Tiempo medio de viaje a Madrid en tren o autobús, Tiempo medio de viaje a Barcelona en coche y Tiempo medio de viaje a Barcelona en tren o autobús

In [77]:
df.drop_duplicates(keep=False, inplace=True)

In [78]:
# Datos de visitantes internacionales (anuales) proporcionados por ChatGPT
datos_visitantes = {
    "Madrid": 9900000,
    "Barcelona": 8200000,
    "Sevilla": 3000000,
    "Palma": 2400000,
    "València": 2060000,
    "Málaga": 1500000,
    "Bilbao": 1100000,
    "Córdoba": 929781,
    "Santiago de Compostela": 926153,
    "Alicante": 841152,
    "Marbella": 742172,
    "Salamanca": 701422,
    "Toledo": 593970,
    "Chiclana de la Frontera": 479477
}


In [79]:
df["Número de visitantes internacionales al año"] = df["Municipio"].map(datos_visitantes)


In [80]:
df["Número de visitantes internacionales al año"].isna().sum()

87

In [81]:
df_visitantes_null = df[df["Número de visitantes internacionales al año"].isna()]

df_visitantes_null['Municipio'].tolist()

['A Coruña',
 'Albacete',
 'Alcalá de Guadaíra',
 'Alcalá de Henares',
 'Alcobendas',
 'Alcorcón',
 'Algeciras',
 'Almería',
 'Arona',
 'Avilés',
 'Badajoz',
 'Badalona',
 'Barakaldo',
 'Burgos',
 'Cáceres',
 'Cádiz',
 'Cartagena',
 'Castelló de la Plana',
 'Ceuta',
 'Cornellà de Llobregat',
 'Coslada',
 'Dos Hermanas',
 'El Ejido',
 'El Puerto de Santa María',
 'Elche',
 'Fuengirola',
 'Fuenlabrada',
 'Gandia',
 'Getafe',
 'Getxo',
 'Gijón',
 'Girona',
 'Granada',
 'Guadalajara',
 'Huelva',
 'Jaén',
 'Jerez de la Frontera',
 "L'Hospitalet de Llobregat",
 'Las Palmas de Gran Canaria',
 'Las Rozas de Madrid',
 'Leganés',
 'León',
 'Lleida',
 'Logroño',
 'Lorca',
 'Lugo',
 'Manresa',
 'Mataró',
 'Melilla',
 'Mijas',
 'Móstoles',
 'Murcia',
 'Orihuela',
 'Ourense',
 'Oviedo',
 'Palencia',
 'Pamplona',
 'Parla',
 'Pontevedra',
 'Pozuelo de Alarcón',
 'Reus',
 'Rivas-Vaciamadrid',
 'Roquetas de Mar',
 'Rubí',
 'Sabadell',
 'San Cristóbal de La Laguna',
 'San Fernando',
 'San Sebastián',
 'S

In [82]:
df.drop(columns='Unnamed: 28', inplace=True)

In [83]:
df['Patrimonio de la Humanidad'].fillna('No', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Patrimonio de la Humanidad'].fillna('No', inplace=True)


In [84]:
df.isna().sum()

Municipio                                                            0
Provincia                                                            0
Comunidad Autónoma                                                   0
Habitantes (2022)                                                    0
Carril Bici                                                          0
Precios alquiler                                                     0
Distancia a Madrid (km)                                              0
Tiempo medio \nde viaje a Madrid \nen coche                          0
Tiempo medio de viaje a Madrid en tren o autobús                     5
Distancia a Barcelona (km)                                           0
Tiempo medio \nde viaje a Barcelona \nen coche                       0
Tiempo medio de viaje a Barcelona en tren o autobús                  5
Aeropuerto Internacional más cercano                                 0
Número de\nconexiones del\naeropuerto internacional\nmás cercano     0
Distan

'Tiempo medio de viaje a Madrid en tren o autobús'
'Tiempo medio de viaje a Barcelona en tren o autobús'
'Precio medio vivienda (EUR/m2)'
'% días calidad del aire Desfavorable'
'Horas de Sol medias\nanuales'

In [85]:
df['Municipio'].unique()

array(['A Coruña', 'Albacete', 'Alcalá de Guadaíra', 'Alcalá de Henares',
       'Alcobendas', 'Alcorcón', 'Algeciras', 'Alicante', 'Almería',
       'Arona', 'Avilés', 'Badajoz', 'Badalona', 'Barakaldo', 'Barcelona',
       'Bilbao', 'Burgos', 'Cáceres', 'Cádiz', 'Cartagena',
       'Castelló de la Plana', 'Ceuta', 'Chiclana de la Frontera',
       'Córdoba', 'Cornellà de Llobregat', 'Coslada', 'Dos Hermanas',
       'El Ejido', 'El Puerto de Santa María', 'Elche', 'Fuengirola',
       'Fuenlabrada', 'Gandia', 'Getafe', 'Getxo', 'Gijón', 'Girona',
       'Granada', 'Guadalajara', 'Huelva', 'Jaén', 'Jerez de la Frontera',
       "L'Hospitalet de Llobregat", 'Las Palmas de Gran Canaria',
       'Las Rozas de Madrid', 'Leganés', 'León', 'Lleida', 'Logroño',
       'Lorca', 'Lugo', 'Madrid', 'Málaga', 'Manresa', 'Marbella',
       'Mataró', 'Melilla', 'Mijas', 'Móstoles', 'Murcia', 'Orihuela',
       'Ourense', 'Oviedo', 'Palencia', 'Palma', 'Pamplona', 'Parla',
       'Pontevedra', 'Pozu

In [86]:
def convert_num(col):
    col.str.replace('.', '')
    if col < 1000:
        return col*10

In [87]:
# Define a function to clean numeric columns (replace commas and handle non-numeric values)
def clean_numeric_column(column):
    return column.replace(",", ".").replace("N/D", "").strip()

# Columns to convert to float
float_columns = [
    'Carril Bici',
    'Precios alquiler',
    'Distancia al aeropuerto internacional más cercano (km)',
    'Precio medio vivienda (EUR/m2)',
    '% días calidad del aire Buena',
    '% días calidad del aire Razonablemente Buena',
    '% días calidad del aire Regular',
    '% días calidad del aire Desfavorable',
    '% días calidad del aire Muy Desfavorable',
    '% días calidad del aire Extremadamente Desfavorable',
    'Ponderación calidad del aire',
    'Horas de Sol medias\nanuales'
]

# Clean and convert the columns to float
for column in float_columns:
    if column in df.columns:
        df[column] = df[column].astype(str).apply(clean_numeric_column)
        df[column] = pd.to_numeric(df[column], errors='coerce')

# Convert time columns to a consistent numerical format (e.g., minutes)
def time_to_minutes(time_str):
    if isinstance(time_str, str):
        if ":" in time_str:
            # Format hh:mm
            h, m = map(int, time_str.split(":"))
            return h * 60 + m
        elif "h" in time_str and "min" in time_str:
            # Format xh ymin
            h, m = time_str.split("h")
            m = m.replace("min", "").strip()
            return int(h.strip()) * 60 + int(m.strip())
    return None

time_columns = [
    'Tiempo medio \nde viaje a Madrid \nen coche',
    'Tiempo medio de viaje a Madrid en tren o autobús',
    'Tiempo medio \nde viaje a Barcelona \nen coche',
    'Tiempo medio de viaje a Barcelona en tren o autobús'
]

# Clean and convert time columns to minutes
for column in time_columns:
    if column in df.columns:
        df[column] = df[column].apply(time_to_minutes)

# Display updated DataFrame information
df.info()


<class 'pandas.core.frame.DataFrame'>
Index: 101 entries, 0 to 100
Data columns (total 28 columns):
 #   Column                                                         Non-Null Count  Dtype  
---  ------                                                         --------------  -----  
 0   Municipio                                                      101 non-null    object 
 1   Provincia                                                      101 non-null    object 
 2   Comunidad Autónoma                                             101 non-null    object 
 3   Habitantes (2022)                                              101 non-null    float64
 4   Carril Bici                                                    77 non-null     float64
 5   Precios alquiler                                               100 non-null    float64
 6   Distancia a Madrid (km)                                        101 non-null    float64
 7   Tiempo medio 
de viaje a Madrid 
en coche                      101 

In [88]:
df.isna().sum()

Municipio                                                            0
Provincia                                                            0
Comunidad Autónoma                                                   0
Habitantes (2022)                                                    0
Carril Bici                                                         24
Precios alquiler                                                     1
Distancia a Madrid (km)                                              0
Tiempo medio \nde viaje a Madrid \nen coche                          0
Tiempo medio de viaje a Madrid en tren o autobús                    28
Distancia a Barcelona (km)                                           0
Tiempo medio \nde viaje a Barcelona \nen coche                      22
Tiempo medio de viaje a Barcelona en tren o autobús                 47
Aeropuerto Internacional más cercano                                 0
Número de\nconexiones del\naeropuerto internacional\nmás cercano     0
Distan

In [89]:
df['Precio medio vivienda (EUR/m2)'].unique()

array([2.3  , 1.417,   nan, 1.705, 1.302, 1.374, 4.063, 3.174, 1.642,
       1.22 , 2.548, 1.214, 2.204, 1.441, 2.226, 1.931, 1.521, 1.227,
       1.094, 2.119, 1.318, 1.122, 1.608, 1.23 , 3.935, 2.39 , 1.856,
       1.166, 1.458, 1.636, 1.278, 3.531, 2.539, 1.86 , 1.752, 5.191,
       1.716, 1.998, 2.151, 1.828, 1.422, 2.122, 1.578, 2.515, 1.714])

In [90]:
municipios_precio = {
    "Alcalá de Guadaíra": 1.277,
    "Alcalá de Henares": 1.654,
    "Alcobendas": 3.084,
    "Alcorcón": 1.761,
    "Algeciras": 1.168,
    "Arona": 1.771,
    "Avilés": 1.274,
    "Badalona": 2.247,
    "Barakaldo": 1.731,
    "Barcelona": 4.063,
    "Bilbao": 3.174,
    "Burgos": 1.642,
    "Cáceres": 1.220,
    "Cádiz": 2.548,
    "Cartagena": 1.472,
    "Castelló de la Plana": 1.214,
    "Chiclana de la Frontera": 1.380,
    "Córdoba": 1.441,
    "Cornellà de Llobregat": 1.629,
    "Coslada": 1.765,
    "Dos Hermanas": 1.462,
    "El Ejido": 1.212,
    "El Puerto de Santa María": 1.485,
    "Elche": 1.364,
    "Fuengirola": 2.285,
    "Fuenlabrada": 1.594,
    "Gandia": 1.505,
    "Getafe": 2.084,
    "Getxo": 4.205,
    "Gijón": 1.622,
    "Girona": 2.226,
    "Granada": 1.931,
    "Guadalajara": 1.521,
    "Huelva": 1.227,
    "Jaén": 1.094,
    "Jerez de la Frontera": 1.279,
    "L'Hospitalet de Llobregat": 2.620,
    "Las Palmas de Gran Canaria": 2.119,
    "Las Rozas de Madrid": 2.655,
    "Leganés": 2.004,
    "León": 1.318,
    "Lleida": 1.122,
    "Logroño": 1.608,
    "Lorca": 1.230,
    "Lugo": 1.230,
    "Madrid": 3.935,
    "Málaga": 2.390,
    "Manresa": 1.514,
    "Marbella": 3.645,
    "Mataró": 1.937,
    "Melilla": 1.856,
    "Mijas": 2.282,
    "Móstoles": 1.495,
    "Murcia": 1.166,
    "Orihuela": 1.615,
    "Ourense": 1.458,
    "Oviedo": 1.636,
    "Palencia": 1.278,
    "Palma": 3.531,
    "Pamplona": 2.539,
    "Parla": 1.536,
    "Pontevedra": 1.860,
    "Pozuelo de Alarcón": 3.420,
    "Reus": 1.676,
    "Rivas-Vaciamadrid": 2.361,
    "Roquetas de Mar": 1.497,
    "Rubí": 1.787,
    "Sabadell": 1.916,
    "Salamanca": 1.752,
    "San Cristóbal de La Laguna": 1.869,
    "San Fernando": 1.543,
    "San Sebastián": 5.191,
    "San Sebastián de los Reyes": 2.347,
    "Sant Boi de Llobregat": 1.787,
    "Sant Cugat del Vallès": 3.513,
    "Santa Coloma de Gramenet": 2.155,
    "Santa Cruz de Tenerife": 1.716,
    "Santander": 1.998,
    "Santiago de Compostela": 2.268,
    "Sevilla": 2.151,
    "Talavera de la Reina": 1.286,
    "Tarragona": 1.828,
    "Telde": 1.334,
    "Terrassa": 2.091,
    "Toledo": 1.422,
    "Torrejón de Ardoz": 2.165,
    "Torrente": 1.618,
    "Torrevieja": 1.763,
    "Valdemoro": 1.693,
    "València": 2.122,
    "Valladolid": 1.578,
    "Vélez-Málaga": 1.507,
    "Vigo": 1.814,
    "Vitoria-Gasteiz": 2.515,
    "Zaragoza": 1.714
}

In [91]:
df["Precio medio vivienda (EUR/m2)"] = df["Precio medio vivienda (EUR/m2)"].fillna(df["Municipio"].map(municipios_precio))

In [92]:
ceuta = {'Ceuta': 7.5} 

df["Precios alquiler"] = df["Precios alquiler"].fillna(df["Municipio"].map(ceuta))

In [93]:
df

Unnamed: 0,Municipio,Provincia,Comunidad Autónoma,Habitantes (2022),Carril Bici,Precios alquiler,Distancia a Madrid (km),Tiempo medio \nde viaje a Madrid \nen coche,Tiempo medio de viaje a Madrid en tren o autobús,Distancia a Barcelona (km),Tiempo medio \nde viaje a Barcelona \nen coche,Tiempo medio de viaje a Barcelona en tren o autobús,Aeropuerto Internacional más cercano,Número de\nconexiones del\naeropuerto internacional\nmás cercano,Distancia al aeropuerto internacional más cercano (km),Temperatura máxima media (ºC),Temperatura mínima media (ºC),Número de visitantes internacionales al año,Precio medio vivienda (EUR/m2),Patrimonio de la Humanidad,% días calidad del aire Buena,% días calidad del aire Razonablemente Buena,% días calidad del aire Regular,% días calidad del aire Desfavorable,% días calidad del aire Muy Desfavorable,% días calidad del aire Extremadamente Desfavorable,Ponderación calidad del aire,Horas de Sol medias\nanuales
0,A Coruña,A Coruña,Galicia,244700.0,20.4,9.1,593.0,337,272.0,1084.0,,,A Coruña,9.0,11.6,24.0,7.0,,2.300,Sí,20.0,73.0,4.0,3.0,0.0,0.0,410.0,2.453
1,Albacete,Albacete,Castilla-La Mancha,172357.0,24.4,7.1,260.0,154,97.0,545.0,322.0,325.0,Alacant-Elx \nMiguel Hernández,119.0,169.0,33.0,0.0,,1.417,No,3.0,72.0,16.0,9.0,0.0,0.0,369.0,3.282
2,Alcalá de Guadaíra,Sevilla,Andalucía,75917.0,,6.6,531.0,309,209.0,995.0,590.0,,Sevilla,70.0,21.1,35.0,5.0,,1.277,No,14.0,72.0,11.0,3.0,0.0,0.0,397.0,3.526
3,Alcalá de Henares,Madrid,Madrid,196888.0,28.0,9.9,40.0,39,,586.0,330.0,200.0,Adolfo Suárez \nMadrid-Barajas,174.0,21.0,33.0,1.0,,1.654,Sí,17.0,68.0,11.0,3.0,0.0,0.0,396.0,2.691
4,Alcobendas,Madrid,Madrid,117041.0,53.8,12.0,24.0,25,,613.0,347.0,229.0,Adolfo Suárez \nMadrid-Barajas,174.0,9.1,33.0,0.0,,3.084,No,22.0,67.0,8.0,3.0,0.0,0.0,408.0,2.691
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
96,Valladolid,Valladolid,Castilla y León,295639.0,36.2,7.4,191.0,145,65.0,724.0,426.0,,Valladolid,6.0,14.3,30.0,1.0,,1.578,No,48.0,43.0,5.0,3.0,0.0,0.0,433.0,3.016
97,Vélez-Málaga,Málaga,Andalucía,83899.0,,7.7,534.0,305,285.0,965.0,588.0,,Málaga-Costa del Sol,137.0,49.8,31.0,7.0,,1.507,No,,,,,,,,3.248
98,Vigo,Pontevedra,Galicia,292374.0,16.4,9.5,591.0,340,306.0,1144.0,678.0,,Vigo,8.0,13.5,26.0,7.0,,1.814,No,27.0,66.0,4.0,2.0,0.0,0.0,415.0,3.031
99,Vitoria-Gasteiz,Álava,País Vasco,253672.0,49.6,10.9,364.0,222,191.0,527.0,328.0,375.0,Vitoria,3.0,12.0,26.0,1.0,,2.515,No,59.0,35.0,3.0,3.0,0.0,0.0,450.0,2.147


In [94]:
# Impute missing values based on column types and context
# Numeric columns: use mean or median depending on skewness
imput_nulls = df[['% días calidad del aire Desfavorable',
                  '% días calidad del aire Buena',
                    '% días calidad del aire Razonablemente Buena',
                    '% días calidad del aire Regular',
                    '% días calidad del aire Muy Desfavorable',
                    '% días calidad del aire Extremadamente Desfavorable',
                   'Horas de Sol medias\nanuales']]

for col in imput_nulls:
    if col in df.columns:
        # Use mean for general cases, or median if skewed data is suspected (e.g., highly variable scales)
        df[col].fillna(df[col].median(), inplace=True)

# Display info to verify that null values have been handled
df.info(), df.isnull().sum()


<class 'pandas.core.frame.DataFrame'>
Index: 101 entries, 0 to 100
Data columns (total 28 columns):
 #   Column                                                         Non-Null Count  Dtype  
---  ------                                                         --------------  -----  
 0   Municipio                                                      101 non-null    object 
 1   Provincia                                                      101 non-null    object 
 2   Comunidad Autónoma                                             101 non-null    object 
 3   Habitantes (2022)                                              101 non-null    float64
 4   Carril Bici                                                    77 non-null     float64
 5   Precios alquiler                                               101 non-null    float64
 6   Distancia a Madrid (km)                                        101 non-null    float64
 7   Tiempo medio 
de viaje a Madrid 
en coche                      101 

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].median(), inplace=True)


(None,
 Municipio                                                            0
 Provincia                                                            0
 Comunidad Autónoma                                                   0
 Habitantes (2022)                                                    0
 Carril Bici                                                         24
 Precios alquiler                                                     0
 Distancia a Madrid (km)                                              0
 Tiempo medio \nde viaje a Madrid \nen coche                          0
 Tiempo medio de viaje a Madrid en tren o autobús                    28
 Distancia a Barcelona (km)                                           0
 Tiempo medio \nde viaje a Barcelona \nen coche                      22
 Tiempo medio de viaje a Barcelona en tren o autobús                 47
 Aeropuerto Internacional más cercano                                 0
 Número de\nconexiones del\naeropuerto internacional\nmás

In [95]:
df.head()

Unnamed: 0,Municipio,Provincia,Comunidad Autónoma,Habitantes (2022),Carril Bici,Precios alquiler,Distancia a Madrid (km),Tiempo medio \nde viaje a Madrid \nen coche,Tiempo medio de viaje a Madrid en tren o autobús,Distancia a Barcelona (km),Tiempo medio \nde viaje a Barcelona \nen coche,Tiempo medio de viaje a Barcelona en tren o autobús,Aeropuerto Internacional más cercano,Número de\nconexiones del\naeropuerto internacional\nmás cercano,Distancia al aeropuerto internacional más cercano (km),Temperatura máxima media (ºC),Temperatura mínima media (ºC),Número de visitantes internacionales al año,Precio medio vivienda (EUR/m2),Patrimonio de la Humanidad,% días calidad del aire Buena,% días calidad del aire Razonablemente Buena,% días calidad del aire Regular,% días calidad del aire Desfavorable,% días calidad del aire Muy Desfavorable,% días calidad del aire Extremadamente Desfavorable,Ponderación calidad del aire,Horas de Sol medias\nanuales
0,A Coruña,A Coruña,Galicia,244700.0,20.4,9.1,593.0,337,272.0,1084.0,,,A Coruña,9.0,11.6,24.0,7.0,,2.3,Sí,20.0,73.0,4.0,3.0,0.0,0.0,410.0,2.453
1,Albacete,Albacete,Castilla-La Mancha,172357.0,24.4,7.1,260.0,154,97.0,545.0,322.0,325.0,Alacant-Elx \nMiguel Hernández,119.0,169.0,33.0,0.0,,1.417,No,3.0,72.0,16.0,9.0,0.0,0.0,369.0,3.282
2,Alcalá de Guadaíra,Sevilla,Andalucía,75917.0,,6.6,531.0,309,209.0,995.0,590.0,,Sevilla,70.0,21.1,35.0,5.0,,1.277,No,14.0,72.0,11.0,3.0,0.0,0.0,397.0,3.526
3,Alcalá de Henares,Madrid,Madrid,196888.0,28.0,9.9,40.0,39,,586.0,330.0,200.0,Adolfo Suárez \nMadrid-Barajas,174.0,21.0,33.0,1.0,,1.654,Sí,17.0,68.0,11.0,3.0,0.0,0.0,396.0,2.691
4,Alcobendas,Madrid,Madrid,117041.0,53.8,12.0,24.0,25,,613.0,347.0,229.0,Adolfo Suárez \nMadrid-Barajas,174.0,9.1,33.0,0.0,,3.084,No,22.0,67.0,8.0,3.0,0.0,0.0,408.0,2.691


In [96]:
df.isna().sum()

Municipio                                                            0
Provincia                                                            0
Comunidad Autónoma                                                   0
Habitantes (2022)                                                    0
Carril Bici                                                         24
Precios alquiler                                                     0
Distancia a Madrid (km)                                              0
Tiempo medio \nde viaje a Madrid \nen coche                          0
Tiempo medio de viaje a Madrid en tren o autobús                    28
Distancia a Barcelona (km)                                           0
Tiempo medio \nde viaje a Barcelona \nen coche                      22
Tiempo medio de viaje a Barcelona en tren o autobús                 47
Aeropuerto Internacional más cercano                                 0
Número de\nconexiones del\naeropuerto internacional\nmás cercano     0
Distan

In [97]:
df.columns = df.columns.str.replace("\n", "")

In [98]:
df['Aeropuerto Internacional más cercano'] = df['Aeropuerto Internacional más cercano'].str.replace("\n", "")

In [99]:
#df.drop(columns='Número de visitantes internacionales al año', inplace=True)

In [100]:
df.head()

Unnamed: 0,Municipio,Provincia,Comunidad Autónoma,Habitantes (2022),Carril Bici,Precios alquiler,Distancia a Madrid (km),Tiempo medio de viaje a Madrid en coche,Tiempo medio de viaje a Madrid en tren o autobús,Distancia a Barcelona (km),Tiempo medio de viaje a Barcelona en coche,Tiempo medio de viaje a Barcelona en tren o autobús,Aeropuerto Internacional más cercano,Número deconexiones delaeropuerto internacionalmás cercano,Distancia al aeropuerto internacional más cercano (km),Temperatura máxima media (ºC),Temperatura mínima media (ºC),Número de visitantes internacionales al año,Precio medio vivienda (EUR/m2),Patrimonio de la Humanidad,% días calidad del aire Buena,% días calidad del aire Razonablemente Buena,% días calidad del aire Regular,% días calidad del aire Desfavorable,% días calidad del aire Muy Desfavorable,% días calidad del aire Extremadamente Desfavorable,Ponderación calidad del aire,Horas de Sol mediasanuales
0,A Coruña,A Coruña,Galicia,244700.0,20.4,9.1,593.0,337,272.0,1084.0,,,A Coruña,9.0,11.6,24.0,7.0,,2.3,Sí,20.0,73.0,4.0,3.0,0.0,0.0,410.0,2.453
1,Albacete,Albacete,Castilla-La Mancha,172357.0,24.4,7.1,260.0,154,97.0,545.0,322.0,325.0,Alacant-Elx Miguel Hernández,119.0,169.0,33.0,0.0,,1.417,No,3.0,72.0,16.0,9.0,0.0,0.0,369.0,3.282
2,Alcalá de Guadaíra,Sevilla,Andalucía,75917.0,,6.6,531.0,309,209.0,995.0,590.0,,Sevilla,70.0,21.1,35.0,5.0,,1.277,No,14.0,72.0,11.0,3.0,0.0,0.0,397.0,3.526
3,Alcalá de Henares,Madrid,Madrid,196888.0,28.0,9.9,40.0,39,,586.0,330.0,200.0,Adolfo Suárez Madrid-Barajas,174.0,21.0,33.0,1.0,,1.654,Sí,17.0,68.0,11.0,3.0,0.0,0.0,396.0,2.691
4,Alcobendas,Madrid,Madrid,117041.0,53.8,12.0,24.0,25,,613.0,347.0,229.0,Adolfo Suárez Madrid-Barajas,174.0,9.1,33.0,0.0,,3.084,No,22.0,67.0,8.0,3.0,0.0,0.0,408.0,2.691


In [101]:
df.sample()

Unnamed: 0,Municipio,Provincia,Comunidad Autónoma,Habitantes (2022),Carril Bici,Precios alquiler,Distancia a Madrid (km),Tiempo medio de viaje a Madrid en coche,Tiempo medio de viaje a Madrid en tren o autobús,Distancia a Barcelona (km),Tiempo medio de viaje a Barcelona en coche,Tiempo medio de viaje a Barcelona en tren o autobús,Aeropuerto Internacional más cercano,Número deconexiones delaeropuerto internacionalmás cercano,Distancia al aeropuerto internacional más cercano (km),Temperatura máxima media (ºC),Temperatura mínima media (ºC),Número de visitantes internacionales al año,Precio medio vivienda (EUR/m2),Patrimonio de la Humanidad,% días calidad del aire Buena,% días calidad del aire Razonablemente Buena,% días calidad del aire Regular,% días calidad del aire Desfavorable,% días calidad del aire Muy Desfavorable,% días calidad del aire Extremadamente Desfavorable,Ponderación calidad del aire,Horas de Sol mediasanuales
81,Santa Coloma de Gramenet,Barcelona,Cataluña,117981.0,2.5,12.5,627.0,370,190.0,9.0,,,Josep TarradellasBarcelona-El Prat,170.0,23.2,29.0,4.0,,2.155,No,75.0,25.0,0.0,0.0,0.0,0.0,475.0,2.453


In [102]:
df_bici_null = df[df['Carril Bici'].isna()]

df_bici_null['Municipio']

2            Alcalá de Guadaíra
6                     Algeciras
9                         Arona
11                      Badajoz
18                        Cádiz
26                 Dos Hermanas
27                     El Ejido
40                         Jaén
42    L'Hospitalet de Llobregat
53                      Manresa
56                      Melilla
58                     Móstoles
60                     Orihuela
61                      Ourense
62                       Oviedo
70            Rivas-Vaciamadrid
71              Roquetas de Mar
72                         Rubí
79        Sant Boi de Llobregat
84       Santiago de Compostela
87                    Tarragona
88                        Telde
93                   Torrevieja
97                 Vélez-Málaga
Name: Municipio, dtype: object

In [103]:
df.columns

Index(['Municipio', 'Provincia', 'Comunidad Autónoma', 'Habitantes (2022)',
       'Carril Bici', 'Precios alquiler', 'Distancia a Madrid (km)',
       'Tiempo medio de viaje a Madrid en coche',
       'Tiempo medio de viaje a Madrid en tren o autobús',
       'Distancia a Barcelona (km)',
       'Tiempo medio de viaje a Barcelona en coche',
       'Tiempo medio de viaje a Barcelona en tren o autobús',
       'Aeropuerto Internacional más cercano',
       'Número deconexiones delaeropuerto internacionalmás cercano',
       'Distancia al aeropuerto internacional más cercano (km)',
       'Temperatura máxima media (ºC)', 'Temperatura mínima media (ºC)',
       'Número de visitantes internacionales al año',
       'Precio medio vivienda (EUR/m2)', 'Patrimonio de la Humanidad',
       '% días calidad del aire Buena',
       '% días calidad del aire Razonablemente Buena',
       '% días calidad del aire Regular',
       '% días calidad del aire Desfavorable',
       '% días calidad del aire

In [104]:
df['Calidad del aire Buena'] = (df['% días calidad del aire Buena'] + df['% días calidad del aire Razonablemente Buena'])

df['Calidad del aire Regular'] = df['% días calidad del aire Regular']

df['Calidad del aire Desfavorable'] = (df['% días calidad del aire Desfavorable'] + df['% días calidad del aire Muy Desfavorable'] + df['% días calidad del aire Extremadamente Desfavorable'])

In [107]:
df_calidad_aire = df[['Calidad del aire Buena', 'Calidad del aire Regular', 'Calidad del aire Desfavorable']]

In [110]:
df = df.drop(columns=['Calidad del aire Buena', 
        'Calidad del aire Regular', 
        'Calidad del aire Desfavorable', 
        '% días calidad del aire Buena', 
        '% días calidad del aire Razonablemente Buena', 
        '% días calidad del aire Regular', 
        '% días calidad del aire Desfavorable', 
        '% días calidad del aire Muy Desfavorable', 
        '% días calidad del aire Extremadamente Desfavorable'])

In [111]:
df.to_csv('files/101-ciudades-españa.csv')

In [113]:
df_calidad_aire.to_csv('files/calidad-aire.csv')