## Inventario instalaciones fotovoltaicas

##### _Grupo Erasmus_

Importamos los datos descargados sobre el inventario de las instalaciones fotovoltaicas desde el año 2020 hasta 2024

In [306]:
import pandas as pd
# Activar el modo Copy-on-Write
pd.options.mode.copy_on_write = True

# Lista de archivos CSV
archivos = ['inventario_instalaciones_fotovoltaicas_2020.csv', 
            'inventario_instalaciones_fotovoltaicas_2021.csv', 
            'inventario_instalaciones_fotovoltaicas_2022.csv', 
            'inventario_instalaciones_fotovoltaicas_2023.csv', 
            'inventario_instalaciones_fotovoltaicas_2024.csv']

# Leer y combinar todos los archivos en un solo DataFrame, asegurando que es una copia independiente
dataframes = [pd.read_csv(archivo, encoding='ISO-8859-1', sep=';') for archivo in archivos]
inventario_completo = pd.concat(dataframes, ignore_index=True)

# Mostrar las primeras filas del DataFrame concatenado
inventario_completo


Unnamed: 0,Número,Código Ayto,Centro,Dirección,Coordenada-X,Coordenada-Y,Latitud,Longitud,Superficie (m2),Uso del edificio,...,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24
0,1.0,2178.0,BIBLIOTECA ÁNGEL GONZALEZ,"C/ GRANJA DE TORREHERMOSA, 2",434954,4472113,40.397075,-3.7664885474841500,,cultural,...,,,,,,,,,,
1,2.0,782.0,BIBLIOTECA IVÁN DE VARGAS,"C/ DOCTOR LETAMENDI, 1",439775,4473962,40.414103,-3.7098591212735800,,cultural,...,,,,,,,,,,
2,3.0,2096.0,BIBLIOTECA EUGENIO TRIAS (CASA FIERAS),"AV/ MENENDEZ PELAYO , 10-3 BJ",442345,4474221,40.416609,-3.6795930368034800,,cultural,...,,,,,,,,,,
3,4.0,1046.0,PLANETARIO,AV/ PLANETARIO 16,441830,4471375,40.390944,-3.685391155439890,3.062,cultural,...,,,,,,,,,,
4,5.0,2143.0,MADRID EMPRENDE,"C/CIDRO, 3",436689,4468938,40.368616,-3.74573026512817,,administrativo,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
737,171.0,,CENTRO MUNICIPAL DE RECOGIDAS TRECE ROSAS,"AVENIDA DE LAS TRECE ROSAS, 5, 28017 MADRID",445062.0,4475080.0,40.424542,-3.647631,,medioambiental,...,,,,,,,,,,
738,172.0,,CDM EL QUIJOTE,"CALLE NUMANCIA,2",439587.0,4478360.0,40.453707,-3.712486,,deportivo,...,,,,,,,,,,
739,173.0,,CDM MOSCARDO,CALLE PILAR DE ZARAGOZA 93,440125.0,4471120.0,40.388522,-3.705459,,deportivo,...,,,,,,,,,,
740,174.0,,CID VILLA DE VALLECAS / OAC,CALLE REAL DE ARGANDA 64,447858.0,4470029.0,40.379215,-3.614259,,seguridad,...,,,,,,,,,,


Comprobamos si hay nulos con la función *info()* en el fichero.

In [309]:
inventario_completo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 30 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Número               364 non-null    float64
 1   Código Ayto          324 non-null    float64
 2   Centro               630 non-null    object 
 3   Dirección            364 non-null    object 
 4   Coordenada-X         629 non-null    object 
 5   Coordenada-Y         629 non-null    object 
 6   Latitud              630 non-null    float64
 7   Longitud             630 non-null    object 
 8   Superficie (m2)      120 non-null    object 
 9   Uso del edificio     630 non-null    object 
 10  Adscripción          364 non-null    object 
 11  Distrito             630 non-null    object 
 12  Potencia KWp         515 non-null    object 
 13  Empresa instaladora  451 non-null    object 
 14  Puesta en servicio   584 non-null    object 
 15  ï»¿NÃºmero           266 non-null    flo

In [311]:
inventario_completo.columns

Index(['Número', 'Código Ayto', 'Centro', 'Dirección', 'Coordenada-X',
       'Coordenada-Y', 'Latitud', 'Longitud', 'Superficie (m2)',
       'Uso del edificio', 'Adscripción', 'Distrito', 'Potencia KWp',
       'Empresa instaladora', 'Puesta en servicio', 'ï»¿NÃºmero',
       'CÃ³digo Ayto', 'DirecciÃ³n', 'AdscripciÃ³n', 'Potencia KW',
       'Unnamed: 15', 'Unnamed: 16', 'Unnamed: 17', 'Unnamed: 18',
       'Unnamed: 19', 'Unnamed: 20', 'Unnamed: 21', 'Unnamed: 22',
       'Unnamed: 23', 'Unnamed: 24'],
      dtype='object')

In [313]:
# Eliminar columnas que solo contienen valores NaN
inventario_completo = inventario_completo.dropna(axis=1, how='all')
inventario_completo.columns

Index(['Número', 'Código Ayto', 'Centro', 'Dirección', 'Coordenada-X',
       'Coordenada-Y', 'Latitud', 'Longitud', 'Superficie (m2)',
       'Uso del edificio', 'Adscripción', 'Distrito', 'Potencia KWp',
       'Empresa instaladora', 'Puesta en servicio', 'ï»¿NÃºmero',
       'CÃ³digo Ayto', 'DirecciÃ³n', 'AdscripciÃ³n', 'Potencia KW'],
      dtype='object')

Borramos los posibles datos duplicados.

In [316]:
inventario_completo.drop_duplicates(inplace=True)

In [318]:
inventario_completo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 631 entries, 0 to 741
Data columns (total 20 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Número               364 non-null    float64
 1   Código Ayto          324 non-null    float64
 2   Centro               630 non-null    object 
 3   Dirección            364 non-null    object 
 4   Coordenada-X         629 non-null    object 
 5   Coordenada-Y         629 non-null    object 
 6   Latitud              630 non-null    float64
 7   Longitud             630 non-null    object 
 8   Superficie (m2)      120 non-null    object 
 9   Uso del edificio     630 non-null    object 
 10  Adscripción          364 non-null    object 
 11  Distrito             630 non-null    object 
 12  Potencia KWp         515 non-null    object 
 13  Empresa instaladora  451 non-null    object 
 14  Puesta en servicio   584 non-null    object 
 15  ï»¿NÃºmero           266 non-null    float64


In [320]:
inventario_completo.head()

Unnamed: 0,Número,Código Ayto,Centro,Dirección,Coordenada-X,Coordenada-Y,Latitud,Longitud,Superficie (m2),Uso del edificio,Adscripción,Distrito,Potencia KWp,Empresa instaladora,Puesta en servicio,ï»¿NÃºmero,CÃ³digo Ayto,DirecciÃ³n,AdscripciÃ³n,Potencia KW
0,1.0,2178.0,BIBLIOTECA ÁNGEL GONZALEZ,"C/ GRANJA DE TORREHERMOSA, 2",434954,4472113,40.397075,-3.7664885474841503,,cultural,AG Cultura Turismo y Deportes,Latina,20,ORTIZ,31/07/2019,,,,,
1,2.0,782.0,BIBLIOTECA IVÁN DE VARGAS,"C/ DOCTOR LETAMENDI, 1",439775,4473962,40.414103,-3.70985912127358,,cultural,AG Cultura Turismo y Deportes,Centro,3,ORTIZ,24/07/2019,,,,,
2,3.0,2096.0,BIBLIOTECA EUGENIO TRIAS (CASA FIERAS),"AV/ MENENDEZ PELAYO , 10-3 BJ",442345,4474221,40.416609,-3.67959303680348,,cultural,AG Cultura Turismo y Deportes,Retiro,82,ORTIZ,24/07/2019,,,,,
3,4.0,1046.0,PLANETARIO,AV/ PLANETARIO 16,441830,4471375,40.390944,-3.68539115543989,3.062,cultural,AG Cultura Turismo y Deportes,Arganzuela,25,FULTON,13/09/2019,,,,,
4,5.0,2143.0,MADRID EMPRENDE,"C/CIDRO, 3",436689,4468938,40.368616,-3.74573026512817,,administrativo,"AG Economía, Innovación y Empleo",Carabanchel,10,,,,,,,


In [322]:
# Eliminar las columnas con nombres con errores de codificación
columns_to_drop = ['ï»¿NÃºmero', 'CÃ³digo Ayto', 'DirecciÃ³n', 'AdscripciÃ³n', 'Potencia KW']

# Eliminar las columnas del DataFrame
inventario_completo.drop(columns=columns_to_drop, inplace=True)

# Verificar que las columnas han sido eliminadas
inventario_completo.columns

Index(['Número', 'Código Ayto', 'Centro', 'Dirección', 'Coordenada-X',
       'Coordenada-Y', 'Latitud', 'Longitud', 'Superficie (m2)',
       'Uso del edificio', 'Adscripción', 'Distrito', 'Potencia KWp',
       'Empresa instaladora', 'Puesta en servicio'],
      dtype='object')

In [324]:
inventario_completo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 631 entries, 0 to 741
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Número               364 non-null    float64
 1   Código Ayto          324 non-null    float64
 2   Centro               630 non-null    object 
 3   Dirección            364 non-null    object 
 4   Coordenada-X         629 non-null    object 
 5   Coordenada-Y         629 non-null    object 
 6   Latitud              630 non-null    float64
 7   Longitud             630 non-null    object 
 8   Superficie (m2)      120 non-null    object 
 9   Uso del edificio     630 non-null    object 
 10  Adscripción          364 non-null    object 
 11  Distrito             630 non-null    object 
 12  Potencia KWp         515 non-null    object 
 13  Empresa instaladora  451 non-null    object 
 14  Puesta en servicio   584 non-null    object 
dtypes: float64(3), object(12)
memory usage: 78.9+

In [327]:
# Ver los datos de cada columna
print("Columna: Número")
print(inventario_completo['Número'].head(), "\n")

print("Columna: Código Ayto")
print(inventario_completo['Código Ayto'].head(), "\n")

print("Columna: Centro")
print(inventario_completo['Centro'].head(), "\n")

print("Columna: Dirección")
print(inventario_completo['Dirección'].head(), "\n")

print("Columna: Coordenada-X")
print(inventario_completo['Coordenada-X'].head(), "\n")

print("Columna: Coordenada-Y")
print(inventario_completo['Coordenada-Y'].head(), "\n")

print("Columna: Latitud")
print(inventario_completo['Latitud'].head(), "\n")

print("Columna: Longitud")
print(inventario_completo['Longitud'].head(), "\n")

print("Columna: Superficie (m2)")
print(inventario_completo['Superficie (m2)'].head(), "\n")

print("Columna: Uso del edificio")
print(inventario_completo['Uso del edificio'].head(), "\n")

print("Columna: Adscripción")
print(inventario_completo['Adscripción'].head(), "\n")

print("Columna: Distrito")
print(inventario_completo['Distrito'].head(), "\n")

print("Columna: Potencia KWp")
print(inventario_completo['Potencia KWp'].head(), "\n")

print("Columna: Empresa instaladora")
print(inventario_completo['Empresa instaladora'].head(), "\n")

print("Columna: Puesta en servicio")
print(inventario_completo['Puesta en servicio'].head(), "\n")


Columna: Número
0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
Name: Número, dtype: float64 

Columna: Código Ayto
0    2178.0
1     782.0
2    2096.0
3    1046.0
4    2143.0
Name: Código Ayto, dtype: float64 

Columna: Centro
0                 BIBLIOTECA ÁNGEL GONZALEZ
1                 BIBLIOTECA IVÁN DE VARGAS
2    BIBLIOTECA EUGENIO TRIAS (CASA FIERAS)
3                                PLANETARIO
4                           MADRID EMPRENDE
Name: Centro, dtype: object 

Columna: Dirección
0     C/ GRANJA DE TORREHERMOSA, 2 
1            C/ DOCTOR LETAMENDI, 1
2    AV/ MENENDEZ PELAYO , 10-3 BJ 
3                 AV/ PLANETARIO 16
4                       C/CIDRO, 3 
Name: Dirección, dtype: object 

Columna: Coordenada-X
0    434954
1    439775
2    442345
3    441830
4    436689
Name: Coordenada-X, dtype: object 

Columna: Coordenada-Y
0    4472113
1    4473962
2    4474221
3    4471375
4    4468938
Name: Coordenada-Y, dtype: object 

Columna: Latitud
0    40.397075
1    40.414103
2    

In [329]:

print("Columna: Puesta en servicio")
print(inventario_completo['Puesta en servicio'], "\n")


Columna: Puesta en servicio
0      31/07/2019
1      24/07/2019
2      24/07/2019
3      13/09/2019
4             NaN
          ...    
737    01/07/2024
738    12/09/2024
739    11/09/2024
740    11/09/2024
741    03/04/2024
Name: Puesta en servicio, Length: 631, dtype: object 



In [331]:
# Convertir 'Superficie (m2)' a numérico (si tiene valores no numéricos, los convertirá a NaN)
inventario_completo['Superficie (m2)'] = pd.to_numeric(inventario_completo['Superficie (m2)'], errors='coerce')

# Convertir 'Potencia KWp' a numérico (similar a la columna anterior)
inventario_completo['Potencia KWp'] = pd.to_numeric(inventario_completo['Potencia KWp'], errors='coerce')
# Convertir las columnas de coordenadas y otras columnas numéricas que están como 'object' a 'float'
inventario_completo['Coordenada-X'] = pd.to_numeric(inventario_completo['Coordenada-X'], errors='coerce')
inventario_completo['Coordenada-Y'] = pd.to_numeric(inventario_completo['Coordenada-Y'], errors='coerce')
inventario_completo['Latitud'] = pd.to_numeric(inventario_completo['Latitud'], errors='coerce')
inventario_completo['Longitud'] = pd.to_numeric(inventario_completo['Longitud'], errors='coerce')

In [333]:
# Convertir la columna 'Puesta en servicio' a formato de fecha especificando que el día va primero
inventario_completo['Puesta en servicio'] = pd.to_datetime(inventario_completo['Puesta en servicio'], dayfirst=True, errors='coerce')


In [335]:

# Ver los tipos de datos de cada columna
print("Tipos de datos de cada columna:")
print(inventario_completo.dtypes)

#  Ver cuántos valores nulos hay en cada columna
print("Número de valores nulos por columna:")
print(inventario_completo.isnull().sum())



Tipos de datos de cada columna:
Número                        float64
Código Ayto                   float64
Centro                         object
Dirección                      object
Coordenada-X                  float64
Coordenada-Y                  float64
Latitud                       float64
Longitud                      float64
Superficie (m2)               float64
Uso del edificio               object
Adscripción                    object
Distrito                       object
Potencia KWp                  float64
Empresa instaladora            object
Puesta en servicio     datetime64[ns]
dtype: object
Número de valores nulos por columna:
Número                 267
Código Ayto            307
Centro                   1
Dirección              267
Coordenada-X             8
Coordenada-Y             7
Latitud                  1
Longitud                 3
Superficie (m2)        520
Uso del edificio         1
Adscripción            267
Distrito                 1
Potencia KWp           

--------------------------------

In [338]:
# Definir las columnas en las que quieres eliminar las filas que tengan valores nulos
columnas_requeridas = ['Distrito', 'Uso del edificio', 'Coordenada-X', 'Coordenada-Y', 'Latitud', 'Longitud', 'Centro']

# Eliminar las filas con valores nulos en cualquiera de las columnas especificadas
inventario_completo = inventario_completo.dropna(subset=columnas_requeridas)


In [340]:
#  Ver cuántos valores nulos hay en cada columna
print("Número de valores nulos por columna:")
print(inventario_completo.isnull().sum())


Número de valores nulos por columna:
Número                 259
Código Ayto            299
Centro                   0
Dirección              259
Coordenada-X             0
Coordenada-Y             0
Latitud                  0
Longitud                 0
Superficie (m2)        510
Uso del edificio         0
Adscripción            259
Distrito                 0
Potencia KWp           353
Empresa instaladora    176
Puesta en servicio      49
dtype: int64


## como he interpretado cada columna: 
Número: Es probable que sea un identificador único asignado a cada instalación dentro del inventario para su referencia.

Código Ayto: Este podría ser el código del ayuntamiento o municipio donde se ubica la instalación fotovoltaica.

Centro: Podría referirse al nombre del centro o la ubicación específica donde está instalada la planta fotovoltaica (por ejemplo, un edificio, institución, etc.).

Dirección: La dirección exacta donde está ubicada la instalación, que puede incluir calle, número y otros datos de ubicación.

Coordenada-X: Representa la coordenada X en un sistema de referencia de coordenadas (posiblemente en UTM) que indica la posición en el eje horizontal (este-oeste).

Coordenada-Y: Representa la coordenada Y en un sistema de referencia de coordenadas, que indica la posición en el eje vertical (norte-sur).

Latitud: La latitud geográfica de la instalación, expresada en grados decimales, que indica su posición en el eje norte-sur en coordenadas geográficas.

Longitud: La longitud geográfica de la instalación, expresada en grados decimales, que indica su posición en el eje este-oeste en coordenadas geográficas.

Superficie (m2): Área en metros cuadrados de la superficie ocupada por la instalación fotovoltaica.

Uso del edificio: Describe el tipo de uso del edificio donde está ubicada la instalación (por ejemplo, residencial, industrial, comercial, institucional, etc.).

Adscripción: Indica a qué entidad o departamento está adscrita la instalación, es decir, quién es el responsable o el propietario de la misma.

Distrito: El distrito o la subdivisión municipal donde se encuentra la instalación.

Potencia KWp: Potencia pico de la instalación en kilovatios (KWp), que indica la máxima potencia que puede generar bajo condiciones óptimas.

Empresa instaladora: Nombre de la empresa encargada de la instalación del sistema fotovoltaico.

Puesta en servicio: La fecha en la que la instalación fue puesta en servicio y comenzó a operar.

In [343]:
# Crear un mapeo con las direcciones y su código Ayto no nulo
mapeo_codigo_ayto = inventario_completo.groupby('Dirección')['Código Ayto'].apply(lambda x: x.dropna().iloc[0] if not x.dropna().empty else None).to_dict()

# Rellenar los valores nulos en Código Ayto basándose en el mapeo
inventario_completo['Código Ayto'] = inventario_completo.apply(
    lambda row: mapeo_codigo_ayto[row['Dirección']] if pd.isna(row['Código Ayto']) and row['Dirección'] in mapeo_codigo_ayto else row['Código Ayto'], 
    axis=1
)


In [345]:
#  Ver cuántos valores nulos hay en cada columna
print("Número de valores nulos por columna:")
print(inventario_completo.isnull().sum())


Número de valores nulos por columna:
Número                 259
Código Ayto            287
Centro                   0
Dirección              259
Coordenada-X             0
Coordenada-Y             0
Latitud                  0
Longitud                 0
Superficie (m2)        510
Uso del edificio         0
Adscripción            259
Distrito                 0
Potencia KWp           353
Empresa instaladora    176
Puesta en servicio      49
dtype: int64


In [347]:

inventario_completo['Código Ayto']


0      2178.0
1       782.0
2      2096.0
3      1046.0
4      2143.0
        ...  
737       NaN
738       NaN
739       NaN
740       NaN
741       NaN
Name: Código Ayto, Length: 621, dtype: float64

In [349]:
# Filtrar filas con valores nulos
filas_con_nulos = inventario_completo[inventario_completo.isna().any(axis=1)]

# Mostrar las filas con valores nulos
filas_con_nulos



Unnamed: 0,Número,Código Ayto,Centro,Dirección,Coordenada-X,Coordenada-Y,Latitud,Longitud,Superficie (m2),Uso del edificio,Adscripción,Distrito,Potencia KWp,Empresa instaladora,Puesta en servicio
0,1.0,2178.0,BIBLIOTECA ÁNGEL GONZALEZ,"C/ GRANJA DE TORREHERMOSA, 2",434954.0,4472113.0,40.397075,-3.766489,,cultural,AG Cultura Turismo y Deportes,Latina,20.0,ORTIZ,2019-07-31
1,2.0,782.0,BIBLIOTECA IVÁN DE VARGAS,"C/ DOCTOR LETAMENDI, 1",439775.0,4473962.0,40.414103,-3.709859,,cultural,AG Cultura Turismo y Deportes,Centro,3.0,ORTIZ,2019-07-24
2,3.0,2096.0,BIBLIOTECA EUGENIO TRIAS (CASA FIERAS),"AV/ MENENDEZ PELAYO , 10-3 BJ",442345.0,4474221.0,40.416609,-3.679593,,cultural,AG Cultura Turismo y Deportes,Retiro,,ORTIZ,2019-07-24
4,5.0,2143.0,MADRID EMPRENDE,"C/CIDRO, 3",436689.0,4468938.0,40.368616,-3.745730,,administrativo,"AG Economía, Innovación y Empleo",Carabanchel,10.0,,NaT
5,6.0,1779.0,MARES MADRID,C/ FRANCISCO LAGUNA 38,443153.0,4471330.0,40.390628,-3.669802,,administrativo,"AG Economía, Innovación y Empleo",Puente de Vallecas,7.0,,NaT
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
737,171.0,,CENTRO MUNICIPAL DE RECOGIDAS TRECE ROSAS,"AVENIDA DE LAS TRECE ROSAS, 5, 28017 MADRID",445062.0,4475080.0,40.424542,-3.647631,,medioambiental,"Area de Gobierno de Urbanismo, Medioambiente y...",CIUDAD LINEAL,10.0,,2024-07-01
738,172.0,,CDM EL QUIJOTE,"CALLE NUMANCIA,2",439587.0,4478360.0,40.453707,-3.712486,,deportivo,JMD Moncloa Aravaca,MONCLOA - ARAVACA,20.0,,2024-09-12
739,173.0,,CDM MOSCARDO,CALLE PILAR DE ZARAGOZA 93,440125.0,4471120.0,40.388522,-3.705459,,deportivo,JMD Salamanca,SALAMANCA,10.0,,2024-09-11
740,174.0,,CID VILLA DE VALLECAS / OAC,CALLE REAL DE ARGANDA 64,447858.0,4470029.0,40.379215,-3.614259,,seguridad,JMD Villa de Vallecas,VILLA DE VALLECAS,10.0,,2024-09-11


In [351]:
# Eliminar filas donde todos los valores son nulos
inventario_completo.dropna(how='all', inplace=True)

In [353]:
#  Ver cuántos valores nulos hay en cada columna
print("Número de valores nulos por columna:")
print(inventario_completo.isnull().sum())


Número de valores nulos por columna:
Número                 259
Código Ayto            287
Centro                   0
Dirección              259
Coordenada-X             0
Coordenada-Y             0
Latitud                  0
Longitud                 0
Superficie (m2)        510
Uso del edificio         0
Adscripción            259
Distrito                 0
Potencia KWp           353
Empresa instaladora    176
Puesta en servicio      49
dtype: int64


In [355]:
pd.set_option('future.no_silent_downcasting', True)
# Aseguramos que 'Dirección' sea de tipo 'object' (cadena de texto)
inventario_completo['Dirección'] = inventario_completo['Dirección'].astype('object')

# Rellenar los valores nulos en 'Dirección' utilizando ffill y bfill dentro de cada grupo de coordenadas
# Usamos transform para asegurar que el índice no se altere y los resultados se mantengan en su lugar
inventario_completo['Dirección'] = inventario_completo.groupby(['Coordenada-X', 'Coordenada-Y'])['Dirección'].transform(lambda x: x.ffill().bfill())



In [357]:
#  Ver cuántos valores nulos hay en cada columna
print("Número de valores nulos por columna:")
print(inventario_completo.isnull().sum())

Número de valores nulos por columna:
Número                 259
Código Ayto            287
Centro                   0
Dirección                1
Coordenada-X             0
Coordenada-Y             0
Latitud                  0
Longitud                 0
Superficie (m2)        510
Uso del edificio         0
Adscripción            259
Distrito                 0
Potencia KWp           353
Empresa instaladora    176
Puesta en servicio      49
dtype: int64


In [359]:
# Filtrar las filas donde 'Dirección' es nula
filas_nulas = inventario_completo[inventario_completo['Dirección'].isnull()]

# Mostrar esas filas
filas_nulas


Unnamed: 0,Número,Código Ayto,Centro,Dirección,Coordenada-X,Coordenada-Y,Latitud,Longitud,Superficie (m2),Uso del edificio,Adscripción,Distrito,Potencia KWp,Empresa instaladora,Puesta en servicio
568,,,VIVEROS M 30,,437378.7,4477071.3,40.441935,-3.738396,,medioambiental,,MONCLOA - ARAVACA,,,2023-05-10


In [361]:
inventario_completo = inventario_completo.dropna(subset=['Dirección'])
#  Ver cuántos valores nulos hay en cada columna
print("Número de valores nulos por columna:")
print(inventario_completo.isnull().sum())

Número de valores nulos por columna:
Número                 258
Código Ayto            286
Centro                   0
Dirección                0
Coordenada-X             0
Coordenada-Y             0
Latitud                  0
Longitud                 0
Superficie (m2)        509
Uso del edificio         0
Adscripción            258
Distrito                 0
Potencia KWp           352
Empresa instaladora    175
Puesta en servicio      49
dtype: int64


In [363]:
# En lugar de usar inplace=True, asigna el resultado de fillna directamente al DataFrame
inventario_completo['Adscripción'] = inventario_completo['Adscripción'].fillna("No especificado")
inventario_completo['Empresa instaladora'] = inventario_completo['Empresa instaladora'].fillna("Empresa desconocida")

# Verificar si hay valores nulos restantes
print(inventario_completo.isnull().sum())


Número                 258
Código Ayto            286
Centro                   0
Dirección                0
Coordenada-X             0
Coordenada-Y             0
Latitud                  0
Longitud                 0
Superficie (m2)        509
Uso del edificio         0
Adscripción              0
Distrito                 0
Potencia KWp           352
Empresa instaladora      0
Puesta en servicio      49
dtype: int64


In [365]:
# Crear un mapeo: para cada Dirección, asignar el primer Código Ayto no nulo encontrado
mapeo_codigo_ayto = inventario_completo.groupby('Dirección')['Código Ayto'].apply(lambda x: x.dropna().iloc[0] if not x.dropna().empty else None).to_dict()

# Usar el mapeo para rellenar los valores nulos en "Código Ayto" basándose en "Dirección"
inventario_completo['Código Ayto'] = inventario_completo.apply(
    lambda row: mapeo_codigo_ayto[row['Dirección']] if pd.isna(row['Código Ayto']) and row['Dirección'] in mapeo_codigo_ayto else row['Código Ayto'], 
    axis=1
)

# Verificar si hay valores nulos restantes
print(inventario_completo.isnull().sum())

Número                 258
Código Ayto             40
Centro                   0
Dirección                0
Coordenada-X             0
Coordenada-Y             0
Latitud                  0
Longitud                 0
Superficie (m2)        509
Uso del edificio         0
Adscripción              0
Distrito                 0
Potencia KWp           352
Empresa instaladora      0
Puesta en servicio      49
dtype: int64


In [367]:
# Mostrar las 40 primeras filas donde "Código Ayto" sea nulo
nulas_codigo_ayto = inventario_completo[inventario_completo['Código Ayto'].isnull()]
nulas_codigo_ayto.head(40)


Unnamed: 0,Número,Código Ayto,Centro,Dirección,Coordenada-X,Coordenada-Y,Latitud,Longitud,Superficie (m2),Uso del edificio,Adscripción,Distrito,Potencia KWp,Empresa instaladora,Puesta en servicio
9,10.0,,VIVERO MUNICIPAL DE ESTUFAS DEL RETIRO,Pza. del Ángel Caído. Parque del Retiro \n(Ent...,441779.0,4473428.0,40.409435,-3.68618,,medioambiental,AG de Medio Ambiente y Movilidad,Retiro,5.0,Empresa desconocida,NaT
10,11.0,,VIVERO MUNICIPAL DE CASA DE CAMPO,Pº Azul s/n. Parque de la Casa de Campo,438584.0,4474694.0,40.420606,-3.723958,,medioambiental,AG de Medio Ambiente y Movilidad,Moncloa Aravaca,5.0,Empresa desconocida,NaT
11,12.0,,VIVERO MUNICIPAL DE MIGAS CALIENTES,Km. 22. M-30 (frente a palacio Moncloa)\n M-30...,437394.0,4476508.0,40.436863,-3.738172,,medioambiental,AG de Medio Ambiente y Movilidad,Moncloa Aravaca,5.0,Empresa desconocida,NaT
12,13.0,,ROSALEDA DEL PARQUE DEL OESTE,c/ de la Rosaleda s/n. Rosaleda del Parque del...,438775.0,4475363.0,40.426646,-3.721771,,medioambiental,AG de Medio Ambiente y Movilidad,Moncloa Aravaca,5.0,Empresa desconocida,NaT
42,43.0,,EI POETA GLORIA FUERTES (LAS TABLAS),C/ EUNATE 6 C/CASTILLO DE CANDANCHÚ 42-46,442700.0,4484024.0,40.504951,-3.676283,,educativo,JMD Fuercarral El Pardo,Fuencarral El Pardo,,CONDISA,2019-02-12
90,91.0,,CASA ASOCIACIONES HORTALEZA,CALLE MATAPOZUELOS 6,444896.0,4479194.0,40.461589,-3.649947,,social,JMD Hortaleza,Hortaleza,9.0,Empresa desconocida,2020-03-23
91,92.0,,EI PLÉYADES,AVENIDA SECUNDINO ZUAZO 52,447428.0,4482921.0,40.49533,-3.620386,,educativo,JMD Hortaleza,Hortaleza,,Empresa desconocida,NaT
108,10.0,,VIVERO MUNICIPAL DE ESTUFAS DEL RETIRO,Pza. del Ángel Caído. Parque del Retiro \n(Ent...,441779.0,4473428.0,40.409435,-3.68618,,medioambiental,AG de Medio Ambiente y Movilidad,Retiro,,Empresa desconocida,NaT
109,12.0,,VIVERO MUNICIPAL DE MIGAS CALIENTES,Km. 22. M-30 (frente a palacio Moncloa)\n M-30...,437394.0,4476508.0,40.436863,-3.738172,,medioambiental,AG de Medio Ambiente y Movilidad,Moncloa Aravaca,,Empresa desconocida,NaT
110,13.0,,ROSALEDA DEL PARQUE DEL OESTE,c/ de la Rosaleda s/n. Rosaleda del Parque del...,438775.0,4475363.0,40.426646,-3.721771,,medioambiental,AG de Medio Ambiente y Movilidad,Moncloa Aravaca,,SAVEFFI,NaT


In [369]:
# Rellenar con la fecha anterior (forward fill)
inventario_completo['Puesta en servicio'] = inventario_completo['Puesta en servicio'].ffill()

# O si prefieres con la fecha siguiente (backward fill)
inventario_completo['Puesta en servicio'] = inventario_completo['Puesta en servicio'].bfill()

# Verificar si hay nulos restantes
print(inventario_completo['Puesta en servicio'].isnull().sum())



0


In [371]:
import pandas as pd

inventario_completo['Número'] = inventario_completo.apply(
    lambda row: row.name + 1 if pd.isnull(row['Número']) else row['Número'], axis=1
)

In [373]:
# Verificar si hay valores nulos restantes
print(inventario_completo.isnull().sum())

Número                   0
Código Ayto             40
Centro                   0
Dirección                0
Coordenada-X             0
Coordenada-Y             0
Latitud                  0
Longitud                 0
Superficie (m2)        509
Uso del edificio         0
Adscripción              0
Distrito                 0
Potencia KWp           352
Empresa instaladora      0
Puesta en servicio       0
dtype: int64


In [375]:
# a. Promedio por categoría de uso del edificio
inventario_completo['Superficie (m2)'] = inventario_completo.groupby('Uso del edificio')['Superficie (m2)'].transform(
    lambda x: x.fillna(x.mean())
)


In [377]:
# b. Inferencia por tamaño del edificio (relación superficie-potencia)
# Verificar si existe una relación significativa entre superficie y potencia
if inventario_completo['Superficie (m2)'].notnull().any():
    from sklearn.linear_model import LinearRegression

    # Filtrar datos sin nulos para entrenar el modelo
    potencia_model_data = inventario_completo.dropna(subset=['Superficie (m2)', 'Potencia KWp'])

    # Entrenar modelo de regresión
    reg = LinearRegression()
    reg.fit(potencia_model_data[['Superficie (m2)']], potencia_model_data['Potencia KWp'])

    # Predecir valores nulos
    potencia_null_mask = inventario_completo['Potencia KWp'].isnull() & inventario_completo['Superficie (m2)'].notnull()
    inventario_completo.loc[potencia_null_mask, 'Potencia KWp'] = reg.predict(
        inventario_completo.loc[potencia_null_mask, ['Superficie (m2)']]
    )


In [379]:
from sklearn.linear_model import LinearRegression

# Filtrar datos sin nulos para entrenar el modelo
superficie_model_data = inventario_completo.dropna(subset=['Superficie (m2)', 'Potencia KWp'])

# Entrenar el modelo de regresión lineal
reg = LinearRegression()
reg.fit(superficie_model_data[['Potencia KWp']], superficie_model_data['Superficie (m2)'])

# Predecir valores nulos de 'Superficie (m2)' basados en 'Potencia KWp'
superficie_null_mask = inventario_completo['Superficie (m2)'].isnull() & inventario_completo['Potencia KWp'].notnull()
inventario_completo.loc[superficie_null_mask, 'Superficie (m2)'] = reg.predict(
    inventario_completo.loc[superficie_null_mask, ['Potencia KWp']]
)


In [381]:
# Verificar si hay valores nulos restantes
print(inventario_completo.isnull().sum())

Número                   0
Código Ayto             40
Centro                   0
Dirección                0
Coordenada-X             0
Coordenada-Y             0
Latitud                  0
Longitud                 0
Superficie (m2)        110
Uso del edificio         0
Adscripción              0
Distrito                 0
Potencia KWp           110
Empresa instaladora      0
Puesta en servicio       0
dtype: int64


In [383]:
# Filtrar filas con valores nulos en cualquier columna del DataFrame
nulos_completos = inventario_completo[inventario_completo.isnull().any(axis=1)]

# Mostrar las filas con nulos
nulos_completos


Unnamed: 0,Número,Código Ayto,Centro,Dirección,Coordenada-X,Coordenada-Y,Latitud,Longitud,Superficie (m2),Uso del edificio,Adscripción,Distrito,Potencia KWp,Empresa instaladora,Puesta en servicio
8,9.0,317.0,AULA DE LA NATURALEZA DEHESA DE LA VILLA,"C/ FRANCOS RODRIGUEZ, 97",439102.0,4478967.0,40.459141,-3.718271,,medioambiental,AG de Medio Ambiente y Movilidad,Moncloa Aravaca,,Empresa desconocida,2008-08-13
9,10.0,,VIVERO MUNICIPAL DE ESTUFAS DEL RETIRO,Pza. del Ángel Caído. Parque del Retiro \n(Ent...,441779.0,4473428.0,40.409435,-3.686180,1108.709608,medioambiental,AG de Medio Ambiente y Movilidad,Retiro,5.0,Empresa desconocida,2008-08-13
10,11.0,,VIVERO MUNICIPAL DE CASA DE CAMPO,Pº Azul s/n. Parque de la Casa de Campo,438584.0,4474694.0,40.420606,-3.723958,1108.709608,medioambiental,AG de Medio Ambiente y Movilidad,Moncloa Aravaca,5.0,Empresa desconocida,2008-08-13
11,12.0,,VIVERO MUNICIPAL DE MIGAS CALIENTES,Km. 22. M-30 (frente a palacio Moncloa)\n M-30...,437394.0,4476508.0,40.436863,-3.738172,1108.709608,medioambiental,AG de Medio Ambiente y Movilidad,Moncloa Aravaca,5.0,Empresa desconocida,2008-08-13
12,13.0,,ROSALEDA DEL PARQUE DEL OESTE,c/ de la Rosaleda s/n. Rosaleda del Parque del...,438775.0,4475363.0,40.426646,-3.721771,1108.709608,medioambiental,AG de Medio Ambiente y Movilidad,Moncloa Aravaca,5.0,Empresa desconocida,2008-08-13
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
737,171.0,,CENTRO MUNICIPAL DE RECOGIDAS TRECE ROSAS,"AVENIDA DE LAS TRECE ROSAS, 5, 28017 MADRID",445062.0,4475080.0,40.424542,-3.647631,1505.375826,medioambiental,"Area de Gobierno de Urbanismo, Medioambiente y...",CIUDAD LINEAL,10.0,Empresa desconocida,2024-07-01
738,172.0,,CDM EL QUIJOTE,"CALLE NUMANCIA,2",439587.0,4478360.0,40.453707,-3.712486,4661.848686,deportivo,JMD Moncloa Aravaca,MONCLOA - ARAVACA,20.0,Empresa desconocida,2024-09-12
739,173.0,,CDM MOSCARDO,CALLE PILAR DE ZARAGOZA 93,440125.0,4471120.0,40.388522,-3.705459,4661.848686,deportivo,JMD Salamanca,SALAMANCA,10.0,Empresa desconocida,2024-09-11
740,174.0,,CID VILLA DE VALLECAS / OAC,CALLE REAL DE ARGANDA 64,447858.0,4470029.0,40.379215,-3.614259,1505.375826,seguridad,JMD Villa de Vallecas,VILLA DE VALLECAS,10.0,Empresa desconocida,2024-09-11


In [385]:
# Rellenar los valores nulos en 'Superficie (m2)' con el promedio de cada grupo de 'Uso del edificio'
inventario_completo['Superficie (m2)'] = inventario_completo.groupby('Uso del edificio')['Superficie (m2)'].transform(
    lambda x: x.fillna(x.mean())
)


In [387]:
# Filtrar los datos que no tengan valores nulos en 'Superficie (m2)' y 'Potencia KWp'
potencia_model_data = inventario_completo.dropna(subset=['Superficie (m2)', 'Potencia KWp'])

# Convertir las variables categóricas en dummies (usando pd.get_dummies)
X = pd.get_dummies(potencia_model_data[['Superficie (m2)', 'Uso del edificio']], drop_first=True)
y = potencia_model_data['Potencia KWp']

# Entrenar el modelo
reg = LinearRegression()
reg.fit(X, y)

# Crear el DataFrame para las filas con valores nulos en 'Potencia KWp'
potencia_null_mask = inventario_completo['Potencia KWp'].isnull() & inventario_completo['Superficie (m2)'].notnull()
X_null = pd.get_dummies(inventario_completo.loc[potencia_null_mask, ['Superficie (m2)', 'Uso del edificio']], drop_first=True)

# Asegurar que el DataFrame de predicción tenga las mismas columnas que el de entrenamiento
X_null = X_null.reindex(columns=X.columns, fill_value=0)

# Predecir los valores faltantes
inventario_completo.loc[potencia_null_mask, 'Potencia KWp'] = reg.predict(X_null)


In [389]:
# Rellenar los valores nulos de la columna 'Superficie (m2)' con la media
inventario_completo['Superficie (m2)'] = inventario_completo['Superficie (m2)'].fillna(inventario_completo['Superficie (m2)'].mean())

# Rellenar los valores nulos de la columna 'Potencia KWp' con la media
inventario_completo['Potencia KWp'] = inventario_completo['Potencia KWp'].fillna(inventario_completo['Potencia KWp'].mean())


In [391]:
# Verificar si hay valores nulos restantes
print(inventario_completo.isnull().sum())

Número                  0
Código Ayto            40
Centro                  0
Dirección               0
Coordenada-X            0
Coordenada-Y            0
Latitud                 0
Longitud                0
Superficie (m2)         0
Uso del edificio        0
Adscripción             0
Distrito                0
Potencia KWp            0
Empresa instaladora     0
Puesta en servicio      0
dtype: int64


In [393]:
# Filtrar filas con valores nulos en cualquier columna del DataFrame
nulos_completos = inventario_completo[inventario_completo.isnull().any(axis=1)]

# Mostrar las filas con nulos
nulos_completos


Unnamed: 0,Número,Código Ayto,Centro,Dirección,Coordenada-X,Coordenada-Y,Latitud,Longitud,Superficie (m2),Uso del edificio,Adscripción,Distrito,Potencia KWp,Empresa instaladora,Puesta en servicio
9,10.0,,VIVERO MUNICIPAL DE ESTUFAS DEL RETIRO,Pza. del Ángel Caído. Parque del Retiro \n(Ent...,441779.0,4473428.0,40.409435,-3.68618,1108.709608,medioambiental,AG de Medio Ambiente y Movilidad,Retiro,5.0,Empresa desconocida,2008-08-13
10,11.0,,VIVERO MUNICIPAL DE CASA DE CAMPO,Pº Azul s/n. Parque de la Casa de Campo,438584.0,4474694.0,40.420606,-3.723958,1108.709608,medioambiental,AG de Medio Ambiente y Movilidad,Moncloa Aravaca,5.0,Empresa desconocida,2008-08-13
11,12.0,,VIVERO MUNICIPAL DE MIGAS CALIENTES,Km. 22. M-30 (frente a palacio Moncloa)\n M-30...,437394.0,4476508.0,40.436863,-3.738172,1108.709608,medioambiental,AG de Medio Ambiente y Movilidad,Moncloa Aravaca,5.0,Empresa desconocida,2008-08-13
12,13.0,,ROSALEDA DEL PARQUE DEL OESTE,c/ de la Rosaleda s/n. Rosaleda del Parque del...,438775.0,4475363.0,40.426646,-3.721771,1108.709608,medioambiental,AG de Medio Ambiente y Movilidad,Moncloa Aravaca,5.0,Empresa desconocida,2008-08-13
42,43.0,,EI POETA GLORIA FUERTES (LAS TABLAS),C/ EUNATE 6 C/CASTILLO DE CANDANCHÚ 42-46,442700.0,4484024.0,40.504951,-3.676283,1459.251847,educativo,JMD Fuercarral El Pardo,Fuencarral El Pardo,15.22008,CONDISA,2019-02-12
90,91.0,,CASA ASOCIACIONES HORTALEZA,CALLE MATAPOZUELOS 6,444896.0,4479194.0,40.461589,-3.649947,751.79575,social,JMD Hortaleza,Hortaleza,9.0,Empresa desconocida,2020-03-23
91,92.0,,EI PLÉYADES,AVENIDA SECUNDINO ZUAZO 52,447428.0,4482921.0,40.49533,-3.620386,1459.251847,educativo,JMD Hortaleza,Hortaleza,15.22008,Empresa desconocida,2020-03-23
108,10.0,,VIVERO MUNICIPAL DE ESTUFAS DEL RETIRO,Pza. del Ángel Caído. Parque del Retiro \n(Ent...,441779.0,4473428.0,40.409435,-3.68618,1212.45308,medioambiental,AG de Medio Ambiente y Movilidad,Retiro,6.307692,Empresa desconocida,2008-08-13
109,12.0,,VIVERO MUNICIPAL DE MIGAS CALIENTES,Km. 22. M-30 (frente a palacio Moncloa)\n M-30...,437394.0,4476508.0,40.436863,-3.738172,1212.45308,medioambiental,AG de Medio Ambiente y Movilidad,Moncloa Aravaca,6.307692,Empresa desconocida,2008-08-13
110,13.0,,ROSALEDA DEL PARQUE DEL OESTE,c/ de la Rosaleda s/n. Rosaleda del Parque del...,438775.0,4475363.0,40.426646,-3.721771,1212.45308,medioambiental,AG de Medio Ambiente y Movilidad,Moncloa Aravaca,6.307692,SAVEFFI,2008-08-13


In [395]:


# 1. Rellenar nulos en 'Código Ayto' por las coordenadas X y Y
inventario_completo['Código Ayto'] = inventario_completo.groupby(['Coordenada-X', 'Coordenada-Y'])['Código Ayto'].transform(lambda x: x.ffill().bfill())

# 2. Si aún hay valores nulos, rellenamos por 'Distrito'
inventario_completo['Código Ayto'] = inventario_completo.groupby('Distrito')['Código Ayto'].transform(lambda x: x.ffill().bfill())

# 3. Si aún quedan nulos, rellenamos por 'Dirección'
inventario_completo['Código Ayto'] = inventario_completo.groupby('Dirección')['Código Ayto'].transform(lambda x: x.ffill().bfill())

# Ahora los valores nulos en 'Código Ayto' deberían estar rellenados por las mismas coordenadas, distrito o dirección


In [397]:
# Verificar si hay valores nulos restantes
print(inventario_completo.isnull().sum())

Número                 0
Código Ayto            0
Centro                 0
Dirección              0
Coordenada-X           0
Coordenada-Y           0
Latitud                0
Longitud               0
Superficie (m2)        0
Uso del edificio       0
Adscripción            0
Distrito               0
Potencia KWp           0
Empresa instaladora    0
Puesta en servicio     0
dtype: int64


In [399]:
# Guardar el DataFrame limpio en un nuevo archivo CSV
inventario_completo.to_csv('inventario_completo_limpio.csv', index=False, encoding='utf-8')
