In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib


## 1. ImportaciÃ³n de LibrerÃ­as


### S2.T0. Importar la base de datos
* Conectamos con Google Drive.
* Cargamos el archivo `BBDD_ST2.csv`.
* Optimizamos los tipos de datos (`float32` e `int32`) para no saturar la RAM de Colab.


In [6]:
# Montar Drive
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

# Ruta y Carga
ruta_drive = '/content/drive/MyDrive/Sostenibilidad/BBDD_ST2.csv'
df = pd.read_csv(ruta_drive, low_memory=False)

# OptimizaciÃ³n
float64_cols = df.select_dtypes(include='float64').columns.tolist()
df[float64_cols] = df[float64_cols].astype('float32')
int64_cols = df.select_dtypes(include='int64').columns.tolist()
df[int64_cols] = df[int64_cols].astype('int32')

print("Base de datos cargada y optimizada.")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Base de datos cargada y optimizada.



### S2.T1. QuÃ© hay en la base de datos?
Hacer una exploraciÃ³n inicial de la base de datos importada. Se deben responder las siguientes cuestiones:
* **S2.T1.1.** Â¿NÃºmero de filas?
* **S2.T1.2.** Â¿NÃºmero de columnas?
* **S2.T1.3.** A quÃ© corresponde cada una de las filas?
* **S2.T1.4.** Nombre, tipo (object, float64, int64, ...) y % de observaciones no nulas de las columnas?


### ðŸ“– GuÃ­a de Comandos de ExploraciÃ³n
Utiliza estos comandos en las celdas de abajo para completar las tareas:

| Comando | DescripciÃ³n |
| :--- | :--- |
| `df.head(5)` | Muestra las primeras 5 filas (puedes activar la vista interactiva). |
| `df.tail(10)` | Muestra las Ãºltimas 10 filas. |
| `df.info()` | Resumen tÃ©cnico (tipos de datos y valores nulos). |
| `df.index` | Rango de Ã­ndices de las filas. |
| `len(df)` | Devuelve el nÃºmero total de filas. |
| `df.columns` | Lista con los nombres de todas las columnas. |
| `df.columns[13]` | Nombre de la columna en la posiciÃ³n 13. |
| `list(df)` | Nombres de columnas en formato lista. |
| `100 * df[df.columns[3]].notnull().mean()` | % de valores **no nulos** de la columna 3. |

In [8]:
df.columns

Index(['NUM_CAS', 'ADREÃ‡A', 'NUMERO', 'ESCALA', 'PIS', 'PORTA', 'CODI_POSTAL',
       'POBLACIO', 'COMARCA', 'NOM_PROVINCIA', 'REFERENCIA CADASTRAL',
       'ZONA CLIMATICA', 'METRES_CADASTRE', 'ANY_CONSTRUCCIO', 'US_EDIFICI',
       'QualificaciÃ³ de consum d'energia primaria no renovable',
       'Energia primÃ ria no renovable', 'Qualificacio d'emissions de CO2',
       'Emissions de CO2', 'Consum d'energia final',
       'Cost anual aproximat d'energia per habitatge', 'VEHICLE ELECTRIC',
       'SOLAR TERMICA', 'SOLAR FOTOVOLTAICA', 'SISTEMA BIOMASSA',
       'XARXA DISTRICTE', 'ENERGIA GEOTERMICA', 'INFORME_INS_TECNICA_EDIFICI',
       'Eina de certificacio', 'VALOR AILLAMENTS', 'VALOR FIENESTRES',
       'Motiu de la certificacio', 'VALOR AILLAMENTS CTE',
       'VALOR FINESTRES CTE', 'Normativa construcciÃ³', 'Tipus Tramit',
       'QualificaciÃ³ emissions calefacciÃ³', 'Emissions calefacciÃ³',
       'QualificaciÃ³ emissions refrigeraciÃ³', 'Emissions refrigeraciÃ³',
       'Q

TODO: S2.T1.1. NÃƒÂºmero de filas?

Comandos ÃƒÂºtiles

In [None]:
df.info()  # Devuelve informaciÃƒÂ³n bÃƒÂ¡sica de todas las columnas (nombre, tipo y cantidad de missing values)
df.index  # Devuelve el rango de los ÃƒÂ­ndices del dataframe (filas u observaciones)
len(df)  # Devuelve el nÃƒÂºmero de filas u observaciones del dataframe
df.axes  # Devuelve una lista con las filas y las columnas


803963<br>


TODO S2.T1.2. NÃƒÂºmero de columnas?

Comandos ÃƒÂºtiles

In [None]:
df.info()  # Devuelve informaciÃƒÂ³n bÃƒÂ¡sica de todas las columnas (nombre, tipo y cantidad de missing values)
len(df.columns)  # Devuelve el nÃƒÂºmero de columnas del dataframe
len(list(df))  # Devuelve la longitud de la lista que comprenden los nombres de las variables (columnas) del df


Responde aquÃƒÂ­<br>


TODO S2.T1.3. A quÃƒÂ© corresponde cada una de las filas?


Responde aquÃƒÂ­<br>


TODO S2.T1.4. Nombre, tipo (object, float64, int64,Ã¢â‚¬Â¦) y % de observaciones no nulas de las columnas?

Comandos ÃƒÂºtiles

In [None]:
df.info()  # Devuelve informaciÃƒÂ³n bÃƒÂ¡sica de todas las columnas (nombre, tipo y cantidad de missing values)
100*(df[df.columns].notnull()).mean()  # Devuelve el % de valores no nulos de las columnas


<br>
Pega aquÃƒÂ­ con "Ctrl + v" el resultado de ejecutar el comando df.info(), aÃƒÂ±adiendo el % posteriormente en la consola de PyCharm<br>
#   Column                                                  Non-Null Count   Dtype       No-Null % <br>
---  ------                                                  --------------   -----     ----------<br>
 0   NUM_CAS                                                 803963 non-null  object     100.00%<br>
 1   ADREÃƒâ€¡A                                                  803963 non-null  object     100.00%<br>
 2   NUMERO                                                  803919 non-null  object      99.99%<br>
 3   ESCALA                                                  164952 non-null  object      20.53%<br>
 <br>
...<br>



 S2.T2. CÃƒÂ³mo son las variables categÃƒÂ³ricas ?<br>
Explorar las variables categÃƒÂ³ricas de la base de datos. Se deben responder las siguientes cuestiones:<br>
Ã¯Æ’Ëœ S2T2.1. CuÃƒÂ¡les son las variables categÃƒÂ³ricas? No considerÃƒÂ©is las variables identificativas no informativas(NUM_CAS/REF CATASTRAL/NUMERO,Ã¢â‚¬Â¦ ).<br>
Ã¯Æ’Ëœ S2T2.2. Cuantas campos tiene cada variable categÃƒÂ³rica?<br>
Ã¯Æ’Ëœ S2T2.3.Para las variables que tengan hasta 10 categorÃƒÂ­as distintas, representad grÃƒÂ¡ficamente cÃƒÂ³mo se distribuyen las observaciones.<br>
Ã¯Æ’Ëœ S2T2.4.Para las variables que tengan desde 11-30 categorÃƒÂ­as distintas, cuantificad la distribuciÃƒÂ³n de observaciones en una tabla.<br>
Ã¯Æ’Ëœ S2T2.5.De las variables categÃƒÂ³ricas, cuÃƒÂ¡les observÃƒÂ¡is que requieren correcciones/modificaciones debido a una mala clasificaciÃƒÂ³n de sus categorÃƒÂ­as?<br>


TODO S2T2.1. CuÃƒÂ¡les son las variables categÃƒÂ³ricas?<br>
 No considerÃƒÂ©is las variables identificativas (NUM_CAS/REF CATASTRAL/NUMERO,Ã¢â‚¬Â¦ )<br>
 ni las variables que representan coordenadas para su geolocalizaciÃƒÂ³n (UTM_X, UTM_Y, LONGITUD, LATITUD, GEOREFERENCIA)

Comandos ÃƒÂºtiles

In [None]:
df["SOLAR TERMICA"].value_counts(dropna=False)  # DistribuciÃƒÂ³n de una variable en las distintas sub-categorÃƒÂ­as de la misma


'PIS', 'CODI_POSTAL','POBLACIO', 'COMARCA', 'NOM_PROVINCIA', 'REFERENCIA CADASTRAL',<br>
       'ZONA CLIMATICA', 'METRES_CADASTRE', 'ANY_CONSTRUCCIO', 'US_EDIFICI',<br>
       'QualificaciÃƒÂ³ de consum d'energia primaria no renovable',<br>
       'Energia primÃƒÂ ria no renovable', 'Qualificacio d'emissions de CO2',<br>
       'Emissions de CO2', 'Consum d'energia final',<br>
       'Cost anual aproximat d'energia per habitatge', 'VEHICLE ELECTRIC',<br>
       'SOLAR TERMICA', 'SOLAR FOTOVOLTAICA', 'SISTEMA BIOMASSA',<br>
       'XARXA DISTRICTE', 'ENERGIA GEOTERMICA', 'INFORME_INS_TECNICA_EDIFICI',<br>
       'Eina de certificacio', 'VALOR AILLAMENTS', 'VALOR FIENESTRES',<br>
       'Motiu de la certificacio', 'VALOR AILLAMENTS CTE',<br>
       'VALOR FINESTRES CTE', 'Normativa construcciÃƒÂ³', 'Tipus Tramit',<br>
       'QualificaciÃƒÂ³ emissions calefacciÃƒÂ³', 'Emissions calefacciÃƒÂ³',<br>
       'QualificaciÃƒÂ³ emissions refrigeraciÃƒÂ³', 'Emissions refrigeraciÃƒÂ³',<br>
       'QualificaciÃƒÂ³ emissions ACS', 'Emissions ACS',<br>
       'QualificaciÃƒÂ³ emissions enllumenament', 'Emissions enllumenament',<br>
       'QualificaciÃƒÂ³ energia calefacciÃƒÂ³', 'Energia calefacciÃƒÂ³',<br>
       'QualificaciÃƒÂ³ energia refrigeraciÃƒÂ³', 'Energia refrigeraciÃƒÂ³',<br>
       'QualificaciÃƒÂ³ energia ACS', 'Energia ACS',<br>
       'QualificaciÃƒÂ³ energia enllumenament', 'Energia enllumenament',<br>
       'QualificaciÃƒÂ³ energia calefacciÃƒÂ³ demanda', 'Energia calefacciÃƒÂ³ demanda',<br>
       'QualificaciÃƒÂ³ energia refrigeraciÃƒÂ³ demanda',<br>
       'Energia refrigeraciÃƒÂ³ demanda', 'VENTILACIO US RESIDENCIAL',<br>
       'TITULACIO_TECNIC', 'NOMB_PLANT_SOBRERASANT', 'NOMB_PLANT_BAJORASANT',<br>
       'COMPACITAT', 'PERC_SUPERF_ACRIST_NORD', 'PERC_SUPERF_ACRIST_NORDEST',<br>
       'PERC_SUPERF_ACRIST_EST', 'PERC_SUPERF_ACRIST_SUR',<br>
       'PERC_SUPERF_ACRIST_SUREST', 'PERC_SUPERF_ACRIST_SUROEST',<br>
       'PERC_SUPERF_ACRIST_OEST', 'PERC_SUPERF_ACRIST_NORDOEST'<br>


TODO S2T2.2. Cuantas categorÃƒÂ­as o grupos tiene cada variable categÃƒÂ³rica?

Ejemplo

In [None]:
len(df["PIS"].value_counts(dropna=False))  # NÃƒÂºmero de campos de PIS=1079

TAREA: Continuar con el resto de variables categÃƒÂ³ricas en el mismo formato que el Ejemplo (cÃƒÂ³digo + # Num. campos):

TODO S2T2.3. Para variables con hasta 10 categorÃƒÂ­as distintas, representad grÃƒÂ¡ficamente cÃƒÂ³mo se distribuyen las observaciones.

EJEMPLO. PodÃƒÂ©is usar uno u otro en funciÃƒÂ³n de cuÃƒÂ¡l os se represente mejor

In [None]:
df["NOM_PROVINCIA"].value_counts(dropna=False).plot(kind="pie", table=True, ylabel='NÃ‚Âº Observaciones')  # Para generar grÃƒÂ¡ficas "pie" con tabla de valores
df["NOM_PROVINCIA"].value_counts(dropna=False).plot(kind="pie", table=False, ylabel='NÃ‚Âº Observaciones', autopct='%.f')  # Para generar grÃƒÂ¡ficas "pie" con % de valores
df["NOM_PROVINCIA"].value_counts(dropna=False).plot(kind="bar", table=False, ylabel='NÃ‚Âº Observaciones')  # Para generar grÃƒÂ¡ficas "bar" sin tabla de valores

TAREA: Escribe el cÃƒÂ³digo ejecutado a continuaciÃƒÂ³n (como en el EJEMPLO).<br>
PodÃƒÂ©is guardar las grÃƒÂ¡ficas generadas en el formato que querÃƒÂ¡is (png, jpg, pdf, dentro de un powerpoint, etc.)

TODO S2T2.4. Para variables desde 11-30 categorÃƒÂ­as distintas, cuantificad la distribuciÃƒÂ³n de observaciones en una tabla.

EJEMPLO

In [None]:
df["Eina de certificacio"].value_counts(dropna=False)  # DistribuciÃƒÂ³n de una variable en las distintas sub-categorÃƒÂ­as de la misma

TAREA: Escribe el cÃƒÂ³digo ejecutado a continuaciÃƒÂ³n (como en el EJEMPLO).<br>
PodÃƒÂ©is guardas las tablas generadas en de la forma que querÃƒÂ¡is. Por ejemplo, una opciÃƒÂ³n serÃƒÂ­a asignar la tabla a una variable auxilar:<br>
aux = df["Eina de certificacio"].value_counts(dropna=False)<br>
En el visualizador de variables de Pycharm, seleccionar la opciÃƒÂ³n "View as Series" al final de la serie "aux" y hacer recortes de la misma.

TODO S2T2.5. QuÃƒÂ© variables requieren correcciones/modificaciones?

EJEMPLO de variables que requieren correcciones/modificaciones.

In [None]:
"PIS"  # Hay 1391 categorÃƒÂ­as, deberÃƒÂ­an ser muchas menos. Hay que agruparlas corrigiendo ortografÃƒÂ­a, etc.
"NOM_PROVINCIA"  # Hay 9 categorÃƒÂ­as, deberÃƒÂ­an ser 4. Hay que agruparlas corrigiendo ortografÃƒÂ­a, etc.

TAREA: Completa la lista con el mismo formato que en el EJEMPLO: "Nombre_variable"  # Comentario sobre la variable


 S2.T3. CÃƒÂ³mo son las variables continuas?<br>
Hacer una exploraciÃƒÂ³n de las variables continuas. Se deben responder las siguientes cuestiones:<br>
Ã¯Æ’Ëœ S2.T3.1. CuÃƒÂ¡les son las variables continuas?<br>
Ã¯Æ’Ëœ S2.T3.2. Indica informaciÃƒÂ³n estadÃƒÂ­stica bÃƒÂ¡sica de todas las variables continuas que lo permitan (Max, min, mean, 25%, 50%, 75%)<br>
Ã¯Æ’Ëœ S2.T3.3. Haced una representaciÃƒÂ³n grÃƒÂ¡fica de cÃƒÂ³mo se distribuyen las observaciones dentro de cada variable continua<br>
Ã¯Æ’Ëœ S2.T3.4. CuÃƒÂ¡les de ellas requieren de modificaciones/correcciones?<br>


Comandos ÃƒÅ¡tiles

In [None]:
df['Nombre_columna'].describe()  # InformaciÃƒÂ³n estadÃƒÂ­stica bÃƒÂ¡sica de la variable
df["Nombre_columna"].plot(kind='box', showfliers=False)  # Grafica la distribuciÃƒÂ³n de una variable categÃƒÂ³rica en un grÃƒÂ¡fico circular o barras
sns.kdeplot(data=[df['METRES_CADASTRE']])  # Grafica la distribuciÃƒÂ³n de una variable continua en un grÃƒÂ¡fico de densidad

TODO  S2.T3.1. CuÃƒÂ¡les son las variables continuas?


Responde aquÃƒÂ­<br>


TODO  S2.T3.2.Indica informaciÃƒÂ³n estadÃƒÂ­stica bÃƒÂ¡sica de todas las variables continuas que lo permitan (Max, min, mean, 25%, 50%, 75%)

EJEMPLO

In [None]:
df['METRES_CADASTRE'].describe()  # InformaciÃƒÂ³n estadÃƒÂ­stica bÃƒÂ¡sica de la variable
"""
count    803963.000000
mean        118.220566
std         792.555969
min           0.000000
25%          54.750000
50%          71.000000
75%          95.540001
max      357792.000000"""

TAREA: Escribe el cÃƒÂ³digo ejecutado a continuaciÃƒÂ³n (como en el EJEMPLO).

TODO  S2.T3.3.Haced la representaciÃƒÂ³n grÃƒÂ¡fica de la distribuciÃƒÂ³n de las observaciones dentro de cada variable continua

EJEMPLO

In [None]:
df['METRES_CADASTRE'].plot(kind='box', showfliers=False, ylabel='m2')  # Grafica la distribuciÃƒÂ³n de una variable contÃƒÂ­nua en un grÃƒÂ¡fico de cajas

TAREA: Escribe el cÃƒÂ³digo ejecutado a continuaciÃƒÂ³n (como en el EJEMPLO).<br>
PodÃƒÂ©is guardar las grÃƒÂ¡ficas generadas en el formato que querÃƒÂ¡is (png, jpg, pdf, dentro de un powerpoint, etc.)

TODO  S2.T3.4. CuÃƒÂ¡les de ellas requieren de modificaciones/correcciones?

EJEMPLO variables continuas que requieren correcciones/modificaciones.

In [None]:
'ANY_CONSTRUCCIO'  # PROBLEMAS por ser dtype object. Tiene valores numÃƒÂ©ricos y strings combinados. Hay que limpiarlo.

TAREA: Completa la lista con el mismo formato que en el EJEMPLO: "Nombre_variable"  # Comentario sobre la variable