# Preparación y exploración de datos

Una vez conocidas las estructuras de datos de pandas, las operaciones básicas que se pueden realizar sobre las mismas y el modo en el que realizar la carga y almacenamiento de dichas estructuras en discos, vamos a centrarnos en aquellas funcionalidades ofrecidas por pandas que están más orientadas al tratamiento y análisis de datos.

In [1]:
import numpy as np
import pandas as pd

## Gestión de datos en blanco (<i>missing values</i>)

En la mayoría de los ficheros utilizados como fuente de datos, es muy común la existencia de valores nulos (en blanco, <i>missing</i>...). Estos "huecos" en la información suelen ser muy problemáticos ya que tiene un impacto importante a la hora de realizar cualquier tipo de cálculo numérico y son difícilmente interpretables.<br/>
Uno de los objetivos de pandas en su construcción fue facilitar el tratamiento de este tipo de datos no existentes ofreciendo múltiples funciones que permiten llevar a cabo tanto su detección, como su eliminación o imputación...

#### Detección de <i>missing values</i>

Pandas ofrece principalmente dos funciones para manejar la detección de valores nulos.<br/>
<ul>
<li><b>isnull:</b> Que devuelve una Serie o DataFrame booleano indicando qué elemetos son NaN o None.</li>
<li><b>notnull:</b> Que devuelve el inverso del anterior.</li>

In [2]:
catastro = pd.read_table('datos/catastro.tsv',nrows=10)

print("Detección de valores nulos")
display(catastro.isnull())

print("\nDetección de valores no nulos")
display(catastro.notnull())

Detección de valores nulos


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,False,True,False
5,False,False,False,False,False,False,False,False,False,False,True,False
6,False,False,False,False,False,False,False,False,True,True,False,False
7,False,False,False,False,False,False,False,False,False,False,True,False
8,False,False,False,False,False,False,False,False,False,False,True,False
9,False,False,False,False,False,False,False,False,False,False,True,False



Detección de valores no nulos


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,True,True,True,True,True,True,True,True,True,True,False,True
1,True,True,True,True,True,True,True,True,True,True,False,True
2,True,True,True,True,True,True,True,True,True,True,False,True
3,True,True,True,True,True,True,True,True,True,True,False,True
4,True,True,True,True,True,True,True,True,True,True,False,True
5,True,True,True,True,True,True,True,True,True,True,False,True
6,True,True,True,True,True,True,True,True,False,False,True,True
7,True,True,True,True,True,True,True,True,True,True,False,True
8,True,True,True,True,True,True,True,True,True,True,False,True
9,True,True,True,True,True,True,True,True,True,True,False,True


#### Eliminación de registros con <i>missing values</i>

Aunque SIEMPRE conviene hacer un estudio cuidadoso del por qué y la casuística de los valores nulos, uno de los posibles tratamientos a aplicar es su eliminación directa del set de datos. Pandas, nos ofrece el método <b>dropna</b> para llevar a cabo esta tarea. Los parámetros de este método son:<br/>
<ul>
<li><b>axis:</b> Selección de eje sobre el que realizar la eliminación.</li>
<li><b>how:</b> Tomará posibles valores 'any' y 'all' e indica si se debe eliminar la fila o columna cuando haya uno o más valores NaN o cuando todos los valores sean NaN.</li>
<li><b>thresh:</b> Permite indicar, el número de observaciones no nulas que se deben tener para no realizar el borrado.</li>
</ul>

In [3]:
print("Datos")
display(catastro)

print("Eliminación de filas con al menos 1 NA")
display(catastro.dropna(axis=0,how='any'))

print("\nEliminación de columnas con al menos 1 NA")
display(catastro.dropna(axis=1, how='any'))

Datos


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


Eliminación de filas con al menos 1 NA


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral



Eliminación de columnas con al menos 1 NA


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,114254200.0


In [4]:
#Drop the rows where all elements are missing.
catastro.dropna(how='all')

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [5]:
print("\nEliminación de filas con 2 o más NA")
display(catastro.dropna(thresh=11))  

#NOTES: thresh="1,2,3,..." parameter
#if I have at least "1,2,3,..." non-NA value(s), then keep the row
#indicates the number of valid values in order to keep the row


Eliminación de filas con 2 o más NA


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [6]:
#Define in which columns to look for missing values.
catastro.dropna(subset=['año_cons_medio','sup_cons'])

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [7]:
#Keep the DataFrame with valid entries in the same variable: inplace=True
catastro.dropna(inplace=True, axis=1)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,114254200.0


#### Imputación de registros con <i>missing values</i>

Existirán casos en los que no se desee (o no se pueda) eliminar los registros con valores nulos (p.e. podrían suponer un porcentaje demasiado elevado de nuestro set de datos). En estos casos, habrá que realizar una imputación de los mismos a un valor preestablecido.<br/>
Pandas pone a nuestra disposición el método <b>fillna</b>, que cuenta con los siguientes parámetros:<br/>
<ul>
<li><b>axis:</b> Que decide si aplicará el criterio de relleno por filas o columnas.</li>
<li><b>value:</b> Que rellena los valores nulos a un valor fijo.</li>
<li><b>method:</b> Que permitirá establecer un criterio de relleno de entre los siguientes:
<ul>
<li>ffill: Relleno en base a la observación de los últimos elementos no nulos.</li>
<li>bfill: Relleno en base a la observación de los próximos elementos no nulos.</li>
</ul>
<li><b>limit:</b> Contador máximo de elmentos imputados.</li>
</ul>

In [8]:
catastro = pd.read_table('datos/catastro.tsv', nrows=10)

print('Imputación de valores a 0')
display(catastro.fillna(0))

Imputación de valores a 0


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,0.0,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,0.0,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,0.0,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,0.0,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,0.0,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,0.0,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,0.0,0.0,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,0.0,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,0.0,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,0.0,114254200.0


In [9]:
print("Imputación de valores por valor anterior (por columnas)")
display(catastro.fillna(method='ffill'))

Imputación de valores por valor anterior (por columnas)


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,1946.0,7238.0,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,130010.0,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,130010.0,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,130010.0,114254200.0


In [10]:
print("Imputación de valores por valor siguiente (por columnas)")
display(catastro.fillna(method='bfill'))

Imputación de valores por valor siguiente (por columnas)


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,130010.0,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,130010.0,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,130010.0,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,130010.0,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,130010.0,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,130010.0,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,1947.0,196893.0,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


## Resumen de datos y estadísticos básicos

Al igual que NumPy, pandas ofrece un conjunto amplio de funciones para llevar a cabo un análisis estadístico de datos.  Las más relevantes serían:<br/>
<ul>
<li><b>describe:</b> Presenta un conjunto con las estadísticas básicas más comunes calculadas sobre todas las columnas de la estructura. Equivalente a la función <i>summary</i> de R.</li>
<li><b>count:</b> Número de elementos no nulos.</li>
<li><b>min, max:</b> Valor mínimo y máximo.</li>
<li><b>argmin, argmax, idxmax, idxmin:</b> Posiciones con valor mínimo y máximo.</li>
<li><b>quantile:</b> Cuantil calculado.</li>
<li><b>sum:</b> Suma de elementos.</li>
<li><b>mean:</b> Media aritmética de los elementos.</li>
<li><b>median:</b> Mediana de los elementos.</li>
<li><b>std:</b> Desviación estándar de los elementos.</li>
<li><b>var:</b> Varianza de los elementos.</li>
<li><b>cumsum:</b> Suma acumulada de los elementos.</li>
<li><b>cumprod:</b> Producto acumulado de los elementos.</li>
</ul>

La mayor parte de estos métodos, podrán recibir los siguientes parámetros:
<ul>
<li><b>axis:</b> Que indica si realizar el cálculo por filas o columnas.</li>
<li><b>skipna:</b> Que indica si se deben ignorar o no los valores NaN a la hora de realizar los cálculos.</li>
</ul>

In [11]:
catastro = pd.read_table('datos/catastro.tsv')

print("Estadísticos básicos sobre el data set")
catastro.describe()

Estadísticos básicos sobre el data set


Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
count,3030.0,3030.0,3030.0,3030.0,2779.0,2779.0,251.0,3030.0
mean,2013.50066,10.409571,107.859076,1403.419472,1970.994602,186915.2,853546.4,189544200.0
std,0.500082,5.799578,58.035732,3845.856589,50.989196,411341.4,3104010.0,464089400.0
min,2013.0,1.0,11.0,1.0,283.0,26.0,261.0,16058.25
25%,2013.0,6.0,61.0,5.0,1964.0,7903.0,24855.0,6932275.0
50%,2014.0,10.0,105.0,21.5,1974.0,35464.0,85799.0,28963450.0
75%,2014.0,15.0,155.0,369.0,1984.0,137430.0,341138.5,109683700.0
max,2014.0,21.0,215.0,36289.0,2013.0,4511346.0,23970700.0,3670799000.0


In [12]:
catastro.count()

año                3030
id_distrito        3030
distrito           3030
id_barrio          3030
barrio             3030
id_uso             3030
uso                3030
num_inmuebles      3030
año_cons_medio     2779
sup_cons           2779
sup_suelo           251
valor_catastral    3030
dtype: int64

In [13]:
catastro.max()

año                                                             2014
id_distrito                                                       21
distrito                                                  Villaverde
id_barrio                                                        215
barrio                                                         ZOFÍO
id_uso                                                             Y
uso                Suelos sin edificar, obras de urbanización y j...
num_inmuebles                                                  36289
año_cons_medio                                                2013.0
sup_cons                                                   4511346.0
sup_suelo                                                 23970701.0
valor_catastral                                        3670798558.94
dtype: object

In [14]:
#Nota: estas funciones se utilizan en series
print('Posición del valor mínimo:',catastro.sup_cons.argmin())
print('Posición del valor máximo:',catastro.sup_cons.argmax())

#Nota: estas funciones se utilizan en dataframes
print('\nPosición del valor máximo:')
print(catastro[['año_cons_medio','sup_cons','sup_suelo']].idxmax()) #error con valores no numéricos

Posición del valor mínimo: 1392
Posición del valor máximo: 2161

Posición del valor máximo:
año_cons_medio     149
sup_cons          2161
sup_suelo         2839
dtype: int64


In [15]:
catastro.quantile([.25,.5,.75])

Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0.25,2013.0,6.0,61.0,5.0,1964.0,7903.0,24855.0,6932275.0
0.5,2014.0,10.0,105.0,21.5,1974.0,35464.0,85799.0,28963450.0
0.75,2014.0,15.0,155.0,369.0,1984.0,137430.0,341138.5,109683700.0


In [16]:
catastro[['num_inmuebles','año_cons_medio','sup_cons','sup_suelo','valor_catastral']].sum(skipna=True)

num_inmuebles      4.252361e+06
año_cons_medio     5.477394e+06
sup_cons           5.194373e+08
sup_suelo          2.142401e+08
valor_catastral    5.743189e+11
dtype: float64

In [17]:
catastro[['num_inmuebles','año_cons_medio','sup_cons','sup_suelo','valor_catastral']].mean(skipna=True)

num_inmuebles      1.403419e+03
año_cons_medio     1.970995e+03
sup_cons           1.869152e+05
sup_suelo          8.535464e+05
valor_catastral    1.895442e+08
dtype: float64

In [18]:
catastro[['num_inmuebles','año_cons_medio','sup_cons','sup_suelo','valor_catastral']].head().cumsum()

Unnamed: 0,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,3034,1969.0,214457.0,,129525900.0
1,4441,3890.0,438009.0,,537131400.0
2,4477,5827.0,500972.0,,612960100.0
3,4731,7746.0,615198.0,,808373900.0
4,4753,9688.0,628426.0,,820181900.0


In [20]:
catastro[['num_inmuebles','año_cons_medio','sup_cons','sup_suelo','valor_catastral']].head().cumprod()

Unnamed: 0,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,3034,1969.0,214457.0,,129525900.0
1,4268838,3782449.0,47942290000.0,,5.279547e+16
2,153678168,7326604000.0,3018590000000000.0,,4.003412e+24
3,39034254672,14059750000000.0,3.448015e+20,,7.823222e+32
4,858753602784,2.730404e+16,4.561034e+24,,9.237621e+39


## Matrices de correlación y covarianzas

Dada su utilidad y su importancia de cara a la comprensión del contenido de un data set, sobre todo en un entorno orientado a la modelización (p.e. aprendizaje automático), pandas facilita el cálculo de matrices de correlación y covarianza ofreciendo las funciones <b>corr</b> y <b>cov</b>.

In [23]:
print("Matriz de correlación")
display(catastro.corr())

print("\nMatriz de covarianzas")
display(catastro.cov())

Matriz de correlación


Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
año,1.0,0.000305,0.00035,0.000803,0.00643,0.001279,-0.002458,0.00045
id_distrito,0.000305,1.0,0.999401,-0.012786,0.16351,-0.034005,0.220602,-0.105906
id_barrio,0.00035,0.999401,1.0,-0.01358,0.163636,-0.03441,0.214936,-0.106108
num_inmuebles,0.000803,-0.012786,-0.01358,1.0,0.029541,0.855491,0.850128,0.789303
año_cons_medio,0.00643,0.16351,0.163636,0.029541,1.0,0.019148,,-0.016171
sup_cons,0.001279,-0.034005,-0.03441,0.855491,0.019148,1.0,,0.898212
sup_suelo,-0.002458,0.220602,0.214936,0.850128,,,1.0,0.731968
valor_catastral,0.00045,-0.105906,-0.106108,0.789303,-0.016171,0.898212,0.731968,1.0



Matriz de covarianzas


Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
año,0.250082,0.0008850637,0.01016238,1.545283,0.1639717,263.0409,-3822.607,104488.1
id_distrito,0.000885,33.6351,336.3813,-285.1801,48.40108,-81203.45,3934674.0,-285049300.0
id_barrio,0.010162,336.3813,3368.146,-3031.047,484.7186,-822277.7,38361480.0,-2857900000.0
num_inmuebles,1.545283,-285.1801,-3031.047,14790610.0,6016.932,1405670000.0,621073800.0,1408765000000.0
año_cons_medio,0.163972,48.40108,484.7186,6016.932,2599.898,401599.1,,-395504400.0
sup_cons,263.040881,-81203.45,-822277.7,1405670000.0,401599.1,169201700000.0,,177218700000000.0
sup_suelo,-3822.607219,3934674.0,38361480.0,621073800.0,,,9634879000000.0,456918700000000.0
valor_catastral,104488.083481,-285049300.0,-2857900000.0,1408765000000.0,-395504400.0,177218700000000.0,456918700000000.0,2.15379e+17
