# Preparación y exploración de datos

Una vez conocidas las estructuras de datos de pandas, las operaciones básicas que se pueden realizar sobre las mismas y el modo en el que realizar la carga y almacenamiento de dichas estructuras en discos, vamos a centrarnos en aquellas funcionalidades ofrecidas por pandas que están más orientadas al tratamiento y análisis de datos.

In [1]:
import numpy as np
import pandas as pd

## Gestión de datos en blanco (<i>missing values</i>)

En la mayoría de los ficheros utilizados como fuente de datos, es muy común la existencia de valores nulos (en blanco, <i>missing</i>...). Estos "huecos" en la información suelen ser muy problemáticos ya que tiene un impacto importante a la hora de realizar cualquier tipo de cálculo numérico y son difícilmente interpretables.<br/>
Uno de los objetivos de pandas en su construcción fue facilitar el tratamiento de este tipo de datos no existentes ofreciendo múltiples funciones que permiten llevar a cabo tanto su detección, como su eliminación o imputación...

#### Detección de <i>missing values</i>

Pandas ofrece principalmente dos funciones para manejar la detección de valores nulos.<br/>
<ul>
<li><b>isnull:</b> Que devuelve una Serie o DataFrame booleano indicando qué elemetos son NaN o None.</li>
<li><b>notnull:</b> Que devuelve el inverso del anterior.</li>

In [2]:
catastro = pd.read_table('datos/catastro.tsv',nrows=10)

print("Detección de valores nulos")
display(catastro.isnull())

print("\nDetección de valores no nulos")
display(catastro.notnull())

Detección de valores nulos


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,False,True,False
5,False,False,False,False,False,False,False,False,False,False,True,False
6,False,False,False,False,False,False,False,False,True,True,False,False
7,False,False,False,False,False,False,False,False,False,False,True,False
8,False,False,False,False,False,False,False,False,False,False,True,False
9,False,False,False,False,False,False,False,False,False,False,True,False



Detección de valores no nulos


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,True,True,True,True,True,True,True,True,True,True,False,True
1,True,True,True,True,True,True,True,True,True,True,False,True
2,True,True,True,True,True,True,True,True,True,True,False,True
3,True,True,True,True,True,True,True,True,True,True,False,True
4,True,True,True,True,True,True,True,True,True,True,False,True
5,True,True,True,True,True,True,True,True,True,True,False,True
6,True,True,True,True,True,True,True,True,False,False,True,True
7,True,True,True,True,True,True,True,True,True,True,False,True
8,True,True,True,True,True,True,True,True,True,True,False,True
9,True,True,True,True,True,True,True,True,True,True,False,True


#### Eliminación de registros con <i>missing values</i>

Aunque SIEMPRE conviene hacer un estudio cuidadoso del por qué y la casuística de los valores nulos, uno de los posibles tratamientos a aplicar es su eliminación directa del set de datos. Pandas, nos ofrece el método <b>dropna</b> para llevar a cabo esta tarea. Los parámetros de este método son:<br/>
<ul>
<li><b>axis:</b> Selección de eje sobre el que realizar la eliminación.</li>
<li><b>how:</b> Tomará posibles valores 'any' y 'all' e indica si se debe eliminar la fila o columna cuando haya uno o más valores NaN o cuando todos los valores sean NaN.</li>
<li><b>thresh:</b> Permite indicar, el número de observaciones no nulas que se deben tener para no realizar el borrado.</li>
</ul>

In [3]:
print("Datos")
display(catastro)

print("Eliminación de filas con al menos 1 NA")
display(catastro.dropna(axis=0,how='any'))

print("\nEliminación de columnas con al menos 1 NA")
display(catastro.dropna(axis=1, how='any'))

Datos


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


Eliminación de filas con al menos 1 NA


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral



Eliminación de columnas con al menos 1 NA


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,114254200.0


In [4]:
#Drop the rows where all elements are missing.
catastro.dropna(how='all')

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [5]:
print("\nEliminación de filas con 2 o más NA")
display(catastro.dropna(thresh=11))  

#NOTES: thresh="1,2,3,..." parameter
#if I have at least "1,2,3,..." non-NA value(s), then keep the row
#indicates the number of valid values in order to keep the row


Eliminación de filas con 2 o más NA


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [6]:
#Define in which columns to look for missing values.
catastro.dropna(subset=['año_cons_medio','sup_cons'])

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [7]:
#Keep the DataFrame with valid entries in the same variable: inplace=True
catastro.dropna(inplace=True, axis=1)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,114254200.0


#### Imputación de registros con <i>missing values</i>

Existirán casos en los que no se desee (o no se pueda) eliminar los registros con valores nulos (p.e. podrían suponer un porcentaje demasiado elevado de nuestro set de datos). En estos casos, habrá que realizar una imputación de los mismos a un valor preestablecido.<br/>
Pandas pone a nuestra disposición el método <b>fillna</b>, que cuenta con los siguientes parámetros:<br/>
<ul>
<li><b>axis:</b> Que decide si aplicará el criterio de relleno por filas o columnas.</li>
<li><b>value:</b> Que rellena los valores nulos a un valor fijo.</li>
<li><b>method:</b> Que permitirá establecer un criterio de relleno de entre los siguientes:
<ul>
<li>ffill: Relleno en base a la observación de los últimos elementos no nulos.</li>
<li>bfill: Relleno en base a la observación de los próximos elementos no nulos.</li>
</ul>
<li><b>limit:</b> Contador máximo de elmentos imputados.</li>
</ul>

In [8]:
catastro = pd.read_table('datos/catastro.tsv', nrows=10)

print('Imputación de valores a 0')
display(catastro.fillna(0))

Imputación de valores a 0


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,0.0,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,0.0,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,0.0,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,0.0,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,0.0,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,0.0,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,0.0,0.0,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,0.0,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,0.0,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,0.0,114254200.0


In [9]:
print("Imputación de valores por valor anterior (por columnas)")
display(catastro.fillna(method='ffill'))

Imputación de valores por valor anterior (por columnas)


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,1946.0,7238.0,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,130010.0,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,130010.0,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,130010.0,114254200.0


In [10]:
print("Imputación de valores por valor siguiente (por columnas)")
display(catastro.fillna(method='bfill'))

Imputación de valores por valor siguiente (por columnas)


Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,130010.0,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,130010.0,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,130010.0,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,130010.0,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,130010.0,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,130010.0,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,1947.0,196893.0,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


## Resumen de datos y estadísticos básicos

Al igual que NumPy, pandas ofrece un conjunto amplio de funciones para llevar a cabo un análisis estadístico de datos.  Las más relevantes serían:<br/>
<ul>
<li><b>describe:</b> Presenta un conjunto con las estadísticas básicas más comunes calculadas sobre todas las columnas de la estructura. Equivalente a la función <i>summary</i> de R.</li>
<li><b>count:</b> Número de elementos no nulos.</li>
<li><b>min, max:</b> Valor mínimo y máximo.</li>
<li><b>argmin, argmax, idxmax, idxmin:</b> Posiciones con valor mínimo y máximo.</li>
<li><b>quantile:</b> Cuantil calculado.</li>
<li><b>sum:</b> Suma de elementos.</li>
<li><b>mean:</b> Media aritmética de los elementos.</li>
<li><b>median:</b> Mediana de los elementos.</li>
<li><b>std:</b> Desviación estándar de los elementos.</li>
<li><b>var:</b> Varianza de los elementos.</li>
<li><b>cumsum:</b> Suma acumulada de los elementos.</li>
<li><b>cumprod:</b> Producto acumulado de los elementos.</li>
</ul>

La mayor parte de estos métodos, podrán recibir los siguientes parámetros:
<ul>
<li><b>axis:</b> Que indica si realizar el cálculo por filas o columnas.</li>
<li><b>skipna:</b> Que indica si se deben ignorar o no los valores NaN a la hora de realizar los cálculos.</li>
</ul>

In [11]:
catastro = pd.read_table('datos/catastro.tsv')

print("Estadísticos básicos sobre el data set")
catastro.describe()

Estadísticos básicos sobre el data set


Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
count,3030.0,3030.0,3030.0,3030.0,2779.0,2779.0,251.0,3030.0
mean,2013.50066,10.409571,107.859076,1403.419472,1970.994602,186915.2,853546.4,189544200.0
std,0.500082,5.799578,58.035732,3845.856589,50.989196,411341.4,3104010.0,464089400.0
min,2013.0,1.0,11.0,1.0,283.0,26.0,261.0,16058.25
25%,2013.0,6.0,61.0,5.0,1964.0,7903.0,24855.0,6932275.0
50%,2014.0,10.0,105.0,21.5,1974.0,35464.0,85799.0,28963450.0
75%,2014.0,15.0,155.0,369.0,1984.0,137430.0,341138.5,109683700.0
max,2014.0,21.0,215.0,36289.0,2013.0,4511346.0,23970700.0,3670799000.0


In [12]:
catastro.count()

año                3030
id_distrito        3030
distrito           3030
id_barrio          3030
barrio             3030
id_uso             3030
uso                3030
num_inmuebles      3030
año_cons_medio     2779
sup_cons           2779
sup_suelo           251
valor_catastral    3030
dtype: int64

In [13]:
catastro.max()

año                                                             2014
id_distrito                                                       21
distrito                                                  Villaverde
id_barrio                                                        215
barrio                                                         ZOFÍO
id_uso                                                             Y
uso                Suelos sin edificar, obras de urbanización y j...
num_inmuebles                                                  36289
año_cons_medio                                                2013.0
sup_cons                                                   4511346.0
sup_suelo                                                 23970701.0
valor_catastral                                        3670798558.94
dtype: object

In [14]:
#Nota: estas funciones se utilizan en series
print('Posición del valor mínimo:',catastro.sup_cons.argmin())
print('Posición del valor máximo:',catastro.sup_cons.argmax())

#Nota: estas funciones se utilizan en dataframes
print('\nPosición del valor máximo:')
print(catastro[['año_cons_medio','sup_cons','sup_suelo']].idxmax()) #error con valores no numéricos

Posición del valor mínimo: 1392
Posición del valor máximo: 2161

Posición del valor máximo:
año_cons_medio     149
sup_cons          2161
sup_suelo         2839
dtype: int64


In [15]:
catastro.quantile([.25,.5,.75])

Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0.25,2013.0,6.0,61.0,5.0,1964.0,7903.0,24855.0,6932275.0
0.5,2014.0,10.0,105.0,21.5,1974.0,35464.0,85799.0,28963450.0
0.75,2014.0,15.0,155.0,369.0,1984.0,137430.0,341138.5,109683700.0


In [16]:
catastro[['num_inmuebles','año_cons_medio','sup_cons','sup_suelo','valor_catastral']].sum(skipna=True)

num_inmuebles      4.252361e+06
año_cons_medio     5.477394e+06
sup_cons           5.194373e+08
sup_suelo          2.142401e+08
valor_catastral    5.743189e+11
dtype: float64

In [17]:
catastro[['num_inmuebles','año_cons_medio','sup_cons','sup_suelo','valor_catastral']].mean(skipna=True)

num_inmuebles      1.403419e+03
año_cons_medio     1.970995e+03
sup_cons           1.869152e+05
sup_suelo          8.535464e+05
valor_catastral    1.895442e+08
dtype: float64

In [18]:
catastro[['num_inmuebles','año_cons_medio','sup_cons','sup_suelo','valor_catastral']].head().cumsum()

Unnamed: 0,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,3034,1969.0,214457.0,,129525900.0
1,4441,3890.0,438009.0,,537131400.0
2,4477,5827.0,500972.0,,612960100.0
3,4731,7746.0,615198.0,,808373900.0
4,4753,9688.0,628426.0,,820181900.0


In [19]:
catastro[['num_inmuebles','año_cons_medio','sup_cons','sup_suelo','valor_catastral']].head().cumprod()

Unnamed: 0,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,3034,1969.0,214457.0,,129525900.0
1,4268838,3782449.0,47942290000.0,,5.279547e+16
2,153678168,7326604000.0,3018590000000000.0,,4.003412e+24
3,39034254672,14059750000000.0,3.448015e+20,,7.823222e+32
4,858753602784,2.730404e+16,4.561034e+24,,9.237621e+39


## Matrices de correlación y covarianzas

Dada su utilidad y su importancia de cara a la comprensión del contenido de un data set, sobre todo en un entorno orientado a la modelización (p.e. aprendizaje automático), pandas facilita el cálculo de matrices de correlación y covarianza ofreciendo las funciones <b>corr</b> y <b>cov</b>.

In [20]:
print("Matriz de correlación")
display(catastro.corr())

print("\nMatriz de covarianzas")
display(catastro.cov())

Matriz de correlación


Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
año,1.0,0.000305,0.00035,0.000803,0.00643,0.001279,-0.002458,0.00045
id_distrito,0.000305,1.0,0.999401,-0.012786,0.16351,-0.034005,0.220602,-0.105906
id_barrio,0.00035,0.999401,1.0,-0.01358,0.163636,-0.03441,0.214936,-0.106108
num_inmuebles,0.000803,-0.012786,-0.01358,1.0,0.029541,0.855491,0.850128,0.789303
año_cons_medio,0.00643,0.16351,0.163636,0.029541,1.0,0.019148,,-0.016171
sup_cons,0.001279,-0.034005,-0.03441,0.855491,0.019148,1.0,,0.898212
sup_suelo,-0.002458,0.220602,0.214936,0.850128,,,1.0,0.731968
valor_catastral,0.00045,-0.105906,-0.106108,0.789303,-0.016171,0.898212,0.731968,1.0



Matriz de covarianzas


Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
año,0.250082,0.0008850637,0.01016238,1.545283,0.1639717,263.0409,-3822.607,104488.1
id_distrito,0.000885,33.6351,336.3813,-285.1801,48.40108,-81203.45,3934674.0,-285049300.0
id_barrio,0.010162,336.3813,3368.146,-3031.047,484.7186,-822277.7,38361480.0,-2857900000.0
num_inmuebles,1.545283,-285.1801,-3031.047,14790610.0,6016.932,1405670000.0,621073800.0,1408765000000.0
año_cons_medio,0.163972,48.40108,484.7186,6016.932,2599.898,401599.1,,-395504400.0
sup_cons,263.040881,-81203.45,-822277.7,1405670000.0,401599.1,169201700000.0,,177218700000000.0
sup_suelo,-3822.607219,3934674.0,38361480.0,621073800.0,,,9634879000000.0,456918700000000.0
valor_catastral,104488.083481,-285049300.0,-2857900000.0,1408765000000.0,-395504400.0,177218700000000.0,456918700000000.0,2.15379e+17


## Elementos únicos y frecuencias

En Python no contamos con una estructura de datos como los <i>factores</i> de R, orientados completamente al almacenamiento y gestión de valores discretos. Por ello, pandas pone a nuestra disposición un conjunto de funciones que nos permiten hacer el análisis de este tipo de información como son:<br/>
<ul>
<li><b>unique</b>: Que nos devuelve un array con el conjunto de elementos únicos de una Serie.</li>
<li><b>value_counts</b>: Que realiza un cálculo de frecuencias sobre los elementos únicos de una Serie.</li>
<li><b>isin:</b> Que nos permite chequear si un conjunto de valores se encuentra en una Serie.</li>
</ul>

In [21]:
print("Conjunto de de barrios")
catastro.barrio.unique()

Conjunto de de barrios


array(['PALACIO', 'EMBAJADORES', 'CORTES', 'JUSTICIA', 'UNIVERSIDAD',
       'SOL', 'IMPERIAL', 'ACACIAS', 'CHOPERA', 'LEGAZPI', 'DELICIAS',
       'PALOS DE MOGUER', 'ATOCHA', 'PACÍFICO', 'ADELFAS', 'ESTRELLA',
       'IBIZA', 'LOS JERÓNIMOS', 'NIÑO JESÚS', 'RECOLETOS', 'GOYA',
       'FUENTE DEL BERRO', 'GUINDALERA', 'LISTA', 'CASTELLANA', 'EL VISO',
       'PROSPERIDAD', 'CIUDAD JARDÍN', 'HISPANOAMÉRICA', 'NUEVA ESPAÑA',
       'CASTILLA', 'BELLAS VISTAS', 'CUATRO CAMINOS', 'CASTILLEJOS',
       'ALMENARA', 'VALDEACEDERAS', 'BERRUGUETE', 'GAZTAMBIDE',
       'ARAPILES', 'TRAFALGAR', 'ALMAGRO', 'RIOS ROSAS', 'VALLEHERMOSO',
       'EL PARDO', 'FUENTELARREINA', 'PEÑA GRANDE', 'EL PILAR', 'LA PAZ',
       'VALVERDE', 'MIRASIERRA', 'EL GOLOSO', 'CASA DE CAMPO',
       'ARGÜELLES', 'CIUDAD UNIVERSITARIA', 'VALDEZARZA', 'VALDEMARÍN',
       'EL PLANTÍO', 'ARAVACA', 'LOS CARMENES', 'PUERTA DEL ANGEL',
       'LUCERO', 'ALUCHE', 'CAMPAMENTO', 'CUATRO VIENTOS', 'LAS AGUILAS',
       'COMILLA

In [22]:
print("Tabla de frecuencias de distritos")
print(catastro.distrito.value_counts().head())

Tabla de frecuencias de distritos
Ciudad Lineal            214
Fuencarral - El Pardo    189
San Blas                 186
Moncloa - Aravaca        172
Carabanchel              166
Name: distrito, dtype: int64


In [23]:
print("Chequeo de existencia de distritos")
print(catastro.distrito.isin(['Centro', 'Retiro']))

Chequeo de existencia de distritos
0        True
1        True
2        True
3        True
4        True
        ...  
3025    False
3026    False
3027    False
3028    False
3029    False
Name: distrito, Length: 3030, dtype: bool


## Aplicación de funciones sobre estructuras

Al igual que en R tenemos la familia de funciones <i>apply</i>, pandas pone a nuestra disposición un conjunto de funciones que nos permiten aplicar operaciones elemento a elemento (o fila a fila, o columna a columna) en sus estructuras de datos. En concreto disponemos de tres funciones.

#### Aplicación de funciones elemento a elemento sobre Series - Función map

In [24]:
serie = pd.Series([1,2,3,4,5,6])

def es_par(elemento):
    if elemento % 2 == 0:
        return 'PAR:' + str(elemento)
    else:
        return 'IMPAR:' + str(elemento)
    
print("Aplicación de función elemento a elemento sobre Serie")
serie.map(es_par)


Aplicación de función elemento a elemento sobre Serie


0    IMPAR:1
1      PAR:2
2    IMPAR:3
3      PAR:4
4    IMPAR:5
5      PAR:6
dtype: object

In [25]:
serie = pd.Series(['Hellen', 'Piter', "Joseph", 'Heidy'])
ages = {'Hellen':40, 'Piter':60, "Joseph":30, 'Heidy':20, 'Julia':10}

serie.map(ages) #using dictionary

0    40
1    60
2    30
3    20
dtype: int64

#### Aplicación de funciones elemento a elemento sobre DataFrames - Función applymap

In [26]:
dataframe = pd.DataFrame(np.arange(16).reshape(4,4))

print("Aplicación de función elemento a elemento sobre DataFrame")
dataframe.applymap(es_par)

Aplicación de función elemento a elemento sobre DataFrame


Unnamed: 0,0,1,2,3
0,PAR:0,IMPAR:1,PAR:2,IMPAR:3
1,PAR:4,IMPAR:5,PAR:6,IMPAR:7
2,PAR:8,IMPAR:9,PAR:10,IMPAR:11
3,PAR:12,IMPAR:13,PAR:14,IMPAR:15


#### Aplicación de funciones fila a fila o columna a columna sobre DataFrames - Función apply

In [27]:
dataframe = pd.DataFrame(np.arange(9).reshape(3,3))

print("Datos")
print(dataframe)

def es_suma_par(elemento):
    if np.sum(elemento) % 2 == 0:
        return 'Suma par: ' + str(np.sum(elemento))
    else:
        return 'Suma impar: ' + str(np.sum(elemento))

print("\nAplicación de función por columnas sobre DataFrame")
display(dataframe.apply(es_suma_par, axis=0))

print("\nAplicación de función por filas sobre DataFrames")
display(dataframe.apply(es_suma_par, axis=1))

Datos
   0  1  2
0  0  1  2
1  3  4  5
2  6  7  8

Aplicación de función por columnas sobre DataFrame


0     Suma impar: 9
1      Suma par: 12
2    Suma impar: 15
dtype: object


Aplicación de función por filas sobre DataFrames


0     Suma impar: 3
1      Suma par: 12
2    Suma impar: 21
dtype: object

## Fusión de estructuras

La librería pandas nos ofrece, principalmente, dos formas de fusionar estructuras de datos: realizando cruces entre ellos (mediante las claves coincidentes de sus índices) o concatenando sus contenidos (bien por filas o columnas).

#### Función merge - JOIN de estructuras

In [28]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']}
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Peter Jackson,Godzilla
1,2014,,250.0,Gareth Edwards,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity


In [29]:
directores = pd.DataFrame(
            {'Director':['Gareth Edwards', 'Martin Scorsese', 'Pedro Almodovar'],
             'AñoNacimiento':[1975, 1942, 1949],
             'Nacionalidad': ['England', 'USA', 'Spain']
             }
)
directores

Unnamed: 0,Director,AñoNacimiento,Nacionalidad
0,Gareth Edwards,1975,England
1,Martin Scorsese,1942,USA
2,Pedro Almodovar,1949,Spain


In [30]:
pd.merge(peliculas, directores)

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,AñoNacimiento,Nacionalidad
0,2014,,250.0,Gareth Edwards,El Hobbit III,1975,England
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,1942,USA


La función busca, por defecto, aquellas claves de columnas que coinciden y realiza el cruce, eliminando del resultado aquellas filas para las que el cruce no es posible.<br/>

También podemos especificar, explícitamente, el conjunto de columnas a utilizar en el cruce.

In [31]:
directores.columns = ['Nombre', 'Nacimiento',  'Nacionalidad']
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014,,250.0,Gareth Edwards,El Hobbit III,Gareth Edwards,1975,England
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942,USA


Por último, al igual que ocurre en los JOIN de SQL, podemos especificar el modo de cruce a aplicar, haciendo que las filas de la estructura de la izquierda, derecha o ambas que no coincidan se mantengan en el resultado, estableciendo valores NaN en aquellos elementos para los que no exista información.

In [32]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='left')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014,6.0,160.0,Peter Jackson,Godzilla,,,
1,2014,,250.0,Gareth Edwards,El Hobbit III,Gareth Edwards,1975.0,England
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942.0,USA
3,2013,,,Alfonso Cuarón,Gravity,,,


In [33]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='right')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014.0,,250.0,Gareth Edwards,El Hobbit III,Gareth Edwards,1975,England
1,2013.0,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942,USA
2,,,,,,Pedro Almodovar,1949,Spain


In [34]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='outer')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014.0,6.0,160.0,Peter Jackson,Godzilla,,,
1,2014.0,,250.0,Gareth Edwards,El Hobbit III,Gareth Edwards,1975.0,England
2,2013.0,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942.0,USA
3,2013.0,,,Alfonso Cuarón,Gravity,,,
4,,,,,,Pedro Almodovar,1949.0,Spain


#### Función concat

Esta función nos permite fusionar estructuras sin realizar ningún tipo de cruce entre ellas, sino "colocándolas" juntas para la creación de una estructura mayor. Podemos hacerlo tanto en filas como en columnas, al estilo de las funciones <i>rbind</i> y <i>cbind</i> de R. Por defecto, se concatenan filas y se mantienen las columnas de ambas estructuras aunque no coincidan en clave, dejando a NaN los elementos que no existan.

In [35]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón']},
            index = ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']
)
peliculas2 = pd.DataFrame(
            {'Año':[2014, 2014], 
             'Valoración':[7.3, 6.3],
             'Director':['Evan Goldberg', ' Rupert Wyatt']},
            index = ['La entrevista', 'El jugador']
)

display(peliculas, peliculas2)

display(pd.concat([peliculas,peliculas2]))

Unnamed: 0,Año,Valoración,Presupuesto,Director
Godzilla,2014,6.0,160.0,Peter Jackson
El Hobbit III,2014,,250.0,Gareth Edwards
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
Gravity,2013,,,Alfonso Cuarón


Unnamed: 0,Año,Valoración,Director
La entrevista,2014,7.3,Evan Goldberg
El jugador,2014,6.3,Rupert Wyatt


Unnamed: 0,Año,Valoración,Presupuesto,Director
Godzilla,2014,6.0,160.0,Peter Jackson
El Hobbit III,2014,,250.0,Gareth Edwards
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
Gravity,2013,,,Alfonso Cuarón
La entrevista,2014,7.3,,Evan Goldberg
El jugador,2014,6.3,,Rupert Wyatt


También podemos concatenar por columnas.

In [36]:
peliculas3 = pd.DataFrame(
            {'Recaudación':[525, 722, 392]},
            index = ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street']
)

display(peliculas3)

pd.concat([peliculas,peliculas3], axis=1)

Unnamed: 0,Recaudación
Godzilla,525
El Hobbit III,722
El lobo de Wall Street,392


Unnamed: 0,Año,Valoración,Presupuesto,Director,Recaudación
Godzilla,2014,6.0,160.0,Peter Jackson,525.0
El Hobbit III,2014,,250.0,Gareth Edwards,722.0
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese,392.0
Gravity,2013,,,Alfonso Cuarón,


Aunque es un funcionamiento más propio de la función merge, pandas nos permite eliminar del resultado aquellas combinaciones para las que no existen datos en alguna de las dos estructuras.

In [37]:
pd.concat([peliculas,peliculas3],axis=1, join='inner')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Recaudación
Godzilla,2014,6.0,160.0,Peter Jackson,525
El Hobbit III,2014,,250.0,Gareth Edwards,722
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese,392


Por último, puede ser útil identificar en la estructura resultante el origen de cada una de las filas para posterior análisis. La función concat incluye un parámetro <b>keys</b> que podemos utilizar para añadir una clave a cada uno de las estructuras origen, que se convertirá en el nivel más agregado de un índice jerárquico.

In [38]:
pd.concat([peliculas,peliculas2], keys=['dataset1', 'dataset2'])

Unnamed: 0,Unnamed: 1,Año,Valoración,Presupuesto,Director
dataset1,Godzilla,2014,6.0,160.0,Peter Jackson
dataset1,El Hobbit III,2014,,250.0,Gareth Edwards
dataset1,El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
dataset1,Gravity,2013,,,Alfonso Cuarón
dataset2,La entrevista,2014,7.3,,Evan Goldberg
dataset2,El jugador,2014,6.3,,Rupert Wyatt


In [39]:
pd.concat([peliculas,peliculas2], axis=1, keys=['dataset1', 'dataset2'])

Unnamed: 0_level_0,dataset1,dataset1,dataset1,dataset1,dataset2,dataset2,dataset2
Unnamed: 0_level_1,Año,Valoración,Presupuesto,Director,Año,Valoración,Director
Godzilla,2014.0,6.0,160.0,Peter Jackson,,,
El Hobbit III,2014.0,,250.0,Gareth Edwards,,,
El lobo de Wall Street,2013.0,8.75,100.0,Martin Scorsese,,,
Gravity,2013.0,,,Alfonso Cuarón,,,
La entrevista,,,,,2014.0,7.3,Evan Goldberg
El jugador,,,,,2014.0,6.3,Rupert Wyatt


## Operaciones de agrupación

Una de las funcionalidades más útiles de los data.table de R es la posibiilidad de hacer agrupación de resultados y operaciones sobre los grupos (al estilo de las sentencias GROUP BY de SQL). La librería pandas también incluye dicha posibilidad.

In [40]:
agrupado = peliculas.groupby('Año')
type(agrupado)

pandas.core.groupby.generic.DataFrameGroupBy

Una agrupación no es un objeto "imprimible", es una representación interna del conjunto de registros que pertenecen a cada grupo y sólo tiene sentido si, posteriormente, se va a aplicar alguna operación sobre dichos grupos. Hay que tener en cuenta que no todas las operaciones son aplicacables sobre todos los tipos de columna.

In [41]:
print("Media por grupo")
display(peliculas.groupby('Año').mean())

print("\nConteo de valores no nulos por grupo")
display(peliculas.groupby('Año').count())

Media por grupo


Unnamed: 0_level_0,Valoración,Presupuesto
Año,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,8.75,100.0
2014,6.0,205.0



Conteo de valores no nulos por grupo


Unnamed: 0_level_0,Valoración,Presupuesto,Director
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,1,2
2014,1,2,2


Aunque con estos datos quizá no tenga tanto sentido, podemos realizar la agrupación por múltiples claves.

In [42]:
peliculas.groupby(['Año', 'Director']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Valoración,Presupuesto
Año,Director,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,Alfonso Cuarón,0.0,0.0
2013,Martin Scorsese,8.75,100.0
2014,Gareth Edwards,0.0,250.0
2014,Peter Jackson,6.0,160.0


También podemos hacer que una función predefinida establezca el criterio de agrupación.

In [43]:
def titulo_largo(elemento):
    if len(elemento) > 10:
        return 'Largo'
    else:
        return 'Corto'

display(peliculas)
display(peliculas.groupby(titulo_largo).sum())
display(peliculas.groupby(titulo_largo).count())

Unnamed: 0,Año,Valoración,Presupuesto,Director
Godzilla,2014,6.0,160.0,Peter Jackson
El Hobbit III,2014,,250.0,Gareth Edwards
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
Gravity,2013,,,Alfonso Cuarón


Unnamed: 0,Año,Valoración,Presupuesto
Corto,4027,6.0,160.0
Largo,4027,8.75,350.0


Unnamed: 0,Año,Valoración,Presupuesto,Director
Corto,2,1,1,2
Largo,2,1,2,2


Por último, del mismo modo a como podemos establecer nuestras propias funciones de agrupación, podemos ampliar el conjunto de funciones de agregación de pandas (sum, mean, count...) con nuestras propias funciones mediante el método <b>agg</b> o establecer, con el mismo método, un conjunto de funciones de agregación para aplicar sobre la misma agrupación.

In [44]:
def maxima_diferencia(arr):
    return arr.max() - arr.min()

display(peliculas)
display(peliculas['Presupuesto'].groupby(peliculas['Año']).agg(maxima_diferencia))

Unnamed: 0,Año,Valoración,Presupuesto,Director
Godzilla,2014,6.0,160.0,Peter Jackson
El Hobbit III,2014,,250.0,Gareth Edwards
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
Gravity,2013,,,Alfonso Cuarón


Año
2013     0.0
2014    90.0
Name: Presupuesto, dtype: float64

In [45]:
peliculas.Presupuesto.groupby(peliculas.Año).agg([maxima_diferencia, sum, min, max])

Unnamed: 0_level_0,maxima_diferencia,sum,min,max
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2013,0.0,100.0,100.0,100.0
2014,90.0,410.0,160.0,250.0
