# Estructuras de datos

El pilar básico de la librería <b>pandas</b>, al igual que como ocurría con <b>numpy</b>, son las estructuras de datos que pone a nuestra disposición.<br/>
En este caso, dispondremos de dos estructuras de datos relacionadas, pero con su funcionamiento específico:<br/>
<ul>
<li><b>Series:</b> Para información unidimensional.</li>
<li><b>DataFrame:</b> Para información tabular.</li>
</ul>

Son estructuras muy similares a las ofrecidas por R: vectores (con nombre) y data.frame.

## Utilización básica de elementos de pandas

Al igual que en NumPy, pandas no pertenece al core de Python, por lo que SIEMPRE habrá que importarlo en un programa antes de poder usarlo.

In [1]:
import numpy as np
import pandas as pd

## Series

Una serie es una estructura de datos unidimensional que contiene:<br/>
<ul>
<li>Un array de datos: que pueden tener cualquier tipo de dato de los ofrecidos por NumPy.</li>
<li>Un array de etiquetas/<i>labels</i>: asociando una etiqueta a cada dato del array anterior y que se denomina <b>índice</b>, aunque no es obligatorio que el desarrollador especifique el mismo.</li>
</ul>

### Creación de Series

Para la creación de Series contamos con una función "constructor" (Series) que puede recibir, principalmente, los siguientes parámetros:<br/>
<ul>
<li><b>data:</b> Es obligatorio, contiene los datos que queremos cargar en la Serie y podrá ser un valor escalar, una secuencia de Python o un ndarray unidimensional de NumPy.</li>
<li><b>index:</b> Es opcional, contiene las etiquetas que queremos asignar a los valores de la Serie y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, tam_datos).</li>
<li><b>dtype:</b> Que podrá ser cualquier tipo de dato de NumPy.</li>
</ul>

In [2]:
# Serie desde escalar
serie = pd.Series(5)
serie

0    5
dtype: int64

In [3]:
# Serie desde secuencia
serie = pd.Series([1, 2, 3, 4, 5]) #, dtype=np.string_)
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [4]:
# Serie desde ndarray
array = np.array([2, 4, 6, 8, 10])
serie = pd.Series(array)
serie

0     2
1     4
2     6
3     8
4    10
dtype: int32

In [5]:
# Serie con índice preestablecido
serie = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [6]:
# Serie desde diccionario (establece el índice desde las claves)
serie = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}, dtype=np.float64)
serie

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
dtype: float64

### Elementos de una Serie

Disponemos de dos atributos para recuperar los datos y el índice de una Serie de forma independiente.

In [7]:
serie = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'], dtype=np.float64)

In [8]:
# Valores de una serie
serie.values

array([1., 2., 3., 4., 5.])

In [9]:
# Índice de una serie
list(serie.index)

['a', 'b', 'c', 'd', 'e']

Los índices son inmutables, lo que impide que cambiemos un valor de índice de forma independiente. Sin embargo, podemos modificar un índice completo por otro.

In [10]:
serie = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'], dtype=np.float64)

In [11]:
# Modificar un elemento del índice de una serie
#serie.index[0] = 4

In [12]:
# Modificar el índice de una serie
serie.index = ['f', 'g', 'h', 'i', 'j']
serie

f    1.0
g    2.0
h    3.0
i    4.0
j    5.0
dtype: float64

## DataFrame

Un DataFrame es una estructura tabular (bidimensional) de información con las siguientes propiedades:<br/>
<ul>
<li>Está compuesta por una serie ordenada de filas y una serie ordenada de columnas.</li>
<li>Tiene, por tanto, un índice para las filas y otro para las columnas.</li>
<li>Cada columna puede tener un tipo de NumPy diferente.</li>
<li>Puede ser visto, por tanto, como un diccionario de Series, todas ellas compartiendo el mismo índice.</li>
</ul>

### Creación de DataFrames

Para la creación de DataFrames contamos con una función "constructor" (DataFrame) que puede recibir, principalmente, los siguientes parámetros:<br/>
<ul>
<li><b>data:</b> Es obligatorio, contiene los datos que queremos cargar en el DataFrame y podrá ser un diccionario de Series, un diccionario de secuencias, un ndarray bidimensional, una Serie y otro DataFrame.</li>
<li><b>index:</b> Es opcional, contiene las etiquetas que queremos asignar a las filas del DataFrame y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, num_filas).</li>
<li><b>columns:</b> Es opcional, contiene las etiquetas que queremos asignar a las columnas del DataFrame y podrá ser una secuencia de Python o un ndarray unidimensional de NumPy. En caso de no suministrarse el valor por defecto es np.arange(0, num_columnas).</li>
<li><b>dtype:</b> Es opcional, fijará el tipo de todas las columnas y podrá ser cualquier tipo de dato de NumPy.</li>
</ul>

<b>IMPORTANTE:</b> Si el tamaño de cada columna no coincide, se creara un DataFrame lo suficientemente grande como para contener al mayor y se asignará NaN en los huecos.

In [13]:
# DataFrame desde diccionario de secuencias
dataframe = pd.DataFrame({'var1': [1, 2,3], 'var2': ['uno', 'dos', 'tres'], 'var3': [1.0, 2.0, 3.0]})
dataframe

Unnamed: 0,var1,var2,var3
0,1,uno,1.0
1,2,dos,2.0
2,3,tres,3.0


In [14]:
# DataFrame desde diccionario de series
dataframe = pd.DataFrame({'var1': pd.Series([1, 2, 3], dtype=np.float64), 'var2': pd.Series(['a', 'b'])})
dataframe

Unnamed: 0,var1,var2
0,1.0,a
1,2.0,b
2,3.0,


In [15]:
# DataFrame desde ndarray con índices para filas y columnas
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f1', 'f2', 'f3', 'f4'], columns=['c1', 'c2', 'c3', 'c4'])
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [16]:
# DataFrame desde ndarray con índices para filas y columnas con tipo fijo para todas
dataframe = pd.DataFrame(np.arange(16).reshape(4,4))#, dtype=np.int32)
dataframe

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


### Elementos de un DataFrame

Disponemos de tres atributos para recuperar los datos, el índice y las columnas de un DataFrmae de forma independiente.

In [17]:
dataframe = pd.DataFrame({'var1': [1, 2, 3], 'var2': ['uno', 'dos', 'tres'], 'var3': [1.0, 2.0, 3.0]})

In [18]:
# Valores de un DataFrame
dataframe.values

array([[1, 'uno', 1.0],
       [2, 'dos', 2.0],
       [3, 'tres', 3.0]], dtype=object)

In [19]:
# Índice de un DataFrame
dataframe.index

RangeIndex(start=0, stop=3, step=1)

In [20]:
# Columnas de un DataFrame
dataframe.columns

Index(['var1', 'var2', 'var3'], dtype='object')

In [21]:
list(dataframe)

['var1', 'var2', 'var3']

De nuevo, los índices (tanto el de filas como el de columnas) son inmutables, pero de nuevo, se pueden modificar de forma completa.

In [22]:
dataframe = pd.DataFrame({'var1': [1, 2, 3], 'var2': ['uno', 'dos', 'tres'], 'var3': [1.0, 2.0, 3.0]})
dataframe

Unnamed: 0,var1,var2,var3
0,1,uno,1.0
1,2,dos,2.0
2,3,tres,3.0


In [23]:
# Modificar un elemento del índice de filas de un dataframe
#dataframe.index[0] = 4

In [24]:
# Modificar un elemento del índice de columnas de un dataframe
#dataframe.columns[0] = 4

In [25]:
# Modificar el índice de filas de un dataframe
dataframe.index = ['f1', 'f2', 'f3']
dataframe

Unnamed: 0,var1,var2,var3
f1,1,uno,1.0
f2,2,dos,2.0
f3,3,tres,3.0


In [26]:
# Modificar el índice de filas de un dataframe
dataframe.columns = ['c1', 'c2', 'c3']
dataframe

Unnamed: 0,c1,c2,c3
f1,1,uno,1.0
f2,2,dos,2.0
f3,3,tres,3.0


In [27]:
dataframe.rename(columns = {'c2': 'col2'}, inplace = True)

In [28]:
dataframe

Unnamed: 0,c1,col2,c3
f1,1,uno,1.0
f2,2,dos,2.0
f3,3,tres,3.0


# Operaciones básicas

In [29]:
import numpy as np
import pandas as pd

## Tratamiento de Series y DataFrames como diccionarios

Dado que internamente tanto las Series como los DataFrames pueden verse como diccionarios, podemos apilcar sobre los mismos cualquier funcionalidad que aplicaríamos sobre diccionarios básicos del core de Python.<br/>
<b>IMPORTANTE:</b> Hay que tener en cuenta que en DataFrames el diccionario es un diccionario de "columnas".

In [30]:
serie = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [31]:
dataframe = pd.DataFrame({'var1': serie, 'var2': serie})
dataframe

Unnamed: 0,var1,var2
a,1,1
b,2,2
c,3,3
d,4,4


#### Indexación por clave

In [32]:
# Indexación mediante clave del índice en series
serie['a']

1

In [33]:
# Indexación por nombre de columna en dataframes
dataframe['var2']

a    1
b    2
c    3
d    4
Name: var2, dtype: int64

#### Comprobación de la existencia de una clave

In [34]:
# Comprobación de la existencia de una clave en el índice en series
'b' in serie

True

In [35]:
# Comprobación de la existencia de un nombre de columna en dataframes
'b' in dataframe

False

In [36]:
# Comprobación de la existencia de un nombre de columna en dataframes
'var1' in dataframe

True

#### Adición de elementos

<b>IMPORTANTE:</b> Al añadir columnas a un DataFrame, el tamaño del vector añadido deberá coincidir con el del DataFrame original. En caso contrario se recibirá un error.

In [37]:
serie

a    1
b    2
c    3
d    4
dtype: int64

In [38]:
# Adición de elementos a series
serie['e'] = 5
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [39]:
# Adición de elementos a dataframes
dataframe['var3'] = [5, 6, 7, 4]
dataframe

Unnamed: 0,var1,var2,var3
a,1,1,5
b,2,2,6
c,3,3,7
d,4,4,4


#### Eliminación de elementos

In [40]:
# Eliminación de elementos en series
del serie['e']
serie

a    1
b    2
c    3
d    4
dtype: int64

In [41]:
# Eliminación de columnas en dataframes
del dataframe['var3']
dataframe

Unnamed: 0,var1,var2
a,1,1
b,2,2
c,3,3
d,4,4


## Tratamiento de Series y DataFrames como ndarrays

Dado que, internamente, cualquier estructura de pandas está implementada sobre ndarrays de NumPy, es posible realizar sobre Series y DataFrames todas las operaciones que se pueden realizar sobre un ndarrays.<br/>

<b>IMPORTANTE:</b> Dado que un ndarray no puede mezclar elementos de diferentes tipos y un DataFrame sí, algunas de las operaciones sobre DataFrames estarán supeditadas a que todas sus columnas tengan el mismo tipo.

In [42]:
serie = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [43]:
dataframe = pd.DataFrame({'var1': pd.Series(serie, dtype=np.int32), 'var2': pd.Series(serie, dtype=np.float)})
dataframe

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  dataframe = pd.DataFrame({'var1': pd.Series(serie, dtype=np.int32), 'var2': pd.Series(serie, dtype=np.float)})


Unnamed: 0,var1,var2
a,1,1.0
b,2,2.0
c,3,3.0
d,4,4.0


#### Consulta de la composición

Disponemos de los mismos atributos de consulta que en ndarrays, si bien hay que tener en cuenta que:<br/>
<ul>
<li>El atributo <b>dtype</b> será <b>dtypes</b> en DataFrames dada la posibilidad de múltiples tipos.</li>
<li>El atributo <b>ndim</b> en Series siempre valdrá 1 dado que siempre son estructuras unidimensionales y 2 en DataFrames dado que siempre son estructuras bidimensionales.</li>
</ul>

In [44]:
# Consulta del tipo almacenado en una serie
serie.dtype

dtype('int64')

In [45]:
# Consulta de los tipos almacenados en un dataframe
dataframe.dtypes

var1      int32
var2    float64
dtype: object

In [46]:
# Consulta del número de dimensiones en una serie
serie.ndim

1

In [47]:
# Consulta del número de dimensiones en un dataframe
dataframe.ndim

2

In [48]:
# Consulta de la forma de una serie
serie.shape

(4,)

In [49]:
# Consulta de la forma de un dataframe
dataframe.shape

(4, 2)

In [50]:
# Consulta del número de elementos de una serie
serie.size

4

In [51]:
# Consulta del número de elementos de un dataframe
dataframe.size

8

#### Operaciones con escalares

Al aplicar una operación sobre una estructura de pandas y un escalar se obtendrá otra estructura de pandas de idénticas características a la inicial pero con la operación aplicada elemento a elemento, <b>manteniendo el índice inalterado</b>.<br/>

<b>IMPORTANTE</b>: Dado que un DataFrame puede mezclar tipos muy diferentes en sus columnas, la aplicación de una operación con un escalar elemento a elemento puede no ser válida (p.e. operaciones matemáticas sobre cadenas).

In [52]:
# Suma de series y escalar
serie + 2

a    3
b    4
c    5
d    6
dtype: int64

In [53]:
# División de series y escalar
1 / serie

a    1.000000
b    0.500000
c    0.333333
d    0.250000
dtype: float64

In [54]:
# Multiplicación de dataframe y escalar
dataframe * 2

Unnamed: 0,var1,var2
a,2,2.0
b,4,4.0
c,6,6.0
d,8,8.0


In [55]:
# División de dataframe y escalar
1 / dataframe.var1

a    1.000000
b    0.500000
c    0.333333
d    0.250000
Name: var1, dtype: float64

#### Operaciones entre estructuras de pandas

Al aplicar una operación entre estructuras de pandas se aplicará la misma elemento a elemento. En el caso de pandas no es necesario, como lo era en NumPy, que los operandos tengan el mismo tamaño y forma ya que se aplicará un proceso de "alineación". Este proceso devolverá:<br/>
<ul>
<li>Como índices: la unión de las claves de ambos operandos.</li>
<li>Como valores: el resultado de aplicar la operación entre cada pareja de elementos (si coinciden las claves entre ambos operandos) o NaN (en caso contrario).</li>
</ul>

<b>IMPORTANTE:</b> De nuevo, el hecho de que un DataFrame pueda mezclar tipos en sus contenidos hace que no todas las operaciones matemáticas se puedan aplicar a los mismos.

In [56]:
serie

a    1
b    2
c    3
d    4
dtype: int64

In [57]:
dataframe

Unnamed: 0,var1,var2
a,1,1.0
b,2,2.0
c,3,3.0
d,4,4.0


In [58]:
serie1 = serie[:]
serie1

a    1
b    2
c    3
d    4
dtype: int64

In [59]:
serie1['e'] = 7
serie1

a    1
b    2
c    3
d    4
e    7
dtype: int64

In [60]:
dataframe1 = dataframe.copy()
dataframe1['var3'] = [1, 2, 3, 4]
dataframe1

Unnamed: 0,var1,var2,var3
a,1,1.0,1
b,2,2.0,2
c,3,3.0,3
d,4,4.0,4


In [61]:
# Suma de series
serie + serie1

a    2.0
b    4.0
c    6.0
d    8.0
e    NaN
dtype: float64

In [62]:
# Suma de dataframes
dataframe + dataframe1

Unnamed: 0,var1,var2,var3
a,2,2.0,
b,4,4.0,
c,6,6.0,
d,8,8.0,


In [63]:
dataframe

Unnamed: 0,var1,var2
a,1,1.0
b,2,2.0
c,3,3.0
d,4,4.0


In [64]:
dataframe1

Unnamed: 0,var1,var2,var3
a,1,1.0,1
b,2,2.0,2
c,3,3.0,3
d,4,4.0,4


In [65]:
# Producto de dataframes
dataframe * dataframe1

Unnamed: 0,var1,var2,var3
a,1,1.0,
b,4,4.0,
c,9,9.0,
d,16,16.0,


#### Trasposición - Sólo DataFrames

Podemos trasponer filas por columnas, pero únicamente en DataFrame (ya que las series sólo pueden ser unidimensionales). Básicamente lo que se realizará es intercambiar el índice de columnas por el de filas.

In [66]:
dataframe

Unnamed: 0,var1,var2
a,1,1.0
b,2,2.0
c,3,3.0
d,4,4.0


In [67]:
dataframe.T

Unnamed: 0,a,b,c,d
var1,1.0,2.0,3.0,4.0
var2,1.0,2.0,3.0,4.0


#### Funciones de numpy (Universal functions, operaciones matemáticas...)

Podemos aplicar cualquier función de NumPy a cualquier estructura de pandas.<br/>

<b>IMPORTANTE:</b> De nuevo, al poder tener múltiples tipos en DataFrames no siempre se podrán aplicar las operaciones (o el resultado obtenido no será el esperado). Además, en el caso de DataFrames en caso de no indicar un valor para <b>axis</b> se aplicará la operación por columnas y nunca sobre el DataFrame completo.

In [68]:
# Operaciones sobre series
np.sqrt(serie)

a    1.000000
b    1.414214
c    1.732051
d    2.000000
dtype: float64

In [69]:
dataframe

Unnamed: 0,var1,var2
a,1,1.0
b,2,2.0
c,3,3.0
d,4,4.0


In [70]:
# Operaciones sobre dataframes (columna a columna, por defecto)
np.sum(dataframe)

var1    10.0
var2    10.0
dtype: float64

In [71]:
# Operaciones sobre dataframes (especificando eje)
np.sum(dataframe, axis=1)

a    2.0
b    4.0
c    6.0
d    8.0
dtype: float64

# Operaciones básicas (II)

In [72]:
import numpy as np
import pandas as pd

## Indexación y slicing en pandas

Además de poder reutilizar los métodos de indexación y slicing de NumPy sobre Series y DataFrames (con las limitaciones ya comentadas), pandas pone a nuestra disposición nuevos métodos de indexación que permiten tener un mayor control sobre la misma y superar las limitaciones que nos impone NumPy sobre este tipo de estructuras. Veamos todas las posibles combinaciones.<br/>

#### Indexación por atributo de clave

Podemos indexar un elemento concreto de una Serie o una columna concreta de un DataFrame mediante el uso de su etiqueta/clave como atributo, con sintaxis obj.etiqueta.

In [73]:
serie = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
serie['a']

1

In [74]:
serie.a

1

In [75]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f1', 'f2', 'f3', 'f4'], columns=['c1','c2','c3','c4'])
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [76]:
dataframe.c1

f1     0
f2     4
f3     8
f4    12
Name: c1, dtype: int32

#### Indexación con sintáxis [ ] directa

<table>
<tr>
<th>Tipo</th>
<th>En Series</th>
<th>En DataFrames</th>
</tr>
<tr>
<td>obj[num_val]</td>
<td>Selección por posición (salvo si el índice es numérico)</td>
<td>Selección por clave de columna</td>
</tr>
<tr>
<td>obj[key]</td>
<td>Selección por clave</td>
<td>Selección por clave de columna</td>
</tr>
<tr>
<td>obj[num_val1:num_val2]</td>
<td>Selección por posición (salvo si el índice es numérico)</td>
<td>Selección por posición de fila (salvo si el índice de filas es numérico)</td>
</tr>
<tr>
<td>obj[key1:key2]</td>
<td>Selección por clave</td>
<td>Selección por clave de fila</td>
</tr>
<tr>
<td>obj[[num_val1,..,num_valn]]</td>
<td>Selección por posición (salvo si el índice es numérico)</td>
<td>Selección por posición de columna</td>
</tr>
<tr>
<td>obj[[key1,..,keyn]]</td>
<td>Selección por clave</td>
<td>Selección por clave de columna</td>
</tr>
<tr>
<td>obj[condition]</td>
<td>Selección por estructura booleana</td>
<td>Selección por estructura booleana</td>
</tr>
</table>

In [77]:
serie

a    1
b    2
c    3
d    4
dtype: int64

In [78]:
serie[0]

1

In [79]:
dataframe['c3']

f1     2
f2     6
f3    10
f4    14
Name: c3, dtype: int32

#### Indexación con método .loc - Por claves

<table>
<tr>
<th>Tipo</th>
<th>En Series</th>
<th>En DataFrames</th>
</tr>
<tr>
<td>obj.loc[key]</td>
<td>Selección por clave</td>
<td>Selección por clave de filas</td>
</tr>
<tr>
<td>obj.loc[key1:key2]</td>
<td>Selección por clave</td>
<td>Selección por clave de filas</td>
</tr>
<tr>
<td>obj.loc[[key1,...,keyn]]</td>
<td>Selección por clave</td>
<td>Selección por clave de filas</td>
</tr>
<tr>
<td>obj.loc[condition]</td>
<td>Selección por estructura booleana</td>
<td>Selección por estructura booleana sobre filas</td>
</tr>
<tr>
<td>obj.loc[sel1, sel2]</td>
<td>ERROR</td>
<td>Selección por clave de fila (sel1) y columna (sel2). Selectores: clave, slice, secuencia o condición</td>
</tr>
</table>

In [80]:
serie.loc['b']

2

In [81]:
dataframe.loc[:,'c2']

f1     1
f2     5
f3     9
f4    13
Name: c2, dtype: int32

#### Indexación con método .iloc - Por índices

<table>
<tr>
<th>Tipo</th>
<th>En Series</th>
<th>En DataFrames</th>
</tr>
<tr>
<td>obj.iloc[num_val]</td>
<td>Selección por posición</td>
<td>Selección por posición de filas</td>
</tr>
<tr>
<td>obj.iloc[num_val1:num_val2]</td>
<td>Selección por posición</td>
<td>Selección por posición de filas</td>
</tr>
<tr>
<td>obj.iloc[[num_val1,...,num_valn]]</td>
<td>Selección por posición</td>
<td>Selección por posición de filas</td>
</tr>
<tr>
<td>obj.iloc[sel1, sel2]</td>
<td>ERROR</td>
<td>Selección por clave de fila (sel1) y columna (sel2). Selectores: posición, slice o secuencia</td>
</tr>
</table>

In [82]:
serie.iloc[0]

1

In [83]:
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [84]:
dataframe.iloc[:, 2]

f1     2
f2     6
f3    10
f4    14
Name: c3, dtype: int32

## Índices jerárquicos en pandas

Los índices jerárquicos de 'pandas' permiten tener más de un nivel en cualquiera de los índices de una estructura. Esto puede servir para agrupar más claramente los datos, o para conseguir identificar las filas por una clave única. En cierto modo, también es una forma de poder trabajar con tablas de más de dos dimensiones.

In [85]:
peliculas = pd.DataFrame(
            {'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón']},
            index = [[2014, 2014, 2013, 2013], ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']]
)
peliculas

Unnamed: 0,Unnamed: 1,Valoración,Presupuesto,Director
2014,Godzilla,6.0,160.0,Peter Jackson
2014,El Hobbit III,,250.0,Gareth Edwards
2013,El lobo de Wall Street,8.75,100.0,Martin Scorsese
2013,Gravity,,,Alfonso Cuarón


A partir de la construcción del índice jerárquico, podemos hacer indexaciones totales (mediante tuplas) o parciales (mediante selección de uno de los elementos del índice).

In [86]:
# Indexación total
peliculas.loc[(2014, 'Godzilla')]

Valoración               6.0
Presupuesto            160.0
Director       Peter Jackson
Name: (2014, Godzilla), dtype: object

In [87]:
# Indexación parcial
peliculas.loc[2014]

Unnamed: 0,Valoración,Presupuesto,Director
Godzilla,6.0,160.0,Peter Jackson
El Hobbit III,,250.0,Gareth Edwards


Podemos pasar niveles del índice jerárquico de las filas a las columnas mediante la función <b>unstack</b>, como si de una Pivot Table de Excel se tratase. Con <b>stack</b> realizarmeos la operación contraria.

In [88]:
# Pasamos el último nivel del índice de filas al de columnas
peliculas_2 = peliculas.unstack()
peliculas_2

Unnamed: 0_level_0,Valoración,Valoración,Valoración,Valoración,Presupuesto,Presupuesto,Presupuesto,Presupuesto,Director,Director,Director,Director
Unnamed: 0_level_1,El Hobbit III,El lobo de Wall Street,Godzilla,Gravity,El Hobbit III,El lobo de Wall Street,Godzilla,Gravity,El Hobbit III,El lobo de Wall Street,Godzilla,Gravity
2013,,8.75,,,,100.0,,,,Martin Scorsese,,Alfonso Cuarón
2014,,,6.0,,250.0,,160.0,,Gareth Edwards,,Peter Jackson,


In [89]:
peliculas

Unnamed: 0,Unnamed: 1,Valoración,Presupuesto,Director
2014,Godzilla,6.0,160.0,Peter Jackson
2014,El Hobbit III,,250.0,Gareth Edwards
2013,El lobo de Wall Street,8.75,100.0,Martin Scorsese
2013,Gravity,,,Alfonso Cuarón


In [90]:
# Pasamos el último nivel del índice de columnas al de filas
peliculas.stack()

2014  Godzilla                Valoración                 6.0
                              Presupuesto              160.0
                              Director         Peter Jackson
      El Hobbit III           Presupuesto              250.0
                              Director        Gareth Edwards
2013  El lobo de Wall Street  Valoración                8.75
                              Presupuesto              100.0
                              Director       Martin Scorsese
      Gravity                 Director        Alfonso Cuarón
dtype: object

In [91]:
peliculas_2.stack()

Unnamed: 0,Unnamed: 1,Valoración,Presupuesto,Director
2013,El lobo de Wall Street,8.75,100.0,Martin Scorsese
2013,Gravity,,,Alfonso Cuarón
2014,El Hobbit III,,250.0,Gareth Edwards
2014,Godzilla,6.0,160.0,Peter Jackson


## Modificación de índices en Pandas

En cualquier momento, podemos descartar el índice de un DataFrame incorporando el mismo como una columna más de nuestros datos. Esto lo haremos mediante la función <b>reset_index</b>. Esto hará que el índice pase a ser una secuencia numérica.

In [92]:
dataframe.reset_index()

Unnamed: 0,index,c1,c2,c3,c4
0,f1,0,1,2,3
1,f2,4,5,6,7
2,f3,8,9,10,11
3,f4,12,13,14,15


Del mismo modo, podemos reestablecer un conjunto de columnas como índice de un DataFrame con la función <b>set_index</b>.

In [93]:
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [94]:
dataframe.set_index(['c1'])

Unnamed: 0_level_0,c2,c3,c4
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,2,3
4,5,6,7
8,9,10,11
12,13,14,15


# Operaciones básicas (III)

In [95]:
import numpy as np
import pandas as pd

## Tablas pivote

Siguiendo con las funciones de gestión de índices, pandas incluye la posibilidad de gestionar los mismos como si de una Pivot Table de Excel se tratase, haciendo mucho más sencillo el análisis de información resultante.

In [96]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013, 2001], 
             'Valoración':[6, None, 8.75, None, 8.9],
             'Presupuesto':[160, 250, 100, None, 93],
             'Director':['Gareth Edwards', 'Peter Jackson', 'Martin Scorsese', 'Alfonso Cuarón', 'Peter Jackson'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity', 'Lord of the Rings']}
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,2014,,250.0,Peter Jackson,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity
4,2001,8.9,93.0,Peter Jackson,Lord of the Rings


In [97]:
# Filas: Año, Columnas: Director, Valores: Título
peliculas.pivot(columns = 'Director', index = 'Año', values = 'Título')

Director,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2001,,,,Lord of the Rings
2013,Gravity,,El lobo de Wall Street,
2014,,Godzilla,,El Hobbit III


Si bien esto mismo ya lo podíamos realizar con las operaciones vistas hasta ahora.

In [98]:
# Establecemos el índice a las dos variables sobre las que queremos "pivotar"
p = peliculas.set_index(['Año', 'Director'])
p

Unnamed: 0_level_0,Unnamed: 1_level_0,Valoración,Presupuesto,Título
Año,Director,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2014,Gareth Edwards,6.0,160.0,Godzilla
2014,Peter Jackson,,250.0,El Hobbit III
2013,Martin Scorsese,8.75,100.0,El lobo de Wall Street
2013,Alfonso Cuarón,,,Gravity
2001,Peter Jackson,8.9,93.0,Lord of the Rings


In [99]:
# Pasamos el último nivel de índice de filas a columnas
p = p.unstack()
p

Unnamed: 0_level_0,Valoración,Valoración,Valoración,Valoración,Presupuesto,Presupuesto,Presupuesto,Presupuesto,Título,Título,Título,Título
Director,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson
Año,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
2001,,,,8.9,,,,93.0,,,,Lord of the Rings
2013,,,8.75,,,,100.0,,Gravity,,El lobo de Wall Street,
2014,,6.0,,,,160.0,,250.0,,Godzilla,,El Hobbit III


In [100]:
# Elegimos únicamente el valor de la columna Título
p['Título']

Director,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2001,,,,Lord of the Rings
2013,Gravity,,El lobo de Wall Street,
2014,,Godzilla,,El Hobbit III


También podemos crear tablas pivote utilizando una función de agregación para los valores, de forma que se haga una agrupación de resultados.

In [101]:
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,2014,,250.0,Peter Jackson,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity
4,2001,8.9,93.0,Peter Jackson,Lord of the Rings


In [102]:
peliculas.loc[peliculas['Año'] == 2001, 'Año']

4    2001
Name: Año, dtype: int64

In [103]:
# Hacemos que haya dos películas para el mismo año y director
peliculas.loc[peliculas['Año'] == 2001, 'Año'] = 2014
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,2014,,250.0,Peter Jackson,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity
4,2014,8.9,93.0,Peter Jackson,Lord of the Rings


In [104]:
# Utilizamos la función pivot_table para establecer: valor, índice, columnas y función de agregación en caso de colisión
pd.pivot_table(peliculas, values='Presupuesto', index=['Director'], columns=['Año'], aggfunc=np.sum)

Año,2013,2014
Director,Unnamed: 1_level_1,Unnamed: 2_level_1
Alfonso Cuarón,0.0,
Gareth Edwards,,160.0
Martin Scorsese,100.0,
Peter Jackson,,343.0


## Eliminación de filas y/o columnas en pandas

Aunque el proceso de eliminación de columnas se puede hacer mediante la aplicación de los mismos métodos que en el caso de diccionarios, pandas pone a nuestra disposición el método <b>drop</b>.

In [105]:
serie = pd.Series([1,2,3,4], index=['a','b','c','d'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [106]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f1', 'f2', 'f3', 'f4'], columns=['c1','c2','c3','c4'])
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [107]:
# Eliminación de valores de una Serie
serie.drop('a')

b    2
c    3
d    4
dtype: int64

In [108]:
del serie['b']

In [109]:
# Eliminación de filas de un DataFrame
dataframe.drop(['f1',  'f2'])

Unnamed: 0,c1,c2,c3,c4
f3,8,9,10,11
f4,12,13,14,15


In [110]:
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [111]:
# Eliminación de columnas de un DataFrame
dataframe.drop('c2', axis=1)

Unnamed: 0,c1,c3,c4
f1,0,2,3
f2,4,6,7
f3,8,10,11
f4,12,14,15


## Aritmética con estructuras de pandas

Aunque, como ya se ha visto, podemos aprovechar la compatibilidad con NumPy para llevar a cabo operaciones aritméticas básicas, estas operaciones aplican el proceso de "alineación" de índices introduciendo valores NaN en los resultados cuando no hay coincidencia de claves. Para solucionar este problema, pandas nos ofrece algunas funciones de utilidad para las más básicas (suma, resta, multiplicación y división) que permiten establecer un valor de "relleno" en el caso de claves no coincidentes.

In [112]:
serie1 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
serie1

a    1
b    2
c    3
d    4
dtype: int64

In [113]:
serie2 = pd.Series([5, 6, 7, 8], index=['c', 'd', 'e', 'f'])
serie2

c    5
d    6
e    7
f    8
dtype: int64

In [114]:
# Resultado de operación básica"
serie1 + serie2

a     NaN
b     NaN
c     8.0
d    10.0
e     NaN
f     NaN
dtype: float64

In [115]:
# Resultado con operación pandas
serie1.add(serie2)

a     NaN
b     NaN
c     8.0
d    10.0
e     NaN
f     NaN
dtype: float64

In [116]:
# Resultado con operación pandas y relleno
serie1.add(serie2, fill_value=0)

a     1.0
b     2.0
c     8.0
d    10.0
e     7.0
f     8.0
dtype: float64

In [117]:
serie1.sub(serie2, fill_value=0)

a    1.0
b    2.0
c   -2.0
d   -2.0
e   -7.0
f   -8.0
dtype: float64

In [118]:
serie1.mul(serie2, fill_value=0)

a     0.0
b     0.0
c    15.0
d    24.0
e     0.0
f     0.0
dtype: float64

In [119]:
serie1.div(serie2, fill_value=0)

a         inf
b         inf
c    0.600000
d    0.666667
e    0.000000
f    0.000000
dtype: float64

## Ordenación en estructuras de pandas

pandas pone a nuestra disposición varias formas de realizar ordenaciones de los contenidos de una Serie o un DataFrame. Vamos a ver los más utilizados.

#### Ordenación en Series

In [120]:
serie = pd.Series([3, 2, 1, 4], index=['d', 'a', 'c', 'b'])
serie

d    3
a    2
c    1
b    4
dtype: int64

In [121]:
# Ordenación por índice
serie.sort_index()

a    2
b    4
c    1
d    3
dtype: int64

In [122]:
# Ordenación descendente por índice
serie.sort_index(ascending=False)

d    3
c    1
b    4
a    2
dtype: int64

In [123]:
# Ordenación por valores
serie.sort_values()

c    1
a    2
d    3
b    4
dtype: int64

In [124]:
# Ordenación por valores descendente
serie.sort_values(ascending=False)

b    4
d    3
a    2
c    1
dtype: int64

#### Ordenación en DataFrames

In [125]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f3', 'f1', 'f4', 'f2'], columns=['c3', 'c1', 'c4', 'c2'])
dataframe

Unnamed: 0,c3,c1,c4,c2
f3,0,1,2,3
f1,4,5,6,7
f4,8,9,10,11
f2,12,13,14,15


In [126]:
# Ordenación por índice de filas
dataframe.sort_index()

Unnamed: 0,c3,c1,c4,c2
f1,4,5,6,7
f2,12,13,14,15
f3,0,1,2,3
f4,8,9,10,11


In [127]:
# Ordenación por índice de columnas
dataframe.sort_index(axis=1)

Unnamed: 0,c1,c2,c3,c4
f3,1,3,0,2
f1,5,7,4,6
f4,9,11,8,10
f2,13,15,12,14


In [128]:
# Ordenación descendente por índice de filas
dataframe.sort_index(ascending=False)

Unnamed: 0,c3,c1,c4,c2
f4,8,9,10,11
f3,0,1,2,3
f2,12,13,14,15
f1,4,5,6,7


In [129]:
# Ordenación por valores de filas
dataframe.sort_values(['f1'], axis=1)

Unnamed: 0,c3,c1,c4,c2
f3,0,1,2,3
f1,4,5,6,7
f4,8,9,10,11
f2,12,13,14,15


In [130]:
# Ordenación por valores de columnas
dataframe.sort_values(['c1'])

Unnamed: 0,c3,c1,c4,c2
f3,0,1,2,3
f1,4,5,6,7
f4,8,9,10,11
f2,12,13,14,15


## Recuperación de muestras parciales del contenido

En estructuras de datos potencialmente grandes, suele ser muy necesaria la recuperación de una muestra de ejemplo de un conjunto reducido de elementos que permitan hacerse una idea del contenido de la estructura sin necesidad de listar TODO el contenido de la misma. Pandas, como R, pone a nuestra disposición dos métodos <b>head</b> (para obtener un muestra del inicio de la estructura) y <b>tail</b> para obtener la muestras del final. Ambos métodos recibirán como parámetro el número de registros a recuperar.

In [131]:
serie = pd.Series(np.arange(100))
serie

0      0
1      1
2      2
3      3
4      4
      ..
95    95
96    96
97    97
98    98
99    99
Length: 100, dtype: int32

In [132]:
dataframe = pd.DataFrame(np.arange(100).reshape(10, 10))
dataframe

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0,1,2,3,4,5,6,7,8,9
1,10,11,12,13,14,15,16,17,18,19
2,20,21,22,23,24,25,26,27,28,29
3,30,31,32,33,34,35,36,37,38,39
4,40,41,42,43,44,45,46,47,48,49
5,50,51,52,53,54,55,56,57,58,59
6,60,61,62,63,64,65,66,67,68,69
7,70,71,72,73,74,75,76,77,78,79
8,80,81,82,83,84,85,86,87,88,89
9,90,91,92,93,94,95,96,97,98,99


In [133]:
# Recuperación de los 5 primeros elementos de una Serie
dataframe.tail()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
5,50,51,52,53,54,55,56,57,58,59
6,60,61,62,63,64,65,66,67,68,69
7,70,71,72,73,74,75,76,77,78,79
8,80,81,82,83,84,85,86,87,88,89
9,90,91,92,93,94,95,96,97,98,99


In [134]:
# Recueperación de los 5 últimos elementos de una Serie
serie.tail()

95    95
96    96
97    97
98    98
99    99
dtype: int32

In [135]:
# Recuperación de los 3 primeros elementos de un DataFrame
dataframe.head(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0,1,2,3,4,5,6,7,8,9
1,10,11,12,13,14,15,16,17,18,19
2,20,21,22,23,24,25,26,27,28,29


In [136]:
# Recueperación de los 3 últimos elementos de un DataFrame
dataframe.tail(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
7,70,71,72,73,74,75,76,77,78,79
8,80,81,82,83,84,85,86,87,88,89
9,90,91,92,93,94,95,96,97,98,99


# Lectura y escritura de información

Más que creando Series o DataFrames de cero, o incluso a partir de secuencias del core de Python o ndarrays, el uso más típico de pandas se basa en la carga de información desde ficheros/fuentes de información para su posterior exploración, transformación y análisis.

In [137]:
import numpy as np
import pandas as pd

## Lectura de ficheros en formato texto

Probablemente, una de las formas más recurrentes de trabajo para el análisis de datos: fuentes de datos públicas, logs, tablas históricas de información, exportaciones desde base de datos... La librería pandas, nos ofrece funciones para trabajar con ficheros en múltiples formatos, todos ellos creando un DataFrame con la información leída:<br/>
<ul>
<li>Ficheros separados por coma (.csv): mediante la función <b>read_csv</b>.</li>
<li>Ficheros separados por tabulador (.tsv): mediante la función <b>read_table</b></li>
<li>Ficheros de ancho fijo: mediante la función <b>read_fwf</b>.</li>
</ul>

De estos tres métodos de lectura de información, el más común es el segundo, ya que, por un lado, engloba al primero permitiendo el establecimiento del carácter separador por parte del desarrollado y, por otro, porque los ficheros de ancho fijo son cada vez menos frecuentes (aunque se siguen usando).<br/>

Tanto <b>read_csv</b> como <b>read_table</b> tienen un conjunto muy amplio de parámetros que permiten configurar de un modo preciso la lectura de información que se va a hacer. Los parámetros más importantes/comunes son los siguientes:<br/>
<ul>
<li><b>path:</b> Ruta del fichero del que se va a realizar la lectura.</li>
<li><b>sep:</b> Carácter(es) que se utilizan como separador de campos en el fichero.</li>
<li><b>header:</b> Índice de la fila que contiene los nombres de las columnas (None en caso de no haber).</li>
<li><b>index_col:</b> Índice de la columna o secuencia de índices que se deben usar como índice de filas de los datos.</li>
<li><b>skiprows:</b> Número de filas o secuencia de índices de fila que se deben ignorar en la carga.</li>
<li><b>names:</b> Secuencia que contiene los nombres de las columnas (usado junto con header=None).</li>
<li><b>na_values:</b> Secuencia de valores que, de encontrarse en el fichero, deben ser tratados como NaN.</li>
<li><b>dtype:</b> Diccionario en el que las claves serán nombres de columnas y los valores serán tipos de NumPy a los que se debe convertir su contenido.</li>
<li><b>parse_dates:</b> Flag que indica si Python debe intentar parsear datos con formato semejante a las fechas como fechas. Puede contenter un listado de nombres de columnas que deberán unirse para el parseo como fecha.</li>
<li><b>converters:</b> Diccionario en el que las claves serán nombres de columnas y los valores funciones que se deberán aplicar al contenido de dichas columnas durante la carga.</li>
<li><b>dayfirst:</b> Indica si al parsear fechas se debe esperar el día primero o el mes. </li>
<li><b>nrows:</b> Número de filas a leer desde el principio del fichero.</li>
<li><b>chunksize:</b> Tamaño a utilizar para la lectura incremental del fichero.</li>
<li><b>skip_footer:</b> Número de filas a ignorar del final del fichero.</li>
<li><b>enconding:</b> Codificación a esperar del fichero leído.</li>
<li><b>squeeze:</b> Flag que indica que si los datos leídos sólo contienen una columna el resultado sea una Serie en lugar de un DataFrame.</li>
<li><b>thousands:</b> Carácter a utilizar para detectar el separador de miles.</li>
<li><b>decimal:</b> Carácter a utilizar para detectar el separador de decimales.</li>
</ul>

In [138]:
catastro = pd.read_csv('datos/catastro.tsv', sep = "\t")
catastro.head()

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0


In [139]:
col = list(catastro.columns)

## Escritura de ficheros en formato texto

En el caso de la escritura de estructuras de datos de pandas como ficheros de texto, las posibilidades están mucho más unificadas, existiendo una única función <b>to_csv</b>. Es importante indicar que, por defecto, el fichero seleccionado será SIEMPRE sobreescrito.<br/>

Los parámetros más comunes de esta función son:<br/>
<ul>
<li><b>path:</b> Ruta del fichero que se utilizará para la escritura.</li>
<li><b>sep:</b> Carácter utilizado como separador de campos.</li>
<li><b>na_rep:</b> Cadena que se deberá utilizar para darle representación a los valores NaN.</li>
<li><b>float_format:</b> Indicador de formato para los números en coma flotante.</li>
<li><b>columns:</b> Secuencia de selección del conjunto de columnas que se desea volcar al fichero.</li>
<li><b>header:</b> Flag o secuencia de cadenas que indica si se debe volcar la cabecera al fichero.</li>
<li><b>index:</b> Flag que indica si el índice debe ser incluido o no como una columna más en el fichero.</li>
<li><b>index_label:</b> Nombre que se le debe dar a la columna de índice en el fichero.</li>
<li><b>mode:</b> Modo de apertura del fichero. Por defecto, "w".</li>
<li><b>encoding:</b> Codificación a utilizar en la escritura del fichero.</li>
<li><b>date_format:</b> Indicador de formato a utilizar para escribir fechas.</li>
<li><b>decimal:</b> Carácter a utilizar como separador de decimales</li>
</ul>

In [140]:
catastro.to_csv('datos/catastro_copia.csv', sep = "|", index = False)

## Trabajo con otros formatos

Pandas ofrece facilidades para trabajar con otro tipo de formatos como pueden ser:<br/>
<ul>
<li><b>Ficheros binarios "pickle":</b> <i>pickle</i> es un módulo del core de Python que establece un formato binario que permite almacenar y recuperar cualquier objeto Python en disco. Todos los objetos de pandas tienen un método <b>save</b> y otro <b>load</b> que permiten almacenar y recuperar información en este formato.</li>
<li><b>Ficheros binarios "HDF5":</b> HDF5 es un "estándar" de almacenamiento de información binaria que optimiza las lecturas y escrituras (mediante el almacenamiento de una estructura jerárquica de índices) y permite llevar a cabo diferentes niveles de compresión sobre la información (a costa de rendimiento). Pandas ofrece clases y funciones para trabajar con este tipo de ficheros.</li>
<li><b>Ficheros Excel:</b> Pandas contiene clases y funciones que permiten llevar a cabo la carga directa de información desde hojas de ficheros Excel (que deben tener un formato tabular). Por rendimiento y consumo de memoria, siempre que sea viable, es mejor traducir estos ficheros a formatos de texto.</li>
</ul>

# Preparación y exploración de datos

Una vez conocidas las estructuras de datos de pandas, las operaciones básicas que se pueden realizar sobre las mismas y el modo en el que realizar la carga y almacenamiento de dichas estructuras en discos, vamos a centrarnos en aquellas funcionalidades ofrecidas por pandas que están más orientadas al tratamiento y análisis de datos.

In [141]:
import numpy as np
import pandas as pd

## Gestión de datos en blanco (<i>missing values</i>)

En la mayoría de los ficheros utilizados como fuente de datos, es muy común la existencia de valores nulos (en blanco, <i>missing</i>...). Estos "huecos" en la información suelen ser muy problemáticos ya que tiene un impacto importante a la hora de realizar cualquier tipo de cálculo numérico y son difícilmente interpretables.<br/>
Uno de los objetivos de pandas en su construcción fue facilitar el tratamiento de este tipo de datos no existentes ofreciendo múltiples funciones que permiten llevar a cabo tanto su detección, como su eliminación o imputación...

#### Detección de <i>missing values</i>

Pandas ofrece principalmente dos funciones para manejar la detección de valores nulos.<br/>
<ul>
<li><b>isnull:</b> Que devuelve una Serie o DataFrame booleano indicando qué elemetos son NaN o None.</li>
<li><b>notnull:</b> Que devuelve el inverso del anterior.</li>

In [142]:
catastro = pd.read_table('datos/catastro.tsv', nrows=10)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [143]:
# Detección de valores nulos
catastro.isnull()

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,False,True,False
5,False,False,False,False,False,False,False,False,False,False,True,False
6,False,False,False,False,False,False,False,False,True,True,False,False
7,False,False,False,False,False,False,False,False,False,False,True,False
8,False,False,False,False,False,False,False,False,False,False,True,False
9,False,False,False,False,False,False,False,False,False,False,True,False


In [144]:
# Detección de valores no nulos
catastro.notnull()

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,True,True,True,True,True,True,True,True,True,True,False,True
1,True,True,True,True,True,True,True,True,True,True,False,True
2,True,True,True,True,True,True,True,True,True,True,False,True
3,True,True,True,True,True,True,True,True,True,True,False,True
4,True,True,True,True,True,True,True,True,True,True,False,True
5,True,True,True,True,True,True,True,True,True,True,False,True
6,True,True,True,True,True,True,True,True,False,False,True,True
7,True,True,True,True,True,True,True,True,True,True,False,True
8,True,True,True,True,True,True,True,True,True,True,False,True
9,True,True,True,True,True,True,True,True,True,True,False,True


#### Eliminación de registros con <i>missing values</i>

Aunque SIEMPRE conviene hacer un estudio cuidadoso del por qué y la casuística de los valores nulos, uno de los posibles tratamientos a aplicar es su eliminación directa del set de datos. Pandas, nos ofrece el método <b>dropna</b> para llevar a cabo esta tarea. Los parámetros de este método son:<br/>
<ul>
<li><b>axis:</b> Selección de eje sobre el que realizar la eliminación.</li>
<li><b>how:</b> Tomará posibles valores 'any' y 'all' e indica si se debe eliminar la fila o columna cuando haya uno o más valores NaN o cuando todos los valores sean NaN.</li>
<li><b>thresh:</b> Permite indicar, el número de observaciones no nulas que se deben tener para no realizar el borrado.</li>
</ul>

In [145]:
catastro = pd.read_table('datos/catastro.tsv', nrows=10)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [146]:
# Eliminación de filas con al menos 1 NA
catastro.dropna(axis=0, how='any')

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral


In [147]:
# Eliminación de columnas con al menos 1 NA
catastro.dropna(axis=1, how='any')

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,114254200.0


In [148]:
# Eliminación de filas con 2 o más NA
catastro.dropna(thresh=len(catastro.columns)-1)

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


#### Imputación de registros con <i>missing values</i>

Existirán casos en los que no se desee (o no se pueda) eliminar los registros con valores nulos (p.e. podrían suponer un porcentaje demasiado elevado de nuestro set de datos). En estos casos, habrá que realizar una imputación de los mismos a un valor preestablecidor.<br/>
Pandas pone a nuestra disposición el método <b>fillna</b>, que cuenta, entre otros, con los siguientes parámetros:<br/>
<ul>
<li><b>axis:</b> Que decide si aplicará el criterio de relleno por filas o columnas.</li>
<li><b>value:</b> Que rellena los valores nulos a un valor fijo.</li>
</ul>

In [149]:
catastro = pd.read_table('datos/catastro.tsv', nrows=10)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [150]:
# Imputación de valores a 0
catastro.fillna(0)

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,0.0,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,0.0,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,0.0,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,0.0,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,0.0,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,0.0,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,0.0,0.0,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,0.0,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,0.0,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,0.0,114254200.0


## Resumen de datos y estadísticos básicos

Al igual que NumPy, pandas ofrece un conjunto amplio de funciones para llevar a cabo un análisis estadístico de datos.  Las más relevantes serían:<br/>
<ul>
<li><b>describe:</b> Presenta un conjunto con las estadísticas básicas más comunes calculadas sobre todas las columnas de la estructura. Equivalente a la función <i>summary</i> de R.</li>
<li><b>count:</b> Número de elementos no nulos.</li>
<li><b>min, max:</b> Valor mínimo y máximo.</li>
<li><b>argmin, argmax, idxmax, idxmin:</b> Posiciones con valor mínimo y máximo.</li>
<li><b>quantile:</b> Cuantil calculado.</li>
<li><b>sum:</b> Suma de elementos.</li>
<li><b>mean:</b> Media aritmética de los elementos.</li>
<li><b>median:</b> Mediana de los elementos.</li>
<li><b>std:</b> Desviación estándar de los elementos.</li>
<li><b>var:</b> Varianza de los elementos.</li>
<li><b>cumsum:</b> Suma acumulada de los elementos.</li>
<li><b>cumprod:</b> Producto acumulado de los elementos.</li>
</ul>

La mayor parte de estos métodos, podrán recibir 3 parámetros:
<ul>
<li><b>axis:</b> Que indica si realizar el cálculo por filas o columnas.</li>
<li><b>skipna:</b> Que indica si se deben ignorar o no los valores NaN a la hora de realizar los cálculos.</li>
</ul>

In [151]:
catastro = pd.read_table('datos/catastro.tsv', nrows=10)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [152]:
# Estadísticos básicos sobre el data set
catastro.describe()

Unnamed: 0,año,id_distrito,id_barrio,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
count,10.0,10.0,10.0,10.0,9.0,9.0,1.0,10.0
mean,2014.0,1.0,11.0,539.9,1928.444444,125865.888889,130010.0,158741700.0
std,0.0,0.0,0.0,980.444848,27.559532,85847.096668,,142999300.0
min,2014.0,1.0,11.0,8.0,1884.0,7238.0,130010.0,10614660.0
25%,2014.0,1.0,11.0,18.25,1919.0,62963.0,130010.0,33893580.0
50%,2014.0,1.0,11.0,41.5,1937.0,114226.0,130010.0,121890000.0
75%,2014.0,1.0,11.0,482.75,1946.0,197518.0,130010.0,260103500.0
max,2014.0,1.0,11.0,3034.0,1969.0,223552.0,130010.0,407605500.0


In [153]:
# Suma por columnas
catastro.sum()

año                                                            20140
id_distrito                                                       10
distrito           CentroCentroCentroCentroCentroCentroCentroCent...
id_barrio                                                        110
barrio             PALACIOPALACIOPALACIOPALACIOPALACIOPALACIOPALA...
id_uso                                                    ACEGIKMOPR
uso                Almacén-EstacionamientoComercialCulturalOcio y...
num_inmuebles                                                   5399
año_cons_medio                                               17356.0
sup_cons                                                   1132793.0
sup_suelo                                                   130010.0
valor_catastral                                        1587416814.45
dtype: object

In [154]:
# Suma por filas ignorando NA
catastro.sum(axis=1, skipna=True)

  catastro.sum(axis=1, skipna=True)


0    1.297474e+08
1    4.078344e+08
2    7.589568e+07
3    1.955323e+08
4    1.182517e+07
5    1.062588e+07
6    2.004728e+07
7    3.409856e+08
8    2.818682e+08
9    1.143608e+08
dtype: float64

In [155]:
catastro.mean()

  catastro.mean()


año                2.014000e+03
id_distrito        1.000000e+00
id_barrio          1.100000e+01
num_inmuebles      5.399000e+02
año_cons_medio     1.928444e+03
sup_cons           1.258659e+05
sup_suelo          1.300100e+05
valor_catastral    1.587417e+08
dtype: float64

## Elementos únicos y frecuencias

<ul>
<li><b>unique</b>: Que nos devuelve un array con el conjunto de elementos únicos de una Serie.</li>
<li><b>value_counts</b>: Que realiza un cálculo de frecuencias sobre los elementos únicos de una Serie.</li>
<li><b>isin:</b> Que nos permite chequear si un conjunto de valores se encuentra en una Serie.</li>
</ul>

In [156]:
catastro = pd.read_table('datos/catastro.tsv')
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,1.295259e+08
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,4.076055e+08
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,7.582872e+07
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,1.954138e+08
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,1.180795e+07
...,...,...,...,...,...,...,...,...,...,...,...,...
3025,2013,21,Barajas,215,CORRALEJOS,O,Oficinas,172,1994.0,538345.0,,6.893051e+08
3026,2013,21,Barajas,215,CORRALEJOS,R,Religioso,2,2006.0,3264.0,,3.059075e+06
3027,2013,21,Barajas,215,CORRALEJOS,T,Espectáculos,1,1995.0,14720.0,,1.639676e+07
3028,2013,21,Barajas,215,CORRALEJOS,V,Residencial,2939,1999.0,433231.0,,5.177294e+08


In [157]:
# Conjunto de de barrios
catastro.barrio.unique()

array(['PALACIO', 'EMBAJADORES', 'CORTES', 'JUSTICIA', 'UNIVERSIDAD',
       'SOL', 'IMPERIAL', 'ACACIAS', 'CHOPERA', 'LEGAZPI', 'DELICIAS',
       'PALOS DE MOGUER', 'ATOCHA', 'PACÍFICO', 'ADELFAS', 'ESTRELLA',
       'IBIZA', 'LOS JERÓNIMOS', 'NIÑO JESÚS', 'RECOLETOS', 'GOYA',
       'FUENTE DEL BERRO', 'GUINDALERA', 'LISTA', 'CASTELLANA', 'EL VISO',
       'PROSPERIDAD', 'CIUDAD JARDÍN', 'HISPANOAMÉRICA', 'NUEVA ESPAÑA',
       'CASTILLA', 'BELLAS VISTAS', 'CUATRO CAMINOS', 'CASTILLEJOS',
       'ALMENARA', 'VALDEACEDERAS', 'BERRUGUETE', 'GAZTAMBIDE',
       'ARAPILES', 'TRAFALGAR', 'ALMAGRO', 'RIOS ROSAS', 'VALLEHERMOSO',
       'EL PARDO', 'FUENTELARREINA', 'PEÑA GRANDE', 'EL PILAR', 'LA PAZ',
       'VALVERDE', 'MIRASIERRA', 'EL GOLOSO', 'CASA DE CAMPO',
       'ARGÜELLES', 'CIUDAD UNIVERSITARIA', 'VALDEZARZA', 'VALDEMARÍN',
       'EL PLANTÍO', 'ARAVACA', 'LOS CARMENES', 'PUERTA DEL ANGEL',
       'LUCERO', 'ALUCHE', 'CAMPAMENTO', 'CUATRO VIENTOS', 'LAS AGUILAS',
       'COMILLA

In [158]:
# Tabla de frecuencias de distritos
catastro.distrito.value_counts()

Ciudad Lineal            214
Fuencarral - El Pardo    189
San Blas                 186
Moncloa - Aravaca        172
Carabanchel              166
Latina                   165
Usera                    160
Centro                   156
Salamanca                155
Arganzuela               153
Puente de Vallecas       150
Chamartín                148
Chamberí                 147
Tetuán                   144
Hortaleza                142
Retiro                   137
Moratalaz                125
Barajas                  114
Villaverde               112
Vicálvaro                 49
Villa de Vallecas         46
Name: distrito, dtype: int64

In [159]:
# Chequeo de existencia de distritos
catastro[catastro['distrito'].isin(['Centro', 'Latina'])]

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,1.295259e+08
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,4.076055e+08
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,7.582872e+07
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,1.954138e+08
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,1.180795e+07
...,...,...,...,...,...,...,...,...,...,...,...,...
2294,2013,10,Latina,107,LAS AGUILAS,O,Oficinas,80,1994.0,12218.0,,1.413729e+07
2295,2013,10,Latina,107,LAS AGUILAS,P,Edificio Singular,7,1966.0,59258.0,,3.585992e+07
2296,2013,10,Latina,107,LAS AGUILAS,R,Religioso,6,1985.0,7135.0,,5.193782e+06
2297,2013,10,Latina,107,LAS AGUILAS,V,Residencial,22925,1973.0,1902523.0,,1.398108e+09


## Aplicación de funciones sobre estructuras

Al igual que en R tenemos la familia de funciones <i>apply</i>, pandas pone a nuestra disposición un conjunto de funciones que nos permiten aplicar operaciones elemento a elemento (o fila a fila, o columna a columna) en sus estructuras de datos. En concreto disponemos de tres funciones.

#### Aplicación de funciones elemento a elemento sobre Series - Función map

In [160]:
serie = pd.Series([1, 2, 3, 4, 5, 6])
serie

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

In [161]:
def es_par(elemento):
    if elemento % 2 == 0:
        return 'Par: ' + str(elemento)
    else:
        return 'Impar: ' + str(elemento)

In [162]:
# Aplicación de función elemento a elemento sobre Serie
serie.map(es_par)

0    Impar: 1
1      Par: 2
2    Impar: 3
3      Par: 4
4    Impar: 5
5      Par: 6
dtype: object

#### Aplicación de funciones elemento a elemento sobre DataFrames - Función applymap

In [163]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4))
dataframe

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [164]:
def es_par(elemento):
    if elemento % 2 == 0:
        return 'Par: ' + str(elemento)
    else:
        return 'Impar: ' + str(elemento)

In [165]:
# Aplicación de función elemento a elemento sobre DataFrame
dataframe.applymap(es_par)

Unnamed: 0,0,1,2,3
0,Par: 0,Impar: 1,Par: 2,Impar: 3
1,Par: 4,Impar: 5,Par: 6,Impar: 7
2,Par: 8,Impar: 9,Par: 10,Impar: 11
3,Par: 12,Impar: 13,Par: 14,Impar: 15


#### Aplicación de funciones fila a fila o columna a columna sobre DataFrames - Función apply

In [166]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4))
dataframe

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [167]:
def es_suma_par(elemento):
    if np.sum(elemento) % 2 == 0:
        return 'Suma par: ' + str(np.sum(elemento))
    else:
        return 'Suma impar: ' + str(np.sum(elemento))

In [168]:
# Aplicación de función por columnas sobre DataFrame
dataframe.apply(es_suma_par)

0    Suma par: 24
1    Suma par: 28
2    Suma par: 32
3    Suma par: 36
dtype: object

In [169]:
# Aplicación de función por filas sobre DataFrames
dataframe.apply(es_suma_par, axis=1)

0     Suma par: 6
1    Suma par: 22
2    Suma par: 38
3    Suma par: 54
dtype: object

## Fusión de estructuras

La librería pandas nos ofrece, principalmente, dos formas de fusionar estructuras de datos: realizando cruces entre ellos (mediante las claves coincidentes de sus índices) o concatenando sus contenidos (bien por filas o columnas).

#### Función merge - JOIN de estructuras

In [170]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Gareth Edwards','Peter Jackson',  'Martin Scorsese', 'Alfonso Cuarón'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']}
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,2014,,250.0,Peter Jackson,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity


In [171]:
directores = pd.DataFrame(
            {'Director':['Gareth Edwards', 'Martin Scorsese', 'Pedro Almodovar'],
             'AñoNacimiento':[1975, 1942, 1949],
             'Nacionalidad': ['England', 'USA', 'Spain']
             }
)
directores

Unnamed: 0,Director,AñoNacimiento,Nacionalidad
0,Gareth Edwards,1975,England
1,Martin Scorsese,1942,USA
2,Pedro Almodovar,1949,Spain


In [172]:
pd.merge(peliculas, directores[['Director', 'AñoNacimiento']], on = ['Director'])

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,AñoNacimiento
0,2014,6.0,160.0,Gareth Edwards,Godzilla,1975
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,1942


La función busca, por defecto, aquellas claves de columnas que coinciden y realiza el cruce, eliminando del resultado aquellas filas para las que el cruce no es posible.<br/>

También podemos especificar, explícitamente, el conjunto de columnas a utilizar en el cruce.

In [173]:
directores.columns = ['Nombre', 'Nacimiento', 'Nacionalidad']
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014,6.0,160.0,Gareth Edwards,Godzilla,Gareth Edwards,1975,England
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942,USA


Por último, al igual que ocurre en os JOIN de SQL, podemos especificar el modo de cruce a aplicar, haciendo que las filas de la estructura de la izquierda, derecha o ambas que no coincidan se mantengan en el resultado, estableciendo valores NaN en aquellos elementos para los que no exista información.

In [174]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='left')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014,6.0,160.0,Gareth Edwards,Godzilla,Gareth Edwards,1975.0,England
1,2014,,250.0,Peter Jackson,El Hobbit III,,,
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942.0,USA
3,2013,,,Alfonso Cuarón,Gravity,,,


In [175]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='right')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014.0,6.0,160.0,Gareth Edwards,Godzilla,Gareth Edwards,1975,England
1,2013.0,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942,USA
2,,,,,,Pedro Almodovar,1949,Spain


In [176]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='outer')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título,Nombre,Nacimiento,Nacionalidad
0,2014.0,6.0,160.0,Gareth Edwards,Godzilla,Gareth Edwards,1975.0,England
1,2014.0,,250.0,Peter Jackson,El Hobbit III,,,
2,2013.0,8.75,100.0,Martin Scorsese,El lobo de Wall Street,Martin Scorsese,1942.0,USA
3,2013.0,,,Alfonso Cuarón,Gravity,,,
4,,,,,,Pedro Almodovar,1949.0,Spain


Finalmente, en el caso de que tengamos columnas duplicadas en los dos DataFrames que se van a unir, pandas se encargará automáticamente de incluir un sufijo que permita desambiguar (_x, _y, por defecto). 

In [177]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']}
)
directores = pd.DataFrame(
            {'Director':['Gareth Edwards', 'Martin Scorsese', 'Pedro Almodovar'],
             'AñoNacimiento':[1975, 1942, 1949],
             'Nacionalidad': ['England', 'USA', 'Spain'],
             'Valoración':[6, 7, 8]
             }
)
pd.merge(peliculas, directores, left_on='Director', right_on='Director')

Unnamed: 0,Año,Valoración_x,Presupuesto,Director,Título,AñoNacimiento,Nacionalidad,Valoración_y
0,2014,,250.0,Gareth Edwards,El Hobbit III,1975,England,6
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,1942,USA,7


Si queremos modificar estos sufijos, podemos hacer uso del parámetro suffixes que recibe una tupla con los sufijos a utilizar.

In [178]:
pd.merge(peliculas, directores, left_on='Director', right_on='Director', suffixes=('_peli', '_dire'))

Unnamed: 0,Año,Valoración_peli,Presupuesto,Director,Título,AñoNacimiento,Nacionalidad,Valoración_dire
0,2014,,250.0,Gareth Edwards,El Hobbit III,1975,England,6
1,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street,1942,USA,7


#### Función concat

Esta función nos permite fusionar estructuras sin realizar ningún tipo de cruce entre ellas, sino "colocándolas" juntas para la creación de una estructura mayor. Podemos hacerlo tanto en filas como en columnas. Por defecto, se concatenan filas y se mantienen las columnas de ambas estructuras aunque no coincidan en clave, dejando a NaN los elementos que no existan.

In [179]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Gareth Edwards','Peter Jackson', 'Martin Scorsese', 'Alfonso Cuarón']},
            index = ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']
)
peliculas2 = pd.DataFrame(
            {'Año':[2014, 2014], 
             'Valoración':[7.3, 6.3],
             'Director':['Evan Goldberg', ' Rupert Wyatt']},
            index = ['La entrevista', 'El jugador']
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director
Godzilla,2014,6.0,160.0,Gareth Edwards
El Hobbit III,2014,,250.0,Peter Jackson
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
Gravity,2013,,,Alfonso Cuarón


In [180]:
peliculas2

Unnamed: 0,Año,Valoración,Director
La entrevista,2014,7.3,Evan Goldberg
El jugador,2014,6.3,Rupert Wyatt


In [181]:
pd.concat([peliculas, peliculas2], sort = False)

Unnamed: 0,Año,Valoración,Presupuesto,Director
Godzilla,2014,6.0,160.0,Gareth Edwards
El Hobbit III,2014,,250.0,Peter Jackson
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
Gravity,2013,,,Alfonso Cuarón
La entrevista,2014,7.3,,Evan Goldberg
El jugador,2014,6.3,,Rupert Wyatt


También podemos concatenar por columnas.

In [182]:
peliculas3 = pd.DataFrame(
            {'Recaudación':[525, 722, 392]},
            index = ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street']
)
pd.concat([peliculas, peliculas3],axis=1, sort = False)

Unnamed: 0,Año,Valoración,Presupuesto,Director,Recaudación
Godzilla,2014,6.0,160.0,Gareth Edwards,525.0
El Hobbit III,2014,,250.0,Peter Jackson,722.0
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese,392.0
Gravity,2013,,,Alfonso Cuarón,


Aunque es un funcionamiento más propio de la función merge, pandas nos permite eliminar del resultado aquellas combinaciones para las que no existen datos en alguna de las dos estructuras.

In [183]:
pd.concat([peliculas, peliculas3],axis=1, join='inner')

Unnamed: 0,Año,Valoración,Presupuesto,Director,Recaudación
Godzilla,2014,6.0,160.0,Gareth Edwards,525
El Hobbit III,2014,,250.0,Peter Jackson,722
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese,392


Por último, puede ser útil identificar en la estructura resultante el origen de cada una de las filas para posterior análisis. La función concat incluye un parámetro <b>keys</b> que podemos utilizar para añadir una clave a cada uno de las estructuras origen, que se convertirá en el nivel más agregado de un índice jerárquico.

In [184]:
pd.concat([peliculas, peliculas2], keys=['dataset1','dataset2'], sort = False)

Unnamed: 0,Unnamed: 1,Año,Valoración,Presupuesto,Director
dataset1,Godzilla,2014,6.0,160.0,Gareth Edwards
dataset1,El Hobbit III,2014,,250.0,Peter Jackson
dataset1,El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
dataset1,Gravity,2013,,,Alfonso Cuarón
dataset2,La entrevista,2014,7.3,,Evan Goldberg
dataset2,El jugador,2014,6.3,,Rupert Wyatt


## Operaciones de agrupación

La librería pandas también incluye la posibiilidad de hacer agrupación de resultados y operaciones sobre los grupos (al estilo de las sentencias GROUP BY de SQL).

In [185]:
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director
Godzilla,2014,6.0,160.0,Gareth Edwards
El Hobbit III,2014,,250.0,Peter Jackson
El lobo de Wall Street,2013,8.75,100.0,Martin Scorsese
Gravity,2013,,,Alfonso Cuarón


In [186]:
agrupado = peliculas.groupby('Año')
type(agrupado)

pandas.core.groupby.generic.DataFrameGroupBy

Una agrupación no es un objeto "imprimible", es una representación interna del conjunto de registros que pertenecen a cada grupo y sólo tiene sentido si, posteriormente, se va a aplicar alguna operación sobre dichos grupos. Hay que tener en cuenta que no todas las operaciones son aplicacables sobre todos los tipos de columna.

In [187]:
# Media por grupo
agrupado.mean()

Unnamed: 0_level_0,Valoración,Presupuesto
Año,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,8.75,100.0
2014,6.0,205.0


In [188]:
# Conteo de valores no nulos por grupo
agrupado.count()

Unnamed: 0_level_0,Valoración,Presupuesto,Director
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,1,2
2014,1,2,2


Aunque con estos datos quizá no tenga tanto sentido, podemos realizar la agrupación por múltiples claves.

In [189]:
peliculas.groupby(['Año', 'Director']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Valoración,Presupuesto
Año,Director,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,Alfonso Cuarón,0.0,0.0
2013,Martin Scorsese,8.75,100.0
2014,Gareth Edwards,6.0,160.0
2014,Peter Jackson,0.0,250.0
