# Operaciones básicas

Trataremos aquí las operaciones más básicas que se pueden realizar sobre las estructuras de datos de pandas. Se separan en un notebook aparte porque estas operaciones tienen un funcionamiento prácticamente idéntico en Series y DataFrames. En caso de que esto no sea así en algún caso concreto se indicará explícitamente.

In [1]:
import numpy as np
import pandas as pd

## Tratamiento de Series y DataFrames como diccionarios

Dado que internamente tanto las Series como los DataFrames pueden verse como diccionarios, podemos apilcar sobre los mismos cualquier funcionalidad que aplicaríamos sobre diccionarios básicos del core de Python.<br/>
<b>IMPORTANTE:</b> Hay que tener en cuenta que en DataFrames el diccionario es un diccionario de "columnas".

In [2]:
serie = pd.Series([1,2,3,4], index=['a','b','c','d'])

dataframe = pd.DataFrame({'var1':serie,'var2':serie})

print('datos')
print(serie,'\n')
print(dataframe)

datos
a    1
b    2
c    3
d    4
dtype: int64 

   var1  var2
a     1     1
b     2     2
c     3     3
d     4     4


#### Indexación por clave

In [3]:
print("Indexación por clave")
print(serie['a'],'\n')
print(dataframe['var2'])

Indexación por clave
1 

a    1
b    2
c    3
d    4
Name: var2, dtype: int64


#### Comprobación de la existencia de una clave

In [4]:
print("Comprobación de la existencia de una clave")
print('b' in serie, '\n')
print('b' in dataframe, '\n')
print('var1' in serie, '\n')

Comprobación de la existencia de una clave
True 

False 

False 



#### Adición de elementos

<b>IMPORTANTE:</b> Al añadir columnas a un DataFrame, el tamaño del vector añadido deberá coincidir con el del DataFrame original. En caso contrario se recibirá un error.

In [5]:
print("Adición de elementos")
serie['e']=5
dataframe['var3']=[5,6,7,8]

print(serie,'\n')
print(dataframe)

Adición de elementos
a    1
b    2
c    3
d    4
e    5
dtype: int64 

   var1  var2  var3
a     1     1     5
b     2     2     6
c     3     3     7
d     4     4     8


#### Eliminación de elementos

In [6]:
print("Eliminación de elementos")
del serie['e']
del dataframe['var3']

print(serie,'\n')
print(dataframe)

Eliminación de elementos
a    1
b    2
c    3
d    4
dtype: int64 

   var1  var2
a     1     1
b     2     2
c     3     3
d     4     4


## Tratamiento de Series y DataFrames como ndarrays

Dado que, internamente, cualquier estructura de pandas está implementada sobre ndarrays de NumPy, es posible realizar sobre Series y DataFrames todas las operaciones que se pueden realizar sobre un ndarrays.<br/>
<b>IMPORTANTE:</b> Dado que un ndarray no puede mezclar elementos de diferentes tipos y un DataFrame sí, algunas de las operaciones sobre DataFrames estarán supeditadas a que todas sus columnas tengan el mismo tipo.

In [7]:
serie = pd.Series([1,2,3,4], index=['a','b','c','d'])
dataframe = pd.DataFrame({"var1":pd.Series(serie, dtype=np.int32), "var2":pd.Series(serie, dtype=np.int32)})

print(serie,'\n')
print(dataframe)

a    1
b    2
c    3
d    4
dtype: int64 

   var1  var2
a     1     1
b     2     2
c     3     3
d     4     4


#### Consulta de la composición

Disponemos de los mismos atributos de consulta que en ndarrays, si bien hay que tener en cuenta que:<br/>
<ul>
<li>El atributo <b>dtype</b> será <b>dtypes</b> en DataFrames dada la posibilidad de múltiples tipos.</li>
<li>El atributo <b>ndim</b> en Series siempre valdrá 1 dado que siempre son estructuras unidimensionales y 2 en DataFrames dado que siempre son estructuras bidimensionales.</li>
</ul>

In [8]:
print("Consulta del tipo almacenado en la estructura")
print(serie.dtype,'\n')
print(dataframe.dtypes)

Consulta del tipo almacenado en la estructura
int64 

var1    int32
var2    int32
dtype: object


In [9]:
print("Consulta del número de dimensiones de la estructura")
print(serie.ndim,'\n')
print(dataframe.ndim)

Consulta del número de dimensiones de la estructura
1 

2


In [10]:
print("\nConsulta de la forma de la estructura")
print(serie.shape,'\n')
print(dataframe.shape)


Consulta de la forma de la estructura
(4,) 

(4, 2)


In [11]:
print("Consulta del número de elementos de la estructura")
print(serie.size,'\n')
(dataframe.size)

Consulta del número de elementos de la estructura
4 



8

#### Operaciones con escalares

Al aplicar una operación sobre una estructura de pandas y un escalar se obtendrá otra estructura de pandas de idénticas características a la inicial pero con la operación aplicada elemento a elemento, <b>manteniendo el índice inalterado</b>.<br/>
<b>IMPORTANTE</b>: Dado que un DataFrame puede mezclar tipos muy diferentes en sus columnas, la aplicación de una operación con un escalar elemento a elemento puede no ser válida (p.e. operaciones matemáticas sobre cadenas).

In [12]:
print(serie+2, '\n')
print(1/serie)

a    3
b    4
c    5
d    6
dtype: int64 

a    1.000000
b    0.500000
c    0.333333
d    0.250000
dtype: float64


In [13]:
print(dataframe * 2, '\n')
print(1/dataframe)

   var1  var2
a     2     2
b     4     4
c     6     6
d     8     8 

       var1      var2
a  1.000000  1.000000
b  0.500000  0.500000
c  0.333333  0.333333
d  0.250000  0.250000


#### Operaciones entre estructuras de pandas

Al aplicar una operación entre estructuras de pandas se aplicará la misma elemento a elemento. En el caso de pandas no es necesario, como lo era en NumPy, que los operandos tengan el mismo tamaño y forma ya que se aplicará un proceso de "alineación". Este proceso devolverá:<br/>
<ul>
<li>Como índices: la unión de las claves de ambos operandos.</li>
<li>Como valores: el resultado de aplicar la operación entre cada pareja de elementos (si coinciden las claves entre ambos operandos) o NaN (en caso contrario).</li>
</ul>

<b>IMPORTANTE:</b> De nuevo, el hecho de que un DataFrame pueda mezclar tipos en sus contenidos hace que no todas las operaciones matemáticas se puedan aplicar a los mismos.

In [14]:
serie1 = serie.copy()
serie1['e'] = 7

dataframe1 = dataframe.copy()
dataframe1['var3'] = [1,2,3,4]

print(serie + serie1, '\n')
print(dataframe + dataframe1, '\n')
print(dataframe * dataframe1)

a    2.0
b    4.0
c    6.0
d    8.0
e    NaN
dtype: float64 

   var1  var2  var3
a     2     2   NaN
b     4     4   NaN
c     6     6   NaN
d     8     8   NaN 

   var1  var2  var3
a     1     1   NaN
b     4     4   NaN
c     9     9   NaN
d    16    16   NaN


#### Trasposición - Sólo DataFrames

Podemos trasponer filas por columnas, pero únicamente en DataFrame (ya que las series sólo pueden ser unidimensionales). Básicamente lo que se realizará es intercambiar el índice de columnas por el de filas.

In [19]:
print(dataframe, '\n')
print(dataframe.T)

   var1  var2
a     1     1
b     2     2
c     3     3
d     4     4 

      a  b  c  d
var1  1  2  3  4
var2  1  2  3  4


#### Funciones de numpy (Universal functions, operaciones matemáticas...)

Podemos aplicar cualquier función de NumPy a cualquier estructura de pandas.<br/>
<b>IMPORTANTE:</b> De nuevo, al poder tener múltiples tipos en DataFrames no siempre se podrán aplicar las operaciones (o el resultado obtenido no será el esperado). Además, en el caso de DataFrames en caso de no indicar un valor para <b>axis</b> se aplicará la operación por columnas y nunca sobre el DataFrame completo.

In [26]:
print("Operaciones sobre estructuras de pandas")
print(np.sqrt(serie),'\n')
print(np.sum(dataframe))

print("\nOperaciones por eje sobre dataframes")
print(dataframe,'\n')
print(np.sum(dataframe, axis=1))

Operaciones sobre estructuras de pandas
a    1.000000
b    1.414214
c    1.732051
d    2.000000
dtype: float64 

var1    10
var2    10
dtype: int64

Operaciones por eje sobre dataframes
   var1  var2
a     1     1
b     2     2
c     3     3
d     4     4 

a    2
b    4
c    6
d    8
dtype: int64


## Indexación y slicing en pandas

Además de poder reutilizar los métodos de indexación y slicing de NumPy sobre Series y DataFrames (con las limitaciones ya comentadas), pandas pone a nuestra disposición nuevos métodos de indexación que permiten tener un mayor control sobre la misma y superar las limitaciones que nos impone NumPy sobre este tipo de estructuras. Veamos todas las posibles combinaciones.<br/>

#### Indexación por atributo de clave

Podemos indexar un elemento concreto de una Serie o una columna concreta de un DataFrame mediante el uso de su etiqueta/clave como atributo, con sintaxis obj.etiqueta.

In [35]:
serie = pd.Series([1,2,3,4], index=['a','b','c','d'])
dataframe = pd.DataFrame(np.arange(16).reshape(4,4),index=['f1','f2','f3','f4'], columns=['c1','c2','c3','c4'])

print("Indexación por atributos en Series")
print(serie.b)

print("Indexación por atributos en DataFrames")
print(dataframe.c1)

Indexación por atributos en Series
2
Indexación por atributos en DataFrames
f1     0
f2     4
f3     8
f4    12
Name: c1, dtype: int32


#### Indexación con sintáxis [] directa

<table>
<tr>
<th>Tipo</th>
<th>En Series</th>
<th>En DataFrames</th>
</tr>
<tr>
<td>obj[num_val]</td>
<td>Selección por posición (salvo si el índice es numérico)</td>
<td>Selección por clave de columna</td>
</tr>
<tr>
<td>obj[key]</td>
<td>Selección por clave</td>
<td>Selección por clave de columna</td>
</tr>
<tr>
<td>obj[num_val1:num_val2]</td>
<td>Selección por posición (salvo si el índice es numérico)</td>
<td>Selección por posición de fila (salvo si el índice de filas es numérico)</td>
</tr>
<tr>
<td>obj[key1:key2]</td>
<td>Selección por clave</td>
<td>Selección por clave de fila</td>
</tr>
<tr>
<td>obj[[num_val1,..,num_valn]]</td>
<td>Selección por posición (salvo si el índice es numérico)</td>
<td>Selección por posición de columna</td>
</tr>
<tr>
<td>obj[[key1,..,keyn]]</td>
<td>Selección por clave</td>
<td>Selección por clave de columna</td>
</tr>
<tr>
<td>obj[condition]</td>
<td>Selección por estructura booleana</td>
<td>Selección por estructura booleana</td>
</tr>
</table>

In [49]:
print(serie['b'],'\n')
print(serie[1],'\n')
print(serie['b':'d'],'\n')
print(serie[1:3],'\n')
print(serie[['b','a','d']],'\n')
print(serie[[True, False, True, False]])

2 

2 

b    2
c    3
d    4
dtype: int64 

b    2
c    3
dtype: int64 

b    2
a    1
d    4
dtype: int64 

a    1
c    3
dtype: int64


In [61]:
print(dataframe['c2'],'\n')                  #por columna
print(dataframe['f1':'f3'],'\n')             #por fila
print(dataframe[1:3],'\n')                   #por fila
print(dataframe[['c2','c1','c4']],'\n')      #por columna
print(dataframe[[True, False, True, False]]) #por fila

f1     1
f2     5
f3     9
f4    13
Name: c2, dtype: int32 

    c1  c2  c3  c4
f1   0   1   2   3
f2   4   5   6   7
f3   8   9  10  11 

    c1  c2  c3  c4
f2   4   5   6   7
f3   8   9  10  11 

    c2  c1  c4
f1   1   0   3
f2   5   4   7
f3   9   8  11
f4  13  12  15 

    c1  c2  c3  c4
f1   0   1   2   3
f3   8   9  10  11


#### Indexación con método .loc - Por claves

<table>
<tr>
<th>Tipo</th>
<th>En Series</th>
<th>En DataFrames</th>
</tr>
<tr>
<td>obj.loc[key]</td>
<td>Selección por clave</td>
<td>Selección por clave de filas</td>
</tr>
<tr>
<td>obj.loc[key1:key2]</td>
<td>Selección por clave</td>
<td>Selección por clave de filas</td>
</tr>
<tr>
<td>obj.loc[[key1,...,keyn]]</td>
<td>Selección por clave</td>
<td>Selección por clave de filas</td>
</tr>
<tr>
<td>obj.loc[condition]</td>
<td>Selección por estructura booleana</td>
<td>Selección por estructura booleana sobre filas</td>
</tr>
<tr>
<td>obj.loc[sel1, sel2]</td>
<td>ERROR</td>
<td>Selección por clave de fila (sel1) y columna (sel2). Selectores: clave, slice, secuencia o condición</td>
</tr>
</table>

In [70]:
print(serie.loc['b'],'\n')   
print(serie.loc['b':'d'],'\n')
print(serie.loc[['b','a','d']],'\n')
print(serie.loc[[True, False, True, False]])

2 

b    2
c    3
d    4
dtype: int64 

b    2
a    1
d    4
dtype: int64 

a    1
c    3
dtype: int64


In [83]:
print(dataframe.loc['f1'],'\n')                  #por filas
print(dataframe.loc['f1':'f3'],'\n')             #por filas
print(dataframe.loc[['f3','f1','f2']],'\n')      #por filas
print(dataframe.loc[[True, False, True, False]]) #por filas

print(dataframe.loc[['f3','f2'],['c1','c4']])    #por filas y columnas

c1    0
c2    1
c3    2
c4    3
Name: f1, dtype: int32 

    c1  c2  c3  c4
f1   0   1   2   3
f2   4   5   6   7
f3   8   9  10  11 

    c1  c2  c3  c4
f3   8   9  10  11
f1   0   1   2   3
f2   4   5   6   7 

    c1  c2  c3  c4
f1   0   1   2   3
f3   8   9  10  11
    c1  c4
f3   8  11
f2   4   7


#### Indexación con método .iloc - Por índices

<table>
<tr>
<th>Tipo</th>
<th>En Series</th>
<th>En DataFrames</th>
</tr>
<tr>
<td>obj.iloc[num_val]</td>
<td>Selección por posición</td>
<td>Selección por posición de filas</td>
</tr>
<tr>
<td>obj.iloc[num_val1:num_val2]</td>
<td>Selección por posición</td>
<td>Selección por posición de filas</td>
</tr>
<tr>
<td>obj.iloc[[num_val1,...,num_valn]]</td>
<td>Selección por posición</td>
<td>Selección por posición de filas</td>
</tr>
<tr>
<td>obj.iloc[sel1, sel2]</td>
<td>ERROR</td>
<td>Selección por clave de fila (sel1) y columna (sel2). Selectores: posición, slice o secuencia</td>
</tr>
</table>

In [89]:
    print(serie.iloc[3],'\n')
    print(serie.iloc[1:3],'\n')
    print(serie.iloc[[1,0,3]],'\n')

4 

b    2
c    3
dtype: int64 

b    2
a    1
d    4
dtype: int64 

a    1
c    3
dtype: int64


In [97]:
print(dataframe.iloc[1],'\n')                      #por filas
print(dataframe.iloc[1:3],'\n')                    #por filas
print(dataframe.iloc[[3,1,2]],'\n')                #por filas

print(dataframe.iloc[[3,2],[1,3]] )                #por filas y columnas

c1    4
c2    5
c3    6
c4    7
Name: f2, dtype: int32 

    c1  c2  c3  c4
f2   4   5   6   7
f3   8   9  10  11 

    c1  c2  c3  c4
f4  12  13  14  15
f2   4   5   6   7
f3   8   9  10  11 

    c2  c4
f4  13  15
f3   9  11


Al igual que en el core de Python y NumPy, un slice o selección se puede utilizar en el lado izquierdo de una asignación para modificar el contenido de los elementos dentro de la selección.

In [128]:
serie.iloc[0] = 100
dataframe.loc['f1':'f3','c1'] = [100, 100, 100]
dataframe


Unnamed: 0,c1,c2,c3,c4
f1,100,1,2,3
f2,100,5,6,7
f3,100,9,10,11
f4,12,13,14,15
