# Pandas: Operaciones básicas

Trataremos aquí las operaciones más básicas que se pueden realizar sobre las estructuras de datos de pandas. Estas operaciones tienen un funcionamiento prácticamente idéntico en Series y DataFrames. En caso de que esto no sea así en algún caso concreto se indicará explícitamente.

In [168]:
import numpy as np
import pandas as pd

# Indexación en series y dataframes

In [237]:
serie = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [238]:
datos=np.random.rand(10).reshape(5,2)
dataframe = pd.DataFrame(data=datos,columns=['Columna1','Columna2'])
dataframe

Unnamed: 0,Columna1,Columna2
0,0.192489,0.038231
1,0.146901,0.664956
2,0.598928,0.191985
3,0.922394,0.681281
4,0.740906,0.647331


## Indexación por index (fila) y por columna

**Series solo** tiene **index** (no tiene columnas)

**Dataframe** tiene **index y columnas**

In [239]:
# Series: Indexación por index
serie['a']

1

In [240]:
# Dataframe: Indexación por columna
dataframe['Columna1']

0    0.192489
1    0.146901
2    0.598928
3    0.922394
4    0.740906
Name: Columna1, dtype: float64

In [241]:
#Dataframe: Indexación por index (loc[])
dataframe.loc[2] #.loc[etiqueta] 

Columna1    0.598928
Columna2    0.191985
Name: 2, dtype: float64

In [242]:
#Dataframe: Indexación por index (iloc[])
dataframe.loc[2] #.iloc[posición] 

Columna1    0.598928
Columna2    0.191985
Name: 2, dtype: float64

**En el caso anterior .loc[2] apuntaba a la fila con etiqueta '2'.**

Sin embargo **.iloc[2] apuntaba a la fila 2**.

La **diferencia se observa mejor en el siguiente ejemplo** (cambiemos el index por etiquetas no numéricas)

In [243]:
dataframe.index=[['a','b','c','d','e']] #Cambiamos el index para entender la diferencia.
print(dataframe.iloc[2])#Correcto
print(dataframe.loc[2]) #Va a dar error

Columna1    0.598928
Columna2    0.191985
Name: (c,), dtype: float64


KeyError: 2

Ahora da **error para .loc[2] porque no hay ninguna etiqueta '2'.**

**Si queremos usar .loc[]** ahora tenemos que escribir lo siguiente:

In [244]:
dataframe.loc['c'] #Indexamos por el nombre de la etiqueta en el index

Unnamed: 0,Columna1,Columna2
c,0.598928,0.191985


In [None]:
dataframe.reset_index() #Reset de index (Si drop=True no incorporamos los antiguos índices)

In [None]:
dataframe.set_index(['c1']) #Sustituye el index por otro

# Comprobación de la existencia de una etiqueta (de index o de columna)

In [245]:
# En una serie
'b' in serie.index

True

In [246]:
# Comprobación de la existencia de un nombre de columna en dataframes
'Columna2' in dataframe.columns

True

In [247]:
# Comprobación de la existencia de un nombre de index en dataframes
'd' in dataframe.index

True

# Adición de elementos

<b>IMPORTANTE:</b> Al añadir columnas a un DataFrame, el **tamaño del vector añadido deberá coincidir con el del DataFrame original**. En caso contrario se recibirá un error.

In [248]:
serie

a    1
b    2
c    3
d    4
dtype: int64

In [249]:
# Adición de elementos a series
serie['e'] = 5
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [250]:
# Adición de columnas a dataframes
dataframe['var3'] = [5, 6, 7, 4,3]
dataframe

Unnamed: 0,Columna1,Columna2,var3
a,0.192489,0.038231,5
b,0.146901,0.664956,6
c,0.598928,0.191985,7
d,0.922394,0.681281,4
e,0.740906,0.647331,3


In [251]:
# Adición de filas a un dataframe: por medio de diccionario
new_row={'Columna1':1,'Columna2':-1,'var3':1} #Las keys han de corresponder a las columnas del dataframe
dataframe=dataframe.append(new_row,ignore_index=True)
dataframe

Unnamed: 0,Columna1,Columna2,var3
0,0.192489,0.038231,5
1,0.146901,0.664956,6
2,0.598928,0.191985,7
3,0.922394,0.681281,4
4,0.740906,0.647331,3
5,1.0,-1.0,1


In [252]:
# Adición de filas a un dataframe: por medio pandas Series
data=[0,1,1]
index=['Columna1','Columna2','var3'] #Index ha de corresponder con las etiquetas de las columnas en el dataframe
new_row=pd.Series(data,index=index)

dataframe=dataframe.append(new_row,ignore_index=True)
dataframe

Unnamed: 0,Columna1,Columna2,var3
0,0.192489,0.038231,5
1,0.146901,0.664956,6
2,0.598928,0.191985,7
3,0.922394,0.681281,4
4,0.740906,0.647331,3
5,1.0,-1.0,1
6,0.0,1.0,1


# Eliminación de elementos

In [253]:
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [254]:
# Eliminación de elementos en series
serie=serie.drop(['e'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [255]:
# Eliminación de columnas en dataframes
dataframe=dataframe.drop(['var3'],axis=1)
dataframe

Unnamed: 0,Columna1,Columna2
0,0.192489,0.038231
1,0.146901,0.664956
2,0.598928,0.191985
3,0.922394,0.681281
4,0.740906,0.647331
5,1.0,-1.0
6,0.0,1.0


In [256]:
# Eliminación de filas en dataframe
dataframe=dataframe.drop([6],axis=0)
dataframe

Unnamed: 0,Columna1,Columna2
0,0.192489,0.038231
1,0.146901,0.664956
2,0.598928,0.191985
3,0.922394,0.681281
4,0.740906,0.647331
5,1.0,-1.0


# Operaciones con escalares

Al aplicar una operación sobre una estructura de pandas y un escalar se obtendrá otra estructura de pandas de idénticas características a la inicial pero con la **operación aplicada elemento a elemento**, <b>manteniendo el índice inalterado</b>.<br/>

IMPORTANTE: Dado que un DataFrame puede mezclar tipos muy diferentes en sus columnas, la aplicación de una operación con un escalar elemento a elemento puede no ser válida (p.e. operaciones matemáticas sobre cadenas).

In [216]:
# Suma de series y escalar
serie + 2

a    3
b    4
c    5
d    6
dtype: int64

In [217]:
# División de series y escalar
1 / serie

a    1.000000
b    0.500000
c    0.333333
d    0.250000
dtype: float64

In [218]:
# Multiplicación de dataframe y escalar
dataframe * 2

Unnamed: 0,Columna1,Columna2
0,0.008985,0.993459
1,1.343348,0.8294
2,1.713012,1.377858
3,1.932341,0.512777
4,0.266629,0.539381
5,2.0,-2.0
7,0.0,2.0


In [258]:
# División de dataframe y escalar
new_row=pd.Series(['a','b'],index=['Columna1','Columna2'])
dataframe=dataframe.append(new_row,ignore_index=True)
print(dataframe)
1/dataframe #Da error porque una de las columnas es de tipo string.

   Columna1  Columna2
0  0.192489  0.038231
1  0.146901  0.664956
2  0.598928  0.191985
3  0.922394  0.681281
4  0.740906  0.647331
5         1        -1
6         a         b
7         a         b


TypeError: unsupported operand type(s) for /: 'int' and 'str'

# Operaciones entre estructuras de pandas

Al aplicar una operación entre estructuras de pandas se aplicará la misma **elemento a elemento**. **En el caso de pandas no es necesario, como lo era en NumPy, que los operandos tengan el mismo tamaño y forma** ya que se aplicará un **proceso de "alineación"**. Este proceso devolverá:<br/>

- Como **índices**: la **unión de las claves** de ambos operandos.

- Como **valores**: el **resultado de aplicar la operación entre cada pareja** de elementos (**si coinciden las claves** entre ambos operandos) **o NaN (en caso contrario)**.


IMPORTANTE: De nuevo, el hecho de que un DataFrame pueda mezclar tipos en sus contenidos hace que no todas las operaciones matemáticas se puedan aplicar a los mismos.

In [275]:
serie1=serie
serie2 = serie1*2
print(serie1)
print()
print(serie2)

a    1
b    2
c    3
d    4
dtype: int64

a    2
b    4
c    6
d    8
dtype: int64


In [276]:
columns=['a','b','c','d','e','f']
dataframe1=pd.DataFrame(data=np.random.randint(0,9,(6,6)),columns=index)
dataframe2=pd.DataFrame(data=np.random.randint(0,9,(6,6)),columns=index)
print(dataframe1)
print()
print(dataframe2)

   a  b  c  d  e  f
0  1  8  6  6  8  6
1  7  3  7  6  3  4
2  0  3  7  2  4  8
3  5  4  8  5  4  5
4  2  5  1  4  0  8
5  2  6  7  6  3  4

   a  b  c  d  e  f
0  5  4  7  3  8  6
1  4  7  7  4  3  5
2  2  3  2  2  2  7
3  5  3  1  1  3  5
4  8  4  2  8  3  8
5  0  7  0  7  5  6


In [277]:
# Operaciones de un escalar sobre un dataframe (elemento a elemento)
dataframe1*3

Unnamed: 0,a,b,c,d,e,f
0,3,24,18,18,24,18
1,21,9,21,18,9,12
2,0,9,21,6,12,24
3,15,12,24,15,12,15
4,6,15,3,12,0,24
5,6,18,21,18,9,12


In [278]:
# Suma de series
serie1 + serie2

a     3
b     6
c     9
d    12
dtype: int64

In [279]:
# Suma de dataframes
dataframe1 + dataframe2

Unnamed: 0,a,b,c,d,e,f
0,6,12,13,9,16,12
1,11,10,14,10,6,9
2,2,6,9,4,6,15
3,10,7,9,6,7,10
4,10,9,3,12,3,16
5,2,13,7,13,8,10


In [280]:
# Producto de dataframes
dataframe1 * dataframe2

Unnamed: 0,a,b,c,d,e,f
0,5,32,42,18,64,36
1,28,21,49,24,9,20
2,0,9,14,4,8,56
3,25,12,8,5,12,25
4,16,20,2,32,0,64
5,0,42,0,42,15,24


In [282]:
#Transposición de dataframes
print(dataframe1)
dataframe1.T

   a  b  c  d  e  f
0  1  8  6  6  8  6
1  7  3  7  6  3  4
2  0  3  7  2  4  8
3  5  4  8  5  4  5
4  2  5  1  4  0  8
5  2  6  7  6  3  4


Unnamed: 0,0,1,2,3,4,5
a,1,7,0,5,2,2
b,8,3,3,4,5,6
c,6,7,7,8,1,7
d,6,6,2,5,4,6
e,8,3,4,4,0,3
f,6,4,8,5,8,4


# Funciones de numpy

**Podemos aplicar cualquier función de NumPy** a cualquier estructura de pandas.<br/>

<b>IMPORTANTE:</b> De nuevo, al poder tener múltiples tipos en DataFrames no siempre se podrán aplicar las operaciones (o el resultado obtenido no será el esperado). Además, **en el caso de DataFrames en caso de no indicar un valor para axis se aplicará la operación por columnas** y nunca sobre el DataFrame completo.

In [289]:
# Funciones sobre pandas series
np.sqrt(serie)

a    1.000000
b    1.414214
c    1.732051
d    2.000000
dtype: float64

In [292]:
print(dataframe2)
np.sum(dataframe2,axis=0) #Especificamos eje para indicar el sentido de la operación

   a  b  c  d  e  f
0  5  4  7  3  8  6
1  4  7  7  4  3  5
2  2  3  2  2  2  7
3  5  3  1  1  3  5
4  8  4  2  8  3  8
5  0  7  0  7  5  6


a    24
b    28
c    19
d    25
e    24
f    37
dtype: int64

# Ordenación

In [298]:
#Ordenación de valores en series
serie = pd.Series([3, 2, 1, 4], index=['d', 'a', 'c', 'b'])
print(serie)
serie.sort_values(ascending=True) #ascending=True es el dflt

d    3
a    2
c    1
b    4
dtype: int64


c    1
a    2
d    3
b    4
dtype: int64

In [299]:
#Ordenación de index en series
serie.sort_index() #ascending=True es el dflt

a    2
b    4
c    1
d    3
dtype: int64

#Ordenación de valores en dataframe
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f3', 'f1', 'f4', 'f2'], columns=['c3', 'c1', 'c4', 'c2'])
print(dataframe)
dataframe['c3'].sort_values()

In [304]:
#También
dataframe.sort_values(by='c4')

Unnamed: 0,c3,c1,c4,c2
f3,0,1,2,3
f1,4,5,6,7
f4,8,9,10,11
f2,12,13,14,15


In [305]:
#Ordenación de index en dataframe
dataframe.sort_index()

Unnamed: 0,c3,c1,c4,c2
f1,4,5,6,7
f2,12,13,14,15
f3,0,1,2,3
f4,8,9,10,11


# Head y Tail

**Visualización** del **comienzo y final** de un dataframe

In [307]:
dataframe.head() #Por defecto lista los cinco primeros records

Unnamed: 0,c3,c1,c4,c2
f3,0,1,2,3
f1,4,5,6,7
f4,8,9,10,11
f2,12,13,14,15


In [310]:
dataframe.head(1) #Se puede definir el número de records a visualizar

Unnamed: 0,c3,c1,c4,c2
f3,0,1,2,3


In [311]:
dataframe.tail() #Igual que .head pero empiez por el final del dataframe

Unnamed: 0,c3,c1,c4,c2
f3,0,1,2,3
f1,4,5,6,7
f4,8,9,10,11
f2,12,13,14,15


In [314]:
serie.tail(5) #También sirve para Series.

d    3
a    2
c    1
b    4
dtype: int64

# Muestreo en dataframes

Cargar datos de fuentes externas, almacernar dichos datos en un dataframe y **dividir el dataframe de forma aleatoria son tareas del día a día de un data scientist**.

**La razón para la división aleatoria de los datos es la creación de un subdataframe de training para entrenar modelos y dejar el subset de datos restantes para testear el modelo.**


In [315]:
from sklearn.datasets import load_boston # El framwork skitlearn proporciona datasets para probar nuestras skills.
data=load_boston() # Es un dataset sobre precios de casas en Boston.

In [316]:
print(data)

{'data': array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 1.5300e+01, 3.9690e+02,
        4.9800e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9690e+02,
        9.1400e+00],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9283e+02,
        4.0300e+00],
       ...,
       [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        5.6400e+00],
       [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9345e+02,
        6.4800e+00],
       [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        7.8800e+00]]), 'target': array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
       18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
       15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
       13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
       21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
       35.4, 24.7, 31.6, 23.3, 19.6, 1

**Los datos vienen en forma de diccionario. Debemos empaquetar la información en un dataframe pandas**

In [318]:
df = pd.DataFrame(data.data, columns=data.feature_names)
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [319]:
df_sample=df.sample(frac=0.8,replace=False) #Se obtiene una muestra aleatoria que contiene el 80% de los datos
print('Longitud de dataframe original',len(df))
print('Longitud del muestreo',len(df_sample))

Longitud de dataframe original 506
Longitud del muestreo 405


In [320]:
#También se puede barajar la muestra obtenida
from sklearn.utils import shuffle
df_shuffled=shuffle(df_sample)
df_shuffled.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
490,0.20746,0.0,27.74,0.0,0.609,5.093,98.0,1.8226,4.0,711.0,20.1,318.43,29.68
427,37.6619,0.0,18.1,0.0,0.679,6.202,78.7,1.8629,24.0,666.0,20.2,18.82,14.52
352,0.07244,60.0,1.69,0.0,0.411,5.884,18.5,10.7103,4.0,411.0,18.3,392.33,7.79
264,0.55007,20.0,3.97,0.0,0.647,7.206,91.6,1.9301,5.0,264.0,13.0,387.89,8.1
81,0.04462,25.0,4.86,0.0,0.426,6.619,70.4,5.4007,4.0,281.0,19.0,395.63,7.22


In [321]:
df_tr=df.sample(frac=.8)
df_test=df[~df.index.isin(df_tr.index)] #Filtro para tomar en el grupo de testing aquellos índices que no están en el grupo de training
print(len(df_tr),len(df_test))
print(len(df))


405 101
506


# Filtros

In [None]:
df.columns

In [None]:
df_filtered=df[df['AGE']<30]
df_filtered.head(15)

# Groupby

Se pueden hacer agrupaciones por una determinada etiqueta de columna. 

In [322]:
from sklearn.datasets import load_iris
data=load_iris()
df=pd.DataFrame(data.data,columns=data.feature_names)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [323]:
df_filtered=df.groupby(by='sepal width (cm)').mean()
df_filtered.head()

Unnamed: 0_level_0,sepal length (cm),petal length (cm),petal width (cm)
sepal width (cm),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2.0,5.0,3.5,1.0
2.2,6.066667,4.5,1.333333
2.3,5.325,3.25,0.975
2.4,5.3,3.6,1.033333
2.5,5.7625,4.5125,1.55


El **campo por el que se ha agrupado** se pone ahora como **index**.

Debido a que **para un mismo valor del campo filtro tenemos varios valores** tenemos que hacer una **operación que los agrege**. En el caso de la celda anterior se ha utilizado **.mean()** para promediar.