# Pandas: Operaciones básicas

Trataremos aquí las operaciones más básicas que se pueden realizar sobre las estructuras de datos de pandas. Estas operaciones tienen un funcionamiento prácticamente idéntico en Series y DataFrames. En caso de que esto no sea así en algún caso concreto se indicará explícitamente.

In [114]:
import numpy as np
import pandas as pd

# Indexación en series y dataframes

In [113]:
serie = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [116]:
datos=np.random.rand(10).reshape(5,2)
dataframe = pd.DataFrame(data=datos,columns=['Columna1','Columna2'])
dataframe

Unnamed: 0,Columna1,Columna2
0,0.388599,0.659392
1,0.458941,0.856637
2,0.683843,0.960841
3,0.515635,0.389019
4,0.634411,0.364901


## Indexación por index (fila) y por columna

**Series solo** tiene **index** (no tiene columnas)

**Dataframe** tiene **index y columnas**

In [117]:
# Series: Indexación por index
serie['a']

1

In [118]:
# Dataframe: Indexación por columna
dataframe['Columna1']

0    0.388599
1    0.458941
2    0.683843
3    0.515635
4    0.634411
Name: Columna1, dtype: float64

In [119]:
#Dataframe: Indexación por index (loc[])
dataframe.loc[2] #.loc[etiqueta] 

Columna1    0.683843
Columna2    0.960841
Name: 2, dtype: float64

In [120]:
#Dataframe: Indexación por index (iloc[])
dataframe.iloc[2] #.iloc[posición] 

Columna1    0.683843
Columna2    0.960841
Name: 2, dtype: float64

**En el caso anterior .loc[2] apuntaba a la fila con etiqueta '2'.**

Sin embargo **.iloc[2] apuntaba a la fila 2**.

La **diferencia se observa mejor en el siguiente ejemplo** (cambiemos el index por etiquetas no numéricas)

In [121]:
dataframe.index=[['a','b','c','d','e']] #Cambiamos el index para entender la diferencia.
print(dataframe.iloc[2])#Correcto
print(dataframe.loc[2]) #Va a dar error

Columna1    0.683843
Columna2    0.960841
Name: (c,), dtype: float64


KeyError: 2

Ahora da **error para .loc[2] porque no hay ninguna etiqueta '2'.**

**Si queremos usar .loc[]** ahora tenemos que escribir lo siguiente:

In [122]:
dataframe.loc['c'] #Indexamos por el nombre de la etiqueta en el index

Unnamed: 0,Columna1,Columna2
c,0.683843,0.960841


In [123]:
dataframe.reset_index() #Reset de index (Si drop=True no incorporamos los antiguos índices)

Unnamed: 0,level_0,Columna1,Columna2
0,a,0.388599,0.659392
1,b,0.458941,0.856637
2,c,0.683843,0.960841
3,d,0.515635,0.389019
4,e,0.634411,0.364901


In [124]:
index_rows=['a','b','c','d','e']
dataframe.set_index([index_rows])
dataframe

Unnamed: 0,Columna1,Columna2
a,0.388599,0.659392
b,0.458941,0.856637
c,0.683843,0.960841
d,0.515635,0.389019
e,0.634411,0.364901


# Comprobación de la existencia de una etiqueta (de index o de columna)

In [55]:
# En una serie
'b' in serie.index

True

In [56]:
# Comprobación de la existencia de un nombre de columna en dataframes
'Columna2' in dataframe.columns

True

In [57]:
# Comprobación de la existencia de un nombre de index en dataframes
'd' in dataframe.index

True

# Adición de elementos

<b>IMPORTANTE:</b> Al añadir columnas a un DataFrame, el **tamaño del vector añadido deberá coincidir con el del DataFrame original**. En caso contrario se recibirá un error.

In [125]:
serie

a    1
b    2
c    3
d    4
dtype: int64

In [126]:
# Adición de elementos a series
serie['e'] = 5
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [127]:
# Adición de columnas a dataframes
dataframe['var3'] = [5, 6, 7, 4,3]
dataframe

Unnamed: 0,Columna1,Columna2,var3
a,0.388599,0.659392,5
b,0.458941,0.856637,6
c,0.683843,0.960841,7
d,0.515635,0.389019,4
e,0.634411,0.364901,3


In [128]:
# Adición de filas a un dataframe: por medio de diccionario
new_row={'Columna1':1,'Columna2':-1,'var3':1} #Las keys han de corresponder a las columnas del dataframe
dataframe=dataframe.append(new_row,ignore_index=True)
dataframe

Unnamed: 0,Columna1,Columna2,var3
0,0.388599,0.659392,5
1,0.458941,0.856637,6
2,0.683843,0.960841,7
3,0.515635,0.389019,4
4,0.634411,0.364901,3
5,1.0,-1.0,1


In [62]:
# Adición de filas a un dataframe: por medio pandas Series
data=[0,1,1]
index=['Columna1','Columna2','var3'] #Index ha de corresponder con las etiquetas de las columnas en el dataframe
new_row=pd.Series(data,index=index)

dataframe=dataframe.append(new_row,ignore_index=True)
dataframe

Unnamed: 0,Columna1,Columna2,var3
0,0.806089,0.216674,5
1,0.000404,0.214354,6
2,0.755862,0.744429,7
3,0.544166,0.098606,4
4,0.742365,0.563359,3
5,1.0,-1.0,1
6,0.0,1.0,1


# Eliminación de elementos

In [129]:
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [130]:
# Eliminación de elementos en series
serie=serie.drop(['e'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [65]:
# Eliminación de columnas en dataframes
dataframe=dataframe.drop(['var3'],axis=1)
dataframe

Unnamed: 0,Columna1,Columna2
0,0.806089,0.216674
1,0.000404,0.214354
2,0.755862,0.744429
3,0.544166,0.098606
4,0.742365,0.563359
5,1.0,-1.0
6,0.0,1.0


In [66]:
# Eliminación de filas en dataframe
dataframe=dataframe.drop([6],axis=0)
dataframe

Unnamed: 0,Columna1,Columna2
0,0.806089,0.216674
1,0.000404,0.214354
2,0.755862,0.744429
3,0.544166,0.098606
4,0.742365,0.563359
5,1.0,-1.0


# Operaciones con escalares

Al aplicar una operación sobre una estructura de pandas y un escalar se obtendrá otra estructura de pandas de idénticas características a la inicial pero con la **operación aplicada elemento a elemento**, <b>manteniendo el índice inalterado</b>.<br/>

IMPORTANTE: Dado que un DataFrame puede mezclar tipos muy diferentes en sus columnas, la aplicación de una operación con un escalar elemento a elemento puede no ser válida (p.e. operaciones matemáticas sobre cadenas).

In [216]:
# Suma de series y escalar
serie + 2

a    3
b    4
c    5
d    6
dtype: int64

In [217]:
# División de series y escalar
1 / serie

a    1.000000
b    0.500000
c    0.333333
d    0.250000
dtype: float64

In [218]:
# Multiplicación de dataframe y escalar
dataframe * 2

Unnamed: 0,Columna1,Columna2
0,0.008985,0.993459
1,1.343348,0.8294
2,1.713012,1.377858
3,1.932341,0.512777
4,0.266629,0.539381
5,2.0,-2.0
7,0.0,2.0


In [67]:
# División de dataframe y escalar
new_row=pd.Series(['a','b'],index=['Columna1','Columna2'])
dataframe=dataframe.append(new_row,ignore_index=True)
print(dataframe)
1/dataframe #Da error porque una de las columnas es de tipo string.

      Columna1   Columna2
0     0.806089   0.216674
1  0.000403639   0.214354
2     0.755862   0.744429
3     0.544166  0.0986057
4     0.742365   0.563359
5            1         -1
6            a          b


TypeError: unsupported operand type(s) for /: 'int' and 'str'

# Operaciones entre estructuras de pandas

Al aplicar una operación entre estructuras de pandas se aplicará la misma **elemento a elemento**. **En el caso de pandas no es necesario, como lo era en NumPy, que los operandos tengan el mismo tamaño y forma** ya que se aplicará un **proceso de "alineación"**. Este proceso devolverá:<br/>

- Como **índices**: la **unión de las claves** de ambos operandos.

- Como **valores**: el **resultado de aplicar la operación entre cada pareja** de elementos (**si coinciden las claves** entre ambos operandos) **o NaN (en caso contrario)**.


IMPORTANTE: De nuevo, el hecho de que un DataFrame pueda mezclar tipos en sus contenidos hace que no todas las operaciones matemáticas se puedan aplicar a los mismos.

In [131]:
serie1=serie
serie2 = serie1*2
print(serie1)
print()
print(serie2)

a    1
b    2
c    3
d    4
dtype: int64

a    2
b    4
c    6
d    8
dtype: int64


In [69]:
columns=['a','b','c','d','e','f']
dataframe1=pd.DataFrame(data=np.random.randint(0,9,(6,6)),columns=columns)
dataframe2=pd.DataFrame(data=np.random.randint(0,9,(6,6)),columns=columns)
print(dataframe1)
print()
print(dataframe2)

   a  b  c  d  e  f
0  4  6  3  5  1  1
1  8  3  1  2  2  6
2  3  8  3  4  7  7
3  7  5  7  6  0  2
4  3  2  5  6  6  6
5  7  0  1  8  6  4

   a  b  c  d  e  f
0  6  2  4  0  5  7
1  7  0  4  8  1  8
2  5  2  5  0  7  8
3  1  4  1  2  5  0
4  0  5  7  6  3  7
5  8  6  7  3  8  0


In [70]:
# Operaciones de un escalar sobre un dataframe (elemento a elemento)
dataframe1*3

Unnamed: 0,a,b,c,d,e,f
0,12,18,9,15,3,3
1,24,9,3,6,6,18
2,9,24,9,12,21,21
3,21,15,21,18,0,6
4,9,6,15,18,18,18
5,21,0,3,24,18,12


In [132]:
# Suma de series
serie1 + serie2

a     3
b     6
c     9
d    12
dtype: int64

In [72]:
# Suma de dataframes
dataframe1 + dataframe2

Unnamed: 0,a,b,c,d,e,f
0,10,8,7,5,6,8
1,15,3,5,10,3,14
2,8,10,8,4,14,15
3,8,9,8,8,5,2
4,3,7,12,12,9,13
5,15,6,8,11,14,4


In [73]:
# Producto de dataframes
dataframe1 * dataframe2

Unnamed: 0,a,b,c,d,e,f
0,24,12,12,0,5,7
1,56,0,4,16,2,48
2,15,16,15,0,49,56
3,7,20,7,12,0,0
4,0,10,35,36,18,42
5,56,0,7,24,48,0


In [133]:
#Transposición de dataframes
print(dataframe1)
dataframe1.T

   a  b  c  d  e  f
0  4  6  3  5  1  1
1  8  3  1  2  2  6
2  3  8  3  4  7  7
3  7  5  7  6  0  2
4  3  2  5  6  6  6
5  7  0  1  8  6  4


Unnamed: 0,0,1,2,3,4,5
a,4,8,3,7,3,7
b,6,3,8,5,2,0
c,3,1,3,7,5,1
d,5,2,4,6,6,8
e,1,2,7,0,6,6
f,1,6,7,2,6,4


# Funciones de numpy

**Podemos aplicar cualquier función de NumPy** a cualquier estructura de pandas.<br/>

<b>IMPORTANTE:</b> De nuevo, al poder tener múltiples tipos en DataFrames no siempre se podrán aplicar las operaciones (o el resultado obtenido no será el esperado). Además, **en el caso de DataFrames en caso de no indicar un valor para axis se aplicará la operación por columnas** y nunca sobre el DataFrame completo.

In [134]:
# Funciones sobre pandas series
np.sqrt(serie)

a    1.000000
b    1.414214
c    1.732051
d    2.000000
dtype: float64

In [76]:
print(dataframe2)
np.sum(dataframe2,axis=0) #Especificamos eje para indicar el sentido de la operación

   a  b  c  d  e  f
0  6  2  4  0  5  7
1  7  0  4  8  1  8
2  5  2  5  0  7  8
3  1  4  1  2  5  0
4  0  5  7  6  3  7
5  8  6  7  3  8  0


a    27
b    19
c    28
d    19
e    29
f    30
dtype: int64

# Ordenación

In [136]:
#Ordenación de valores en series
serie = pd.Series([3, 2, 1, 4], index=['d', 'a', 'c', 'b'])
print(serie)
serie.sort_values(ascending=True) #ascending=True es el dflt

d    3
a    2
c    1
b    4
dtype: int64


c    1
a    2
d    3
b    4
dtype: int64

In [137]:
#Ordenación de index en series
serie.sort_index() #ascending=True es el dflt

a    2
b    4
c    1
d    3
dtype: int64

#Ordenación de valores en dataframe
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f3', 'f1', 'f4', 'f2'], columns=['c3', 'c1', 'c4', 'c2'])
print(dataframe)
dataframe['c3'].sort_values()

In [138]:
dataframe=pd.DataFrame(np.random.randn(10,2),columns=['Column1','Columna2'])

In [140]:
#Ordenación en dataframe
dataframe.sort_values(by='Columna2')

Unnamed: 0,Column1,Columna2
8,0.668378,-1.429418
9,-0.396984,-1.079082
2,-0.760824,-0.990411
7,-1.350872,-0.941828
5,0.533986,-0.637808
6,-0.035706,-0.54505
3,-0.836117,-0.203487
1,-1.315908,0.343471
0,-1.097929,0.442657
4,0.653216,1.949439


In [141]:
#Ordenación de index en dataframe
dataframe.sort_index()

Unnamed: 0,Column1,Columna2
0,-1.097929,0.442657
1,-1.315908,0.343471
2,-0.760824,-0.990411
3,-0.836117,-0.203487
4,0.653216,1.949439
5,0.533986,-0.637808
6,-0.035706,-0.54505
7,-1.350872,-0.941828
8,0.668378,-1.429418
9,-0.396984,-1.079082


# Head y Tail

**Visualización** del **comienzo y final** de un dataframe

In [143]:
dataframe.head() #Por defecto lista los cinco primeros records

Unnamed: 0,Column1,Columna2
0,-1.097929,0.442657
1,-1.315908,0.343471
2,-0.760824,-0.990411
3,-0.836117,-0.203487
4,0.653216,1.949439


In [97]:
dataframe.head(1) #Se puede definir el número de records a visualizar

Unnamed: 0,Column1,Columna2
0,1.627447,0.462674


In [144]:
dataframe.tail() #Igual que .head pero empiez por el final del dataframe

Unnamed: 0,Column1,Columna2
5,0.533986,-0.637808
6,-0.035706,-0.54505
7,-1.350872,-0.941828
8,0.668378,-1.429418
9,-0.396984,-1.079082


In [145]:
serie.tail(5) #También sirve para Series.

d    3
a    2
c    1
b    4
dtype: int64

# Muestreo en dataframes

Cargar datos de fuentes externas, almacernar dichos datos en un dataframe y **dividir el dataframe de forma aleatoria son tareas del día a día de un data scientist**.

**La razón para la división aleatoria de los datos es la creación de un subdataframe de training para entrenar modelos y dejar el subset de datos restantes para testear el modelo.**


In [1]:
from sklearn.datasets import load_boston # El framwork skitlearn proporciona datasets para probar nuestras skills.
data=load_boston() # Es un dataset sobre precios de casas en Boston.

In [4]:
type(data)

In [101]:
print(data)

{'data': array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 1.5300e+01, 3.9690e+02,
        4.9800e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9690e+02,
        9.1400e+00],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9283e+02,
        4.0300e+00],
       ...,
       [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        5.6400e+00],
       [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9345e+02,
        6.4800e+00],
       [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        7.8800e+00]]), 'target': array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
       18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
       15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
       13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
       21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
       35.4, 24.7, 31.6, 23.3, 19.6, 1

**Los datos vienen en forma de diccionario. Debemos empaquetar la información en un dataframe pandas**

In [5]:
df = pd.DataFrame(data.data, columns=data.feature_names)
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [6]:
df_sample=df.sample(frac=0.8,replace=False) #Se obtiene una muestra aleatoria que contiene el 80% de los datos
print('Longitud de dataframe original',len(df))
print('Longitud del muestreo',len(df_sample))

Longitud de dataframe original 506
Longitud del muestreo 405


In [7]:
#También se puede barajar la muestra obtenida
from sklearn.utils import shuffle
df_shuffled=shuffle(df_sample)
df_shuffled.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
111,0.10084,0.0,10.01,0.0,0.547,6.715,81.6,2.6775,6.0,432.0,17.8,395.59,10.16
63,0.1265,25.0,5.13,0.0,0.453,6.762,43.4,7.9809,8.0,284.0,19.7,395.58,9.5
7,0.14455,12.5,7.87,0.0,0.524,6.172,96.1,5.9505,5.0,311.0,15.2,396.9,19.15
144,2.77974,0.0,19.58,0.0,0.871,4.903,97.8,1.3459,5.0,403.0,14.7,396.9,29.29
115,0.17134,0.0,10.01,0.0,0.547,5.928,88.2,2.4631,6.0,432.0,17.8,344.91,15.76


In [8]:
df_tr=df.sample(frac=.8)
df_test=df[~df.index.isin(df_tr.index)] #Filtro para tomar en el grupo de testing aquellos índices que no están en el grupo de training
print(len(df_tr),len(df_test))
print(len(df))


405 101
506


# Filtros

In [109]:
df.columns

Index(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX',
       'PTRATIO', 'B', 'LSTAT'],
      dtype='object')

In [110]:
df_filtered=df[df['AGE']<30]
df_filtered.head(15)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
16,1.05393,0.0,8.14,0.0,0.538,5.935,29.3,4.4986,4.0,307.0,21.0,386.85,6.58
39,0.02763,75.0,2.95,0.0,0.428,6.595,21.8,5.4011,3.0,252.0,18.3,395.63,4.32
40,0.03359,75.0,2.95,0.0,0.428,7.024,15.8,5.4011,3.0,252.0,18.3,395.62,1.98
41,0.12744,0.0,6.91,0.0,0.448,6.77,2.9,5.7209,3.0,233.0,17.9,385.41,4.84
42,0.1415,0.0,6.91,0.0,0.448,6.169,6.6,5.7209,3.0,233.0,17.9,383.37,5.81
43,0.15936,0.0,6.91,0.0,0.448,6.211,6.5,5.7209,3.0,233.0,17.9,394.46,7.44
52,0.0536,21.0,5.64,0.0,0.439,6.511,21.1,6.8147,4.0,243.0,16.8,396.9,5.28
53,0.04981,21.0,5.64,0.0,0.439,5.998,21.4,6.8147,4.0,243.0,16.8,396.9,8.43
55,0.01311,90.0,1.22,0.0,0.403,7.249,21.9,8.6966,5.0,226.0,17.9,395.93,4.81
58,0.15445,25.0,5.13,0.0,0.453,6.145,29.2,7.8148,8.0,284.0,19.7,390.68,6.86


# Groupby

Se pueden hacer agrupaciones por una determinada etiqueta de columna. 

In [9]:
from sklearn.datasets import load_iris
data=load_iris()
df=pd.DataFrame(data.data,columns=data.feature_names)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [10]:
df_filtered=df.groupby(by='sepal width (cm)').mean()
df_filtered.head()

Unnamed: 0_level_0,sepal length (cm),petal length (cm),petal width (cm)
sepal width (cm),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2.0,5.0,3.5,1.0
2.2,6.066667,4.5,1.333333
2.3,5.325,3.25,0.975
2.4,5.3,3.6,1.033333
2.5,5.7625,4.5125,1.55


El **campo por el que se ha agrupado** se pone ahora como **index**.

Debido a que **para un mismo valor del campo filtro tenemos varios valores** tenemos que hacer una **operación que los agrege**. En el caso de la celda anterior se ha utilizado **.mean()** para promediar.