# Pandas: Operaciones básicas (III)

In [1]:
import numpy as np
import pandas as pd

## Tablas pivote

Siguiendo con las funciones de gestión de índices, pandas incluye la posibilidad de gestionar los mismos como si de una Pivot Table de Excel se tratase, haciendo mucho más sencillo el análisis de información resultante.

In [2]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013, 2001], 
             'Valoración':[6, None, 8.75, None, 8.9],
             'Presupuesto':[160, 250, 100, None, 93],
             'Director':['Gareth Edwards', 'Peter Jackson', 'Martin Scorsese', 'Alfonso Cuarón', 'Peter Jackson'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity', 'Lord of the Rings']}
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,2014,,250.0,Peter Jackson,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity
4,2001,8.9,93.0,Peter Jackson,Lord of the Rings


In [3]:
# Filas: Año, Columnas: Director, Valores: Título
peliculas.pivot(columns = 'Director', index = 'Año', values = 'Título')

Director,Alfonso Cuarón,Gareth Edwards,Martin Scorsese,Peter Jackson
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2001,,,,Lord of the Rings
2013,Gravity,,El lobo de Wall Street,
2014,,Godzilla,,El Hobbit III


## Eliminación de filas y/o columnas en pandas

Aunque el proceso de eliminación de columnas se puede hacer mediante la aplicación de los mismos métodos que en el caso de diccionarios, pandas pone a nuestra disposición el método <b>drop</b>.

In [7]:
serie = pd.Series([1,2,3,4], index=['a','b','c','d'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [8]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f1', 'f2', 'f3', 'f4'], columns=['c1','c2','c3','c4'])
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [9]:
# Eliminación de valores de una Serie
serie.drop('a')

b    2
c    3
d    4
dtype: int64

In [11]:
# Eliminación de filas de un DataFrame
dataframe.drop(['f1',  'f2'])

Unnamed: 0,c1,c2,c3,c4
f3,8,9,10,11
f4,12,13,14,15


In [12]:
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [18]:
# Eliminación de columnas de un DataFrame
dataframe.drop('c2', axis=1)

Unnamed: 0,c1,c3,c4
f1,0,2,3
f2,4,6,7
f3,8,10,11
f4,12,14,15


In [19]:
dataframe.drop('c1',axis=1)

Unnamed: 0,c2,c3,c4
f1,1,2,3
f2,5,6,7
f3,9,10,11
f4,13,14,15


## Aritmética con estructuras de pandas

Aunque, como ya se ha visto, podemos aprovechar la **compatibilidad con NumPy para llevar a cabo operaciones aritméticas básicas, estas operaciones aplican el proceso de "alineación" de índices introduciendo valores NaN en los resultados cuando no hay coincidencia de claves**. **Para solucionar este problema, pandas nos ofrece algunas funciones** de utilidad para las más básicas (suma, resta, multiplicación y división) que permiten establecer un valor de "relleno" en el caso de claves no coincidentes.

In [20]:
serie1 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
serie1

a    1
b    2
c    3
d    4
dtype: int64

In [23]:
serie2 = pd.Series([5, 6, 7, 8], index=['c', 'd', 'e', 'f'])
serie2

c    5
d    6
e    7
f    8
dtype: int64

In [24]:
# Resultado de operación básica"
serie1 + serie2 #NaN cuando no hay coincidencia de clave

a     NaN
b     NaN
c     8.0
d    10.0
e     NaN
f     NaN
dtype: float64

In [26]:
# Resultado con operación pandas
serie1.add(serie2)

a     NaN
b     NaN
c     8.0
d    10.0
e     NaN
f     NaN
dtype: float64

In [28]:
# Resultado con operación pandas y relleno
serie1.add(serie2, fill_value=0) #Los valores NaN se rellenan con 0

a     1.0
b     2.0
c     8.0
d    10.0
e     7.0
f     8.0
dtype: float64

In [29]:
serie1.sub(serie2, fill_value=0)

a    1.0
b    2.0
c   -2.0
d   -2.0
e   -7.0
f   -8.0
dtype: float64

In [30]:
serie1.mul(serie2, fill_value=0)

a     0.0
b     0.0
c    15.0
d    24.0
e     0.0
f     0.0
dtype: float64

In [31]:
serie1.div(serie2, fill_value=0)

a         inf
b         inf
c    0.600000
d    0.666667
e    0.000000
f    0.000000
dtype: float64

## Ordenación en estructuras de pandas

pandas pone a nuestra disposición varias formas de realizar ordenaciones de los contenidos de una Serie o un DataFrame. Vamos a ver los más utilizados.

#### Ordenación en Series

In [32]:
serie = pd.Series([3, 2, 1, 4], index=['d', 'a', 'c', 'b'])
serie

d    3
a    2
c    1
b    4
dtype: int64

In [33]:
# Ordenación por índice
serie.sort_index()

a    2
b    4
c    1
d    3
dtype: int64

In [34]:
# Ordenación descendente por índice
serie.sort_index(ascending=False)

d    3
c    1
b    4
a    2
dtype: int64

In [35]:
# Ordenación por valores
serie.sort_values()

c    1
a    2
d    3
b    4
dtype: int64

In [36]:
# Ordenación por valores descendente
serie.sort_values(ascending=False)

b    4
d    3
a    2
c    1
dtype: int64

#### Ordenación en DataFrames

In [37]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f3', 'f1', 'f4', 'f2'], columns=['c3', 'c1', 'c4', 'c2'])
dataframe

Unnamed: 0,c3,c1,c4,c2
f3,0,1,2,3
f1,4,5,6,7
f4,8,9,10,11
f2,12,13,14,15


In [38]:
# Ordenación por índice de filas
dataframe.sort_index()

Unnamed: 0,c3,c1,c4,c2
f1,4,5,6,7
f2,12,13,14,15
f3,0,1,2,3
f4,8,9,10,11


In [39]:
# Ordenación por índice de columnas
dataframe.sort_index(axis=1)

Unnamed: 0,c1,c2,c3,c4
f3,1,3,0,2
f1,5,7,4,6
f4,9,11,8,10
f2,13,15,12,14


In [40]:
# Ordenación descendente por índice de filas
dataframe.sort_index(ascending=False)

Unnamed: 0,c3,c1,c4,c2
f4,8,9,10,11
f3,0,1,2,3
f2,12,13,14,15
f1,4,5,6,7


In [41]:
# Ordenación por valores de filas
dataframe.sort_values(['f1'], axis=1)

Unnamed: 0,c3,c1,c4,c2
f3,0,1,2,3
f1,4,5,6,7
f4,8,9,10,11
f2,12,13,14,15


In [42]:
# Ordenación por valores de columnas
dataframe.sort_values(['c1'])

Unnamed: 0,c3,c1,c4,c2
f3,0,1,2,3
f1,4,5,6,7
f4,8,9,10,11
f2,12,13,14,15


## Visualización de cabecera y final de estructuras pandas (head y tail)

En estructuras de datos potencialmente grandes, suele ser muy necesaria la recuperación de una muestra de ejemplo de un conjunto reducido de elementos que permitan hacerse una idea del contenido de la estructura sin necesidad de listar TODO el contenido de la misma. Pandas, como R, pone a nuestra disposición dos métodos <b>head</b> (para obtener un muestra del inicio de la estructura) y <b>tail</b> para obtener la muestras del final. Ambos métodos recibirán como parámetro el número de registros a recuperar.

In [43]:
serie = pd.Series(np.arange(100))
serie

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
11    11
12    12
13    13
14    14
15    15
16    16
17    17
18    18
19    19
20    20
21    21
22    22
23    23
24    24
25    25
26    26
27    27
28    28
29    29
      ..
70    70
71    71
72    72
73    73
74    74
75    75
76    76
77    77
78    78
79    79
80    80
81    81
82    82
83    83
84    84
85    85
86    86
87    87
88    88
89    89
90    90
91    91
92    92
93    93
94    94
95    95
96    96
97    97
98    98
99    99
Length: 100, dtype: int32

In [44]:
dataframe = pd.DataFrame(np.arange(100).reshape(10, 10))
dataframe

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0,1,2,3,4,5,6,7,8,9
1,10,11,12,13,14,15,16,17,18,19
2,20,21,22,23,24,25,26,27,28,29
3,30,31,32,33,34,35,36,37,38,39
4,40,41,42,43,44,45,46,47,48,49
5,50,51,52,53,54,55,56,57,58,59
6,60,61,62,63,64,65,66,67,68,69
7,70,71,72,73,74,75,76,77,78,79
8,80,81,82,83,84,85,86,87,88,89
9,90,91,92,93,94,95,96,97,98,99


In [45]:
# Recuperación de los 5 primeros elementos de una Serie
dataframe.tail()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
5,50,51,52,53,54,55,56,57,58,59
6,60,61,62,63,64,65,66,67,68,69
7,70,71,72,73,74,75,76,77,78,79
8,80,81,82,83,84,85,86,87,88,89
9,90,91,92,93,94,95,96,97,98,99


In [46]:
# Recueperación de los 5 últimos elementos de una Serie
serie.tail()

95    95
96    96
97    97
98    98
99    99
dtype: int32

In [47]:
# Recuperación de los 3 primeros elementos de un DataFrame
dataframe.head(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0,1,2,3,4,5,6,7,8,9
1,10,11,12,13,14,15,16,17,18,19
2,20,21,22,23,24,25,26,27,28,29


In [48]:
# Recueperación de los 3 últimos elementos de un DataFrame
dataframe.tail(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
7,70,71,72,73,74,75,76,77,78,79
8,80,81,82,83,84,85,86,87,88,89
9,90,91,92,93,94,95,96,97,98,99


## Muestreo en dataframes

Cargar datos de fuentes externas, almacernar dichos datos en un dataframe y **dividir el dataframe de forma aleatoria** son tareas del día a día de un data scientist**.

**La razón para la división aleatoria de los datos es la creación de un subdataframe de training para entrenar modelos y dejar el subset de datos restantes para testear el modelo.**



In [58]:
from sklearn.datasets import load_boston # El framwork skitlearn proporciona datasets para probar nuestras skills.
data=load_boston() # Es un dataset sobre precios de casas en Boston.

In [62]:
print(data)

{'data': array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 1.5300e+01, 3.9690e+02,
        4.9800e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9690e+02,
        9.1400e+00],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9283e+02,
        4.0300e+00],
       ...,
       [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        5.6400e+00],
       [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9345e+02,
        6.4800e+00],
       [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        7.8800e+00]]), 'target': array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
       18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
       15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
       13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
       21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
       35.4, 24.7, 31.6, 23.3, 19.6, 1

In [63]:
df = pd.DataFrame(data.data, columns=data.feature_names)
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [67]:
df_sample=df.sample(frac=0.8,replace=False) #Se obtiene una muestra aleatoria que contiene el 80% de los datos
print('Longitud de dataframe original',len(df))
print('Longitud del muestreo',len(df_sample))

Longitud de dataframe original 506
Longitud del muestreo 405


In [68]:
#También puedes barajar la muestra obtenida
from sklearn.utils import shuffle
df_shuffled=shuffle(df_sample)
df_shuffled.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
330,0.04544,0.0,3.24,0.0,0.46,6.144,32.2,5.8736,4.0,430.0,16.9,368.57,9.09
432,6.44405,0.0,18.1,0.0,0.584,6.425,74.8,2.2004,24.0,666.0,20.2,97.95,12.03
85,0.05735,0.0,4.49,0.0,0.449,6.63,56.1,4.4377,3.0,247.0,18.5,392.3,6.53
426,12.2472,0.0,18.1,0.0,0.584,5.837,59.7,1.9976,24.0,666.0,20.2,24.65,15.69
248,0.16439,22.0,5.86,0.0,0.431,6.433,49.1,7.8265,7.0,330.0,19.1,374.71,9.52


In [75]:
df_tr=df.sample(frac=.8)
df_test=df[~df.index.isin(df_tr.index)] #Filtro para tomar en el grupo de testing aquellos índices que no están en el grupo de training
print(len(df_tr),len(df_test))
print(len(df))




405 101
506


## Filtros

Se pueden obtener **subconjuntos** de un dataframe **que cumplan una o varias condiciones.**

In [76]:
df.columns

Index(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX',
       'PTRATIO', 'B', 'LSTAT'],
      dtype='object')

In [78]:
df_filtered=df[df['AGE']<30]
df_filtered.head(15)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
16,1.05393,0.0,8.14,0.0,0.538,5.935,29.3,4.4986,4.0,307.0,21.0,386.85,6.58
39,0.02763,75.0,2.95,0.0,0.428,6.595,21.8,5.4011,3.0,252.0,18.3,395.63,4.32
40,0.03359,75.0,2.95,0.0,0.428,7.024,15.8,5.4011,3.0,252.0,18.3,395.62,1.98
41,0.12744,0.0,6.91,0.0,0.448,6.77,2.9,5.7209,3.0,233.0,17.9,385.41,4.84
42,0.1415,0.0,6.91,0.0,0.448,6.169,6.6,5.7209,3.0,233.0,17.9,383.37,5.81
43,0.15936,0.0,6.91,0.0,0.448,6.211,6.5,5.7209,3.0,233.0,17.9,394.46,7.44
52,0.0536,21.0,5.64,0.0,0.439,6.511,21.1,6.8147,4.0,243.0,16.8,396.9,5.28
53,0.04981,21.0,5.64,0.0,0.439,5.998,21.4,6.8147,4.0,243.0,16.8,396.9,8.43
55,0.01311,90.0,1.22,0.0,0.403,7.249,21.9,8.6966,5.0,226.0,17.9,395.93,4.81
58,0.15445,25.0,5.13,0.0,0.453,6.145,29.2,7.8148,8.0,284.0,19.7,390.68,6.86


## Groupby

Se pueden hacer agrupaciones por una determinada etiqueta de columna. 

In [85]:
from sklearn.datasets import load_iris
data=load_iris()
df=pd.DataFrame(data.data,columns=data.feature_names)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [89]:
df_filtered=df.groupby(by='sepal width (cm)').mean()
df_filtered.head()

Unnamed: 0_level_0,sepal length (cm),petal length (cm),petal width (cm)
sepal width (cm),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2.0,5.0,3.5,1.0
2.2,6.066667,4.5,1.333333
2.3,5.325,3.25,0.975
2.4,5.3,3.6,1.033333
2.5,5.7625,4.5125,1.55
