## NumPy

El nombre viene de Numerical Python. Es una de las librerías más útiles en Python, diseñada para el cálculo científico y las operaciones matemáticas con estructuras de datos matriciales.

In [9]:
import numpy as np
print('Versión de numpy: ', np.__version__)

Versión de numpy:  1.18.1


Las dimensiones de la estructura de datos reciben el nombre de “axes”. 

Funciones útiles para probar esta librería son:

- ndarray.ndim – número de dimensiones de la estructura vectorial.

- ndarray.shape – muestra las dimensiones del vector.

- ndarray.size – devuelve el número total de elementos.

- ndarray.dtype – devuelve el tipo de los valores contenidos en el vector.

- ndarray.itemsize – devuelve el tamaño en bytes de los elementos del vector teniendo en cuenta su tipo.

- Devuelve la forma de una matriz, muestra las dimensiones del vector.

In [12]:
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11]])
rows, cols = np.shape(a)                                            
print('Rows:{0:03d} ; Cols:{0:03d}'.format(rows, cols))
print(a)

Rows:003 ; Cols:003
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


- Devuelve el tipo de los valores contenidos en el vector.

In [13]:
b = np.array([[2, 3], [6, 7]], dtype=np.complex64)  
print(b)

[[2.+0.j 3.+0.j]
 [6.+0.j 7.+0.j]]


- Devuelve una nueva matriz de formas y tipos dados, llenos de ceros.

In [14]:
np.zeros((3, 4))                                    

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

- Devuelve la matriz de la forma y tipo dados como una matriz dada, con ceros, se copia tipos y dimensiones.

In [15]:
np.zeros_like(b)                                    

array([[0.+0.j, 0.+0.j],
       [0.+0.j, 0.+0.j]], dtype=complex64)

- Devuelve una nueva matriz de formas y tipos dados, con valores aleatorios.(Se muestran los valores que existan en la memoria en ese momento).

In [21]:
np.empty((2, 3))                        

array([[2.12199579e-314, 6.36598737e-314, 1.06099790e-313],
       [1.48539705e-313, 1.90979621e-313, 2.33419537e-313]])

- Una matriz con unos en la diagonal principal y ceros en el resto.

In [25]:
np.eye(3)  

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

- Extrae y construye una matriz diagonal.

In [26]:
np.diag(np.arange(4))                   

array([[0, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 2, 0],
       [0, 0, 0, 3]])

- Es una función habitual para crear secuencias numéricas.

In [30]:
np.arange(5)                                    

array([0, 1, 2, 3, 4])

- Construye una nueva matriz repitiendo la matriz: 'arr', la cantidad de veces que queremos repetir según las repeticiones.

In [41]:
np.tile(np.array([[6, 7], [8, 9]]), (2, 2)) 

array([[6, 7, 6, 7],
       [8, 9, 8, 9],
       [6, 7, 6, 7],
       [8, 9, 8, 9]])

- reshape() es útil para ajustar las dimensiones de la estructura.

In [44]:
x = np.arange(4).reshape(2,2)       
print(x)

[[0 1]
 [2 3]]


- No es necesario especificar los valores del vector uno a uno, también es posible recurrir a generadores como el siguiente.

In [45]:
c = np.array([[10 * j + i for i in range(3)] for j in range(4)])
print(c)

[[ 0  1  2]
 [10 11 12]
 [20 21 22]
 [30 31 32]]


In [48]:
d = np.linspace(0, 12, 5)                    # Genera 5 puntos equiespaciados entre 0 y 12.
print(d)
print(d[:, np.newaxis])                      # Convierte en un vector de columna.

[ 0.  3.  6.  9. 12.]
[[ 0.]
 [ 3.]
 [ 6.]
 [ 9.]
 [12.]]


**numpy.mgrid():** esta función devuelve 'ndarrays' de malla-cuadrícula todas las mismas dimensiones.

Sin embargo, si la longitud del paso es un número complejo (por ejemplo, 5j), la parte entera de su magnitud se interpreta como la especificación del número de puntos a crear entre los valores de inicio y parada, donde el valor de parada es inclusivo.

In [12]:
x, y = np.mgrid[0:5, 0:5]
print(x)
print("---")
print(y)

[[0 0 0 0 0]
 [1 1 1 1 1]
 [2 2 2 2 2]
 [3 3 3 3 3]
 [4 4 4 4 4]]
---
[[0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]]


En diversas situaciones, se generan matrices de dimensión considerable donde la mayor parte de los valores son cero. Almacenar dicha información según los procedimientos habituales sería ineficiente debido a que almacenaría un gran
número de nulos (la inmensa mayoría). Por ello surgen estructuras de datos particulares para este caso.

In [14]:
from scipy import sparse
x = np.random.random((5,6))                        # Crea una matriz con muchos ceros.
x[x < 0.85] = 0
print(x)
x_csr = sparse.csr_matrix(x)
print(x_csr)

[[0.         0.         0.         0.         0.         0.        ]
 [0.         0.         0.87191475 0.         0.         0.        ]
 [0.98526606 0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.        ]
 [0.         0.95949926 0.         0.         0.         0.        ]]
  (1, 2)	0.8719147513799644
  (2, 0)	0.9852660628189479
  (4, 1)	0.9594992627149576


- Convierte de nuevo a una matriz densa.

In [15]:
print(x_csr.toarray())                  

[[0.         0.         0.         0.         0.         0.        ]
 [0.         0.         0.87191475 0.         0.         0.        ]
 [0.98526606 0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.        ]
 [0.         0.95949926 0.         0.         0.         0.        ]]


NumPy permite la generación de números aleatorios en base a una semilla previamente especificada. Aunque no es obligatorio, fijar de forma previa la semilla es útil para conseguir la replicabilidad de los resultados.

In [16]:
np.random.seed(12345)                          # Para resultados reproducibles.
np.random.rand(4, 5)                           # Números aleatorios uniformes en [0,1]

array([[0.92961609, 0.31637555, 0.18391881, 0.20456028, 0.56772503],
       [0.5955447 , 0.96451452, 0.6531771 , 0.74890664, 0.65356987],
       [0.74771481, 0.96130674, 0.0083883 , 0.10644438, 0.29870371],
       [0.65641118, 0.80981255, 0.87217591, 0.9646476 , 0.72368535]])

- Números aleatorios distribuidos normales estándar.

In [17]:
np.random.rand(4,5)     

array([[0.64247533, 0.71745362, 0.46759901, 0.32558468, 0.43964461],
       [0.72968908, 0.99401459, 0.67687371, 0.79082252, 0.17091426],
       [0.02684928, 0.80037024, 0.90372254, 0.02467621, 0.49174732],
       [0.52625517, 0.59636601, 0.05195755, 0.89508953, 0.72826618]])

En otras ocasiones, es útil realizar ciertas transformaciones de tipos, pasar de decimal en coma flotante a entero, de entero a carácter, etc. También podemos necesitar redondear un número.

In [18]:
a = np.array([1.7, 1.2, 1.6])
b = a.astype(int)                                    # Trunca a entero.
b

array([1, 1, 1])

In [19]:
a = np.array([1.2, 1.5, 1.6, 2.5, 3.5, 4.5])
b = np.around(a)                                     # esta función matemática ayuda al usuario a redondear de manera uniforme los elementos de la matriz al número dado de decimales.
print(b)                                             # Todavía en coma flotante
c = np.around(a).astype(int)
print(c)

[1. 2. 2. 2. 4. 4.]
[1 2 2 2 4 4]


- El término «broadcasting» describe la forma en la que NumPy trata a los vectores de
diferentes dimensiones durante la ejecución de ciertas operaciones.
- En términos generales, el vector de menor dimensión es distribuido sobre el largo para conseguir dimensiones compatibles. Esto evita la creación de copias de los datos y favorece la creación de programas más eficientes. No obstante, es una técnica que requiere emplearse con cuidado ya que a veces puede ser perjudicial su uso, como ante ciertas
operaciones binarias de funcionamiento particular previamente definidas por el usuario.

In [20]:
from numpy import array
a = array([1.0, 2.0, 3.0])
b = array([2.0, 2.0, 2.0])
a*b

array([2., 4., 6.])

In [22]:
from numpy import array
a = array([[0.0, 0.0, 0.0],
           [10.0, 10.0, 10.0],
           [20.0, 20.0, 20.0],
           [30.0, 30.0, 30.0]])
b = array([1.0, 2.0, 3.0])
a + b

array([[ 1.,  2.,  3.],
       [11., 12., 13.],
       [21., 22., 23.],
       [31., 32., 33.]])

Las operaciones del álgebra lineal básica se realizan de forma muy sencilla con **NumPy**

- Matrices transpuestas.

In [23]:
print(x.T)          

[[0.         0.         0.98526606 0.         0.        ]
 [0.         0.         0.         0.         0.95949926]
 [0.         0.87191475 0.         0.         0.        ]
 [0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.        ]]


- Expansión escalar.

In [24]:
print(x*5)
print(x+3)                                  

[[0.         0.         0.         0.         0.         0.        ]
 [0.         0.         4.35957376 0.         0.         0.        ]
 [4.92633031 0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.        ]
 [0.         4.79749631 0.         0.         0.         0.        ]]
[[3.         3.         3.         3.         3.         3.        ]
 [3.         3.         3.87191475 3.         3.         3.        ]
 [3.98526606 3.         3.         3.         3.         3.        ]
 [3.         3.         3.         3.         3.         3.        ]
 [3.         3.95949926 3.         3.         3.         3.        ]]


- Producto de punto (Matriz).

In [28]:
print(x,x.T)
print(np.dot(x,x.T))        

[[0.         0.         0.         0.         0.         0.        ]
 [0.         0.         0.87191475 0.         0.         0.        ]
 [0.98526606 0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.        ]
 [0.         0.95949926 0.         0.         0.         0.        ]] [[0.         0.         0.98526606 0.         0.        ]
 [0.         0.         0.         0.         0.95949926]
 [0.         0.87191475 0.         0.         0.        ]
 [0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.        ]]
[[0.         0.         0.         0.         0.        ]
 [0.         0.76023533 0.         0.         0.        ]
 [0.         0.         0.97074921 0.         0.        ]
 [0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.92063884]]


Para el **cálculo del determinante** y de la matriz inversa hay que acudir a la librería **SciPy**

In [30]:
from scipy import linalg
arr = np.array([[1, 2],
                [3, 4]])
linalg.det(arr)

-2.0

- Calculo de la matriz inversa.

In [31]:
print(linalg.inv(arr))      

[[-2.   1. ]
 [ 1.5 -0.5]]


El acceso a los datos es bastante intuitivo en función de la indexación de los datos.
- indexación de elementos individuales

In [37]:
print(b[0])
print(b[-1])             # circular.
print(b[1])

1.0
3.0
2.0


In [None]:
a = np.array([[10*j+i for i in range(6)] for j in range(6)])

- indexación de múltiples elementos.

In [42]:
print(a)
print("---")
print(a[0,3:5])

[[ 0.  0.  0.]
 [10. 10. 10.]
 [20. 20. 20.]
 [30. 30. 30.]]
---
[]


**Copiar una matriz con todos sus atributos**

In [44]:
c = np.array(a, copy=True)
print(c)

[[ 0.  0.  0.]
 [10. 10. 10.]
 [20. 20. 20.]
 [30. 30. 30.]]


## Trabajo con Pandas

Una serie de **Panda** es un vector unidimensional sujeto a un índice que puede especificarse o no.

In [13]:
import pandas as pd

s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

- Los **DataFrames** se corresponden con estructuras bidimensionales donde las columnas están etiquetadas con su valor y pueden ser de tipos distintos. Puede pensarse en un DataFrame como algo similar a una hoja de cálculo de Excel.
- De forma opcional, un DataFrame puede tener un índice, que corresponderá a los nombres que se desea para las filas. 
- A continuación se muestra un ejemplo de un DataFrame donde el índice corresponde a fechas.

In [43]:
dates = pd.date_range('20200101', periods = 6)
dates

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06'],
              dtype='datetime64[ns]', freq='D')

In [44]:
df = pd.DataFrame(np.random.randn(6, 4), index = dates, columns = list('ABCD'))
df

Unnamed: 0,A,B,C,D
2020-01-01,-0.921322,-0.603883,1.579085,-0.118119
2020-01-02,0.219078,0.014808,1.992192,-0.279379
2020-01-03,-0.051657,-0.256764,0.780706,-0.379391
2020-01-04,-1.353984,0.771902,0.029867,1.071406
2020-01-05,0.555476,-0.180085,-0.490848,-0.750865
2020-01-06,-1.455528,-0.218139,0.508914,-1.493238


- El siguiente es un ejemplo de un DataFrame con tipos de datos variados.

In [47]:
df2 = pd.DataFrame({'A':1.,
                   'B':pd.Timestamp('20200102'),
                   'C':pd.Series(1,index=list(range(4)),dtype='float32'),
                   'D':np.array([3]*4,dtype='int32'),
                   'E':pd.Categorical(["test", "train", "test", "train"]),
                   'F':'foo'})
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2020-01-02,1.0,3,test,foo
1,1.0,2020-01-02,1.0,3,train,foo
2,1.0,2020-01-02,1.0,3,test,foo
3,1.0,2020-01-02,1.0,3,train,foo


- A continuación se muestran diversas funciones útiles para acceder a las características de un DataFrame.

In [48]:
df

Unnamed: 0,A,B,C,D
2020-01-01,-0.921322,-0.603883,1.579085,-0.118119
2020-01-02,0.219078,0.014808,1.992192,-0.279379
2020-01-03,-0.051657,-0.256764,0.780706,-0.379391
2020-01-04,-1.353984,0.771902,0.029867,1.071406
2020-01-05,0.555476,-0.180085,-0.490848,-0.750865
2020-01-06,-1.455528,-0.218139,0.508914,-1.493238


In [50]:
df.index

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06'],
              dtype='datetime64[ns]', freq='D')

In [51]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [52]:
df.values                              

array([[-0.92132162, -0.60388306,  1.57908469, -0.1181194 ],
       [ 0.21907817,  0.01480797,  1.99219231, -0.27937926],
       [-0.05165721, -0.2567637 ,  0.78070557, -0.37939081],
       [-1.3539838 ,  0.77190189,  0.02986696,  1.07140578],
       [ 0.55547616, -0.18008539, -0.49084796, -0.75086517],
       [-1.45552836, -0.21813943,  0.50891354, -1.49323827]])

- Describe muestra un resumen estadístico rápido de sus datos.

In [53]:
df.describe()                       

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.501323,-0.078694,0.733319,-0.324931
std,0.854627,0.462496,0.932321,0.841894
min,-1.455528,-0.603883,-0.490848,-1.493238
25%,-1.245818,-0.247108,0.149629,-0.657997
50%,-0.486489,-0.199112,0.64481,-0.329385
75%,0.151394,-0.033915,1.37949,-0.158434
max,0.555476,0.771902,1.992192,1.071406


- Realizar la transposición del DataFrame y ordenar son algunas de las funcionalidades más recurridas:

In [54]:
df.T                                          # Transposición

Unnamed: 0,2020-01-01,2020-01-02,2020-01-03,2020-01-04,2020-01-05,2020-01-06
A,-0.921322,0.219078,-0.051657,-1.353984,0.555476,-1.455528
B,-0.603883,0.014808,-0.256764,0.771902,-0.180085,-0.218139
C,1.579085,1.992192,0.780706,0.029867,-0.490848,0.508914
D,-0.118119,-0.279379,-0.379391,1.071406,-0.750865,-1.493238


- ordenar por un eje.

In [55]:
df.sort_index(axis=1, ascending=False)          

Unnamed: 0,D,C,B,A
2020-01-01,-0.118119,1.579085,-0.603883,-0.921322
2020-01-02,-0.279379,1.992192,0.014808,0.219078
2020-01-03,-0.379391,0.780706,-0.256764,-0.051657
2020-01-04,1.071406,0.029867,0.771902,-1.353984
2020-01-05,-0.750865,-0.490848,-0.180085,0.555476
2020-01-06,-1.493238,0.508914,-0.218139,-1.455528


- El acceso a los datos guarda algunas similitudes con lo visto con la librería **NumPy**.
- Las funciones head() y tail() nos proporcionan una visión de los datos de cabeza y del final de la estructura.

In [56]:
df.head()                                   # Se utiliza para devolver las n filas superiores de un marco de datos o serie.

Unnamed: 0,A,B,C,D
2020-01-01,-0.921322,-0.603883,1.579085,-0.118119
2020-01-02,0.219078,0.014808,1.992192,-0.279379
2020-01-03,-0.051657,-0.256764,0.780706,-0.379391
2020-01-04,-1.353984,0.771902,0.029867,1.071406
2020-01-05,0.555476,-0.180085,-0.490848,-0.750865


- Se usa para devolver n filas inferiores de un marco de datos o serie.

In [57]:
df.tail(3)      

Unnamed: 0,A,B,C,D
2020-01-04,-1.353984,0.771902,0.029867,1.071406
2020-01-05,0.555476,-0.180085,-0.490848,-0.750865
2020-01-06,-1.455528,-0.218139,0.508914,-1.493238


- Para acceder a los valores individuales por columna, fila, o un rango de columnas o filas hay varias opciones disponibles.

In [58]:
df

Unnamed: 0,A,B,C,D
2020-01-01,-0.921322,-0.603883,1.579085,-0.118119
2020-01-02,0.219078,0.014808,1.992192,-0.279379
2020-01-03,-0.051657,-0.256764,0.780706,-0.379391
2020-01-04,-1.353984,0.771902,0.029867,1.071406
2020-01-05,0.555476,-0.180085,-0.490848,-0.750865
2020-01-06,-1.455528,-0.218139,0.508914,-1.493238


In [59]:
df['A']

2020-01-01   -0.921322
2020-01-02    0.219078
2020-01-03   -0.051657
2020-01-04   -1.353984
2020-01-05    0.555476
2020-01-06   -1.455528
Freq: D, Name: A, dtype: float64

In [60]:
df['C']

2020-01-01    1.579085
2020-01-02    1.992192
2020-01-03    0.780706
2020-01-04    0.029867
2020-01-05   -0.490848
2020-01-06    0.508914
Freq: D, Name: C, dtype: float64

- Seleccionamos via [], que corta las filas.

In [64]:
df[0:3]     

Unnamed: 0,A,B,C,D
2020-01-01,-0.921322,-0.603883,1.579085,-0.118119
2020-01-02,0.219078,0.014808,1.992192,-0.279379
2020-01-03,-0.051657,-0.256764,0.780706,-0.379391


In [65]:
df['20200102':'20200104']

Unnamed: 0,A,B,C,D
2020-01-02,0.219078,0.014808,1.992192,-0.279379
2020-01-03,-0.051657,-0.256764,0.780706,-0.379391
2020-01-04,-1.353984,0.771902,0.029867,1.071406


- Si queremos realizar una selección a través del índice deberemos emplear la función **.loc()**

In [66]:
df

Unnamed: 0,A,B,C,D
2020-01-01,-0.921322,-0.603883,1.579085,-0.118119
2020-01-02,0.219078,0.014808,1.992192,-0.279379
2020-01-03,-0.051657,-0.256764,0.780706,-0.379391
2020-01-04,-1.353984,0.771902,0.029867,1.071406
2020-01-05,0.555476,-0.180085,-0.490848,-0.750865
2020-01-06,-1.455528,-0.218139,0.508914,-1.493238


In [67]:
df.loc[dates[0]]

A   -0.921322
B   -0.603883
C    1.579085
D   -0.118119
Name: 2020-01-01 00:00:00, dtype: float64

- Selección por etiqueta.

In [68]:
df.loc[:,['A', 'B']]        

Unnamed: 0,A,B
2020-01-01,-0.921322,-0.603883
2020-01-02,0.219078,0.014808
2020-01-03,-0.051657,-0.256764
2020-01-04,-1.353984,0.771902
2020-01-05,0.555476,-0.180085
2020-01-06,-1.455528,-0.218139


- Mostrando el corte de etiquetas, ambos puntos finales están incluidos. 

In [71]:
df.loc['20200102':'20200104',['A', 'B']]

Unnamed: 0,A,B
2020-01-02,0.219078,0.014808
2020-01-03,-0.051657,-0.256764
2020-01-04,-1.353984,0.771902


- **iloc()** es otra de las opciones posibles, observar cómo en este caso es preciso pasar un número entero asociado a la posición del índice.

In [72]:
df

Unnamed: 0,A,B,C,D
2020-01-01,-0.921322,-0.603883,1.579085,-0.118119
2020-01-02,0.219078,0.014808,1.992192,-0.279379
2020-01-03,-0.051657,-0.256764,0.780706,-0.379391
2020-01-04,-1.353984,0.771902,0.029867,1.071406
2020-01-05,0.555476,-0.180085,-0.490848,-0.750865
2020-01-06,-1.455528,-0.218139,0.508914,-1.493238


In [73]:
df.iloc[3]

A   -1.353984
B    0.771902
C    0.029867
D    1.071406
Name: 2020-01-04 00:00:00, dtype: float64

- Por cortes enteros, actuando similar a numpy.

In [74]:
df.iloc[3:5,0:2]    

Unnamed: 0,A,B
2020-01-04,-1.353984,0.771902
2020-01-05,0.555476,-0.180085


- Por listas de ubicaciones de posiciones enteras, similares al estilo numpy.

In [75]:
df.iloc[[1, 2, 4],[0, 2]]   

Unnamed: 0,A,C
2020-01-02,0.219078,1.992192
2020-01-03,-0.051657,0.780706
2020-01-05,0.555476,-0.490848


- También tenemos la opción de filtrar y seleccionar únicamente los valores que cumplan una determinada condición.

In [78]:
df

Unnamed: 0,A,B,C,D
2020-01-01,-0.921322,-0.603883,1.579085,-0.118119
2020-01-02,0.219078,0.014808,1.992192,-0.279379
2020-01-03,-0.051657,-0.256764,0.780706,-0.379391
2020-01-04,-1.353984,0.771902,0.029867,1.071406
2020-01-05,0.555476,-0.180085,-0.490848,-0.750865
2020-01-06,-1.455528,-0.218139,0.508914,-1.493238


In [79]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2020-01-02,0.219078,0.014808,1.992192,-0.279379
2020-01-05,0.555476,-0.180085,-0.490848,-0.750865


In [80]:
df[df > 0]

Unnamed: 0,A,B,C,D
2020-01-01,,,1.579085,
2020-01-02,0.219078,0.014808,1.992192,
2020-01-03,,,0.780706,
2020-01-04,,0.771902,0.029867,1.071406
2020-01-05,0.555476,,,
2020-01-06,,,0.508914,


- **Pandas** nos proporciona la función **join()** que nos permite cruzar dos DataFrames.

In [83]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval':[1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval':[4, 5]})

In [84]:
left

Unnamed: 0,key,lval
0,foo,1
1,foo,2


In [85]:
right

Unnamed: 0,key,rval
0,foo,4
1,foo,5


In [86]:
pd.merge(left, right, on = 'key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


- Podemos ejecutar funciones de agrupación al estilo de SQL.

In [101]:
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                  'B' : ['uno', 'uno', 'dos', 'tres', 'dos', 'dos', 'uno', 'tres'],
                  'C' : np.random.randn(8),
                  'D' : np.random.randn(8)})

df

Unnamed: 0,A,B,C,D
0,foo,uno,0.049264,1.624692
1,bar,uno,0.059498,-1.026897
2,foo,dos,-0.217522,-0.228563
3,bar,tres,-1.038109,0.209705
4,foo,dos,0.757179,0.782883
5,bar,dos,0.344367,0.553338
6,foo,uno,0.456983,-1.433852
7,foo,tres,0.266469,-0.20113


- Agrupando y luego aplicando una suma de funciones a los grupos resultantes.

In [102]:
df.groupby('A').sum()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,-0.634244,-0.263854
foo,1.312373,0.54403


**Como podemos apreciar, Pandas es una librería versátil, práctica y útil. Su dominio es indispensable.**