In [1]:
import pandas as pd

## Union de DataFrames

In [2]:
dataframe1 = pd.DataFrame({'c1':['1','2','3'], 'clave':['a','b','c']})
dataframe1

Unnamed: 0,c1,clave
0,1,a
1,2,b
2,3,c


In [3]:
dataframe2 = pd.DataFrame({'c2':['4','5','6'], 'clave':['c','b','e']})
dataframe2

Unnamed: 0,c2,clave
0,4,c
1,5,b
2,6,e


In [4]:
# Unimos ambos dataframes
dataframe3 = pd.DataFrame.merge(dataframe1,dataframe2)
dataframe3

Unnamed: 0,c1,clave,c2
0,2,b,5
1,3,c,4


In [5]:
dataframe3 = pd.DataFrame.merge(dataframe1,dataframe2,on='clave')
dataframe3

Unnamed: 0,c1,clave,c2
0,2,b,5
1,3,c,4


Con `on` podemos indicar sobre qué columna queremos que haga la unión.

In [6]:
dataframe4 = pd.DataFrame.merge(dataframe1,dataframe2,on='clave',how='left')
dataframe4

Unnamed: 0,c1,clave,c2
0,1,a,
1,2,b,5.0
2,3,c,4.0


Con `how` le indicamos qué dataframe queremos que prevalezca.

Así que ha mantenido las filas del dataframe1:

In [7]:
dataframe1

Unnamed: 0,c1,clave
0,1,a
1,2,b
2,3,c


Ha buscado el **b** y el **c** que valores tienen en el **dataframe2**:

In [8]:
dataframe2

Unnamed: 0,c2,clave
0,4,c
1,5,b
2,6,e


Y como el a no existe en el dataframe2 lo ha dejado a `NaN` en el *merge*:

In [9]:
dataframe4

Unnamed: 0,c1,clave,c2
0,1,a,
1,2,b,5.0
2,3,c,4.0


In [10]:
dataframe5 = pd.DataFrame.merge(dataframe1,dataframe2,on='clave',how='right')
dataframe5
# Lo que pasará es que la fila con clave e no tendrá valor para la columna c1

Unnamed: 0,c1,clave,c2
0,2.0,b,5
1,3.0,c,4
2,,e,6


Con *outer* lo que hace es poner las filas de ambos dataframes:

In [11]:
dataframe6 = pd.DataFrame.merge(dataframe1,dataframe2,on='clave',how='outer')
dataframe6

Unnamed: 0,c1,clave,c2
0,1.0,a,
1,2.0,b,5.0
2,3.0,c,4.0
3,,e,6.0


## Concatenación de arrays, series y dataframes

In [12]:
import numpy as np

In [13]:
array1 = np.arange(9).reshape(3,3)
array1

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [14]:
np.concatenate([array1,array1])

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8],
       [0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Si queremos concatenarlo hacia la derecha y no hacia abajo tendremos que decirle que lo haga en el eje 1, con `concatenate` de *numpy*

In [15]:
np.concatenate([array1,array1], axis=1)

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [6, 7, 8, 6, 7, 8]])

In [16]:
serie1 = pd.Series([1,2,3],index=['a','b','c'])
serie2 = pd.Series([4,5,6],index=['d','e','f'])

In [17]:
pd.concat([serie1,serie2])

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int64

In [18]:
serie1

a    1
b    2
c    3
dtype: int64

In [19]:
serie2

d    4
e    5
f    6
dtype: int64

In [20]:
pd.concat([serie1,serie2], keys=['serie1','serie2'])

serie1  a    1
        b    2
        c    3
serie2  d    4
        e    5
        f    6
dtype: int64

`keys` en el metodo de la libreria *pandas* sirve para poner una clave extra mas.

**Concatenar dataframes**

In [21]:
dataframe1 = pd.DataFrame(np.random.rand(3,3), columns=['a','b','c'])
dataframe1

Unnamed: 0,a,b,c
0,0.227545,0.77281,0.845332
1,0.194986,0.256794,0.210353
2,0.265161,0.322916,0.645759


In [22]:
dataframe2 = pd.DataFrame(np.random.rand(2,3), columns=['a','b','c'])
dataframe2

Unnamed: 0,a,b,c
0,0.67061,0.324734,0.681507
1,0.036803,0.516531,0.639265


In [23]:
dataframe3 = pd.concat([dataframe1,dataframe2])
dataframe3

Unnamed: 0,a,b,c
0,0.227545,0.77281,0.845332
1,0.194986,0.256794,0.210353
2,0.265161,0.322916,0.645759
0,0.67061,0.324734,0.681507
1,0.036803,0.516531,0.639265


In [24]:
dataframe3 = pd.concat([dataframe1,dataframe2], ignore_index=True)

El *ignore_index* es para que pase de los indices de los dataframes anteriores.

In [25]:
dataframe3

Unnamed: 0,a,b,c
0,0.227545,0.77281,0.845332
1,0.194986,0.256794,0.210353
2,0.265161,0.322916,0.645759
3,0.67061,0.324734,0.681507
4,0.036803,0.516531,0.639265


## Combinar series y dataframes

In [26]:
serie1 = pd.Series([1,2,np.nan])
serie1

0    1.0
1    2.0
2    NaN
dtype: float64

In [27]:
serie2 = pd.Series([4,5,6])
serie2

0    4
1    5
2    6
dtype: int64

Ahora vamos a combinar ambas series:

In [28]:
serie3 = serie1.combine_first(serie2)
serie3

0    1.0
1    2.0
2    6.0
dtype: float64

Cuando se combinan dos series con `combine_first` los huecos de la primera (donde hay *NaN*) se reemplazan por los valores de la segunda serie en el mismo indice.

Ahora con dataframes:

In [29]:
valores = [1,2,np.nan]
dataframe1 = pd.DataFrame(valores)
dataframe1

Unnamed: 0,0
0,1.0
1,2.0
2,


In [30]:
valores2 = [4,5,6]
dataframe2 = pd.DataFrame(valores2)
dataframe2

Unnamed: 0,0
0,4
1,5
2,6


In [31]:
dataframe3 = dataframe1.combine_first(dataframe2)
dataframe3

Unnamed: 0,0
0,1.0
1,2.0
2,6.0


Vemos que sucede lo mismo que con las series. Coge el *dataframe1* y en el valor nulo lo cambia por el valor que tenga, en el mismo indice, el  *dataframe2*.

## Eliminar duplicados en DataFrames

In [32]:
valores = [[1,2],[1,2],[5,6],[5,8]]
valores

[[1, 2], [1, 2], [5, 6], [5, 8]]

In [33]:
indices = list('mnop')
indices

['m', 'n', 'o', 'p']

In [34]:
columnas = ['valor1','valor2']
columnas

['valor1', 'valor2']

In [35]:
dataframe = pd.DataFrame(valores,index=indices,columns=columnas)
dataframe

Unnamed: 0,valor1,valor2
m,1,2
n,1,2
o,5,6
p,5,8


Para borrar duplicados usamos el método **drop_duplicates**.

In [36]:
dataframe2 = dataframe.drop_duplicates()

In [37]:
dataframe2

Unnamed: 0,valor1,valor2
m,1,2
o,5,6
p,5,8


In [38]:
dataframe2.drop_duplicates(['valor1'])

Unnamed: 0,valor1,valor2
m,1,2
o,5,6


Tenemos que indicar la columna si queremos que sea sobre una columna en concreto

Si queremos que se quede con el último duplicado tenemos que indicarlo con `keep='last'`

In [39]:
dataframe2.drop_duplicates(['valor1'], keep='last')

Unnamed: 0,valor1,valor2
m,1,2
p,5,8


## Reemplazar datos en Series

In [40]:
serie = pd.Series([1,2,3,4,5], index=list('abcde'))
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [41]:
serie.replace(1,6)

a    6
b    2
c    3
d    4
e    5
dtype: int64

Se puede hacer con la función `replace` o mediante un diccionario.

In [42]:
serie = serie.replace({2:8,3:9})
serie

a    1
b    8
c    9
d    4
e    5
dtype: int64

## Renombrar índices

In [43]:
valores = np.arange(9).reshape(3,3)
valores

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [44]:
indices = ['a','b','c']
indices

['a', 'b', 'c']

In [45]:
dataframe = pd.DataFrame(valores,index=indices)
dataframe

Unnamed: 0,0,1,2
a,0,1,2
b,3,4,5
c,6,7,8


Queremos cambiar los índices para que sean letras mayúsculas.

In [46]:
nuevos_indices = dataframe.index.map(str.upper)
dataframe.index = nuevos_indices

In [47]:
dataframe

Unnamed: 0,0,1,2
A,0,1,2
B,3,4,5
C,6,7,8


In [48]:
dataframe = dataframe.rename(index=str.lower)
dataframe

Unnamed: 0,0,1,2
a,0,1,2
b,3,4,5
c,6,7,8


In [49]:
nuevos_indices = {'a':'f','b':'g','c':'h'}
dataframe.rename(index=nuevos_indices)

Unnamed: 0,0,1,2
f,0,1,2
g,3,4,5
h,6,7,8


In [50]:
nuevos_indices = {'f':'j'}
dataframe.rename(index=nuevos_indices, inplace=True)
dataframe

Unnamed: 0,0,1,2
a,0,1,2
b,3,4,5
c,6,7,8


Con `inplace=True` lo cambia dentro de la variable

## Agrupar datos en categorías

In [56]:
precios = [42,55,48,23,5,21,88,34,26]
rango = [0,10,20,30,40,50,60,70,80,90,100]

In [60]:
precios_con_rango = pd.cut(precios,rango)

In [59]:
precios_con_rango

[(40, 50], (50, 60], (40, 50], (20, 30], (0, 10], (20, 30], (80, 90], (30, 40], (20, 30]]
Categories (10, interval[int64]): [(0, 10] < (10, 20] < (20, 30] < (30, 40] ... (60, 70] < (70, 80] < (80, 90] < (90, 100]]

Cada uno de los precios ha sido intercambiado por el rango al que pertenece.

En `pandas` existe una función que es *value_counts*, que lo que hace es contar para todos los precios que hemos pasado cuántos hay en cada categoría.

In [61]:
pd.value_counts(precios_con_rango)

(20, 30]     3
(40, 50]     2
(80, 90]     1
(50, 60]     1
(30, 40]     1
(0, 10]      1
(90, 100]    0
(70, 80]     0
(60, 70]     0
(10, 20]     0
dtype: int64

## Filtrar datos en DataFrames

In [62]:
valores = np.random.rand(10,3)
valores

array([[0.34639473, 0.98380747, 0.9803742 ],
       [0.72752093, 0.85897658, 0.07857721],
       [0.86286091, 0.15413706, 0.66711016],
       [0.59615311, 0.3950015 , 0.27760891],
       [0.00314068, 0.66157503, 0.73333941],
       [0.39708082, 0.58934409, 0.16860668],
       [0.54528079, 0.91149646, 0.65812147],
       [0.58586986, 0.33297189, 0.65461877],
       [0.8274199 , 0.31076754, 0.34219727],
       [0.71698716, 0.33089146, 0.69723168]])

In [63]:
dataframe = pd.DataFrame(valores)
dataframe

Unnamed: 0,0,1,2
0,0.346395,0.983807,0.980374
1,0.727521,0.858977,0.078577
2,0.862861,0.154137,0.66711
3,0.596153,0.395001,0.277609
4,0.003141,0.661575,0.733339
5,0.397081,0.589344,0.168607
6,0.545281,0.911496,0.658121
7,0.58587,0.332972,0.654619
8,0.82742,0.310768,0.342197
9,0.716987,0.330891,0.697232


In [64]:
columna0 = dataframe[0]
columna0

0    0.346395
1    0.727521
2    0.862861
3    0.596153
4    0.003141
5    0.397081
6    0.545281
7    0.585870
8    0.827420
9    0.716987
Name: 0, dtype: float64

In [65]:
columna0[columna0 > 0.40]

1    0.727521
2    0.862861
3    0.596153
6    0.545281
7    0.585870
8    0.827420
9    0.716987
Name: 0, dtype: float64

In [66]:
dataframe[dataframe > 0.4]

Unnamed: 0,0,1,2
0,,0.983807,0.980374
1,0.727521,0.858977,
2,0.862861,,0.66711
3,0.596153,,
4,,0.661575,0.733339
5,,0.589344,
6,0.545281,0.911496,0.658121
7,0.58587,,0.654619
8,0.82742,,
9,0.716987,,0.697232


## Combinaciones de elementos

In [67]:
valores = np.arange(25).reshape(5,5)
valores

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [68]:
dataframe = pd.DataFrame(valores)
dataframe

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19
4,20,21,22,23,24


In [69]:
combinacion_aleatoria = np.random.permutation(5)
combinacion_aleatoria

array([4, 0, 3, 2, 1])

Esto genera un array de elementos del 0 al 5, pero no en orden, como se puede ver, sino de forma aleatoria.

In [70]:
dataframe.take(combinacion_aleatoria)

Unnamed: 0,0,1,2,3,4
4,20,21,22,23,24
0,0,1,2,3,4
3,15,16,17,18,19
2,10,11,12,13,14
1,5,6,7,8,9


Esto lo que hace es ordenar el dataframe según el array aleatorio *combinacion_aleatoria*, que contiene los indicies del array.

## Agrupación en DataFrames

In [71]:
valores = {'clave1': ['x','x','y','y','z'], 'clave2':['a','b','a','b','a'],
          'datos1':np.random.rand(5), 'datos2':np.random.rand(5)}
valores

{'clave1': ['x', 'x', 'y', 'y', 'z'],
 'clave2': ['a', 'b', 'a', 'b', 'a'],
 'datos1': array([0.97339918, 0.22547144, 0.00427759, 0.57972712, 0.78871724]),
 'datos2': array([0.04066964, 0.27855761, 0.57535817, 0.96097817, 0.1608039 ])}

In [72]:
dataframe = pd.DataFrame(valores)

In [73]:
dataframe

Unnamed: 0,clave1,clave2,datos1,datos2
0,x,a,0.973399,0.04067
1,x,b,0.225471,0.278558
2,y,a,0.004278,0.575358
3,y,b,0.579727,0.960978
4,z,a,0.788717,0.160804


In [74]:
grupo1 = dataframe['datos1'].groupby(dataframe['clave1'])
grupo1

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7f8e0ad3da58>

In [75]:
grupo1.mean()

clave1
x    0.599435
y    0.292002
z    0.788717
Name: datos1, dtype: float64

`mean` de una serie agrupada es la media.

## Agregación en DataFrames

Operaciones que dan un valor, como la media.

In [76]:
valores = [[1,2,3], [4,5,6],[7,8,9],[np.nan,np.nan,np.nan]]
valores

[[1, 2, 3], [4, 5, 6], [7, 8, 9], [nan, nan, nan]]

In [77]:
columnas = list('abc')
columnas

['a', 'b', 'c']

In [78]:
dataframe = pd.DataFrame(valores, columns=columnas)
dataframe

Unnamed: 0,a,b,c
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,8.0,9.0
3,,,


Vamos a calcular la suma y el minimo valor:

In [79]:
dataframe.agg(['sum','min'])

Unnamed: 0,a,b,c
sum,12.0,15.0,18.0
min,1.0,2.0,3.0


In [80]:
dataframe.agg(['sum','min'],axis=1)

Unnamed: 0,sum,min
0,6.0,1.0
1,15.0,4.0
2,24.0,7.0
3,0.0,
