In [30]:
import pandas as pd

## Union de DataFrames

In [2]:
dataframe1 = pd.DataFrame({'c1':['1','2','3'], 'clave':['a','b','c']})
dataframe1

Unnamed: 0,c1,clave
0,1,a
1,2,b
2,3,c


In [3]:
dataframe2 = pd.DataFrame({'c2':['4','5','6'], 'clave':['c','b','e']})
dataframe2

Unnamed: 0,c2,clave
0,4,c
1,5,b
2,6,e


In [4]:
# Unimos ambos dataframes
dataframe3 = pd.DataFrame.merge(dataframe1,dataframe2)
dataframe3

Unnamed: 0,c1,clave,c2
0,2,b,5
1,3,c,4


In [5]:
dataframe3 = pd.DataFrame.merge(dataframe1,dataframe2,on='clave')
dataframe3

Unnamed: 0,c1,clave,c2
0,2,b,5
1,3,c,4


Con `on` podemos indicar sobre qué columna queremos que haga la unión.

In [6]:
dataframe4 = pd.DataFrame.merge(dataframe1,dataframe2,on='clave',how='left')
dataframe4

Unnamed: 0,c1,clave,c2
0,1,a,
1,2,b,5.0
2,3,c,4.0


Con `how` le indicamos qué dataframe queremos que prevalezca.

Así que ha mantenido las filas del dataframe1:

In [7]:
dataframe1

Unnamed: 0,c1,clave
0,1,a
1,2,b
2,3,c


Ha buscado el **b** y el **c** que valores tienen en el **dataframe2**:

In [8]:
dataframe2

Unnamed: 0,c2,clave
0,4,c
1,5,b
2,6,e


Y como el a no existe en el dataframe2 lo ha dejado a `NaN` en el *merge*:

In [9]:
dataframe4

Unnamed: 0,c1,clave,c2
0,1,a,
1,2,b,5.0
2,3,c,4.0


In [10]:
dataframe5 = pd.DataFrame.merge(dataframe1,dataframe2,on='clave',how='right')
dataframe5
# Lo que pasará es que la fila con clave e no tendrá valor para la columna c1

Unnamed: 0,c1,clave,c2
0,2.0,b,5
1,3.0,c,4
2,,e,6


Con *outer* lo que hace es poner las filas de ambos dataframes:

In [11]:
dataframe6 = pd.DataFrame.merge(dataframe1,dataframe2,on='clave',how='outer')
dataframe6

Unnamed: 0,c1,clave,c2
0,1.0,a,
1,2.0,b,5.0
2,3.0,c,4.0
3,,e,6.0


## Concatenación de arrays, series y dataframes

In [13]:
import numpy as np

In [14]:
array1 = np.arange(9).reshape(3,3)
array1

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [16]:
np.concatenate([array1,array1])

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8],
       [0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Si queremos concatenarlo hacia la derecha y no hacia abajo tendremos que decirle que lo haga en el eje 1, con `concatenate` de *numpy*

In [17]:
np.concatenate([array1,array1], axis=1)

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [6, 7, 8, 6, 7, 8]])

In [18]:
serie1 = pd.Series([1,2,3],index=['a','b','c'])
serie2 = pd.Series([4,5,6],index=['d','e','f'])

In [19]:
pd.concat([serie1,serie2])

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int64

In [20]:
serie1

a    1
b    2
c    3
dtype: int64

In [21]:
serie2

d    4
e    5
f    6
dtype: int64

In [22]:
pd.concat([serie1,serie2], keys=['serie1','serie2'])

serie1  a    1
        b    2
        c    3
serie2  d    4
        e    5
        f    6
dtype: int64

`keys` en el metodo de la libreria *pandas* sirve para poner una clave extra mas.

**Concatenar dataframes**

In [23]:
dataframe1 = pd.DataFrame(np.random.rand(3,3), columns=['a','b','c'])
dataframe1

Unnamed: 0,a,b,c
0,0.284716,0.911878,0.448798
1,0.14545,0.797482,0.582668
2,0.918641,0.23245,0.891102


In [24]:
dataframe2 = pd.DataFrame(np.random.rand(2,3), columns=['a','b','c'])
dataframe2

Unnamed: 0,a,b,c
0,0.610552,0.796971,0.847961
1,0.911215,0.337812,0.581054


In [25]:
dataframe3 = pd.concat([dataframe1,dataframe2])
dataframe3

Unnamed: 0,a,b,c
0,0.284716,0.911878,0.448798
1,0.14545,0.797482,0.582668
2,0.918641,0.23245,0.891102
0,0.610552,0.796971,0.847961
1,0.911215,0.337812,0.581054


In [28]:
dataframe3 = pd.concat([dataframe1,dataframe2], ignore_index=True)

El *ignore_index* es para que pase de los indices de los dataframes anteriores.

In [29]:
dataframe3

Unnamed: 0,a,b,c
0,0.284716,0.911878,0.448798
1,0.14545,0.797482,0.582668
2,0.918641,0.23245,0.891102
3,0.610552,0.796971,0.847961
4,0.911215,0.337812,0.581054


## Combinar series y dataframes

In [31]:
serie1 = pd.Series([1,2,np.nan])
serie1

0    1.0
1    2.0
2    NaN
dtype: float64

In [33]:
serie2 = pd.Series([4,5,6])
serie2

0    4
1    5
2    6
dtype: int64

Ahora vamos a combinar ambas series:

In [34]:
serie3 = serie1.combine_first(serie2)
serie3

0    1.0
1    2.0
2    6.0
dtype: float64

Cuando se combinan dos series con `combine_first` los huecos de la primera (donde hay *NaN*) se reemplazan por los valores de la segunda serie en el mismo indice.

Ahora con dataframes:

In [35]:
valores = [1,2,np.nan]
dataframe1 = pd.DataFrame(valores)
dataframe1

Unnamed: 0,0
0,1.0
1,2.0
2,


In [36]:
valores2 = [4,5,6]
dataframe2 = pd.DataFrame(valores2)
dataframe2

Unnamed: 0,0
0,4
1,5
2,6


In [37]:
dataframe3 = dataframe1.combine_first(dataframe2)
dataframe3

Unnamed: 0,0
0,1.0
1,2.0
2,6.0


Vemos que sucede lo mismo que con las series. Coge el *dataframe1* y en el valor nulo lo cambia por el valor que tenga, en el mismo indice, el  *dataframe2*.

## Eliminar duplicados en DataFrames

In [39]:
valores = [[1,2],[1,2],[5,6],[5,8]]
valores

[[1, 2], [1, 2], [5, 6], [5, 8]]

In [40]:
indices = list('mnop')
indices

['m', 'n', 'o', 'p']

In [41]:
columnas = ['valor1','valor2']
columnas

['valor1', 'valor2']

In [42]:
dataframe = pd.DataFrame(valores,index=indices,columns=columnas)
dataframe

Unnamed: 0,valor1,valor2
m,1,2
n,1,2
o,5,6
p,5,8


Para borrar duplicados usamos el método **drop_duplicates**.

In [49]:
dataframe2 = dataframe.drop_duplicates()

In [50]:
dataframe2

Unnamed: 0,valor1,valor2
m,1,2
o,5,6
p,5,8


In [56]:
dataframe2.drop_duplicates(['valor1'])

Unnamed: 0,valor1,valor2
m,1,2
o,5,6


Tenemos que indicar la columna si queremos que sea sobre una columna en concreto

Si queremos que se quede con el último duplicado tenemos que indicarlo con `keep='last'`

In [57]:
dataframe2.drop_duplicates(['valor1'], keep='last')

Unnamed: 0,valor1,valor2
m,1,2
p,5,8


## Reemplazar datos en Series

In [58]:
serie = pd.Series([1,2,3,4,5], index=list('abcde'))
serie

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [59]:
serie.replace(1,6)

a    6
b    2
c    3
d    4
e    5
dtype: int64

Se puede hacer con la función `replace` o mediante un diccionario.

In [60]:
serie = serie.replace({2:8,3:9})
serie

a    1
b    8
c    9
d    4
e    5
dtype: int64

## Renombrar índices

In [61]:
valores = np.arange(9).reshape(3,3)
valores

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [62]:
indices = ['a','b','c']
indices

['a', 'b', 'c']

In [63]:
dataframe = pd.DataFrame(valores,index=indices)
dataframe

Unnamed: 0,0,1,2
a,0,1,2
b,3,4,5
c,6,7,8


Queremos cambiar los índices para que sean letras mayúsculas.

In [64]:
nuevos_indices = dataframe.index.map(str.upper)
dataframe.index = nuevos_indices

In [65]:
dataframe

Unnamed: 0,0,1,2
A,0,1,2
B,3,4,5
C,6,7,8


In [66]:
dataframe = dataframe.rename(index=str.lower)
dataframe

Unnamed: 0,0,1,2
a,0,1,2
b,3,4,5
c,6,7,8


In [67]:
nuevos_indices = {'a':'f','b':'g','c':'h'}
dataframe.rename(index=nuevos_indices)

Unnamed: 0,0,1,2
f,0,1,2
g,3,4,5
h,6,7,8


In [69]:
nuevos_indices = {'f':'j'}
dataframe.rename(index=nuevos_indices, inplace=True)
dataframe

Unnamed: 0,0,1,2
a,0,1,2
b,3,4,5
c,6,7,8


Con `inplace=True` lo cambia dentro de la variable

## Agrupar datos en categorías