# Introducción a Pandas

Pandas es la librería por excelencia de Python para análisis y manipulación de datos. A continuación, veremos cuáles son las principales características de los objteos más comunes, `Series` y `DataFrame`, y cómo trabajar con ellos.

___
# Series

Un objeto `pd.Series` es muy similar a un `np.array` (de hecho, se construye sobre este). Lo que los diferencia es que el objeto `pd.Series` admite etiquetas en los ejes, por lo que podremos filtrar y acceder a elementos mediante etiquetas qeu no sean necesariamente numéricas. Además, soporta objetos de Python de todo tipo, no sólo numéricos.

In [None]:
import numpy as np
import pandas as pd

### Creando un `pd.Series`

Se puede realizar a partir de una lista, un `np.array`, o idealmente desde un diccionario.

In [None]:
labels = ['a','b','c']
my_list = [10,20,30]
arr = np.array([10,20,30])
d = {'a':10,'b':20,'c':30}

Con listas

In [None]:
pd.Series(data=my_list)

0    10
1    20
2    30
dtype: int64

In [None]:
pd.Series(data=my_list,index=labels)

a    10
b    20
c    30
dtype: int64

In [None]:
pd.Series(my_list,labels)

a    10
b    20
c    30
dtype: int64

`np.arrays`

In [None]:
pd.Series(arr)

0    10
1    20
2    30
dtype: int64

In [None]:
pd.Series(arr,labels)

a    10
b    20
c    30
dtype: int64

Diccionarios

In [None]:
pd.Series(d)

a    10
b    20
c    30
dtype: int64

### Datos en un `pd.Series`

Como ya anticipamos, no solo números se pueden introducir como valores en estos objetos:

In [None]:
pd.Series(data=labels)

0    a
1    b
2    c
dtype: object

In [None]:
# Incluso funciones (aunque no es probable que se llegue a emplear nunca)
pd.Series([sum,print,len])

## Indexando

La clave para usar estos objetos es la manipulación de los índices. Pandas permite la indexación numérica o por los tags que se hayan asignado para una búsqueda más rápida y efectiva.

In [None]:
ser1 = pd.Series([1,2,3,4],index = ['USA', 'Germany','USSR', 'Japan'])                                   

In [None]:
ser1

USA        1
Germany    2
USSR       3
Japan      4
dtype: int64

In [None]:
ser2 = pd.Series([1,2,5,4],index = ['USA', 'Germany','Italy', 'Japan'])                                   

In [None]:
ser2

In [None]:
ser1['USA']

Las operaciones son realizadas también en virtud a los índices. Veremos este punto más en detalle sobre la sección de *joins*:

In [None]:
ser1 + ser2

---
# DataFrames

`DataFrame` son los objetos centrales de Pandas y están directamente inspirados en R. Conceptualmente, podemos pensar en estos objetos como en una aglomeración de `pd.Series` por columnas, compartiendo por tanto unos mismos índices.

In [None]:
np.random.seed(101) #Fijamos seed para obtener todos los mismos resultados

In [None]:
df = pd.DataFrame(np.random.randn(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())

In [None]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


## Selección e indexado

Es muy habitual recurrir a fragmentos de los datos para estudiar sus propiedades. Veamos cómo llevarlo a cabo:

In [None]:
df['W']

In [None]:
# Pasamos una lista de nombres de columnas
df[['W','Z']]

In [None]:
# Podemos emplear sintaxis de lenguaje SQL (¡NO RECOMENDADO!)
df.W

Si nos fijamos, las columnas individuales son objetos `pd.Series`, aunque también podemos obtener `pd.DataFrame` con una sola columna:

In [None]:
type(df['W'])

In [None]:
type(df[['W']])

**Generar nuevas columnas:**

In [None]:
df['new'] = df['W'] + df['Y']

In [None]:
df

Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


**Eliminar columnas**

In [None]:
df.drop('new',axis=1)

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [None]:
# ¡No se eliminan salvo que se especifique!
df

Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


In [None]:
df.drop('new',axis=1,inplace=True)

In [None]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


También podemos eliminar filas:

In [None]:
df.drop('E',axis=0)

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057


**Filtrado por filas**

In [None]:
df.loc['A'] #df.loc['A',:]

W    2.706850
X    0.628133
Y    0.907969
Z    0.503826
Name: A, dtype: float64

Si, por el contrario, queremos hacer filtrado por la posición de la fila (y/o columna), recurrimos a `.iloc`:

In [None]:
df.iloc[2]

W   -2.018168
X    0.740122
Y    0.528813
Z   -0.589001
Name: C, dtype: float64

**Filtrando por filas y columnas simultáneamente**

In [None]:
df.loc['B','Y']

-0.84807698340363147

In [None]:
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,2.70685,0.907969
B,0.651118,-0.848077


###  Filtrado condicional

De manera similar a `numPy`, podemos hacer selección de datos mediante operadores booleanos:

In [None]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [None]:
df>0

Unnamed: 0,W,X,Y,Z
A,True,True,True,True
B,True,False,False,True
C,False,True,True,False
D,True,False,False,True
E,True,True,True,True


In [None]:
df[df>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,,,0.605965
C,,0.740122,0.528813,
D,0.188695,,,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [None]:
df.loc[df['W']>0,:]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [None]:
df.loc[df['W']>0,'Y']

A    0.907969
B   -0.848077
D   -0.933237
E    2.605967
Name: Y, dtype: float64

In [None]:
df.loc[df['W']>0,['Y','X']]

Unnamed: 0,Y,X
A,0.907969,0.628133
B,-0.848077,-0.319318
D,-0.933237,-0.758872
E,2.605967,1.978757


Para más de una condición, podemos usar los símbolos `|` y `&` para denotar, respectivamente, los operadores lógicos OR y AND.

```python
(5==5) & (3==3)
>True
(5==2) & (3==3)
>False
(5==5) | (3==3)
>True
(5==2) | (3==3)
>True
(5==2) | (3==1)
>False
```

In [None]:
df.loc[(df['W']>0) & (df['Y'] > 1),:]

Unnamed: 0,W,X,Y,Z
E,0.190794,1.978757,2.605967,0.683509


## Más detalles sobre indexado
Veamos algunas funcionalidades extra sobre indexado, incluyendo reseteado o formateado.

In [None]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [None]:
# Reseteamos y añadimos indexación entera
print('Reseteado manteniendo índice:\n{}'.format(df.reset_index()))
print('\nReseteado eliminando índice:\n{}'.format(df.reset_index(drop = True)))

Reseteado manteniendo índice:
  index         W         X         Y         Z
0     A  2.706850  0.628133  0.907969  0.503826
1     B  0.651118 -0.319318 -0.848077  0.605965
2     C -2.018168  0.740122  0.528813 -0.589001
3     D  0.188695 -0.758872 -0.933237  0.955057
4     E  0.190794  1.978757  2.605967  0.683509

Reseteado eliminando índice:
          W         X         Y         Z
0  2.706850  0.628133  0.907969  0.503826
1  0.651118 -0.319318 -0.848077  0.605965
2 -2.018168  0.740122  0.528813 -0.589001
3  0.188695 -0.758872 -0.933237  0.955057
4  0.190794  1.978757  2.605967  0.683509


Vamos a cambiar el índice por otro nuevo:

In [None]:
newind = 'CA NY WY OR CO'.split()

In [None]:
df['States'] = newind

In [None]:
df

Unnamed: 0,W,X,Y,Z,States
A,2.70685,0.628133,0.907969,0.503826,CA
B,0.651118,-0.319318,-0.848077,0.605965,NY
C,-2.018168,0.740122,0.528813,-0.589001,WY
D,0.188695,-0.758872,-0.933237,0.955057,OR
E,0.190794,1.978757,2.605967,0.683509,CO


Para añadirlo sin alterar la estructura del `DataFrame`, simplemente usamos la función `.set_index`:

In [None]:
df.set_index('States')

Unnamed: 0_level_0,W,X,Y,Z
States,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,2.70685,0.628133,0.907969,0.503826
NY,0.651118,-0.319318,-0.848077,0.605965
WY,-2.018168,0.740122,0.528813,-0.589001
OR,0.188695,-0.758872,-0.933237,0.955057
CO,0.190794,1.978757,2.605967,0.683509


In [None]:
df

Unnamed: 0,W,X,Y,Z,States
A,2.70685,0.628133,0.907969,0.503826,CA
B,0.651118,-0.319318,-0.848077,0.605965,NY
C,-2.018168,0.740122,0.528813,-0.589001,WY
D,0.188695,-0.758872,-0.933237,0.955057,OR
E,0.190794,1.978757,2.605967,0.683509,CO


Si, por el contrario, queremos cambiar el índice y solapar el `DataFrame` que teníamos, fijamos el argumento `inplace` a True:

In [None]:
df.set_index('States',inplace=True)

In [None]:
df

Unnamed: 0_level_0,W,X,Y,Z
States,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,2.70685,0.628133,0.907969,0.503826
NY,0.651118,-0.319318,-0.848077,0.605965
WY,-2.018168,0.740122,0.528813,-0.589001
OR,0.188695,-0.758872,-0.933237,0.955057
CO,0.190794,1.978757,2.605967,0.683509


## Multi-Índice


In [None]:
# Index Levels
outside = ['G1','G1','G1','G2','G2','G2']
inside = [1,2,3,1,2,3]
hier_index = list(zip(outside,inside))
hier_index = pd.MultiIndex.from_tuples(hier_index)

In [None]:
hier_index

MultiIndex([('G1', 1),
            ('G1', 2),
            ('G1', 3),
            ('G2', 1),
            ('G2', 2),
            ('G2', 3)],
           )

In [None]:
df = pd.DataFrame(np.random.randn(6,2), index=hier_index, columns=['A','B'])
df

Unnamed: 0,Unnamed: 1,A,B
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


Comprobemos cómo acceder a los elementos de estos objetos. En primer lugar, para acceder a la capa *superior* de un multiíndice, basta con usar la hasta ahora conocida notación `df.loc[]`:

In [None]:
df.loc['G1',:]

Unnamed: 0,A,B
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


Podemos asignar nombres a las distintas capas de índices:

In [None]:
df.index.names

FrozenList([None, None])

In [None]:
df.index.names = ['Group','Num']

In [None]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Group,Num,Unnamed: 2_level_1,Unnamed: 3_level_1
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


Emplearemos ahora la función `.xs()` (*cross-section*) para acceder a las distintas capas de un índice múltiple:

In [None]:
df.xs('G1', axis = 0)

Unnamed: 0_level_0,A,B
Num,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


In [None]:
df.xs(['G1',1], axis = 0)

A    0.302665
B    1.693723
Name: (G1, 1), dtype: float64

In [None]:
df.xs(1,level='Num', axis = 0)

Unnamed: 0_level_0,A,B
Group,Unnamed: 1_level_1,Unnamed: 2_level_1
G1,0.302665,1.693723
G2,0.166905,0.184502


---
# Información faltante

Estudiaremos ahora algunas formas de lidiar con la información faltante:

In [None]:
df = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})

In [None]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [None]:
#Eliminamos filas con valores nulos
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [None]:
#Eliminamos columnas con valores nulos
df.dropna(axis=1)

Unnamed: 0,C
0,1
1,2
2,3


In [None]:
#Eliminamos filas con un número de nulos mayor o igual que dos
df.dropna(thresh=2)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


In [None]:
#Rellenamos los valores nulos con cualesquiera datos
df.fillna(value='FILL VALUE')

Unnamed: 0,A,B,C
0,1,5,1
1,2,FILL VALUE,2
2,FILL VALUE,FILL VALUE,3


In [None]:
# También podemos emplear funciones para agregar información faltante
df['A'].fillna(value=df['A'].mean())

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

---
# Groupby

En numerosas aplicaciones, estaremos interesados en agrupar información 

In [None]:
# Create dataframe
data = {'Company':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Person':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
       'Sales':[200,120,340,124,243,350]}

In [None]:
df = pd.DataFrame(data)

In [None]:
df

Unnamed: 0,Company,Person,Sales
0,GOOG,Sam,200
1,GOOG,Charlie,120
2,MSFT,Amy,340
3,MSFT,Vanessa,124
4,FB,Carl,243
5,FB,Sarah,350


Ahora, podemos usar el método `.groupby()` para agregar filas basadas en su información de una columna (o más). Por ejemplo, veamos lo que podemos hacer con esta información de empresas populares:

In [None]:
df.groupby('Company')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fd8409ae950>

Sobre este objeto, podemos agregar métodos para obtener información:

In [None]:
print('Información de la media:\n{}'.format(df.groupby('Company').mean()))
print('\nInformación de la desviación típica:\n{}'.format(df.groupby('Company').std()))
print('\nInformación del mínimo:\n{}'.format(df.groupby('Company').min()))
print('\nInformación del máximo:\n{}'.format(df.groupby('Company').max()))
print('\nInformación de conteo:\n{}'.format(df.groupby('Company').count()))

Información de la media:
         Sales
Company       
FB       296.5
GOOG     160.0
MSFT     232.0

Información de la desviación típica:
              Sales
Company            
FB        75.660426
GOOG      56.568542
MSFT     152.735065

Información del mínimo:
          Person  Sales
Company                
FB          Carl    243
GOOG     Charlie    120
MSFT         Amy    124

Información del máximo:
          Person  Sales
Company                
FB         Sarah    350
GOOG         Sam    200
MSFT     Vanessa    340

Información de conteo:
         Person  Sales
Company               
FB            2      2
GOOG          2      2
MSFT          2      2


Toda esta información podemos recogerla con la función `.describe()`:

In [None]:
df.groupby('Company').describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,Sales
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,count,2.0
FB,mean,296.5
FB,std,75.660426
FB,min,243.0
FB,25%,269.75
FB,50%,296.5
FB,75%,323.25
FB,max,350.0
GOOG,count,2.0
GOOG,mean,160.0


Para tener una vista más agradable, trasponemos los datos

In [None]:
df.groupby('Company').describe().transpose()

Company,FB,FB,FB,FB,FB,FB,FB,FB,GOOG,GOOG,GOOG,GOOG,GOOG,MSFT,MSFT,MSFT,MSFT,MSFT,MSFT,MSFT,MSFT
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
Sales,2.0,296.5,75.660426,243.0,269.75,296.5,323.25,350.0,2.0,160.0,...,180.0,200.0,2.0,232.0,152.735065,124.0,178.0,232.0,286.0,340.0


Podemos filtrar por un valor concreto:

In [None]:
df.groupby('Company').describe().transpose()['GOOG']

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Sales,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0


Finalmente, podemos introducir cualquier operación que nos parezca más oportuna:

In [None]:
df.groupby('Company')['Sales'].apply(lambda x: np.log1p(x)-np.cos(x))

0    4.816117
1    3.981610
2    5.072214
3    4.921090
4    5.953111
5    6.144420
Name: Sales, dtype: float64

____
# Merging, Joining, y Concatenating

Hay tres principales formas de combinar `pd.DataFrame`: *merge*, *join* y *concatenate*. Iremos sobre cada uno de ellos.

### DataFrames de muestra

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

In [None]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [None]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])

## Concatenación

Esta operación únicamente pega los datos. Por tanto, las dimensiones de los objetos que intervienen en la operación deben de encajar sobre el eje que se realice la misma.

In [None]:
pd.concat([df1,df2,df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [None]:
pd.concat([df1,df2,df3],axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


___

## Merging

La función **merge** permite combinar DataFrames usando una lógica similar a la de las tablas SQL.

In [None]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
   
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})    

In [None]:
pd.merge(left,right,how='inner',on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


Un ejemplo algo más elaborado

In [None]:
left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
    
right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
pd.merge(left, right, on=['key1', 'key2']) #how = 'inner'

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [None]:
pd.merge(left, right, how='outer', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


In [None]:
pd.merge(left, right, how='right', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K0,,,C3,D3


In [None]:
pd.merge(left, right, how='left', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


## Joining

La operación *join* es un método muy adecuado para combinar columnas de DataFrames cuyos índices sean potencialmente distintos.

In [None]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [None]:
left.join(right)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [None]:
left.join(right, how='outer')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


___
# Operaciones

A continuación exploraremos algunos de los métodos más frecuentes para analizar datos con esta librería:

In [None]:
df = pd.DataFrame({'col1':[1,2,3,4],'col2':[444,555,666,444],'col3':['abc','def','ghi','xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


### Info sobre valores únicos

In [None]:
#Valores distintos de una columna
df['col2'].unique()

array([444, 555, 666])

In [None]:
#Número de valores distintos en una columna
df['col2'].nunique()

3

In [None]:
#Número de veces que se toma cada valor de una columna
df['col2'].value_counts()

444    2
555    1
666    1
Name: col2, dtype: int64

### Filtrando datos

In [None]:
#Podemos filtrar haciendo uso de condiciones en múltiples columnas
newdf = df[(df['col1']>2) & (df['col2']==444)]

In [None]:
newdf

Unnamed: 0,col1,col2,col3
3,4,444,xyz


### Aplicar funciones

In [None]:
def times2(x):
    return x*2

In [None]:
df['col1'].apply(times2)

0    2
1    4
2    6
3    8
Name: col1, dtype: int64

In [None]:
df['col3'].apply(len)

0    3
1    3
2    3
3    3
Name: col3, dtype: int64

In [None]:
df['col1'].sum()

10

**Eliminar una columna de forma irreversible**

In [None]:
del df['col1']

In [None]:
df

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


**Obtener nombre de columnas e índices**

In [None]:
df.columns

Index(['col2', 'col3'], dtype='object')

In [None]:
df.index

RangeIndex(start=0, stop=4, step=1)

**Ordenando la información**

In [None]:
df

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


In [None]:
df.sort_values(by='col2') #inplace=False por defecto

Unnamed: 0,col2,col3
0,444,abc
3,444,xyz
1,555,def
2,666,ghi


**Buscar valores nulos y reemplazarlos**

In [None]:
df.isnull()

Unnamed: 0,col2,col3
0,False,False
1,False,False
2,False,False
3,False,False


In [None]:
# Drop rows with NaN Values
df.dropna()

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


**Rellenar valores nulos con otra información**

In [None]:
df = pd.DataFrame({'col1':[1,2,3,np.nan],
                   'col2':[np.nan,555,666,444],
                   'col3':['abc','def','ghi','xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1.0,,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,xyz


In [None]:
df.fillna('FILL')

Unnamed: 0,col1,col2,col3
0,1,FILL,abc
1,2,555,def
2,3,666,ghi
3,FILL,444,xyz


**Pivotar tablas**

In [None]:
data = {'A':['foo','foo','foo','bar','bar','bar'],
     'B':['one','one','two','two','one','one'],
       'C':['x','y','x','y','x','y'],
       'D':[1,3,2,5,4,1]}

df = pd.DataFrame(data)
print(df)

     A    B  C  D
0  foo  one  x  1
1  foo  one  y  3
2  foo  two  x  2
3  bar  two  y  5
4  bar  one  x  4
5  bar  one  y  1


In [None]:
df.pivot_table(values='D',index=['A', 'B'],columns=['C'])

Unnamed: 0_level_0,C,x,y
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,1.0
bar,two,,5.0
foo,one,1.0,3.0
foo,two,2.0,
