# Introducción a Pandas

Pandas es la librería por excelencia de Python para análisis y manipulación de datos. A continuación, veremos cuáles son las principales características de los objetos más comunes, `Series` y `DataFrame`, y cómo trabajar con ellos.

___
# Series

Un objeto `pd.Series` es muy similar a un `np.array` (de hecho, se construye sobre este). Lo que los diferencia es que el objeto `pd.Series` admite etiquetas en los ejes, por lo que podremos filtrar y acceder a elementos mediante etiquetas qeu no sean necesariamente numéricas. Además, soporta objetos de Python de todo tipo, no sólo numéricos.

In [1]:
import numpy as np
import pandas as pd

### Creando un `pd.Series`

Se puede realizar a partir de una lista, un `np.array`, o idealmente desde un diccionario.

In [2]:
labels = ['a','b','c']
my_list = [10,20,30]
arr = np.array([10,20,30])
d = {'a':10,'b':20,'c':30}

Con listas

In [3]:
pd.Series(data=my_list)

0    10
1    20
2    30
dtype: int64

In [4]:
pd.Series(data=my_list,index=labels)

a    10
b    20
c    30
dtype: int64

In [5]:
pd.Series(my_list,labels)

a    10
b    20
c    30
dtype: int64

`np.arrays`

In [6]:
pd.Series(arr)

0    10
1    20
2    30
dtype: int32

In [7]:
pd.Series(arr,labels)

a    10
b    20
c    30
dtype: int32

Diccionarios

In [8]:
pd.Series(d)

a    10
b    20
c    30
dtype: int64

### Datos en un `pd.Series`

Como ya anticipamos, no solo números se pueden introducir como valores en estos objetos:

In [9]:
pd.Series(data=labels)

0    a
1    b
2    c
dtype: object

In [10]:
# Incluso funciones (aunque no es probable que se llegue a emplear nunca)
pd.Series([sum,print,len])

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

## Indexando

La clave para usar estos objetos es la manipulación de los índices. Pandas permite la indexación numérica o por los tags que se hayan asignado para una búsqueda más rápida y efectiva.

In [11]:
ser1 = pd.Series([1,2,3,4],index = ['USA', 'Germany','USSR', 'Japan'])                                   

In [12]:
ser1

USA        1
Germany    2
USSR       3
Japan      4
dtype: int64

In [13]:
ser2 = pd.Series([1,2,5,4],index = ['USA', 'Germany','Italy', 'Japan'])                                   

In [14]:
ser2

USA        1
Germany    2
Italy      5
Japan      4
dtype: int64

In [15]:
ser1['USA']

1

Las operaciones son realizadas también en virtud a los índices. Veremos este punto más en detalle sobre la sección de *joins*:

In [16]:
ser1 + ser2

Germany    4.0
Italy      NaN
Japan      8.0
USA        2.0
USSR       NaN
dtype: float64

---
# DataFrames

`DataFrame` son los objetos centrales de Pandas y están directamente inspirados en R. Conceptualmente, podemos pensar en estos objetos como en una aglomeración de `pd.Series` por columnas, compartiendo por tanto unos mismos índices.

In [17]:
np.random.seed(101) #Fijamos seed para obtener todos los mismos resultados

In [18]:
df = pd.DataFrame(np.random.randn(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())

In [19]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


## Selección e indexado

Es muy habitual recurrir a fragmentos de los datos para estudiar sus propiedades. Veamos cómo llevarlo a cabo:

In [20]:
df['W']

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

In [21]:
# Pasamos una lista de nombres de columnas
df[['W','Z']]

Unnamed: 0,W,Z
A,2.70685,0.503826
B,0.651118,0.605965
C,-2.018168,-0.589001
D,0.188695,0.955057
E,0.190794,0.683509


In [22]:
# Podemos emplear sintaxis de lenguaje SQL (¡NO RECOMENDADO!)
df.W

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

Si nos fijamos, las columnas individuales son objetos `pd.Series`, aunque también podemos obtener `pd.DataFrame` con una sola columna:

In [23]:
type(df['W'])

pandas.core.series.Series

In [24]:
type(df[['W']])

pandas.core.frame.DataFrame

**Generar nuevas columnas:**

In [25]:
df['new'] = df['W'] + df['Y']

In [26]:
df

Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


**Eliminar columnas**

In [27]:
df.drop('A')

Unnamed: 0,W,X,Y,Z,new
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


In [28]:
# ¡No se eliminan salvo que se especifique!
df

Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


In [29]:
df.drop('new',axis=1,inplace=True)

In [30]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


También podemos eliminar filas:

In [31]:
df.drop('E',axis=0)

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057


**Filtrado por filas**

In [32]:
# df.loc['A']

df.loc['A','W']

2.706849839399938

Si, por el contrario, queremos hacer filtrado por la posición de la fila (y/o columna), recurrimos a `.iloc`:

In [33]:
df.iloc[2]

W   -2.018168
X    0.740122
Y    0.528813
Z   -0.589001
Name: C, dtype: float64

**Filtrando por filas y columnas simultáneamente**

In [34]:
df.loc['B','Y']

-0.8480769834036315

In [35]:
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,2.70685,0.907969
B,0.651118,-0.848077


###  Filtrado condicional

De manera similar a `numPy`, podemos hacer selección de datos mediante operadores booleanos:

In [36]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [37]:
df>0

Unnamed: 0,W,X,Y,Z
A,True,True,True,True
B,True,False,False,True
C,False,True,True,False
D,True,False,False,True
E,True,True,True,True


In [38]:
df[df>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,,,0.605965
C,,0.740122,0.528813,
D,0.188695,,,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [39]:
df.loc[df['W']>0,:]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [40]:
df.loc[df['W']>0,['Y']]

Unnamed: 0,Y
A,0.907969
B,-0.848077
D,-0.933237
E,2.605967


In [41]:
df.loc[df['W']>0,['Y','X']]

Unnamed: 0,Y,X
A,0.907969,0.628133
B,-0.848077,-0.319318
D,-0.933237,-0.758872
E,2.605967,1.978757


Para más de una condición, podemos usar los símbolos `|` y `&` para denotar, respectivamente, los operadores lógicos OR y AND.

```python
(5==5) & (3==3)
>True
(5==2) & (3==3)
>False
(5==5) | (3==3)
>True
(5==2) | (3==3)
>True
(5==2) | (3==1)
>False
```

In [42]:
df.loc[(df['W']>0) & (df['Y'] > 1),:]

Unnamed: 0,W,X,Y,Z
E,0.190794,1.978757,2.605967,0.683509


## Más detalles sobre indexado
Veamos algunas funcionalidades extra sobre indexado, incluyendo reseteado o formateado.

In [43]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [44]:
# Reseteamos y añadimos indexación entera
print('Reseteado manteniendo índice:\n{}'.format(df.reset_index()))
print('\nReseteado eliminando índice:\n{}'.format(df.reset_index(drop = True)))

Reseteado manteniendo índice:
  index         W         X         Y         Z
0     A  2.706850  0.628133  0.907969  0.503826
1     B  0.651118 -0.319318 -0.848077  0.605965
2     C -2.018168  0.740122  0.528813 -0.589001
3     D  0.188695 -0.758872 -0.933237  0.955057
4     E  0.190794  1.978757  2.605967  0.683509

Reseteado eliminando índice:
          W         X         Y         Z
0  2.706850  0.628133  0.907969  0.503826
1  0.651118 -0.319318 -0.848077  0.605965
2 -2.018168  0.740122  0.528813 -0.589001
3  0.188695 -0.758872 -0.933237  0.955057
4  0.190794  1.978757  2.605967  0.683509


Vamos a cambiar el índice por otro nuevo:

In [45]:
newind = 'CA NY WY OR CO'.split()

In [46]:
df['States'] = newind

In [47]:
df

Unnamed: 0,W,X,Y,Z,States
A,2.70685,0.628133,0.907969,0.503826,CA
B,0.651118,-0.319318,-0.848077,0.605965,NY
C,-2.018168,0.740122,0.528813,-0.589001,WY
D,0.188695,-0.758872,-0.933237,0.955057,OR
E,0.190794,1.978757,2.605967,0.683509,CO


Para añadirlo sin alterar la estructura del `DataFrame`, simplemente usamos la función `.set_index`:

In [48]:
df.set_index('States')

Unnamed: 0_level_0,W,X,Y,Z
States,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,2.70685,0.628133,0.907969,0.503826
NY,0.651118,-0.319318,-0.848077,0.605965
WY,-2.018168,0.740122,0.528813,-0.589001
OR,0.188695,-0.758872,-0.933237,0.955057
CO,0.190794,1.978757,2.605967,0.683509


In [49]:
df

Unnamed: 0,W,X,Y,Z,States
A,2.70685,0.628133,0.907969,0.503826,CA
B,0.651118,-0.319318,-0.848077,0.605965,NY
C,-2.018168,0.740122,0.528813,-0.589001,WY
D,0.188695,-0.758872,-0.933237,0.955057,OR
E,0.190794,1.978757,2.605967,0.683509,CO


Si, por el contrario, queremos cambiar el índice y solapar el `DataFrame` que teníamos, fijamos el argumento `inplace` a True:

In [50]:
df.set_index('States',inplace=True)

In [51]:
df

Unnamed: 0_level_0,W,X,Y,Z
States,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,2.70685,0.628133,0.907969,0.503826
NY,0.651118,-0.319318,-0.848077,0.605965
WY,-2.018168,0.740122,0.528813,-0.589001
OR,0.188695,-0.758872,-0.933237,0.955057
CO,0.190794,1.978757,2.605967,0.683509


## Multi-Índice


In [52]:
# Index Levels
outside = ['G1','G1','G1','G2','G2','G2']
inside = [1,2,3,1,2,3]
hier_index = list(zip(outside,inside))
hier_index = pd.MultiIndex.from_tuples(hier_index)
print(list(zip(outside,inside)))

[('G1', 1), ('G1', 2), ('G1', 3), ('G2', 1), ('G2', 2), ('G2', 3)]


In [53]:
hier_index

MultiIndex([('G1', 1),
            ('G1', 2),
            ('G1', 3),
            ('G2', 1),
            ('G2', 2),
            ('G2', 3)],
           )

In [54]:
df = pd.DataFrame(np.random.randn(6,2), index=hier_index, columns=['A','B'])
df

Unnamed: 0,Unnamed: 1,A,B
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


Comprobemos cómo acceder a los elementos de estos objetos. En primer lugar, para acceder a la capa *superior* de un multiíndice, basta con usar la hasta ahora conocida notación `df.loc[]`:

In [55]:
df.loc['G1',:]

Unnamed: 0,A,B
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


Podemos asignar nombres a las distintas capas de índices:

In [56]:
df.index.names

FrozenList([None, None])

In [57]:
df.index.names = ['Group','Num']

In [58]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Group,Num,Unnamed: 2_level_1,Unnamed: 3_level_1
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


Emplearemos ahora la función `.xs()` (*cross-section*) para acceder a las distintas capas de un índice múltiple:

In [59]:
df.xs('G1', axis = 0)

Unnamed: 0_level_0,A,B
Num,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


In [60]:
df.xs(['G1',1], axis = 0)

  df.xs(['G1',1], axis = 0)


A    0.302665
B    1.693723
Name: (G1, 1), dtype: float64

In [61]:
df.xs(1,level='Num', axis = 0)

Unnamed: 0_level_0,A,B
Group,Unnamed: 1_level_1,Unnamed: 2_level_1
G1,0.302665,1.693723
G2,0.166905,0.184502


---
# Información faltante

Estudiaremos ahora algunas formas de lidiar con la información faltante:

In [62]:
df = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})

In [63]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [64]:
#Eliminamos filas con valores nulos
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [65]:
#Eliminamos columnas con valores nulos
df.dropna(axis=1)

Unnamed: 0,C
0,1
1,2
2,3


In [66]:
#Eliminamos filas con un número de nulos mayor o igual que dos
df.dropna(thresh=2)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


In [67]:
#Rellenamos los valores nulos con cualesquiera datos
df.fillna(value='FILL VALUE')

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,FILL VALUE,2
2,FILL VALUE,FILL VALUE,3


In [68]:
# También podemos emplear funciones para agregar información faltante
df['A'].fillna(value=df['A'].mean())

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

---
# Groupby

En numerosas aplicaciones, estaremos interesados en agrupar información 

In [69]:
# Create dataframe
data = {'Company':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Person':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
       'Sales':[200,120,340,124,243,350]}

In [70]:
df = pd.DataFrame(data)

In [71]:
df

Unnamed: 0,Company,Person,Sales
0,GOOG,Sam,200
1,GOOG,Charlie,120
2,MSFT,Amy,340
3,MSFT,Vanessa,124
4,FB,Carl,243
5,FB,Sarah,350


Ahora, podemos usar el método `.groupby()` para agregar filas basadas en su información de una columna (o más). Por ejemplo, veamos lo que podemos hacer con esta información de empresas populares:

In [72]:
df.groupby('Company')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002CA90A27940>

Sobre este objeto, podemos agregar métodos para obtener información:

In [73]:
print('Información de la media:\n{}'.format(df.groupby('Company').mean()))
print('\nInformación de la desviación típica:\n{}'.format(df.groupby('Company').std()))
print('\nInformación del mínimo:\n{}'.format(df.groupby('Company').min()))
print('\nInformación del máximo:\n{}'.format(df.groupby('Company').max()))
print('\nInformación de conteo:\n{}'.format(df.groupby('Company').count()))

Información de la media:
         Sales
Company       
FB       296.5
GOOG     160.0
MSFT     232.0

Información de la desviación típica:
              Sales
Company            
FB        75.660426
GOOG      56.568542
MSFT     152.735065

Información del mínimo:
          Person  Sales
Company                
FB          Carl    243
GOOG     Charlie    120
MSFT         Amy    124

Información del máximo:
          Person  Sales
Company                
FB         Sarah    350
GOOG         Sam    200
MSFT     Vanessa    340

Información de conteo:
         Person  Sales
Company               
FB            2      2
GOOG          2      2
MSFT          2      2


  print('Información de la media:\n{}'.format(df.groupby('Company').mean()))
  print('\nInformación de la desviación típica:\n{}'.format(df.groupby('Company').std()))


Toda esta información podemos recogerla con la función `.describe()`:

In [74]:
df.groupby('Company').describe()

Unnamed: 0_level_0,Sales,Sales,Sales,Sales,Sales,Sales,Sales,Sales
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Company,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
FB,2.0,296.5,75.660426,243.0,269.75,296.5,323.25,350.0
GOOG,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0
MSFT,2.0,232.0,152.735065,124.0,178.0,232.0,286.0,340.0


Para tener una vista más agradable, trasponemos los datos

In [75]:
df.groupby('Company').describe().transpose()

Unnamed: 0,Company,FB,GOOG,MSFT
Sales,count,2.0,2.0,2.0
Sales,mean,296.5,160.0,232.0
Sales,std,75.660426,56.568542,152.735065
Sales,min,243.0,120.0,124.0
Sales,25%,269.75,140.0,178.0
Sales,50%,296.5,160.0,232.0
Sales,75%,323.25,180.0,286.0
Sales,max,350.0,200.0,340.0


Podemos filtrar por un valor concreto:

In [76]:
df

Unnamed: 0,Company,Person,Sales
0,GOOG,Sam,200
1,GOOG,Charlie,120
2,MSFT,Amy,340
3,MSFT,Vanessa,124
4,FB,Carl,243
5,FB,Sarah,350


In [77]:
df.groupby('Company').describe().transpose()['GOOG']

Sales  count      2.000000
       mean     160.000000
       std       56.568542
       min      120.000000
       25%      140.000000
       50%      160.000000
       75%      180.000000
       max      200.000000
Name: GOOG, dtype: float64

Finalmente, podemos introducir cualquier operación que nos parezca más oportuna:

In [78]:
df.groupby('Company')['Sales'].apply(lambda x: x**2-x+3)

To preserve the previous behavior, use

	>>> .groupby(..., group_keys=False)


	>>> .groupby(..., group_keys=True)
  df.groupby('Company')['Sales'].apply(lambda x: x**2-x+3)


0     39803
1     14283
2    115263
3     15255
4     58809
5    122153
Name: Sales, dtype: int64

In [79]:
help(pd.DataFrame.describe)

Help on function describe in module pandas.core.generic:

describe(self: 'NDFrameT', percentiles=None, include=None, exclude=None, datetime_is_numeric: 'bool_t' = False) -> 'NDFrameT'
    Generate descriptive statistics.
    
    Descriptive statistics include those that summarize the central
    tendency, dispersion and shape of a
    dataset's distribution, excluding ``NaN`` values.
    
    Analyzes both numeric and object series, as well
    as ``DataFrame`` column sets of mixed data types. The output
    will vary depending on what is provided. Refer to the notes
    below for more detail.
    
    Parameters
    ----------
    percentiles : list-like of numbers, optional
        The percentiles to include in the output. All should
        fall between 0 and 1. The default is
        ``[.25, .5, .75]``, which returns the 25th, 50th, and
        75th percentiles.
    include : 'all', list-like of dtypes or None (default), optional
        A white list of data types to include in th

____
# Merging, Joining, y Concatenating

Hay tres principales formas de combinar `pd.DataFrame`: *merge*, *join* y *concatenate*. Iremos sobre cada uno de ellos.

### DataFrames de muestra

In [80]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

In [81]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [82]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [83]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])

## Concatenación

Esta operación únicamente pega los datos. Por tanto, las dimensiones de los objetos que intervienen en la operación deben de encajar sobre el eje que se realice la misma.

In [84]:
pd.concat([df1,df2,df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [85]:
pd.concat([df1,df2,df3],axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


___

## Merging

La función **merge** permite combinar DataFrames usando una lógica similar a la de las tablas SQL.

In [86]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
   
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})    

In [87]:
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [88]:
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [89]:
pd.merge(left,right,how='inner',on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


Un ejemplo algo más elaborado

In [90]:
matrizA = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
    
matrizB = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

In [91]:
left


Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [92]:
matrizB

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


In [93]:
pd.merge(matrizA, matrizB, on=['key1', 'key2'],how = 'inner')

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [94]:
pd.merge(matrizA, matrizB, how='outer', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


In [95]:
pd.merge(matrizA, matrizB, how='right', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K0,,,C3,D3


In [96]:
pd.merge(matrizA, matrizB, how='left', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


## Joining

La operación *join* es un método muy adecuado para combinar columnas de DataFrames cuyos índices sean potencialmente distintos.

In [97]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [98]:
left

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [99]:
left.join(right)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [100]:
left.join(right, how='outer')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


___
# Operaciones

A continuación exploraremos algunos de los métodos más frecuentes para analizar datos con esta librería:

In [101]:
df = pd.DataFrame({'col1':[1,2,3,4],'col2':[444,555,666,444],'col3':['abc','def','ghi','xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


### Info sobre valores únicos

In [102]:
#Valores distintos de una columna
df['col2'].unique()

array([444, 555, 666], dtype=int64)

In [103]:
#Número de valores distintos en una columna
df['col2'].nunique()

3

In [104]:
#Número de veces que se toma cada valor de una columna
df['col2'].value_counts()

444    2
555    1
666    1
Name: col2, dtype: int64

### Filtrando datos

In [105]:
#Podemos filtrar haciendo uso de condiciones en múltiples columnas
newdf = df[(df['col1']>2) & (df['col2']==444)]

In [106]:
newdf

Unnamed: 0,col1,col2,col3
3,4,444,xyz


### Aplicar funciones

In [107]:
def times2(x):
    return x*2

In [108]:
df['col1'].apply(times2)

0    2
1    4
2    6
3    8
Name: col1, dtype: int64

In [109]:
df['col3'].apply(len)

0    3
1    3
2    3
3    3
Name: col3, dtype: int64

In [110]:
df['col1'].sum()
df[['col1','col2']].apply(sum)



col1      10
col2    2109
dtype: int64

**Eliminar una columna de forma irreversible**

In [111]:
del df['col1']

In [112]:
df

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


**Obtener nombre de columnas e índices**

In [113]:
df.columns

Index(['col2', 'col3'], dtype='object')

In [114]:
df.index

RangeIndex(start=0, stop=4, step=1)

**Ordenando la información**

In [115]:
df

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


In [116]:
df.sort_values(by='col2', ascending = False) #inplace=False por defecto

Unnamed: 0,col2,col3
2,666,ghi
1,555,def
0,444,abc
3,444,xyz


**Buscar valores nulos y reemplazarlos**

In [117]:
df.isnull()

Unnamed: 0,col2,col3
0,False,False
1,False,False
2,False,False
3,False,False


In [118]:
# Drop rows with NaN Values
df.dropna(thresh = 2)

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


**Rellenar valores nulos con otra información**

In [119]:
df = pd.DataFrame({'col1':[1,2,3,np.nan],
                   'col2':[np.nan,555,666,444],
                   'col3':['abc','def','ghi','xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1.0,,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,xyz


In [120]:
df.fillna('FILL')

Unnamed: 0,col1,col2,col3
0,1.0,FILL,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,FILL,444.0,xyz


**Pivotar tablas**

In [121]:
data = {'A':['foo','foo','foo','bar','bar','bar'],
     'B':['one','one','two','two','one','one'],
       'C':['x','y','x','y','x','y'],
       'D':[1,3,2,5,4,1]}

df = pd.DataFrame(data)
print(df)

     A    B  C  D
0  foo  one  x  1
1  foo  one  y  3
2  foo  two  x  2
3  bar  two  y  5
4  bar  one  x  4
5  bar  one  y  1


In [122]:
df.pivot_table(values='D',index=['A', 'B'],columns=['C'])

Unnamed: 0_level_0,C,x,y
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,1.0
bar,two,,5.0
foo,one,1.0,3.0
foo,two,2.0,
