# Manipulación de datos con Pandas

Antes que todo, debemos tener instalados y cargados las librerías NumPy y Pandas:

In [1]:
import numpy as np
import pandas as pd

## Objetos básicos en Pandas

### Objeto `Series`

Un objeto tipo Series en Pandas es un arreglo unidimensional de datos indexados. Por ejemplo: 

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

El objeto tiene dos atributos: `index`y `values`

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

Este objeto permite ser indexado al igual que los arreglos de NumPy:

In [5]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Una Series de Pandas tiene un índice explícito, a diferencia de arreglo de NumPy cuyo índice es implícito:

In [6]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [7]:
data['b']

0.5

Un diccionario básico de Python también se puede usar para construir un objeto Series de Pandas:

In [8]:
population_dict = {'California': 38332521,
    'Texas': 26448193,
    'New York': 19651127,
    'Florida': 19552860,
    'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [9]:
population['New York':'Illinois']

New York    19651127
Florida     19552860
Illinois    12882135
dtype: int64

### Objeto `DataFrame`

Un objeto DataFrame es un análogo de un arreglo bidimensional con índices flexibles en filas y nombres de columnas flexibles, o bien como una secuencia de objetos Series alienados (con el mismo índice).

In [10]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
    'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area



California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [11]:
states = pd.DataFrame({'population': population,'area': area})
states


Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Los objetos DataFrame también tienen atributos:

In [12]:
states.values

array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]])

In [13]:
states.columns

Index(['population', 'area'], dtype='object')

In [14]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Un DataFrame también se puede visualizar como una generalización de un diccionario, donde las llaves son los nombres de columna y cada valor es una Serie:

In [15]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Existen otras formas de construir el DataFrame: 

In [16]:
pd.DataFrame(population, columns=['population'])


Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [17]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)


Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [18]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])


Unnamed: 0,foo,bar
a,0.449446,0.443983
b,0.749051,0.970214
c,0.145962,0.097006


In [19]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A


array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [20]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


### Objeto `Index`

Técnicamente un objeto Index es un arreglo que no admite cambios:

In [21]:
ind = pd.Index([2, 3, 5, 7, 11])
ind


Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [22]:
ind[1]

3

In [23]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [24]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [25]:
ind[1] = 0

TypeError: Index does not support mutable operations

O también puede ser visto como un conjunto ordenado en Python:

In [26]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])


In [27]:
indA.intersection(indB)

Int64Index([3, 5, 7], dtype='int64')

In [28]:
indA.union(indB)

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

## Indexación en objetos de Pandas

### Indexación en `Series`

La indexación en Series se hace de manera similar al caso de un diccionario en Python:

In [29]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data


a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [30]:
data['a']

0.25

In [31]:
'a' in data

True

In [32]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [33]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [34]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

Y también de forma similar a los arrays básicos de NumPy:

In [35]:
data['a':'c'] #índice explícito


a    0.25
b    0.50
c    0.75
dtype: float64

In [36]:
data[0:2] # índice implícito


a    0.25
b    0.50
dtype: float64

In [37]:
data[(data > 0.3) & (data < 0.8)]


b    0.50
c    0.75
dtype: float64

In [38]:
data[['a', 'e']]


a    0.25
e    1.25
dtype: float64

Para evitar confusiones en el caso de usar índices enteros, Pandas provee de atributos adicionales para forzar el uso de índices explícitos o implícitos:

In [39]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data


1    a
3    b
5    c
dtype: object

In [40]:
data[1]

'a'

In [41]:
data[1:3]

3    b
5    c
dtype: object

In [42]:
data.loc[1]

'a'

In [43]:
data.loc[1:3]

1    a
3    b
dtype: object

In [44]:
data.iloc[1]

'b'

In [45]:
data.iloc[1:3]

3    b
5    c
dtype: object

A nivel de Python está el principio básico de "explícito es mejor que implícito".

### Indexación en `DataFrame`

La indexación en DataFrames usa los principios de indexación en diccionarios:

In [46]:
area = pd.Series({'California': 423967, 'Texas': 695662,
    'New York': 141297, 'Florida': 170312,
    'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
    'New York': 19651127, 'Florida': 19552860,
    'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data


Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [47]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Se puede usar la opción de atributo del objeto para extraer la columna, pero no es recomendable:

In [48]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

También podemos añadir columnas adicionales usando notación de diccionario:

In [49]:
data['density'] = data['pop'] / data['area']
data


Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Y también se puede usar principios de indexación de arrays bidimensionales de NumPy:

In [50]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [51]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [52]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [53]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Con los comandos `iloc`y `loc`se puede indexar de manera implícita e explícita (resp.) en el DataFrame:

In [54]:
data.iloc[:3, :2]


Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [55]:
data.loc[:'Florida', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860


El atributo `ix` también permitía la indexación de manera híbrida, pero ya no está disponible en Pandas.

A través de `loc` y `iloc` también es posible utilizar arreglos booleanos para definir filtros en el DataFrame:

In [56]:
data.loc[data.density > 100, ['pop', 'density']]


Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


y cambiar valores en el DataFrame:

In [57]:
data.iloc[0, 2] = 90
data


Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Al igual que en el caso de arreglos de NumPy, al hacer slicing en un DataFrame se restringe las filas en lugar de las columnas:

In [58]:
data['Florida':'Illinois']


Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [59]:
data[data.density > 100]


Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


# Operando con datos en Pandas 



In [1]:
import pandas as pd
import numpy as np

In [2]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int64

In [3]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


Se puede aplicar cualquier transformación  unitaria a estos objetos, según lo vimos la clase pasada 

In [4]:
np.exp(ser)


0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [5]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


En caso de que los índices no calcen, pandas ajusta la posición de los elementos inteligemente. 

In [8]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662, 'California': 423967},
name='area')
area

Alaska        1723337
Texas          695662
California     423967
Name: area, dtype: int64

In [7]:
population = pd.Series({'California': 38332521, 'Texas': 26448193,
'New York': 19651127}, name='population')
population

California    38332521
Texas         26448193
New York      19651127
Name: population, dtype: int64

In [9]:
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

Note que este nuevo DataFrame contiene la unión de ambos índices. 

In [None]:
area.index | population.index

Note que cuando los índices no calzan, este se rellena con `NaN`.

In [10]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B


0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [11]:
A.add(B, fill_value = 0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

In [12]:
A.add(B, fill_value = 1000)

0    1002.0
1       5.0
2       9.0
3    1005.0
dtype: float64

El mismo comportamiento sucede para DataFrame del mismo tamaño. 

 



In [16]:
 A = pd.DataFrame(rng.randint(0, 20, (2, 2)),
columns=list('AB'))
A

Unnamed: 0,A,B
0,16,9
1,15,14


In [15]:
 B = pd.DataFrame(rng.randint(0, 10, (3, 3)),
columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,1,7,5
1,1,4,0
2,9,5,8


In [17]:
A + B

Unnamed: 0,A,B,C
0,23.0,10.0,
1,19.0,15.0,
2,,,


In [23]:
A.stack()

0  A    16
   B     9
1  A    15
   B    14
dtype: int64

In [24]:
A.stack().mean()

13.5

In [25]:
A.mean()

A    15.5
B    11.5
dtype: float64

In [26]:
fill = A.stack().mean()
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,23.0,10.0,18.5
1,19.0,15.0,13.5
2,18.5,22.5,21.5


Sin embargo para el caso de DataFrames y Series, se debe cuidado de la propagación de las dimensiones.

El caso de Numpy opera así:

In [34]:
A = rng.randint(10, size=(3, 4))
A


array([[3, 8, 1, 9],
       [8, 9, 4, 1],
       [3, 6, 7, 2]])

In [29]:
A[0]

array([2, 6, 3, 8])

In [30]:
A - A[0]


array([[ 0,  0,  0,  0],
       [ 0, -2, -1, -2],
       [ 2,  2,  3, -7]])

Para el caso DataFrames funciona exactamente igual 

In [35]:
df = pd.DataFrame(A, columns=list('QRST'))
df

Unnamed: 0,Q,R,S,T
0,3,8,1,9
1,8,9,4,1
2,3,6,7,2


In [36]:
# índice implicito
df.iloc[0]

Q    3
R    8
S    1
T    9
Name: 0, dtype: int64

In [33]:
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,0,-2,-1,-2
2,2,2,3,-7


Si se desea operar por columnas, se debe incluir el parámetro `axis`

In [37]:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-7,1
1,-1,0,-5,-8
2,-3,0,1,-4


Además la operadores universales alinean de acuerdo al elemento más corto 

In [38]:
halfrow = df.iloc[0, ::2]
halfrow

Q    3
S    1
Name: 0, dtype: int64

In [39]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,5.0,,3.0,
2,0.0,,6.0,


# Datos faltantes

A diferencia de R, Python tienen 14 tipos de datos faltantes los cuales extienden el tipo de número (entero, flotante, etc.), el signo, entre otras características.

Sin embargo, para efectos del curso solo veremos 2 tipos de dato faltante: 
- **None**
- **NaN**

El primero representa un objeto de Python nulo. No es muy útil si se quiere hacer operaciones numéricas ya que este representa todo un objeto Python vacío. 


In [40]:
import numpy as np
import pandas as pd
vals1 = np.array([1, None, 3, 4])
vals1


array([1, None, 3, 4], dtype=object)

In [46]:
# Tipo objeto
vals1.dtype

dtype('O')

In [41]:
vals1.sum()


TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

Para resolver esto se usan los NaN

In [43]:
vals2 = np.array([1, np.nan, 3, 4])
vals2

array([ 1., nan,  3.,  4.])

In [44]:
vals2.dtype 

dtype('float64')

In [47]:
 vals2.sum(), vals2.min(), vals2.max()


(nan, nan, nan)

In [48]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)


(8.0, 1.0, 4.0)

Pandas es un poco más inteligente y convierte automáticamente cualquier `None` en `NaN` para preservar la compatilidad

In [49]:
 pd.Series([1, np.nan, 2, None])


0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

Las funciones para operar sobre datos faltante son: 
- `isnull`
- `notnull`
- `dropna`
- `fillna`: Regresa una versión imputada de los datos.

In [50]:
data = pd.Series([1, np.nan, 'hello', None])


In [51]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [52]:
data.notnull()

0     True
1    False
2     True
3    False
dtype: bool

In [53]:
data[data.notnull()]

0        1
2    hello
dtype: object

In [54]:
data.dropna()

0        1
2    hello
dtype: object

In [55]:
df = pd.DataFrame([[1,      np.nan,     2],
                   [2,      3,          5],
                   [np.nan, 4,          6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [56]:
df.dropna()


Unnamed: 0,0,1,2
1,2.0,3.0,5


In [57]:
df.dropna(axis='columns')


Unnamed: 0,2
0,2
1,5
2,6


In [59]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data    

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [60]:
data.fillna(0)


a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

In [61]:
# forward-fill
data.fillna(method='ffill')


a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [62]:
# back-fill
data.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

El método de `fillna` también es valido para DataFrames solo que la opción de `axis` debe invocarse para indicar si se rellena sobre las columnas o filas 

# índices Jerárquicos  

# Combinando datasets: `Concat` y `Append`

# Combindando datasets: `Merge`. `Join` y Agrupamientos

Al igual que otros lenguajes se puede hacer agrupamientos de acuerdo al tipo de relación entre las variables 


## Unión uno-a-uno



In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})



In [72]:
print(df1)


  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR


In [73]:
print(df2)


  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


In [74]:
df3 = pd.merge(df1,df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


## Unión Muchos-a-uno

In [None]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
'supervisor': ['Carly', 'Guido', 'Steve']})

In [69]:
print(df3)


  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014


In [70]:
print(df4)

         group supervisor
0   Accounting      Carly
1  Engineering      Guido
2           HR      Steve


In [71]:
# left_join en R
print(pd.merge(df3, df4))


  employee        group  hire_date supervisor
0      Bob   Accounting       2008      Carly
1     Jake  Engineering       2012      Guido
2     Lisa  Engineering       2004      Guido
3      Sue           HR       2014      Steve


# Unión mucho-a-muchos

In [75]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
                              'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux',
                               'spreadsheets', 'organization']})


In [76]:
print(df1);

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR


In [78]:
print(df5);

         group        skills
0   Accounting          math
1   Accounting  spreadsheets
2  Engineering        coding
3  Engineering         linux
4           HR  spreadsheets
5           HR  organization


In [79]:
# full_join en R
print(pd.merge(df1, df5))


  employee        group        skills
0      Bob   Accounting          math
1      Bob   Accounting  spreadsheets
2     Jake  Engineering        coding
3     Jake  Engineering         linux
4     Lisa  Engineering        coding
5     Lisa  Engineering         linux
6      Sue           HR  spreadsheets
7      Sue           HR  organization


In [81]:
# Se puede identificar la llave de unión 
print(df1);

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR


In [82]:
print(df2); 

  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


In [83]:
print(pd.merge(df1, df2, on='employee'))


  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014


In [85]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})
print(df1); print(df3);




  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000


In [86]:
# Indica el nombre de las llaves en cada DataFrame
print(pd.merge(df1, df3, left_on="employee", right_on="name"))

  employee        group  name  salary
0      Bob   Accounting   Bob   70000
1     Jake  Engineering  Jake   80000
2     Lisa  Engineering  Lisa  120000
3      Sue           HR   Sue   90000


In [87]:
# Corregimos la columna duplicada con drop
pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1)


Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


In [88]:
# Se puden mezclar los data frame por índices. 
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')
print(df1a); print(df2a)


                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014


In [89]:
print(pd.merge(df1a, df2a, left_index=True, right_index=True))


                group  hire_date
employee                        
Bob        Accounting       2008
Jake      Engineering       2012
Lisa      Engineering       2004
Sue                HR       2014


In [90]:
# Join mezcla data frames usando indices por default
print(df1a.join(df2a))


                group  hire_date
employee                        
Bob        Accounting       2008
Jake      Engineering       2012
Lisa      Engineering       2004
Sue                HR       2014


Se pueden combinar la mezcla por columnas e índices usando estos parámetros. 