<h1 align="center"><b>Modelación Financiera I</b></h1>
<h1 align="center"><b> Módulo 4 </b></h1>
<h1 align="center"><b> Manipulación de datos con Pandas</b></h1>

*** 

***Docente:*** Santiago Rúa Pérez, PhD.

***e-mail:*** srua@udemedellin.edu.co

***Herramienta:*** [Jupyter Notebook](http://jupyter.org/)

***Kernel:*** Python 3.7

***MEDELLÍN - COLOMBIA***

***2022***

***

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item">
    <li><span><a href="#Introducci%C3%B3n-a-pandas" data-toc-modified-id="Introducci%C3%B3n-a-pandas-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Introducción a pandas</a></span></li> 
    <li><span><a href="#Indexaci%C3%B3n-y-selecci%C3%B3n" data-toc-modified-id="Indexaci%C3%B3n-y-selecci%C3%B3n-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Indexación y selección</a></span></li>   
    <li><span><a href="#Operaciones-y-manejo-de-datos-faltantes" data-toc-modified-id="Operaciones-y-manejo-de-datos-faltantes-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Operaciones y manejo de datos faltantes</a></span></li> 
    <li><span><a href="#Combinaci%C3%B3n-de-conjunto-de-datos" data-toc-modified-id="Combinaci%C3%B3n-de-conjunto-de-datos-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Combinación de conjunto de datos</a></span></li> 
    <li><span><a href="#Agregaciones-y-agrupaciones" data-toc-modified-id="Agregaciones-y-agrupaciones-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Agregaciones y agrupaciones</a></span></li> 
    <li><span><a href="#Apuntes-finales" data-toc-modified-id="Apuntes-finales-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Apuntes finales</a></span></li> 
    <li><span><a href="#Laboratorio-Pandas" data-toc-modified-id="Laboratorio-Pandas-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Laboratorio Pandas</a></span></li> 
    </ul></div>

## Introducción a pandas

Pandas es una libreria de python construida con base en `numpy` el cual maneja una implementación eficiente de datos utilizando una estructura conocida como `DataFrame`. Este objeto es un arreglo multidimensional con etiquetas para las filas y columnas, y a menudo con datos heterogéneos o datos faltantes. en forma sencilla, un `DataFrame` puede ser visto como un arreglo de `numpy` con nombre a las filas y columnas

### Pandas Series

Un objeto tipo Pandas `Series`, es un arreglo unidimensional con datos indexados, puede ser creado desde una lista asi:

In [123]:
import numpy as np
import pandas as pd

data = pd.Series([0.25,0.5,0.75,1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

La salida del objeto tiene tanto los valores como indices para los mismos, los cuales pueden accederse utilizando los atributos `values` e `index`. Los `values` son un simple arreglo de `numpy`, mientras que los indices son un objeto tipo `pd.Index`

In [124]:
print(data.values)
print(type(data.values))

[0.25 0.5  0.75 1.  ]
<class 'numpy.ndarray'>


In [125]:
print(data.index)

RangeIndex(start=0, stop=4, step=1)


Como ocurre con los arreglo de `numpy`, las series de pandas pueden accederse utilizando notación `[]`, asi

In [126]:
print(data[2])
print(data[:3])

0.75
0    0.25
1    0.50
2    0.75
dtype: float64


Parece entonces que las series de pandas, son simplemente un arreglo de `numpy`, sin embargo, estos presentan funcionalidades extendidas. Por ejemplo, podemos indicar el indice a cada una de las filas de la serie

In [127]:
data = pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [128]:
data['c']

np.float64(0.75)

Inclusive se puede utilizar indices no contiguos

In [129]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

Adicionalmente, la serie de pandas puede verse como un diccionario especializado. Notese que en el ejemplo anterior se accede como si fuera un diccionario. Lo anterior posibilita construir una serie de pandas con base en un diccionario como se muestra a continuación

In [130]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Sin embargo, a diferencia de un diccionario común, el acceso a los datos puede ser del estilo slicing, como:

In [131]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

### Pandas DataFrame

Una vez discutido la series de pandas, se puede entender el objeto tipo `DataFrame`. En este caso, la analogía de esta estructura es como un arreglo de dos dimensiones con indices y columnas flexibles. Por ejemplo, nosotros podemos construir una `DataFrame` con base en dos `Series`:

In [132]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [133]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Primero notese que ya aparece una tabla el Dataframe, con etiqueta en las columnas y filas. Adicionalmente, la creación del `DataFrame` se da a través de un diccionario. A diferencia de la serie, este objeto nuevo tiene columnas tambien

In [134]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [135]:
states.columns

Index(['population', 'area'], dtype='object')

Para acceder a la información del `DataFrame` se puede realizar utilizando las etiquetas de las columnas e indices. Primero se debe hacer la indexación de la columna y luego la fila. 

In [136]:
states['area']['California']

np.int64(423967)

Para la creacción de `DataFrame` se puede utilizar las siguientes herramientas:

- De un objeto tipo Serie
- De una lista de diccionario
- De un diccionario de objetos tipo serie
- De una arreglo multidimensional

In [137]:
print(population)
pd.DataFrame(population, columns=['population'])

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [138]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [139]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [140]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.704832,0.956236
b,0.852011,0.992948
c,0.761746,0.269993


### Objeto tipo Pandas Index

Hemos observado que tanto los objetos tipo `Series` y `DataFrame` contienen explicitamente un objeto tipo `index`. Este objeto puede ser visto como un arreglo inmutable o como un cojunto ordenado. Por ejemplo 

In [141]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

In [142]:
print(ind[1])
print(ind[::2])
print(ind.size, ind.shape, ind.ndim, ind.dtype)

3
Index([2, 5, 11], dtype='int64')
5 (5,) 1 int64


A diferencia de un arreglo, estos indices son inmutables, por lo que el código a continuación genera un error
``` python
ind[1] = 0

``` 

Como conjuntos ordenados, se pueden realizar operaciones de intersección, unión, o diferencia simétrica

In [143]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])
print(indA & indB)
print(indA | indB)
print(indA ^ indB)

Index([0, 3, 5, 7, 9], dtype='int64')
Index([3, 3, 5, 7, 11], dtype='int64')
Index([3, 0, 0, 0, 2], dtype='int64')


## Indexación y selección

La selección e indexación posibilita tomar partes de las series o dataframe para realizar algun tipo de procesamiento con estos.

### Selección en Series

Vimos que las Series pueden ser tratadas como un diccionario teniendo en cuenta que la llave esta dada por el nombre del índice. Adicionalmente, se vio que a diferencia de un diccionario, tambien tiene las características de un arreglo de numpy, por lo que se pueden realizar slicing en los mismos

In [144]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
print(data)

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64


In [145]:
data['b']

np.float64(0.5)

In [146]:
'a' in data

True

In [147]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [148]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [149]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [150]:
# slicing by explicit index
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [151]:
# slicing by implicit integer index
data[0:2]

a    0.25
b    0.50
dtype: float64

In [152]:
# masking
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [153]:
# fancy indexing
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

Otra forma de acceder a la información dentro de una serie de pandas, es utilizando los atributos `loc` e `iloc`. Lo anterior se realiza con el objetivo de no generar confusiones cuandos los indices de las series son números. Por ejemplo

In [154]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [155]:
# explicit index when indexing
data[1]

'a'

In [156]:
# implicit index when slicing
data[1:3]

3    b
5    c
dtype: object

Para evitar estas confusiones, pandas brinda atributos a las series y dataframe para exponer parte del objeto. No se considera métodos, pero si atributos propios del objeto. Cuando utilizamos `loc` hacemos referencia al indice explicito de la serie

In [157]:
data.loc[1]

'a'

In [158]:
data.loc[1:3]

1    a
3    b
dtype: object

Por otro lado `iloc` hace refencia a la indexación implicita, como si se trabajara con un arreglo de numpy

In [159]:
data.iloc[1]

'b'

In [160]:
data.iloc[1:3]

3    b
5    c
dtype: object

Finalmente `ix` se analizará en el contexto de los dataframes

### Selección en DataFrames

Recuerde que los DataFrames funcionan como arreglos de dos dimensiones, por lo que se deberá tener en cuenta la información tanto de la fila como de la columna. Una forma de analizarlos, es viendolos como una lista de diccionarios que comparten el mismo indice. Teniendo esto presente una forma de acceder es

In [161]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [162]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [163]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [164]:
data.area is data['area']

True

In [165]:
data.pop is data['pop']

False

En el ejemplo anterior, `pop()` es un método del objeto, por lo que puede entrar en conflicto con el nombre de la columna. Por lo anterior se debe trata de evitar de asignar valores utilizando la notación de atributos. Estaría mal decir
``` python
data.pop = z
```
deberia ser 
```python
data['pop'] = z
```

Se puede agregar nuevas columnas, mediante operaciones u otros elementos

In [166]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


***DataFrame como arreglo de dos dimensiones ...***

Se puede acceder directamente a los valores de la matriz, realizar transpuesta, utilizar `iloc`, entre otras opciones

In [167]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [168]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [169]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [170]:
data.values[0,:]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [171]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [172]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [173]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [174]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


## Operaciones y manejo de datos faltantes

Uno de los elementos esenciales de `numpy` es la velocidad de ejecución cuando se trata de operaciones matemáticas sobre este tipo de arreglos. Pandas hereda muchas de estas funcionalidades con una pequeña mejora: cuando se aplican operaciones unitarias o funciones trigonométricas, el resultado preservará el indice de la fila y columna. Analizemos como trabaja esto para un objeto de Pandas

In [175]:
import pandas as pd
import numpy as np
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
print(ser)
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
print(df)

0    6
1    3
2    7
3    4
dtype: int64
   A  B  C  D
0  6  9  2  6
1  7  4  3  7
2  7  2  5  4


In [176]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [177]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


Notese que en los ejemplos anterior el indice se preservar y se hace un broadcasting sobre todos los elementos del objeto de la ufunc aplicada. Ahora, si se realiza operaciones unitarias, pandas alinea dichas operaciones cuando es posible

In [178]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

Para aquellas ciudades que un dato es faltantes, el resultado será `NaN`. Las demas operaciones las alinea por índice. Miremos otros ejemplos

In [179]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

Si el resultado que se quiere sea diferente para cuando no se de la alineacion, entonces se puede utilizar el método correspondiente

In [180]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

In [181]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)),
                 columns=list('AB'))
print(A)

B = pd.DataFrame(rng.randint(0, 10, (3, 3)),
                 columns=list('BAC'))
print(B)

A + B

   A   B
0  1  11
1  5   1
   B  A  C
0  4  0  9
1  5  8  0
2  9  2  6


Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


In [182]:
fill = A.stack().mean()
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


### Datos faltantes en Pandas

En las aplicaciones reales, raramente los datos esta homogenos o limpios. Particularmente, muchos conjuntos de datos tienen una cantidad grande de datos faltantes. Para tratar los datos faltantes en los DataFrame se pueden utilizar dos formas: usando una máscara la cual indica de forma global donde estan los valores faltantes, o elegir un valor sentinela el cual nos indicará si ese dato es faltante.

Lo que se refiere a la libreria de Pandas, este problema lo resuelve utilizando sentinelas: utilizar el valor especial `NaN`, y el obejto `None`. 

***``None``*** ***: Pythonic***

Utilizando este como sentinela, lo que se crea es un objeto que me representa el dato faltante. Como es un objeto de python, no se puede usar de forma arbitraria para hacer operaciones amtemáticas. 

In [183]:
import numpy as np
import pandas as pd
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

Si se trata de obtener una agregación, entonces se obtendrá un error

```python
vals1.sum()
```

***``NaN``*** ***: Manejando datos faltantes numéricos***

Esta forma de representar datos faltantes, y especificamente numéricos, es reconocida por diferentes estandares. Lo que posibilita realizar operaciones

In [184]:
vals2 = np.array([1, np.nan, 3, 4]) 
vals2.dtype

dtype('float64')

In [185]:
1 + np.nan 

nan

In [186]:
vals2.sum(), vals2.min(), vals2.max()

(np.float64(nan), np.float64(nan), np.float64(nan))

Si se quiere hacer agregaciones que ignoren estos valores, entonces

In [187]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

(np.float64(8.0), np.float64(1.0), np.float64(4.0))

En el caso de la libreria de Pandas, automáticamente se hace un casting a NaN. 

|Typeclass     | Conversion When Storing NAs | NA Sentinel Value      |
|--------------|-----------------------------|------------------------|
| ``floating`` | No change                   | ``np.nan``             |
| ``object``   | No change                   | ``None`` or ``np.nan`` |
| ``integer``  | Cast to ``float64``         | ``np.nan``             |
| ``boolean``  | Cast to ``object``          | ``None`` or ``np.nan`` |

### Operaciones con valores nulos

Como vimos, Pandas trata de igual forma `None` que `NaN` para indicar valores faltantes

Para facilitar esta convención, hay varios métodos que ayuda a trabajar con esto:


- `isnull()`: genera una máscara booleana para indicar los valores faltantes
- `notnull()`: lo opuesto a `isnull()`
- `dropna()`: retorna una versión filtrada de los datos
- `fillna()`: retorna una copia de los datos con los valores faltantes llenados

In [188]:
data = pd.Series([1, np.nan, 'hello', None])
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [189]:
data[data.notnull()]

0        1
2    hello
dtype: object

In [190]:
data.dropna()

0        1
2    hello
dtype: object

In [191]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [192]:
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [193]:
df.dropna(axis='columns')

Unnamed: 0,2
0,2
1,5
2,6


In [194]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [195]:
df.dropna(axis='columns', how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [196]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [197]:
data.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

## Combinación de conjunto de datos

Uno de los estudios mas interesantes viene de combinar diferentes estudios de diferentes fuentes de datos. Estas operaciones pueden consistir en concatenar dos conjuntos de datos o realizar uniones mas complejas. Pandas incluye dentro de su libreria, métodos que facilitan estas uniones de diferentes fuentes de datos.

In [198]:
import pandas as pd
import numpy as np

def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)
    
# example DataFrame
make_df('ABC', range(3))


Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


Al igual que `np.concat` para la libreria de `numpy`, pandas tiene un método para realizar las concatenaciones. Recordemos como funciona para numpy

In [199]:
x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]
np.concatenate([x, y, z])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [200]:
x = [[1, 2],
     [3, 4]]
np.concatenate([x, x], axis=1)

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

En el caso de pandas, `pd.concat` tiene funciones similares a las de numpy, pero opciones adicionales como parámetros para la concatenación

```python
# Signature in Pandas v0.18
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)
```


In [201]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [202]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
pd.concat([df1, df2])

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


In [203]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
pd.concat([df3, df4], axis=1)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1


***Duplicación de indices***

Una diferencia importante entre la concatenación de numpy y pandas, es que pandas preserva el indice cuando los hace, lo que puede ocasiona duplicidad en los indices

In [204]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index  # make duplicate indices!
df = pd.concat([x, y])
df

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
0,A2,B2
1,A3,B3


Para evitar este tipo de problemas, lo que se puede hacer es hacer una verificación de integralidad de los indices, por ejemplo

In [205]:
try:
    pd.concat([x, y], verify_integrity=True)
except ValueError as e:
    print("ValueError:", e)

ValueError: Indexes have overlapping values: Index([0, 1], dtype='int64')


Como solución se puede indicar que ignore los indices

In [206]:
pd.concat([x, y], ignore_index=True)

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


***Concatenación con uniones***

En los ejemplos vistos, solo se hacen concatenaciones de conjuntos de datos que tienen las mismas columnas. Pero que pasa si este no es el caso?. Considere el caso donde se comparten información en algunas columnas y otras no. Por defecto los datos no disponibles seran llenados con NaN. Para cambiar este comportamiento, uno puede especificar diferentes parámetros en la concatenación

In [207]:
df5 = make_df('ABC', [1, 2])
print(df5)
df6 = make_df('BCD', [3, 4])
print(df6)

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4


In [208]:
pd.concat([df5, df6])

Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


Si se requieren hacer la concatenación teniendo en cuenta la intereseccion de los conjuntos, entonces

In [209]:
pd.concat([df5, df6], join='inner')

Unnamed: 0,B,C
1,B1,C1
2,B2,C2
3,B3,C3
4,B4,C4


La union siempre está activada por defecto y corresponde al parámetro `outer`

In [210]:
pd.concat([df5, df6], join='outer')

Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


***Concatenación utlizando merge***

A diferencia de la concatenación, `merge` nos sirve para realizar uniones basadas en álgebra relacional, el cual es usado típicamente en bases de datos. La fortaleza del álgebra relacional es que permite la construcción de diferentes bloques para realizar las uniones de acuerdo a nuestras necesidades. Estas uniones que se logran con merge pueden dividirse en tres categorias:

- Uno-a-uno (one-to-one): consiste en hacer concatenación columna a columna
- Muchos-a-uno (many-to-one): en este caso dos columnas tienen entradas duplicadas
- Muchos-a-muchos (many-to-many):

In [211]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})
print(df1)
print(df2)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


*como seria one-to-one*

In [212]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


*como seria many-to-one*

In [213]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})
df4

Unnamed: 0,group,supervisor
0,Accounting,Carly
1,Engineering,Guido
2,HR,Steve


In [214]:
pd.merge(df3, df4)

Unnamed: 0,employee,group,hire_date,supervisor
0,Bob,Accounting,2008,Carly
1,Jake,Engineering,2012,Guido
2,Lisa,Engineering,2004,Guido
3,Sue,HR,2014,Steve


*como seria many-to-many*

In [215]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
                              'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux',
                               'spreadsheets', 'organization']})
df5

Unnamed: 0,group,skills
0,Accounting,math
1,Accounting,spreadsheets
2,Engineering,coding
3,Engineering,linux
4,HR,spreadsheets
5,HR,organization


In [216]:
pd.merge(df1, df5)

Unnamed: 0,employee,group,skills
0,Bob,Accounting,math
1,Bob,Accounting,spreadsheets
2,Jake,Engineering,coding
3,Jake,Engineering,linux
4,Lisa,Engineering,coding
5,Lisa,Engineering,linux
6,Sue,HR,spreadsheets
7,Sue,HR,organization


Adicional a las tres categorias que acabamos de ver, es importante entender que `merge` no posibilita indicar que tipo de merge se desea realizar de acuerdo a la selección y especificación de uno o varios parámetros. Una primera forma es utilizando el nombre de una columna para realizar el merge, siempre y cuando ambos dataframe tenga dicha columna, por ejemplo

In [217]:
print(df1)
print(df2)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


In [218]:
pd.merge(df1,df2,on='employee')

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


Pero que pasa si los campos son los mismos, pero el nombre de la columna no? Por ejemplo, supongamos que tenemos una columna nombra como "nombre" en un dataframe 1, mientras que para el segundo dataframe con la palabra "employee", entonces se puede utilizar los parámetros `left_on` y `right_on` para seleccionar dichas columnas

In [219]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})
df3

Unnamed: 0,name,salary
0,Bob,70000
1,Jake,80000
2,Lisa,120000
3,Sue,90000


In [220]:
pd.merge(df1, df3, left_on="employee", right_on="name")

Unnamed: 0,employee,group,name,salary
0,Bob,Accounting,Bob,70000
1,Jake,Engineering,Jake,80000
2,Lisa,Engineering,Lisa,120000
3,Sue,HR,Sue,90000


Notese que este merge se utiliza para alinear las filas, sin embargo, hay duplicidad en la información. Esto se puede corregir utilizando el método `drop()` asi

In [221]:
pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


Finalmente se puede realizar el merge utilizando los indices utilizando los parámetros `left_index` y `right_index`. **Tarea: consultar como funcionan**

**Ejemplo:** vamos a utilizar una fuente de datos realaciona con información de los estados en USA. Los datos pueden encontrarlos en http://github.com/jakevdp/data-USstates/. 

Vamos a proceder a cargar la información desde los csv utilizando el método `read_csv()`.

In [222]:
pop = pd.read_csv('data/state-population.csv')
areas = pd.read_csv('data/state-areas.csv')
abbrevs = pd.read_csv('data/state-abbrevs.csv')

In [223]:
print(pop.head())
print(areas.head())
print(abbrevs.head())

  state/region     ages  year  population
0           AL  under18  2012   1117489.0
1           AL    total  2012   4817528.0
2           AL  under18  2010   1130966.0
3           AL    total  2010   4785570.0
4           AL  under18  2011   1125763.0
        state  area (sq. mi)
0     Alabama          52423
1      Alaska         656425
2     Arizona         114006
3    Arkansas          53182
4  California         163707
        state abbreviation
0     Alabama           AL
1      Alaska           AK
2     Arizona           AZ
3    Arkansas           AR
4  California           CA


Notese que los tres conjuntos de datos, tienen información similar pero con nombres de columnas diferentes. La primera pregunta que nos podriamos hacer es la de ranquear los estados y territorios de acuerdo a la densidad de su población en 2010. El primer paso puede ser crear el merge entre `pop` y `abbrevs`

In [224]:
merged = pd.merge(pop, abbrevs, how='outer',
                  left_on='state/region', right_on='abbreviation')
merged.head()

Unnamed: 0,state/region,ages,year,population,state,abbreviation
0,AK,total,1990,553290.0,Alaska,AK
1,AK,under18,1990,177502.0,Alaska,AK
2,AK,total,1992,588736.0,Alaska,AK
3,AK,under18,1991,182180.0,Alaska,AK
4,AK,under18,1992,184878.0,Alaska,AK


In [225]:
# Drop abbreviation column
merged = merged.drop(columns='abbreviation')
merged.head()

Unnamed: 0,state/region,ages,year,population,state
0,AK,total,1990,553290.0,Alaska
1,AK,under18,1990,177502.0,Alaska
2,AK,total,1992,588736.0,Alaska
3,AK,under18,1991,182180.0,Alaska
4,AK,under18,1992,184878.0,Alaska


Se puede revisar si se generó algun NaN donde no hubo match

In [226]:
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state            True
dtype: bool

Notese que algunos datos de población no se tienen, asi como tampoco el nombre completo de algunos estados

In [227]:
merged[merged['population'].isnull()].head()

Unnamed: 0,state/region,ages,year,population,state
1872,PR,under18,1990,,
1873,PR,total,1990,,
1874,PR,total,1991,,
1875,PR,under18,1991,,
1876,PR,total,1993,,


En este caso, PR significa Puerto Rico, donde potencialmente no se tienen los datos de alli. 

In [228]:
merged[merged['state'].isnull()].head()

Unnamed: 0,state/region,ages,year,population,state
1872,PR,under18,1990,,
1873,PR,total,1990,,
1874,PR,total,1991,,
1875,PR,under18,1991,,
1876,PR,total,1993,,


In [229]:
merged.loc[merged['state'].isnull()]['state/region'].unique()

array(['PR', 'USA'], dtype=object)

Lo anterior significa que los datos incluyen información acerca de Puerto Rico y los Estados unidos de forma general, a pesar de que no aparecen en las entradas origianles de abreviaciones, se puede organizar rápidamente

In [230]:
merged.loc[merged['state/region'] == 'PR', 'state'] = 'Puerto Rico'
merged.loc[merged['state/region'] == 'USA', 'state'] = 'United States'
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state           False
dtype: bool

Notese que esto mismo no es tan facil aplicarlo a la población, porque necesitariamos la información relacionada de cada año con la misma. No obstante, ya se puede realizar al unión con el dataframe del área

In [231]:
final = pd.merge(merged, areas, on='state', how='left')
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AK,total,1990,553290.0,Alaska,656425.0
1,AK,under18,1990,177502.0,Alaska,656425.0
2,AK,total,1992,588736.0,Alaska,656425.0
3,AK,under18,1991,182180.0,Alaska,656425.0
4,AK,under18,1992,184878.0,Alaska,656425.0


In [232]:
final.isnull().any()

state/region     False
ages             False
year             False
population        True
state            False
area (sq. mi)     True
dtype: bool

Lo anterior muestra que hay estados o regiones que no se tiene la información del área, revisemos cual es.

In [233]:
final.loc[final['area (sq. mi)'].isnull(),'state'].unique()

array(['United States'], dtype=object)

Para resolver el problema anterior, podemos recurrir a dos formas: sumar el área de todas las regiones teniendo en cuenta el año, o simplemente eliminar dichas filas. MAs adelante miraremos como hacer la primera, por ahora nos enfocamos en la segunda

In [234]:
final.dropna(inplace=True)
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AK,total,1990,553290.0,Alaska,656425.0
1,AK,under18,1990,177502.0,Alaska,656425.0
2,AK,total,1992,588736.0,Alaska,656425.0
3,AK,under18,1991,182180.0,Alaska,656425.0
4,AK,under18,1992,184878.0,Alaska,656425.0


A continuación tratemos de resolver la pregunta de la densidad de la población por estado en 2010

In [235]:
data2010 = final.loc[(final['year'] == 2010) & (final['ages'] == 'total')]
data2010.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
43,AK,total,2010,713868.0,Alaska,656425.0
51,AL,total,2010,4785570.0,Alabama,52423.0
141,AR,total,2010,2922280.0,Arkansas,53182.0
149,AZ,total,2010,6408790.0,Arizona,114006.0
197,CA,total,2010,37333601.0,California,163707.0


In [236]:
data2010.set_index('state', inplace=True)
density = data2010['population'] / data2010['area (sq. mi)']
density

state
Alaska                     1.087509
Alabama                   91.287603
Arkansas                  54.948667
Arizona                   56.214497
California               228.051342
Colorado                  48.493718
Connecticut              645.600649
District of Columbia    8898.897059
Delaware                 460.445752
Florida                  286.597129
Georgia                  163.409902
Hawaii                   124.746707
Iowa                      54.202751
Idaho                     18.794338
Illinois                 221.687472
Indiana                  178.197831
Kansas                    34.745266
Kentucky                 107.586994
Louisiana                 87.676099
Massachusetts            621.815538
Maryland                 466.445797
Maine                     37.509990
Michigan                 102.015794
Minnesota                 61.078373
Missouri                  86.015622
Mississippi               61.321530
Montana                    6.736171
North Carolina        

In [237]:
density.sort_values(ascending=False, inplace=True)
density.head()

state
District of Columbia    8898.897059
Puerto Rico             1058.665149
New Jersey              1009.253268
Rhode Island             681.339159
Connecticut              645.600649
dtype: float64

In [238]:
density.tail()

state
South Dakota    10.583512
North Dakota     9.537565
Montana          6.736171
Wyoming          5.768079
Alaska           1.087509
dtype: float64

**Tarea**: se desea conocer los cinco estados en donde la densidad de su población por debajo de los 18 años crecio entre 2010 y 2011.

## Agregaciones y agrupaciones

Algo fundamental que se comenzó a analizar en el tema pasado era como hacer de forma eficiente agregaciones computacionales tales como `sum()`, `mean()`, `median()`, `min()` y `max()`. Para entender este tipo de computación, se utilizará el conjunto de datos de los planetas que se encuentra en el paquete de `seaborn`, el cual contiene información sobre mas de 1000 planetas extrasolares

In [239]:
import seaborn as sns
planets = sns.load_dataset('planets')
print(planets.shape)
planets.to_csv('./data/planets.csv')
planets.head()

(1035, 6)


Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


Una primera forma de obtener estas agregaciones de forma eficiente, es utilizando el método `describe()`

In [240]:
planets.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


Note varias cosas de esta función:

- Las agregaciones que obtiene son el conteo de elemento, el promedio, la desviación estandar, tres cuartiles de los datos, y el valor máximo. 
- Que esta agregación solo funciona en las columnas con valores numéricos
- Qué cuando existen NaN en alguna fila, este valor no se toma en cuenta. Lo anterior se videncia que en el conteo de elemento, cada columna sea diferente

Otras agregaciones importantes que tiene pandas son

| Aggregation              | Description                     |
|--------------------------|---------------------------------|
| ``count()``              | Total number of items           |
| ``first()``, ``last()``  | First and last item             |
| ``mean()``, ``median()`` | Mean and median                 |
| ``min()``, ``max()``     | Minimum and maximum             |
| ``std()``, ``var()``     | Standard deviation and variance |
| ``mad()``                | Mean absolute deviation         |
| ``prod()``               | Product of all items            |
| ``sum()``                | Sum of all items                |

In [241]:
planets.dropna().describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


In [242]:
planets[['orbital_period', 'mass', 'distance']].dropna().mean()

orbital_period    835.778671
mass                2.509320
distance           52.068213
dtype: float64

### GroupBy: Split, Apply, Combine

Las agregaciones son fáciles de aplicar a todo el dataframe o la serie de pandas en donde simplemente se le realiza a todo el conjutno de datos. Sin embargo, en ocasiones se requieren realizar estas agregaciones bajo condiciones particulares o cumpliendo ciertos requisitos. Lo anterior se puede realizar utilizando `groupby` y entendiendo el concepto de `split`, `apply` y `combine`

![Groupby](img/split_apply_combine.png)

Lo anterior hace claro que hace groupby:
- El paso de `split` solo involucra en partir el dataframe dependiendo del valor especificado
- El paso de `apply` involucra en aplicar la función o agregación que se desea a ese split
- El paso de `combine` involucra juntar de nuevo el dataframe con la nueva agregación

Analicemos el siguiente ejemplo

In [243]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [244]:
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


### Objeto Groupby

Cuando se aplica groupby se crea un objeto nuevo deribado de pandas. Este objeto se puede ver como una colección de dataframes. 

In [245]:
planets.groupby('method')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x11dbb0f40>

In [246]:
planets.groupby('method')['orbital_period']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x11dbb1a50>

Supongamos que se quiere obtener la mediana de los periodos orbitales agrupados por el método de lectura

In [247]:
planets.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

El objeto permite realizar iteraciones sobre las agrupaciones realizadas, por ejemplo

In [248]:
for (method, group) in planets.groupby('method')['orbital_period']:
    print("{0:30s} shape={1}".format(method, group.shape))

Astrometry                     shape=(2,)
Eclipse Timing Variations      shape=(9,)
Imaging                        shape=(38,)
Microlensing                   shape=(23,)
Orbital Brightness Modulation  shape=(3,)
Pulsar Timing                  shape=(5,)
Pulsation Timing Variations    shape=(1,)
Radial Velocity                shape=(553,)
Transit                        shape=(397,)
Transit Timing Variations      shape=(4,)


### Agregaciones, filtros, transformaciones y aplicaciones

Cuando se aplica groupby se crea un objeto nuevo deribado de pandas. Este objeto se puede ver como una colección de dataframes. 

Comenzemos entendiendo cada una

In [249]:
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                   'data2': rng.randint(0, 10, 6)},
                   columns = ['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


***agregaciones...***

Supongamos que se quiere agrupar de acuerdo a la llave, y obtener tres agregaciones: min, media y máximo

In [250]:
df.groupby('key').aggregate(['min', np.median, max])

  df.groupby('key').aggregate(['min', np.median, max])
  df.groupby('key').aggregate(['min', np.median, max])


Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,3,4.0,5
B,1,2.5,4,0,3.5,7
C,2,3.5,5,3,6.0,9


In [251]:
df.groupby('key').aggregate({'data1': 'min',
                             'data2': 'max'})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,7
C,2,9


***filtraciones...***

los filtros posibilitan eliminar partes del dataframe de acuerdo a algunas propiedades de los grupos. Supongamos que se desea conservar todos los grupos en donde se tenga una desviación estándar mayor a un valor crítico

In [252]:
def filter_func(x):
    return x['data2'].std() > 4

print(df)
print('')
print(df.groupby('key').std())
print('')
print(df.groupby('key').filter(filter_func))

  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9

       data1     data2
key                   
A    2.12132  1.414214
B    2.12132  4.949747
C    2.12132  4.242641

  key  data1  data2
1   B      1      0
2   C      2      3
4   B      4      7
5   C      5      9


***transformaciones...***

las agregaciones deben retornar una versión de los datos o parte de los datos. Si se desea realizar alguna transformación a los datos completos y obtener la misma dimensión de entrada entonces es posible usar `transform`. Por ejemplo, suponganse que se desea quitarle el promedio a los datos. Notese en el sisguiente ejemplo que a pesar de que se realizo el `groupby`, el objetivo de realizar esto solo era para la operción, luego se aplica a cada una de las filas de acuerdo a dicha información

In [253]:
df.groupby('key').transform(lambda x: x-x.mean())

Unnamed: 0,data1,data2
0,-1.5,1.0
1,-1.5,-3.5
2,-1.5,-3.0
3,1.5,-1.0
4,1.5,3.5
5,1.5,3.0


***método apply()...***

el método apply permite aplicar una función arbitraria a la agrupación resultante. La función toma un dataframe, y retorna el mismo tipo de datos (dataframe o serie), o un escalar. 

In [254]:
def norm_by_data2(x):
    # x is a DataFrame of group values
    x['data1'] /= x['data2'].sum()
    return x

df.groupby('key').apply(norm_by_data2)

  df.groupby('key').apply(norm_by_data2)


Unnamed: 0_level_0,Unnamed: 1_level_0,key,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,0,A,0.0,5
A,3,A,0.375,3
B,1,B,0.142857,0
B,4,B,0.571429,7
C,2,C,0.166667,3
C,5,C,0.416667,9


Es importante entender que tanto `transform` como `apply` tiene funcionamientos similares. Sin embargo, tienen pequeñas diferencias:

- `transform()` trabaja con funciones, funciones tipo cadena, lista de funciones, y un diccionario. Por otro lado `apply()` solo puede ser usado con funciones
- `transform()` no puede producir valores agregados, es decir, es resultado tiene que ser del mismo tamaño
- `apply()` funciona con múltiples series al tiempo. Sin embargo, `transform()` solo trabaja con una al tiempo

Finalmente, las agrupaciones pueden realizarse utlizando una lista, arreglo, serie o indice el cual su longitud haga match con la longitud del dataframe. De esta forma pueden agruparse

In [255]:
print(df)
L = ['casa', 'apto', 'casa', 'apto', 'carro', 'casa']
df.groupby(L).sum()

  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9


Unnamed: 0,key,data1,data2
apto,BA,4,3
carro,B,4,7
casa,ACC,7,17


Tambien se puede realizar un mapeo con un diccionario de los indices del dataframe

In [256]:
print(df2)
df2 = df.set_index('key')
mapping = {'A': 'vowel', 'B': 'consonant', 'C': 'consonant'}
df2.groupby(mapping).sum()

  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
consonant,12,19
vowel,3,8


**Ejemplo:** se desea saber cuantos planetas por método y década fueron descubiertos en los últimos años

In [257]:
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [258]:
decade = 10 * (planets['year'] // 10)
decade = decade.astype(str) + 's'
decade.name = 'decade'
print(decade.head())
planets.groupby(['method', decade])['number'].sum().unstack().fillna(0)

0    2000s
1    2000s
2    2010s
3    2000s
4    2000s
Name: decade, dtype: object


decade,1980s,1990s,2000s,2010s
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Astrometry,0.0,0.0,0.0,2.0
Eclipse Timing Variations,0.0,0.0,5.0,10.0
Imaging,0.0,0.0,29.0,21.0
Microlensing,0.0,0.0,12.0,15.0
Orbital Brightness Modulation,0.0,0.0,0.0,5.0
Pulsar Timing,0.0,9.0,1.0,1.0
Pulsation Timing Variations,0.0,0.0,1.0,0.0
Radial Velocity,1.0,52.0,475.0,424.0
Transit,0.0,0.0,64.0,712.0
Transit Timing Variations,0.0,0.0,0.0,9.0


## Apuntes finales

Para finalizar este módulo, se hará algunos paréntesis acerca de algunas funcionalidades transversales de la libreria de Pandas

### Lectura y escritura en Pandas

Una de las grandes capacidades de *`Pandas`* es la potencia que aporta a lo hora de leer y/o escribir archivos de datos.

- Pandas es capaz de leer datos de archivos `csv`, `excel`, `HDF5`, `sql`, `json`, `html`,...

Si se emplean datos de terceros, que pueden provenir de muy diversas fuentes, una de las partes más tediosas del trabajo será tener los datos listos para empezar a trabajar: Limpiar huecos, poner fechas en formato usable, saltarse cabeceros,...

Sin duda, una de las funciones que más se usarán será `read_csv()` que permite una gran flexibilidad a la hora de leer un archivo de texto plano.

In [259]:
help(df.to_csv)

Help on method to_csv in module pandas.core.generic:

to_csv(path_or_buf: 'FilePath | WriteBuffer[bytes] | WriteBuffer[str] | None' = None, *, sep: 'str' = ',', na_rep: 'str' = '', float_format: 'str | Callable | None' = None, columns: 'Sequence[Hashable] | None' = None, header: 'bool_t | list[str]' = True, index: 'bool_t' = True, index_label: 'IndexLabel | None' = None, mode: 'str' = 'w', encoding: 'str | None' = None, compression: 'CompressionOptions' = 'infer', quoting: 'int | None' = None, quotechar: 'str' = '"', lineterminator: 'str | None' = None, chunksize: 'int | None' = None, date_format: 'str | None' = None, doublequote: 'bool_t' = True, escapechar: 'str | None' = None, decimal: 'str' = '.', errors: 'OpenFileErrors' = 'strict', storage_options: 'StorageOptions | None' = None) -> 'str | None' method of pandas.core.frame.DataFrame instance
    Write object to a comma-separated values (csv) file.
    
    Parameters
    ----------
    path_or_buf : str, path object, file-like ob

En [este enlace](http://pandas.pydata.org/pandas-docs/stable/io.html "pandas docs") se pueden encontrar todos los posibles formatos con los que Pandas trabaja:

Cada uno de estos métodos de lectura de determinados formatos (`read_NombreFormato`) tiene infinidad de parámetros que se pueden ver en la documentación y que no vamos a explicar por lo extensísima que seria esta explicación. 

Para la mayoría de los casos que nos vamos a encontrar los parámetros serían los siguientes:

``` python
pd.read_table(dir_archivo, engine='python', sep=';', header=True|False, names=[lista con nombre columnas])
```

Básicamente hay que pasarle el archivo a leer, cual es su separador, si la primera linea del archivo contiene el nombre de las columnas y en el caso de que no las tenga pasarle en `names` el nombre de las columnas. 

Veamos un ejemplo de un dataset del  cómo leeriamos el archivo con los datos de los usuarios, siendo el contenido de las 10 primeras lineas el siguiente:

In [260]:
# Load users info
userHeader = ['ID', 'Sexo', 'Edad', 'Ocupacion', 'PBOX']

users = pd.read_csv('data/users.txt', engine='python', sep='::', header=None, names=userHeader)

# print 5 first users
print ('# 10 primeros usuarios: \n%s' % users[:10])

# 10 primeros usuarios: 
   ID Sexo  Edad  Ocupacion   PBOX
0   1    F     1         10  48067
1   2    M    56         16  70072
2   3    M    25         15  55117
3   4    M    45          7  02460
4   5    M    25         20  55455
5   6    F    50          9  55117
6   7    M    35          1  06810
7   8    M    25         12  11413
8   9    M    25         17  61614
9  10    F    35          1  95370


Para escribir un `DataFrame` en un archivo de texto se pueden utilizar los [método de escritura](http://pandas.pydata.org/pandas-docs/stable/io.html) para escribirlos en el formato que se quiera. 


- Por ejemplo si utilizamos el método `to_csv()` nos escribirá el `DataFrame` en este formato estandar que separa los campos por comas; pero por ejemplo, podemos decirle al método que en vez de que utilice como separador una coma, que utilice por ejemplo un guión. 


Si queremos escribir en un archivo el `DataFrame` `users` con estas características lo podemos hacer de la siguiente manera:

In [261]:
users.to_csv('data/MyUsers9999.txt', sep='&')

## Laboratorio Pandas

- El objetivo de este laboratorio es seleccionar un conjunto de datos con los que trabaje a diario, en donde al menos tenga dos archivos o datos por a parte. Posteriormente leerlos y juntarlos en un único dataframe que lo relacione, y realizar operaciones de agregaciones y agrupaciones con el mismo. Sino tiene ninguna base de datos, a continuación le dejo una serie de ejemplos traidos de Kaggle que contienen series de tiempo en estas

     - Shampoo Sales Dataset.
     - Minimum Daily Temperatures Dataset.
     - Monthly Sunspots Dataset.
     - Daily Female Births Dataset.
     - Airline Passengers Dataset