In [5]:
import numpy as np
import pandas as pd

In [8]:
pd.__version__

'0.16.2'

In [3]:
pd. #presionando TAB aparece una lista de funciones de Pandas

In [7]:
pd?

### Pandas
Pandas es una librería de Python de código abierto (_Open Source_) que provee estructuras de datos y herramientas para el análisis de datos, de alta performance y fáciles de usar. Está construído sobre NumPy.

### Introduciendo los objetos de Pandas:

Los objetos de Pandas pueden pensarse como versiones mejoradas de los _arrays_ de NumPy, en los cuales las filas y columnas están identificadas con etiquetas en lugar de simples índices enteros.

* Tres estructuras de datos fundamentales de Pandas: las __Series__, los __DataFrame__, y los __Index__.

### Series de Pandas

Una __Serie__ de Pandas es un _array_ unidimensional de datos indexados.

Mientras los _array_ de NumPy tienen un índice entero __implícitamente__ definido, las Series de Pandas tienen índices __explícitamente__ definidos asociados a los valores.

Puede crearse desde una lista o _array_ como sigue:

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data
data = pd.Series([i**3 for i in range(6)])
data

0      0
1      1
2      8
3     27
4     64
5    125
dtype: int64

In [14]:
a = data.values #Valores
b = data.index #Índices: el Index es un objeto similar a un array de tipo pd.Index
c = data[3] #Acceso (como NumPy)
d = data[1:3]
d

1    1
2    8
dtype: int64

#### Los índices pueden ser valores de cualquier tipo:

In [15]:
data = pd.Series([1,1,2,3,5,8,13,21,34,55], index=['a','b','c','d','e','f','g','h','i','j'])
data

a     1
b     1
c     2
d     3
e     5
f     8
g    13
h    21
i    34
j    55
dtype: int64

In [20]:
data['g']
data[6]

13

### Series como Diccionarios especializados:
Un Diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios, y una Serie es una estructura que asigna claves tipeadas a un conjunto de valores tipeados.

In [21]:
population_dict = {'California': 38332521,'Texas': 26448193,'New York': 19651127,'Florida': 19552860,'Illinois': 12882135}

In [36]:
population = pd.Series(population_dict)
population
#population['Florida']
#population[1]

California    38332521
Florida       19552860
Illinois      12882135
New York      19651127
Texas         26448193
dtype: int64

In [27]:
# Operaciones tipo Array: slicing
population['California':'Illinois']

California    38332521
Florida       19552860
Illinois      12882135
dtype: int64

In [35]:
#Se pueden indicar explícitamente los índices particulares que se incluirán del diccionario:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[1, 2]) 

1    b
2    a
dtype: object

In [38]:
#pd.Series(data, index=index)

In [41]:
a = pd.Series([2, 4, 6])
b = pd.Series(5, index=[100, 200, 300])
c = pd.Series({2:'alpha', 1:'beta', 3:'gamma'})
c

1     beta
2    alpha
3    gamma
dtype: object

### Dataframes
La siguiente estructura fundamental en Pandas es el DataFrame. Como las Series, los DataFrames pueden pensarse como una generalización de un array de Numpy o como un diccionario de Python especializado

#### DataFrame como un array de NumPy generalizado

Si una Serie es un análogo de un array unidimensional con índices flexibles, un DataFrame es un análogo de un array bidimensional con índices y nombres de columnas flexibles. 

* Así como podemos pensar en un array de NumPy bidimensional como una secuencia ordenada de columnas unidimensionales, se puede pensar en un DataFrame como una secuencia de Series alineadas, donde "alineado" significa que comparten el mismo índice.


In [42]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
dtype: int64

In [45]:
# Dataframe construído a partir de dos series: población y área
states = pd.DataFrame({'population':population, 'area':area})
states

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


In [46]:
states.index #igual que para las Series

Index([u'California', u'Florida', u'Illinois', u'New York', u'Texas'], dtype='object')

In [47]:
states.columns #también es un index object

Index([u'area', u'population'], dtype='object')

#### DataFrame como Diccionario especializado de Python

Mientras un diccionario asigna una clave a un valor, un DataFrame asigna un nombre de columna a una Serie.

In [48]:
states['area'] 
#Diferencia con array de NumPy: data[0] devuelve la primer fila, acá data['col0'] devuelve la primer columna

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [49]:
states['area']['Florida']

170312

### Construyendo DataFrames

Los DataFrames de Pandas pueden ser construidos de diferentes maneras:

* Desde una Serie individual: Un DataFrame es una colección de Series, y un DataFrame con una columna individual puede construirse desde una Serie
* Desde una lista de diccionarios: cualquier lista de diccionarios puede convertirse en un DataFrame



In [50]:
pd.DataFrame(population,columns=['population'])

Unnamed: 0,population
California,38332521
Florida,19552860
Illinois,12882135
New York,19651127
Texas,26448193


In [52]:
data = [{'a': i, 'b': 2 * i}  for i in range(5)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4
3,3,6
4,4,8


In [53]:
#Si algún valor del diccionario falta, Pandas lo completa con NaN ("Not a Number")
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [55]:
# Desde un array bidimensional de Numpy:
pd.DataFrame(np.random.rand(4, 2),columns=['foo', 'bar'],index=['a', 'b', 'c','d'])

Unnamed: 0,foo,bar
a,0.509593,0.789591
b,0.861757,0.295267
c,0.923415,0.679775
d,0.141215,0.860074


In [56]:
# Desde un array estructurado de NumPy
A = np.zeros(5, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.0), (0, 0.0), (0, 0.0), (0, 0.0), (0, 0.0)], 
      dtype=[('A', '<i8'), ('B', '<f8')])

In [57]:
structured_array = pd.DataFrame(A)
structured_array

Unnamed: 0,A,B
0,0,0
1,0,0
2,0,0
3,0,0
4,0,0


In [58]:
#Pandas Index
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [59]:
ind[2:4]

Int64Index([5, 7], dtype='int64')

In [60]:
ind = pd.Index([i*3] for i in range(5)) #list comprehension
ind

Index([[0], [3], [6], [9], [12]], dtype='object')

In [61]:
ind[::2]

Index([[0], [6], [12]], dtype='object')

In [62]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

(5, (5,), 1, dtype('O'))


In [64]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [65]:
indA & indB # intersección

Int64Index([3, 5, 7], dtype='int64')

In [66]:
indA | indB # unión

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [69]:
indA - indB # diferencia

Int64Index([-1, 0, 0, 0, -2], dtype='int64')

In [72]:
indA ^ indB # diferencia simétrica

Int64Index([1, 2, 9, 11], dtype='int64')

In [71]:
indA.intersection(indB)

Int64Index([3, 5, 7], dtype='int64')

In [73]:
indA[0] = 3

TypeError: Indexes does not support mutable operations

### Selección e indexado de datos:
* Series como diccionarios: selección y expresiones similares a las utilizadas para examinar los keys/indices en los diccionarios de Python

In [74]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data['b']

0.5

In [80]:
'''Expresiones'''
'a' in data
data.keys()
#list(data.items()) # ! Python 3
data['a'] = 1.25 # Puedo extender la Serie como hacemos con los diccionarios
data

a    1.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

* Series como arrays 1D: selección de items como en los arrays con _slicing, masking,_ y _fancy indexing_

In [81]:
# slicing mediante índice explícito
data['a':'c'] #El último índice se incluye

a    1.25
b    0.50
c    0.75
dtype: float64

In [82]:
# slicing mediante indice entero implícito
data[0:2] #El último índice no se incluye

a    1.25
b    0.50
dtype: float64

In [83]:
# masking
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [84]:
# fancy indexing
data[['a', 'e']]

a    1.25
e    1.25
dtype: float64

### Indexadores: _loc, iloc, ix_

In [96]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [86]:
data[1] #Índice explícito

'a'

In [87]:
data[1:3] #Índice implícito

3    b
5    c
dtype: object

Como lo anterior puede generar confusión, se puede utilizar el atributo _loc_:
* Permite indexado y _slicing_ que siempre utiliza el índice explícito

In [88]:
data.loc[1]

'a'

In [89]:
data.loc[1:3]

1    a
3    b
dtype: object

El atributo _iloc_:
* Permite indexado y _slicing_ utilizando siempre el índice implícito de Python

In [105]:
data.iloc[1]

'b'

In [108]:
data.iloc[1:3]

3    b
5    c
dtype: object

El atributo _ix_ es un híbrido de los dos anteriores y es equivalente al uso de [ ]. Su uso se verá con más claridad en DataFrames. </p>
Siguiento la regla pythónica: "explicito es mejor que implícito", lo recomendable es utilizar _loc_ e _iloc_ al trabajar con Series, para hacer el código fácil de leer y entender, y prevenir _bugs_ debido a la mezcla de convenciones de indexado/slicing. 

## Selección de datos en Dataframes:
### DataFrames como un Diccionario:


In [109]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


In [116]:
data['area'] # Acceso como en un diccionario
data.area # Acceso estilo atributo, funciona para nombres de columnas que son "strings" (no números)
data['area'] is data.area
data.pop # Cuidado que los nombres de columna no coincidan con algún método de Pandas
data['pop'] is data.pop

False

In [117]:
# Se puede modificar como un diccionario, por ejemplo, agregando una nueva columna
data['density'] = data['pop']/data.area
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763
New York,141297,19651127,139.076746
Texas,695662,26448193,38.01874


### DataFrames como arrays 2D

In [118]:
data.values

array([[  4.23967000e+05,   3.83325210e+07,   9.04139261e+01],
       [  1.70312000e+05,   1.95528600e+07,   1.14806121e+02],
       [  1.49995000e+05,   1.28821350e+07,   8.58837628e+01],
       [  1.41297000e+05,   1.96511270e+07,   1.39076746e+02],
       [  6.95662000e+05,   2.64481930e+07,   3.80187404e+01]])

In [119]:
data.transpose()

Unnamed: 0,California,Florida,Illinois,New York,Texas
area,423967.0,170312.0,149995.0,141297.0,695662.0
pop,38332521.0,19552860.0,12882135.0,19651127.0,26448193.0
density,90.413926,114.806121,85.883763,139.076746,38.01874


In [120]:
#Indexado: aplicando un índice único a un array, accede a una fila
data.values[0]

array([  4.23967000e+05,   3.83325210e+07,   9.04139261e+01])

In [121]:
#Aplicando un índice único a un DataFrame, se accede a una columna
data['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [122]:
# Por eso se utiliza iloc para indexar como si fuera un array de NumPy, usando índices implícitos
data.iloc[:3,:2]

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135


In [123]:
# También puede utilizarse loc, pero con los índices y nombres de columna explícitos
data.loc[:'Illinois',:'pop']

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135


In [124]:
# Ix permite un híbrido entre los dos:
data.ix[:3,:'pop']

Unnamed: 0,area,pop
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135


In [125]:
# Se pueden utilizar los patrones de acceso estilo NumPy
data.loc[data.density > 100, ['pop', 'density']] #masking y fancy indexing 

Unnamed: 0,pop,density
Florida,19552860,114.806121
New York,19651127,139.076746


In [126]:
# Y estos patrones pueden utilizarse también para agregar o modificar datos:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763
New York,141297,19651127,139.076746
Texas,695662,26448193,38.01874


In [152]:
# Mientras los índices directos con enteros no están permitidos, sí lo están los "slices":
data[0:1]

Unnamed: 0,area,pop,density
California,423967,38332521,90


In [129]:
# Masking:
data[data.density > 100]

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
New York,141297,19651127,139.076746


In [None]:
# En los dos casos anteriores el slicing y el masking opera sobre filas no sobre columnas.

### Operaciones en Pandas:
Pandas hereda de NumPy la posibilidad de hacer operaciones tanto ariméticas (adición, substracción, multiplicación, etc.) así como funciones más sofisticadas (trigonométricas, exponenciales, logarítmicas, etc.), también utiliza _funciones universales_ (_unfunc_)
Para operaciones unarias, como negación y funciones trigonométricas, Pandas conservará las etiquetas de columnas e índices en el _output_, y para operaciones binarias, como multiplicación y adición, Pandas alineará los índices automáticamente cuando pase los objetos a las _unfunc_.

In [161]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int64

In [162]:
# Si aplicamos una unfunc de NumPy se conservan los índices de la Serie de Pandas
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [163]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)), columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [164]:
np.sin(df * np.pi / 4) # lo mismo con un DataFrame

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


### Ufuncs: alineamiento de índices

Para operaciones binarias entre dos Series o DataFrames, Pandas alineará los índices. Esto es muy conveniente cuando se trabaja con datos incompletos.
El resultado tendrá la _unión_ de los índices de ambos objetos.



In [175]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662, 'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193, 'New York': 19651127}, name='population')
population/area 
#area.index | population.index

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [170]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0   NaN
1     5
2     9
3   NaN
dtype: float64

In [172]:
A

0    2
1    4
2    6
dtype: int64

In [173]:
B

1    1
2    3
3    5
dtype: int64

In [177]:
area

Alaska        1723337
California     423967
Texas          695662
Name: area, dtype: int64

In [178]:
population

California    38332521
New York      19651127
Texas         26448193
Name: population, dtype: int64

In [180]:
# Si queremos especificar el valor de relleno (en lugar de NaN) usamos .add()
A.add(B, fill_value=0)

0    2
1    5
2    9
3    5
dtype: float64

In [186]:
#En DataFrames
A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=["A","B"])
A

Unnamed: 0,A,B
0,11,7
1,14,2


In [187]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,0,3,1
1,7,3,1
2,5,5,9


In [188]:
A + B

Unnamed: 0,A,B,C
0,14.0,7.0,
1,17.0,9.0,
2,,,


In [189]:
A.add(B, fill_value=np.mean(A.values))

Unnamed: 0,A,B,C
0,14.0,7.0,9.5
1,17.0,9.0,9.5
2,13.5,13.5,17.5


Operadores de Python y sus métodos equivalentes en Pandas:

| <b>Operador</b>| <b>Método Pandas </b>|
|----------------|----------------------|
|+| add()|
|-| sub(), subtract()|
|*| mul(), multiply()|
|/| truediv(),div(),divide()|
|// | floordiv()|
|%|mod()|
|**| pow()|


### Operaciones entre DataFrames y Series:
Al igual que antes, el alineamiento de los índices y los nombres de columnas se mantiene. <p>
Estas operaciones son similares a las efectuadas entre un array 2D y un array 1D de NumPy: por ejemplo la substracción entre un array 2D y una de sus filas (array 1D) se hace fila por fila (*row-wise*).


In [None]:
#Numpy
A = rng.randint(10, size=(3, 4))
A

In [None]:
A - A[0]

In [None]:
#Pandas
df = pd.DataFrame(A, columns=list("QRST"))
df - df.iloc[0]

In [None]:
# Para operar "colum-wise"
df.subtract(df['R'], axis=0)

In [None]:
# Alineamiento automático de índices entre los dos elementos:
halfrow = df.iloc[0, ::2]
halfrow

In [None]:
df - halfrow

### Manejando datos faltantes

Frecuentemente nos encontramos con datos faltantes en diferentes datasets. Además distintas fuentes de datos pueden indicar la falta de datos de maneras diferentes. Aquí nos referiremos a los datos faltantes como valores "null", "NaN" "NA".

Pandas usa la estrategia de los "sentinelas" para datos faltantes, y usa dos valores nulos ya existentes en Python: 
* El valor especial de punto flotante NaN
* El objeto None

### None:
Sólo puede ser usado en arrays cuyo tipo de datos sea "Object"

In [None]:
vals1 = np.array([1, None, 3, 4])
vals1

### NaN:
Datos numéricos faltantes

#### Operando sobre datos faltantes:

* isnull(): genera una máscara booleana indicando valores faltantes
* notnull(): opuesto a isnull()
* dropna(): devuelve una versión filtrada de los datos
* fillna(): devuelve una copia de los datos con valores faltantes llenos o imputados

In [None]:
data = pd.Series([1, np.nan, 'hello', None])
data

In [None]:
data.isnull()

In [None]:
data.dropna()

In [None]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

In [None]:
df.dropna()
df.dropna(axis=1)

In [None]:
df[3] = np.nan
df

In [None]:
df.dropna(axis=1, how='all') # Elimina columnas que contengan todos valores NaN

In [None]:
df.dropna(thresh=3) # Conserva filas que contengan como mínimo 3 valores nno nulos

In [None]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

In [None]:
data.fillna(0)

In [None]:
# forward-fill: llena con el valor anterior
data.fillna(method='ffill')

In [None]:
# back-fill: llena con el valor que sigue
data.fillna(method='bfill')

In [None]:
df.fillna(method='ffill', axis=1)

### Indexado jerárquico:
Cuando queremos trabajar con 3 o más dimensiones.
#### Serie multiindexada:
El caso más simple...

In [None]:
index = [('California', 2000), ('California', 2010), ('New York', 2000), ('New York', 2010), ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956, 18976457, 19378102, 20851820, 25145561]
pop = pd.Series(populations, index=index)
pop

In [None]:
mindex = pd.MultiIndex.from_tuples(index)
mindex

In [None]:
pop = pd.Series(populations, index=mindex)
#pop = pop.reindex(mindex) #
pop

In [None]:
#Indexado
pop['California', 2000]
#pop['California']
#pop[:,2010] #Indexado parcial
#pop.loc['California':'New York'] #Slicing parcial
#pop[pop > 22000000] #Boolean mask
#pop[['California', 'Texas']] #Indexado lujoso (fancy indexing)

In [None]:
# Para convertir esta serie multiindexada en un dataframe
pop_df = pop.unstack()
pop_df

In [None]:
pop_df = pd.DataFrame({'total': pop, 'under18': [9267089, 9284094, 4687374, 4318033, 5906301, 6879014]})
pop_df

In [None]:
# Funciones Universales:
f_u18 = pop_df['under18'] / pop_df['total']
print("fraction of population under 18:")
f_u18.unstack()

### Paneles de datos:

Además de las Series y Dataframes, existen los paneles 3D (pd.Panel) y 4D (pd.Panel4D). Una vez familiarizado con el uso de Series y Dataframes el uso de los paneles es relativamente sencillo. El multiindexado es una representación más útil y conceptualmente simple para datos en más dimensiones. Además los paneles son una representación densa de datos, que aumenta con el número de dimensiones, mientras que el multiindexado es fundamentalmente una representación dispersa de datos. 



### Métodos de creación de Multiíndices:
* Pasando dos array de índices al constructor

In [None]:
df = pd.DataFrame(np.random.rand(4, 2),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=['data1', 'data2'])
df

* Pasando un diccionario con tuplas como keys  #Parece que no funciona en Python 2

In [None]:
data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
pd.Series(data)

### Métodos explícitos:
* Se puede construir el Multiíndice desde una lista de arrays brindando los valores de los índices dentro de cada nivel.

In [None]:
a_index = pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])

* Desde una lista de tuplas dando los valores múltiples de los índices de cada punto

In [None]:
b_index = pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

* También se puede construir desde el producto cartesiano de índices de valores únicos

In [None]:
c_index = pd.MultiIndex.from_product([['a', 'b'], [1, 2]])

* También se puede construir usando los elementos internos del MultiIndex, pasando a "levels" una lista de listas con los valores de índices para cada nivel, y a "labels" una lista de listas que referencian estas etiquetas

In [None]:
d_index = pd.MultiIndex(levels=[['a', 'b'], [1, 2]],
              labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [None]:
#Puedo usar los multiíndices generados como el argumento index de Series, DataFrames o en .reindex()
df = pd.DataFrame(np.random.rand(4, 2),
                  index= d_index,
                  columns=['data1','data2'])
df

### Nombres de los niveles de un MultiIndex:


In [None]:
pop.index.names = ['state', 'year']
pop
#df.index.names = ['Letter', 'Number']
#df

### MultiIndex para columnas

In [None]:
# Índices y columnas jerárquicas
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])

In [None]:
# Inventando algunos datos
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

In [None]:
# Creando el DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

In [None]:
#Indexado y slicing
#health_data['Guido']
#health_data['Guido','HR']
#health_data.iloc[:2, :2]
#health_data.loc[:,('Sue','HR')] #usando tuplas
#health_data.loc[2013, ('Sue', 'HR')]
#health_data.loc[(:, 1), (:, 'HR')] #Incorrecto
#idx = pd.IndexSlice # Parece que no funciona en python2
#health_data.loc[idx[:, 1], idx[:, 'HR']]

### Reseteado de índices

In [None]:
pop_flat = pop.reset_index(name='population')
pop_flat

In [None]:
pop_flat.set_index(['state', 'year'])

### Agregado de datos en multiíndices:
Se puede operar con sum(), mean(), max(), etc. dentro de un subcojunto de datos del Multi-Índice

In [None]:
data_mean = health_data.mean(level='year')
data_mean

In [None]:
data_mean.mean(axis=1, level='type') # Operando en los niveles de las columnas

### Combinando Datasets: _concat_ y _append_

```
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
         keys=None, levels=None, names=None, verify_integrity=False, copy=True)
```

In [None]:
def make_df(cols, ind):
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)

In [None]:
# example DataFrame
make_df('ABC', range(3))

In [None]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

In [None]:
df1 = make_df('AB', [1, 2])
#df1 = make_df('ABC', [1, 2])
df1

In [None]:
df2 = make_df('AB', [3, 4])
df2

#### Concatenación simple con pd.concat()

In [None]:
pd.concat([df1,df2])

In [None]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
pd.concat([df3, df4], axis='col')

In [None]:
x = make_df('AB', [0, 1])
x

In [None]:
y = make_df('AB', [2, 3])
y.index = x.index
y

In [None]:
pd.concat([x, y])
#Ignorar los índices repetidos
#pd.concat([x, y], ignore_index=True)
#Agregar "keys" de multi-índice
#pd.concat([x, y], keys=['x', 'y'])

In [None]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
pd.concat([df5, df6])

In [None]:
pd.concat([df5, df6], join='inner')
#Especificando los índices de las columnas que quedan:
#pd.concat([df5, df6], join_axes=[df5.columns])

#### Método append( )
Cabe destacar que a diferencia de append() y extend() de las listas de Python, que modifican un objeto existente, el método append() de Pandas crea un objeto nuevo con los datos combinados.

In [None]:
df1.append(df2)
#df5.append(df6)

### Combinando Datasets: _merge_ y _join_

Categorías de _join_:
* Uno a uno
* Muchos a uno
* Muchos a muchos

#### Uno a uno

In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 
                    'group': ['Accounting', 'Engineering', 'Engineering','HR']})
df1

In [None]:
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})
df2

In [None]:
df3 = pd.merge(df1,df2)
#pd.merge(df1, df2, on='employee') #keyword "on"
df3

#### Muchos a uno

Es cuando una de las dos columnas _key_ contiene entradas duplicadas

In [None]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})
df4

In [None]:
pd.merge(df3,df4)

#### Muchos a muchos

Si la columna _key_ en ambos _arrays_ contiene duplicados, entonces el resultado es un _merge_ de muchos a muchos.

In [None]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']})
df5

In [None]:
pd.merge(df1,df5)

Cuando se trabaja con datos reales suele ser necesario utilizar los _keywords_ del método pd.merge() como __on__, __left_on__ y __right_on__, __left_index__ y __right_index__.
* Right_on y left_on: se utilizan cuando el nombre de una columna es diferente en cada DataFrame.

In [None]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})
df3

In [None]:
pd.merge(df1, df3, left_on="employee", right_on="name")#.drop('name', axis=1)

* left_index y right_index se utilizan cuando en lugar de combinar en una columna se quiere combinar en un índice

In [None]:
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')
df1a

In [None]:
df2a

In [None]:
pd.merge(df1a, df2a, left_index=True,right_index=True)
#df1a.join(df2a) #Usando join()

In [None]:
pd.merge(df1a, df3, left_index=True, right_on='name') #Mix de índices y columnas

#### Especificando el conjunto aritmético para los _joins_

In [None]:
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
                    'food': ['fish', 'lamb', 'bread']},
                   columns=['name', 'food'])
df6

In [None]:
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'],
                    'drink': ['wine', 'beer']},
                   columns=['name', 'drink'])
df7

In [None]:
pd.merge(df6,df7)
#pd.merge(df6,df7, how='inner')
#pd.merge(df6,df7, how='outer')

In [None]:
pd.merge(df6, df7, how='left')
#pd.merge(df6, df7, how='right')

#### Nombres de columnas solapados: el _keyword_ suffixes

In [None]:
df8 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [1, 2, 3, 4]})
df8

In [None]:
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [3, 1, 4, 2]})
df9

In [None]:
pd.merge(df8, df9, on="name")

In [None]:
pd.merge(df8, df9, on="name", suffixes=["_L", "_R"])

Una parte esencial del análisis de grandes datos es resumir de manera eficiente: cálculos de agregación como sum(), mean(), median(), min() y max(), en los cuales un único número da información sobre la naturaleza de un dataset potencialmente grande. En esta sección exploraremos las agregaciones en Pandas, desde operaciones simples parecidas a las que vimos en arrays de NumPy, hasta operaciones más sofisticadas basadas en el concepto de "Agrupado-por".

In [None]:
import numpy as np
import pandas as pd

class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style='float: left; padding: 10px;'>
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

In [None]:
import seaborn as sns
planets = sns.load_dataset('planets')
planets.shape

In [None]:
planets.head()

#### Agregación simple:
Para las Series de Pandas, de manera similar a un array de NumPy unidimensional, los agregados devuelven un valor único:

In [None]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.rand(5))
ser

In [None]:
ser.sum()
#ser.mean()
#ser.median()
#ser.min()
#ser.max()

Para los DataFrames, por defecto, los agregados devuelven resultados dentro de cada columna:

In [None]:
df = pd.DataFrame({'A': rng.rand(5),
                   'B': rng.rand(5)})
df

In [None]:
df.sum()
#df.mean()
#df.median()
#df.min()
#df.max()

Para operar a lo largo de las columnas: argumento axis=

In [None]:
df.mean(axis=1)

Para calcular varios agregados al mismo tiempo: __describe()__

In [None]:
planets.describe()

Otras agregaciones de Pandas:

| Agregación | Descripción |
|------------|--------------|
| count()| número total de items|
|first(), last()| primer o último item|
|mean(), median()| media o mediana|
|min(), max()| mínimo o máximo|
|std(), var()| desviación estándar o varianza|
|mad()| desviación absoluta media|
|prod()| producto de todos los items|
|sum()|suma de todos los items|

### Agrupado por: groupby()
Permite computar agregaciones en subconjuntos de datos

#### Split, Apply, Combine
![alt text](img/GroupBy.png)


In [None]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

In [None]:
df.groupby('key') #Genera un objeto GroupBy

In [None]:
df.groupby('key').sum()

In [None]:
planets.groupby('method')

In [None]:
planets.groupby('method')['orbital_period'] #Indexado

In [None]:
planets.groupby('method')['orbital_period'].median() #Agregación