<h1 align="center"><b>Modelación Financiera I</b></h1>
<h1 align="center"><b> Módulo 4, parte 1 </b></h1>
<h1 align="center"><b> Manipulación de datos y visualización  </b></h1>

*** 

***Docente:*** Santiago Rúa Pérez, PhD.

***e-mail:*** srua@udemedellin.edu.co

***Herramienta:*** [Jupyter Notebook](http://jupyter.org/)

***Kernel:*** Python 3.7

***MEDELLÍN - COLOMBIA***

***2022***

***

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item">
    <li><span><a href="#Introducci%C3%B3n-a-pandas" data-toc-modified-id="Introducci%C3%B3n-a-pandas-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Introducción a pandas</a></span></li> 
    <li><span><a href="#Indexaci%C3%B3n-y-selecci%C3%B3n" data-toc-modified-id="Indexaci%C3%B3n-y-selecci%C3%B3n-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Indexación y selección</a></span></li>   
    <li><span><a href="#Operaciones-y-manejo-de-datos-faltantes" data-toc-modified-id="Operaciones-y-manejo-de-datos-faltantes-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Operaciones y manejo de datos faltantes</a></span></li> 
    <li><span><a href="#Combinaci%C3%B3n-de-conjunto-de-datos" data-toc-modified-id="Combinaci%C3%B3n-de-conjunto-de-datos-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Combinación de conjunto de datos</a></span></li> 
    <li><span><a href="#Agregaciones-y-agrupaciones" data-toc-modified-id="Agregaciones-y-agrupaciones-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Agregaciones y agrupaciones</a></span></li> 
    <li><span><a href="#Apuntes-finales" data-toc-modified-id="Apuntes-finales-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Apuntes finales</a></span></li> 
    </ul></div>

## Introducción a pandas

Pandas es una libreria de python construida con base en `numpy` el cual maneja una implementación eficiente de datos utilizando una estructura conocida como `DataFrame`. Este objeto es un arreglo multidimensional con etiquetas para las filas y columnas, y a menudo con datos heterogéneos o datos faltantes. en forma sencilla, un `DataFrame` puede ser visto como un arreglo de `numpy` con nombre a las filas y columnas

### Pandas Series

Un objeto tipo Pandas `Series`, es un arreglo unidimensional con datos indexados, puede ser creado desde una lista asi:

In [3]:
import numpy as np
import pandas as pd

data = pd.Series([0.25,0.5,0.75,1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

La salida del objeto tiene tanto los valores como indices para los mismos, los cuales pueden accederse utilizando los atributos `values` e `index`. Los `values` son un simple arreglo de `numpy`, mientras que los indices son un objeto tipo `pd.Index`

In [4]:
print(data.values)
print(type(data.values))

[0.25 0.5  0.75 1.  ]
<class 'numpy.ndarray'>


In [7]:
print(data.index)

RangeIndex(start=0, stop=4, step=1)


Como ocurre con los arreglo de `numpy`, las series de pandas pueden accederse utilizando notación `[]`, asi

In [9]:
print(data[2])
print(data[:3])

0.75
0    0.25
1    0.50
2    0.75
dtype: float64


Parece entonces que las series de pandas, son simplemente un arreglo de `numpy`, sin embargo, estos presentan funcionalidades extendidas. Por ejemplo, podemos indicar el indice a cada una de las filas de la serie

In [11]:
data = pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [13]:
data['c']

0.75

Inclusive se puede utilizar indices no contiguos

In [14]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

Adicionalmente, la serie de pandas puede verse como un diccionario especializado. Notese que en el ejemplo anterior se accede como si fuera un diccionario. Lo anterior posibilita construir una serie de pandas con base en un diccionario como se muestra a continuación

In [16]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Sin embargo, a diferencia de un diccionario común, el acceso a los datos puede ser del estilo slicing, como:

In [19]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

### Pandas DataFrame

Una vez discutido la series de pandas, se puede entender el objeto tipo `DataFrame`. En este caso, la analogía de esta estructura es como un arreglo de dos dimensiones con indices y columnas flexibles. Por ejemplo, nosotros podemos construir una `DataFrame` con base en dos `Series`:

In [20]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [22]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Primero notese que ya aparece una tabla el Dataframe, con etiqueta en las columnas y filas. Adicionalmente, la creación del `DataFrame` se da a través de un diccionario. A diferencia de la serie, este objeto nuevo tiene columnas tambien

In [23]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [24]:
states.columns

Index(['population', 'area'], dtype='object')

Para acceder a la información del `DataFrame` se puede realizar utilizando las etiquetas de las columnas e indices. Primero se debe hacer la indexación de la columna y luego la fila. 

In [27]:
states['area']['California']

423967

Para la creacción de `DataFrame` se puede utilizar las siguientes herramientas:

- De un objeto tipo Serie
- De una lista de diccionario
- De un diccionario de objetos tipo serie
- De una arreglo multidimensional

In [29]:
print(population)
pd.DataFrame(population, columns=['population'])

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [31]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [32]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [35]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.774895,0.257992
b,0.155071,0.97064
c,0.196813,0.72584


### Objeto tipo Pandas Index

Hemos observado que tanto los objetos tipo `Series` y `DataFrame` contienen explicitamente un objeto tipo `index`. Este objeto puede ser visto como un arreglo inmutable o como un cojunto ordenado. Por ejemplo 

In [36]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [37]:
print(ind[1])
print(ind[::2])
print(ind.size, ind.shape, ind.ndim, ind.dtype)

3
Int64Index([2, 5, 11], dtype='int64')
5 (5,) 1 int64


A diferencia de un arreglo, estos indices son inmutables, por lo que el código a continuación genera un error
``` python
ind[1] = 0

``` 

Como conjuntos ordenados, se pueden realizar operaciones de intersección, unión, o diferencia simétrica

In [38]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])
print(indA & indB)
print(indA | indB)
print(indA ^ indB)

Int64Index([3, 5, 7], dtype='int64')
Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Int64Index([1, 2, 9, 11], dtype='int64')


## Indexación y selección

La selección e indexación posibilita tomar partes de las series o dataframe para realizar algun tipo de procesamiento con estos.

### Selección en Series

Vimos que las Series pueden ser tratadas como un diccionario teniendo en cuenta que la llave esta dada por el nombre del índice. Adicionalmente, se vio que a diferencia de un diccionario, tambien tiene las características de un arreglo de numpy, por lo que se pueden realizar slicing en los mismos

In [39]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
print(data)

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64


In [40]:
data['b']

0.5

In [41]:
'a' in data

True

In [42]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [43]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [44]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [45]:
# slicing by explicit index
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [46]:
# slicing by implicit integer index
data[0:2]

a    0.25
b    0.50
dtype: float64

In [47]:
# masking
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [48]:
# fancy indexing
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

Otra forma de acceder a la información dentro de una serie de pandas, es utilizando los atributos `loc`, `iloc`, y `ix`. Lo anterior se realiza con el objetivo de no generar confusiones cuandos los indices de las series son números. Por ejemplo

In [49]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [50]:
# explicit index when indexing
data[1]

'a'

In [52]:
# implicit index when slicing
data[1:3]

3    b
5    c
dtype: object

Para evitar estas confusiones, pandas brinda atributos a las series y dataframe para exponer parte del objeto. No se considera métodos, pero si atributos propios del objeto. Cuando utilizamos `loc` hacemos referencia al indice explicito de la serie

In [54]:
data.loc[1]

'a'

In [56]:
data.loc[1:3]

1    a
3    b
dtype: object

Por otro lado `iloc` hace refencia a la indexación implicita, como si se trabajara con un arreglo de numpy

In [57]:
data.iloc[1]

'b'

In [58]:
data.iloc[1:3]

3    b
5    c
dtype: object

## Operaciones y manejo de datos faltantes

## Combinación de conjunto de datos

## Agregaciones y agrupaciones

## Apuntes finales