# Módulo 1: Introducción

## Herramientas básicas de python

### Actividad 1: En clase 

* Entender estructuras básicas:
    * Notebooks.
    * Tipos de datos en Python.
    * Algunas de las librerías/herramientas utilizadas en DS para manipulación de datos.
        * Pandas.
        * Numpy.
        * Matplotlib.
        * Apply.
* Partiendo del objeto `df` generado en clase generar: 
    * Promedio acumulado agrupado por usuario considerando _lag_ de un dato (que para un mismo usuario no se considere el dato de la fila en cuestión). 

### Actividad 2: Autónoma

* Mediante un `dict comprehension`:
    * Iterar y llenar un diccionario con un for loop que itere sobre un `range(10)`. 
    * Los índices del diccionario deberan tener el formato `col#` donde `#` será el número de columna (puedes obtenerlo de la iteración del `for`). 
    * Cada uno de los valores del diccionario será una serie de 10 números aleatorios normalmente distribuidos generados con `numpy`, la media (`loc`) de estos datos deberá de ser del índice en cuestión (lo obtendrás de la iteración del for) y la desviación estándar (`scale`) deberá de ser el índice multiplicado por 10. 
    * Al final el diccionario tendrá una forma similar a esta:
    
    `{col0: [10 números aleatorios con media 0 y desviación 0],
       col1: [10 números aleatorios con media 1 y desviación 10], 
       ...,
       col9: [10 números aleatorios con media 9 y desviación 90]}`
* A tu diccionario obtenido del punto anterior, le agregarás un `key` que lleve por nombre "usuarios". El valor será la lista de los siguientes usuarios: `['a', 'b', 'b', 'c', 'd', 'd', 'e', 'f', 'f', 'f']`.
* El diccionario ya con los usuarios lo convertirás en un `pandas.DataFrame`. 
* Con ese DataFrame obtendrás: 
    * El valor que esté en el índice "3" de la columna "col4". 
    * La mediana agrupada por usuario con un lag (shift) de dos periodos y una expansión (expanding) de un periodo. 
    * Responder: ¿Por qué solo el usuario `f` tiene un valor no nulo? 


## Iniciando con los notebooks

Este es un jupyter notebook. 

Funciona como un lugar donde puedes hacer código y ver inmediatamente los resultados (siendo éstos código, gráficas u otro) pero también escribir texto, insertar imágenes, fórmulas, etcétera.
 
 

### Ecuaciones 

Podemos agregar ecuaciones en Jupyter con el uso de $\LaTeX$.

Con el siguiente código en el tipo de celda `Raw NBConvert` generaríamos dos ecuaciones: 

El mismo código en el tipo de celda `Markdown` produciría las siguientes ecuaciones: 

\begin{align}
    \begin{split}
        y &= mx + b \\
        x &= \frac{y - b}{m}
    \end{split}
\end{align}


### Texto en distintos tamaños
Podemos escribir texto "normal" y además títulos con el símbolo `#`. 

El siguiente código en `Raw NBConvert`:

Produciría lo siguiente en `Markdown`: 

Texto normal

#### Título

##### Otro título

###### Otro título

### Código

Este notebook tiene un `kernel` de python. En resumidas cuentas, eso nos permitirá ejecutar python en en este notebook. 

### Tipos de datos básicos
* Cadenas de texto (`str`).
* Números
    * Enteros (`int`).
    * Flotantes (`float`).
* Secuencias
    * Listas (representadas por `[...]`).
    * Tuplas (representadas por `(...)`).
    * Rangos (representadas por `range`). 
* Mapping
    * Diccionarios (representados por `{...}`)
* Booleanos


## Cadenas de texto

Las cadenas de texto son versátiles en Python, tanto que incluso podemos hacer operaciones con ellas. 

In [1]:
cadena = 'Estoy estudiando '
cadena2 = 'Ingeniería Financiera'

In [2]:
cadena + cadena2 

'Estoy estudiando Ingeniería Financiera'

Podemos agregar datos dentro de un string y que éste sea manipulable.

In [3]:
cadena = 'Estoy estudiando {}'.format(cadena2)

In [4]:
cadena

'Estoy estudiando Ingeniería Financiera'

Y además generar _fstrings_, que son cadenas manipulables nuevas en Python3. 

Estas strings se caracterizan por anteponer una `f` antes de su generación y proveer de una lectura más sencilla. 

In [5]:
cadena = f'Estoy estudiando {cadena2}'  

In [6]:
cadena

'Estoy estudiando Ingeniería Financiera'

## Objetos básicos en python 

#### Listas
Las listas son objetos en python de size `n`. Las listas pueden albergar enteros, textos o booleanos. 


In [7]:
mi_lista = [1, 2, 3, 4]
mi_lista

[1, 2, 3, 4]

In [8]:
type(mi_lista)

list

In [9]:
mi_lista_textos = ['hola', 'mundo']
mi_lista_textos

['hola', 'mundo']

A las listas se les puede agregar o eliminar elementos con `append` o `remove`.

In [10]:
# Agregando el "5" a "mi_lista"
mi_lista.append(5)
mi_lista

[1, 2, 3, 4, 5]

In [11]:
# Eliminando el "3" a "mi_lista"
mi_lista.remove(3)
mi_lista

[1, 2, 4, 5]

A su vez las listas pueden tener posiciones (iniciando desde el cero) y posiciones inversas (iniciando desde el -1). 

In [12]:
# Primer posición
mi_lista[0]

1

In [13]:
# Última posición 
mi_lista[-1]

5

Podemos agregar un compendio de posiciones utilizando el símbolo "dos puntos" (`:`).

In [14]:
mi_lista[0:2]

[1, 2]

Notar que el extremo derecho no es incluyente. Podemos usar doble "dos puntos" para llegar hasta el final.  

In [15]:
mi_lista[0::]

[1, 2, 4, 5]

#### Diccionarios
Los diccionarios son usados para guardar valores en pares de la forma `{llave: valor}`. 

Algunos ejemplos de un diccionario pueden ser las notas en una clase: 

```
{Alumno1: 6, Alumno2: 10, Alumno3: 9}

```


In [16]:
mi_dict = {'alumno1': 6, 'alumno2': 10, 'alumno3': 9}
mi_dict

{'alumno1': 6, 'alumno2': 10, 'alumno3': 9}

Se puede acceder a estos diccionarios con el nombre del `key` (el que antecede los dos puntos).

In [17]:
# Encontrando la calificación del alumno3
mi_dict['alumno3']

9

Se puede usar el método `get` para buscar un key en el diccionario y que devuelva un valor _default_ si no existe ese key. Ese valor _default_ se puede modificar. 


In [27]:
# Encontrando calificación del alumno4
mi_dict.get('alumno4')

In [25]:
# Modificando el valor default
mi_dict.get('alumno4', 'nel')

'nel'

#### List/dict comprehension

Esta es una de las formas _pythónicas_ de trabajar pues nos permite mezclar _loops_ y al mismo tiempo generar alguno de estos objetos. 

In [28]:
# Lista
[x * 2 for x in mi_lista]

[2, 4, 8, 10]

In [29]:
# Diccionario
{str(posicion): valor * 2 for posicion, valor in enumerate(mi_lista)}

{'0': 2, '1': 4, '2': 8, '3': 10}

## Recordando ciclos

Así como en todos los lenguajes, Python tiene diversas formas de iteración. Veremos estructura de los ciclos `for` y `while`. 

#### Ciclo for
El ciclo `for` itera sobre un iterable. Un iterable es un objeto sobre el cual, como su nombre lo dice, se puede iterar. Éste puede ser una lista, una tupla, un `range` o un `items` (dentro de un diccionario). 


In [30]:
# Iterando sobre una lista
for index in [1, 2, 3]:
    print(index)

1
2
3


In [31]:
# Iterando sobre un range
for index in range(5):
    print(index)

0
1
2
3
4


In [35]:
# Iterando sobre items de un diccionario
for key, value in mi_dict.items():
    print(key, value)

alumno1 6
alumno2 10
alumno3 9


#### Ciclo `while`
El ciclo `while`, como su nombre lo dice, itera mientras una condición se cumpla. ´

In [36]:
index = 0 
while index < 5: 
    print(f'Sigo iterando {index}')
    
    index += 1 # index = index + 1

Sigo iterando 0
Sigo iterando 1
Sigo iterando 2
Sigo iterando 3
Sigo iterando 4


## Introduciendo librerías principales: Pandas, Numpy y Matplotlib

### Pandas 

_Pandas_ es una librería que nos permite manejar datos de forma tabular. 

Los objetos que pandas nos brinda son instanciables con distintas funcionalidades, desde muy básicas como _promedio, sumas, absolutos_ entre otros hasta funciones más complejas como gráficos diversos, descripción de la data, etcétera. 

El objeto básico de pandas es un _pandas.DataFrame_. Esta es una forma tabular de ver la información que consta de filas y columnas, éstas pueden ser de múltiplos tipos.

Más en la documentación oficial: https://pandas.pydata.org/docs/ 
Repositorio: https://github.com/pandas-dev/pandas 

In [39]:
# Importemos una librería para generar fechas
import datetime

# Importemos la librería pandas
import pandas as pd

# Generemos diccionario con distintos tipos de dato.
raw_data = {'col_numerica': [1, 2, -3, 4, -5],
            'col_texto': ['text1', 'text2', 'text3', 'text4', 'text5'],
            'col_booleans': [True, True, False, True, False],
            'col_fechas': [datetime.date(2020, 7, 28), datetime.date(2020, 7, 29),
                           datetime.date(2020, 7, 30), datetime.date(2020, 7, 31),
                          datetime.date(2020, 7, 28)]}

# Imprimamos nuestro diccionario
print(raw_data)

# Generemos una tabla con pandas a partir de ese diccionario
df = pd.DataFrame(raw_data)
df

{'col_numerica': [1, 2, -3, 4, -5], 'col_texto': ['text1', 'text2', 'text3', 'text4', 'text5'], 'col_booleans': [True, True, False, True, False], 'col_fechas': [datetime.date(2020, 7, 28), datetime.date(2020, 7, 29), datetime.date(2020, 7, 30), datetime.date(2020, 7, 31), datetime.date(2020, 7, 28)]}


Unnamed: 0,col_numerica,col_texto,col_booleans,col_fechas
0,1,text1,True,2020-07-28
1,2,text2,True,2020-07-29
2,-3,text3,False,2020-07-30
3,4,text4,True,2020-07-31
4,-5,text5,False,2020-07-28


In [40]:
# Veamos tipos de datos por columna
df.dtypes

col_numerica     int64
col_texto       object
col_booleans      bool
col_fechas      object
dtype: object

In [41]:
# ¿Qué sucede si buscamos el type de la variable "df"?
type(df)

pandas.core.frame.DataFrame

#### Operaciones básicas con pandas
`Pandas` nos permite hacer cálculos de manera muy sencilla aplicable a todas los valores por columna o por renglón incluso. 

Supongamos que queremos acceder a columnas distintas, podemos hacerlo de dos formas diferentes: 

* Con el nombre de la columna entre comillas.
* Con el nombre de la columna precedido y seguido de puntos. 

In [42]:
df = pd.DataFrame({"value": [3, 1, 2, None, 4, 5, 7, 9],
                   'user': ['a', 'a', 'b', 'b', 'c', 'a', 'b', 'c'],
                  'date': [datetime.date(2020, 7, 28), datetime.date(2020, 7, 29),
                           datetime.date(2020, 7, 30), datetime.date(2020, 7, 31),
                          datetime.date(2020, 7, 28),
                          datetime.date(2020, 8, 28),
                          datetime.date(2020, 9, 28),
                          datetime.date(2020, 10, 28)]})

In [43]:
df

Unnamed: 0,value,user,date
0,3.0,a,2020-07-28
1,1.0,a,2020-07-29
2,2.0,b,2020-07-30
3,,b,2020-07-31
4,4.0,c,2020-07-28
5,5.0,a,2020-08-28
6,7.0,b,2020-09-28
7,9.0,c,2020-10-28


In [44]:
# Promedio
df['value'].mean()

4.428571428571429

In [45]:
# Otra forma de acceder a la misma columna y seguir sacando el promedio
df.value.mean()

4.428571428571429

In [46]:
# Mediana
df.value.median()

4.0

In [47]:
# Cuenta
df.value.count()

7

In [48]:
# Operaciones anidadas: La mediana de los absolutos
df.value.abs().median()

4.0

Podemos acceder además a coordenadas específicas. Hay dos métodos principales: `loc` y `iloc`. 

* `loc`
    * Nos permite acceder vía índices, esto es, con el "indicador" de cada renglón.
    * Nos permite acceder mediante el nombre directo de columnas.
* `iloc`
    * Nos permite acceder por posiciones sin importar el nombre del índice o columna. 

In [49]:
# Accediendo a una matriz usando .loc
df.loc[0, 'user']

'a'

In [50]:
# Accediendo a una matriz usando .iloc
df.iloc[0, 1]

'a'

Hasta aquí hemos usado algunos de los componentes más básicos de Pandas, a continuación veremos otras herramientas muy utilizadas en ciencia de datos, éstas son:

* `Groupby` + `Aggregate`. 
* `Mask`.
* `Shift`.
* `Expanding`.
* `Apply`.


#### `Groupby` + `Aggregate`

Como su nombre lo dice, `groupby` nos ayudará a agrupar. Podremos a partir de cierta agrupación calcular cosas de manera masiva y sin tener que hacer loops o algo por el estilo. 

In [51]:
# Agrupación por usuario
grouped = df.groupby('user')
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x119843970>

Se genera un objeto sobre el cual podremos calcular cosas con (1) `aggregate` o sin éste. 

El formato con `aggregate` será así: `{columna(s): función(es)}`. Si se adjuntan varias columnas o funciones podremos usar `dict comprehension` para el llenado eficiente. 

In [54]:
# Con aggregate
grouped.agg({'value': ['mean', 'median'], 
             'date': 'count'})

Unnamed: 0_level_0,value,value,date
Unnamed: 0_level_1,mean,median,count
user,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
a,3.0,3.0,3
b,4.5,4.5,3
c,6.5,6.5,2


Podemos no utilizar aggregate pero esto implicará que utilizaremos una única función y la lectura se dificultará un poco.

In [55]:
# Sin aggregate
grouped['value'].mean()

user
a    3.0
b    4.5
c    6.5
Name: value, dtype: float64

#### `Mask` 

Este comando nos ayudará a reemplazar valores **dada una condición.**


In [56]:
# Haremos una copia para no afectar el frame original
copy = df.copy()
copy

Unnamed: 0,value,user,date
0,3.0,a,2020-07-28
1,1.0,a,2020-07-29
2,2.0,b,2020-07-30
3,,b,2020-07-31
4,4.0,c,2020-07-28
5,5.0,a,2020-08-28
6,7.0,b,2020-09-28
7,9.0,c,2020-10-28


In [57]:
# Comando sin reemplazo
copy.mask(cond=copy.value > 5)

Unnamed: 0,value,user,date
0,3.0,a,2020-07-28
1,1.0,a,2020-07-29
2,2.0,b,2020-07-30
3,,b,2020-07-31
4,4.0,c,2020-07-28
5,5.0,a,2020-08-28
6,,,
7,,,


In [58]:
# Comando con reemplazo
copy.mask(cond=copy.value > 5, other='yeti')

Unnamed: 0,value,user,date
0,3.0,a,2020-07-28
1,1.0,a,2020-07-29
2,2.0,b,2020-07-30
3,,b,2020-07-31
4,4.0,c,2020-07-28
5,5.0,a,2020-08-28
6,yeti,yeti,yeti
7,yeti,yeti,yeti


#### `Shift` 

Este comando nos ayudará a desplazar elementos en un `DataFrame`. Es útil para generación de variables y evitar un fenónemo conocido como `leakage` (lo abordaremos a detalle más adelante). 


El comando puede funcionar con periodos (filas) o bien con tiempo. Cuando se filtra por tiempo hay que cuidar el índice para que éste sea leído como una fecha. 

Unnamed: 0_level_0,value,user,date
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-07-28,3.0,a,2020-07-28
2020-07-29,1.0,a,2020-07-29
2020-07-30,2.0,b,2020-07-30
2020-07-31,,b,2020-07-31
2020-07-28,4.0,c,2020-07-28
2020-08-28,5.0,a,2020-08-28
2020-09-28,7.0,b,2020-09-28
2020-10-28,9.0,c,2020-10-28


In [198]:
# Copia del frame


# Nos aseguramos que la fecha sea leída como tal y que esté en el índice


#### `Expanding`

Este comando, como su nombre lo dice, hace una expansión de `n` periodos mínimos para posteriormente generar un cálculo. 

Si se aplican cálculos posteriores 

Este comando no hará el cálculo con solo el parámetro `min_periods`, sino que lo hará con _al menos `min_periods`_. 

In [1]:
# Intentando con al menos 2 periodos


Observamos que el dato de la primera fila no tiene información pues no hay dos elementos para ser calculado (contando esa fila).

#### `Apply`

Este comando nos permite aplicar funciones a una serie de filas y/o columnas sin necesidad de uso de ciclos. 

Como _input_ podemos usar funciones prestablecidas o bien funciones `lambda`. 

Las funciones `lambda` son funciones locales que no se podrán utilizar más que en la línea de código donde existen, se usan de manera temporal. 

In [2]:
# Usando función lambda


In [3]:
# Definiendo una función y aplicándola


# Aplicándola


### Gráficos con Pandas
`Pandas` además nos permite generar gráficos de una manera muy sencilla. 

Grafiquemos a continuación la columna `value`. 

In [4]:
# Gráficos con pandas


### Numpy 

Numpy es una librería que nos permite generar arreglos de distintos tipos (vectores, matrices) y además tiene diversas implementaciones para generar números aleatorios o realizar operaciones básicas (promedios, correlaciones, etc.).

Numpy usa como estructura básica el _array_, según su propia documentación, ésta es más rápida de acceder y usa menos recursos que la lista clásica de Python. 

Referencia: https://numpy.org/doc/stable/ Repositorio: https://github.com/numpy/numpy

In [75]:
# Importamos la librería
import numpy as np

# Generamos un array
array = np.array([1, 2, 3, 4, 5])
array

array([1, 2, 3, 4, 5])

In [5]:
# Promedio:


In [6]:
# Mediana:


Podemos pensar una matriz como una serie de arreglos (`array`). Hay maneras diferentes de generarlas, por lo pronto nos quedaremos con esta. 

In [35]:
# Matrices


Así como en pandas, podemos acceder a la matriz de la forma renglón, columna.

In [36]:
# Accediendo a una matriz


Numpy es una librería que tiene muchas herramientas, una de ellas es la generación de números aleatorios.

Esto involucra conocimientos de probabilitad y estadística, por lo pronto solo usaremos la implementación sin meternos al detalle ni forma de la distribución. 

In [38]:
# Generando una distribución de 100 números aleatorios ~N(0, 1)


# Estableceremos una semilla


# Generación de los números


Hagamos un ligero _benchmark_ de tiempo entre el promedio sobre una lista de 100,000 elementos.

In [39]:
n = 100000
aleatorios = np.random.normal(size=n)
aleatorios_lista = list(np.random.normal(size=n))

# Importar librería para medir tiempos
import time


tic = time.time()
np.mean(aleatorios_lista)
# sum(aleatorios_lista) / len(aleatorios_lista)
toc = time.time()
medicion = toc - tic

print(f'El tiempo en la lista de {n} elementos es de: {medicion}')

tic = time.time()
np.mean(aleatorios)
toc = time.time()

medicion = toc - tic

print(f'El tiempo en el array de {n} elementos es de: {medicion}')

Se observa que hay una diferencia importante. 

### Matplotlib
Matplotlib es una librería que nos permite, como su nombre lo dice, graficar distinto tipo de figuras, desde series de tiempo, histogramas, boxplots, etcétera. 

Para generar las gráficas hay dos formas "cómunes" para hacerlo, usando `ax` o usando directamente `plt`. 

Más información: https://matplotlib.org/ Repo: https://github.com/matplotlib/matplotlib

In [40]:
# Importamos librería
import matplotlib.pyplot as plt

# Definiendo las figuras. 


# Generando la línea


# Generando una cuadrícula


# Agregando leyenda



In [41]:
# Usando plt

# Definimos figura


# Generamos la línea


# Agregamos leyenda


# Agregamos cuadrícula



### Actividad 1: Agrupación de datos por usuario

* Partiendo del objeto df generado en clase generar:
    * Promedio acumulado agrupado por usuario considerando lag de un dato (que para un mismo usuario no se considere el dato de la fila en cuestión).

Para poder lograr el objetivo necesitamos:
* Ordenar los datos por fecha **ascendente**.
* Agrupar por usuario. 
* _Laggear_ nuestros datos para que en el cálculo del promedio no consideremos el dato actual. 
* Expandir nuestros datos para que mantengamos dimensionalidad del frame original y siempre consideremos un dato para el cálculo. 


Ordenando por fecha. 

Agrupar. 

En este punto tenemos un objeto, por lo que usaremos un `apply` y dentro de éste los siguientes pasos. 

Al hacer un `apply` sobre un objeto agrupado, le estaremos aplicando la función (la que definamos en el `apply`) a **todos los subconjuntos agrupados**. En este caso, aplicaremos la función a cada set de usuarios. 

In [42]:
# Aplicando una función lambda
# Función lambda con shift y expand de un periodo.




Agregamos a nuestro frame original para comparar. 