## Clase 2: Programación Básica en Python y manejo de datos


### Funciones

Al igual que en la mayoría de lenguajes, Python permite la generación de funciones, para hacerlas se parte con la palabra ```def``` 

In [None]:
def suma(a, b):
    # Acá defino C
    c = a + b
    return c
    
print(suma(6, 7))    

Además de las funciones normales, existen una categoría de funciones anónimas llamadas funciones Lambda,
estas son funciones que no quedan guardadas y son usadas para obtener resultados rápidos. Por ejemplo una función que eleva al cuadrado sería la siguiente:

In [None]:
def cuadrado(x):
    return x*x

print(cuadrado(9))

In [None]:
(lambda x: x ** 2)(9)

La utilidad de las funciones es evitar definir funciones con escasos usos y llenar el codigo de definiciones de variables inecesarias.

## Ejercicios

1. Escriba un programa en Python que encuentre todos los números entre 0 y n que sean divisibles por 7, pero no sean multiplos de 5.
2. Escriba un programa en Python que calcule una productoria de una función f desde 1 hasta el número n.

## Soluciones

### Problema 1
Recordemos que un número es divisible por otro si su resto es cero, por ejemplo si queremos validar que el 10 es divisible por 5 basta hacer

In [None]:
10 % 5 == 0

Ahora generamos una función que dado un número recorra todos ellos y valide sus condiciones, divisible por 7 y que no sea múltiplo de 5

In [None]:
def num(n):
    a = []
    for i in range(n + 1):
        if (i % 7 == 0) & (i % 5 != 0):
            a.append(i)
    return a

num(100)

### Problema 2
Buscamos hacer esto

$$g(n) = \prod_{i = 1} ^ n f(i)$$

Donde $f$ es una función definida por el usuario. Por ejemplo si $f(x) = x^2$, entonces la función debe calcular

$$g(n) = \prod_{i = 1} ^ n i^2$$


In [None]:
def productoria(f, n):
    if n == 1:
        return f(n)
    elif n > 1:
        return f(n) * productoria(f, n - 1)

In [None]:
def cuadrado(x):
    return x**2

#productoria(lambda x: x ** 2, 3)
productoria(cuadrado, 3)


### Generadores
A veces no nos interesa obtener el resultado completo de una sola vez, nos pueden interesar pero sólo para iterar sobre los futuros valores que tendremos. Un generador es una función que no nos retorna explicitamente los valores, sino más una promesa de que nos entregará el valor pedido cuando se lo pidamos.


Supongamos que queremos TODOS los cuadrados de los número enteros, como todos los números son infinitos, esto no cabría en ninguna lista, ni con todo el almacenamiento del mundo. Sin embargo lo que si se puede hacer es una función que nos genere los números a medida que los necesitemos. 

Un generador se crea igual que una función pero en lugar de la palabra ```return``` se utiliza la palabra clave ``yield``

In [None]:
def cuadrados():
    i = 1
    while(True):
        yield i * i
        i += 1

In [None]:
mi_generador = cuadrados()

In [None]:
print(next(mi_generador))
print(next(mi_generador))

Al aplicar next, la función llega hasta la instrucción yield, al aplicar una segunda vez, continua donde quedamos y ejecuta la siguiente.

Ahora tú!, crea un generador que genere TODOS los números de la sucesión de Fibonacci, la cual se define como:

$\begin{align}
f(1) &= 1 \\
f(2) &= 1 \\
f(n) &= f(n - 1) + f(n - 2), ~~ n > 2
\end{align}$



Los generadores tienen la ventaja de que nunca se definen todos los valores en memoria, el uso de ellos permite optimizar códigos

#### Ejemplo

Supongamos que queremos la suma de los primeros 100.000.000 de números, definiremos un generador de números y también una lista con números

In [None]:
# Para medir el tiempo
import time

def lista_numeros(n):
    l_num = []
    for i in range(n + 1):
        l_num.append(i)
    return l_num

def gen_numeros(n):
    l_num = []
    for i in range(n + 1):
        yield(i)

##### Con lista

In [None]:
stime = time.time()
sum(lista_numeros(100000000))
print("Tiempo de ejecución lista: "+ str(time.time() - stime) + " segundos")

##### Con generador

In [None]:
stime = time.time()
sum(gen_numeros(100000000))
print("Tiempo de ejecución generador: "+ str(time.time() - stime) + " segundos")

##### Usando función diseñada

In [None]:
stime = time.time()
sum(range(100000000))
print("Tiempo de ejecución funcion diseñada: "+ str(time.time() - stime) + " segundos")


El uso de generadores permite optimizar fuertemente sus códigos, evitar usar loops para recorrer listas, en lugar de ello usar generadores

### Compresión de listas

Cuando queremos generar una sucesión de valores (o aplicar una función a varios elementos) se puede hacer con alguna función de loop. Por ejemplo, dada una lista queremos calcular la raiz cuadrada a todos los números, una opción es hace el loop de la siguiente forma

In [None]:
numeros = [4, 3, 5, 7, 1, 3]
for i in range(len(numeros)):
    numeros[i] = numeros[i] ** 0.5

print(numeros)

una forma mucho más elegante de hacer lo mismo es definir la operación dentro de la lista

In [None]:
numeros = [4, 3, 5, 8, 1, 3]
raices = [i ** 0.5 for i in numeros]
print(raices)

En general la estructura para la compresión de lista es `[<función> <iteración> <condiciones>]`. Por ejemplo si de la lista anterior sólo quiesieramos retornar sólo las raices de los números pares que su resultado sea un número par

In [None]:
raices_pares = [i ** 0.5 for i in numeros if i % 2 == 0 if i ** 0.5 % 2 == 0]
print(raices_pares)

Notar que:

* `i ** 0.5` es la función
* `for i in numeros` es la iteración
* `if i % 2 == 0 if i ** 0.5 % 2 == 0` son las condiciones


Las condiciones son básicas, si por ejemplo quisieramos poner una lógica de if else en la compresión, es mejor establecerlo en la lógica de las funciones. En el ejemplo anterior si quisieramos que a los pares se les calcule la raiz y a los impares nada, una forma puede ser

In [None]:
raices_pares = [i ** 0.5 if i % 2 == 0 else i for i in numeros]
print(raices_pares)

### Orientación a Objetos

Como se mencionó, Python es multiparadigma, por lo cual soporta la orientación a objetos. Si bien hasta ahora no hemos definido ninguna clase, eso es precisamente lo bueno de Python, no nos impone una forma de programar. 

Un objeto suele constar de tres componentes:

1. Atributos del objeto.
2. Funciones del objeto.
3. Un método constructor que inicia el objeto.

Una clase en Python se ve de la siguiente forma



In [None]:
class triangulo:
    def __init__(self, a, b, c):
        self.a = a
        self.b = b
        self.c = c
        self.s = (self.a + self.b + self.c)/2
    
    def es_triangulo(self):
        if (self.a >= self.b + self.c) | (self.b >= self.a + self.c) | (self.c >= self.b + self.a):
            return 'no es triángulo :c'
        else:
            return 'es triangulo'
    
    def area(self):
        return (self.s * (self.s - self.a) * (self.s - self.b) * (self.s - self.c)) ** 0.5
    
    def perimetro(self):
        return self.a + self.b + self.c

In [None]:
mi_triangulo = triangulo(2, 3, 10)

### Ejercicios 2:
1. Crear una clase "perrito" que tenga por atributos; nombre (string), raza (string), altura (float), peso (float), inteligencia (int) y trucos aprendidos. El último atributo no lo debe definir el usuario
2. A la clase anterior, agregar un método que le enseñe trucos.
3. A la clase anterior, limitar la cantidad de trucos a la inteligencia del perrito, si tiene inteligencia 2, sólo podrá aprender dos trucos y si ya tenía dos, borrar el primero.

#### Importación de librerías:

para importar librerías se usa el comando de la siguiente forma


In [None]:
import numpy

Cuando queremos usar una función de esa librería, hay que llamar primero la librería, punto la función a utilizar. por ejemplo

In [None]:
print(numpy.sqrt(16))
print(numpy.pi)

Como se puede ver esto es algo engorroso, por lo cual se suelen llamar con un alias. Por ejemplo

In [None]:
import numpy as np

In [None]:
print(np.sqrt(16))
print(np.e)

Otra opción es que si sólo requerimos de algunas funcionalidades de la librería, se puede importar sólo el objeto que necesitamos. Por ejemplo si sólo quisieramos utilizar la función raíz cuadrada, se puede importar sólo eso.

In [None]:
from numpy import sqrt

In [None]:
sqrt(16)

Como última opción (no recomendado), se pueden importar todos los objetos de la librería usando la siguiente sentencia.

In [None]:
from numpy import *

In [None]:
e

#### Libería Numpy

Como vimos en la clase anterior, hay operaciones vectoriales y matriciales que no se pueden hacer directamente con el Python nativo. Numpy (Numeric Python) permite hacer operaciones numéricas más complejas.

In [None]:
[1, 2, 3] + [2, 2, 3]

In [None]:
import numpy as np

a = np.array([1, 2, 3])
b = np.array([2, 2, 3])

print(a + b)
print(a * b)
print(a ** b)

También se pueden definir matrices

In [None]:
A = np.matrix([[1,2,3], [4, 5, 6]])
B = np.matrix([[2, 2], [1, 4], [3, 2]])
print(A)
print(B)
A * B

de igual forma se pueden definir como:

In [None]:
C = np.matrix('1, 2, 3; 4, 5, 6')
print(C)

Como las matrices son objetos, tiene funciones incorporados como por ejemplo

In [None]:
# Traspuesta
C.transpose()

In [None]:
#Diagonal
C.diagonal()

In [None]:
#Reestructurar
C.reshape([1, 6])

Para invertir matrices hay que usar la clase linalg de numpy

In [None]:
np.linalg.inv(C * C.transpose())

**Ejercicio:** Cree una función que data una matriz de diseño de un modelo de regresión, y su respuesta, calcule los coeficientes $\beta$. Recordar que en un modelo de regresión lineal múltiple los coeficientes están dados por:

$$\hat{\beta} = (X^{T}X)^{-1}X^{T}y$$


#### La libraría Pandas

Numpy permite extender las funciones de Python al análisis numérico, Pandas permite el manejo de estructuras de datos más complejas llamadas "data frames".
En la clase anterior, se mencionó que los diccionarios forman una suerte de tabla, al relacionar una lista con una llave. Los data frames siguen un concepto similar, pero además están indexadas.


In [None]:
import pandas as pd

Notas = pd.DataFrame({'Nota C1': [7.0, 7.0, 7.0, 7.0],
                      'Nota C2': [1.9, 2.6, 3.3, 1.0],
                      'Nota C3': [5.5, 5.2, 6.7, 6.1]},
            index = ['Martín', 'Paula', 'Simón', 'María'])
Notas

Si queremos acceder a las columnas, se puede hacer con los paréntesis cuadrados

In [None]:
Notas[['Nota C2', 'Nota C3']]

Y se puede seleccionar por índice usando la función loc

In [None]:
Notas.loc[['Simón', 'Paula']]

Por último, se puede acceder usando el orden de los datos, como si fuera una matriz

In [None]:
Notas.iloc[[1], [0, 1]]

#### Importación de datos

Pandas permite la lectura una buena fuente de datos de forma directa, algunas de ellas son:

- Texto plano
- Portapapeles
- Excel
- JSON
- HTML
- SAS
- SQL
- HDFS

Por ahora veremos texto plano.


La sentencia read_table se componen de los siguientes componentes 

```read_table(path, sep = '\t', header = 'infer', decimal = '.', encoding = None)```

- **path:** Obligatorio, es el la ruta del archivo
- **sep:** Indica el separador de campo, por defecto son tabuladores.
- **header:** Indica si es el archivo viene con encabezados, por defecto lo deduce solo.
- **decimal:** Separador decimal.
- **encoding:** Codificado del archivo, usando 'latin1' se consiguen leer los caracteres hispánicos



**Ejemplo:** La tabla recipe_data, contiene información de más de 70.000 recetas de cerveza artezanal, es un csv, delimitado por comas. Sus columnas son:

|Campo|Tipo|Descripción|
|---|---|---|
|BeerID|numeric|ID de la muestra|
|Name|String|Nombre de la Cerveza|
|StyleID|numeric|ID de estilo de cerveza|
|ABV|numeric|Alcohol por volumnen|
|IBU|numeric|Indicador IBU de amargor|

Leer ese archivo

In [None]:
cerveza = pd.read_table('recipe_data.csv',
                       sep = ',',
                       header = 0,
                       decimal = '.',
                       encoding = "latin1")

#### Manipulación Básica

Para obtener el encabezado, se puede utilizar la función .head, la cual se le puede indicar la cantidad de filas a mostrar.

In [None]:
cerveza.head(10)

de forma similar, se puede obtener una muestra con el .sample

In [None]:
cerveza.sample(10)

Para filtrar los datos, se puede utilizar los mismos parentesis cuadrados, en los cuales se les puede poner una condición.

In [None]:
cervezas_alcoholicas = cerveza[cerveza['ABV'] > 15]

Alternativamente, se puede usar la función query, la cual hace consultas en un lenguaje más natural.

In [None]:
cervezas_alcoholicas = cerveza.query('ABV > 15')

**Ejemplo:** Obtenga las analcoholicas, que tengan IBU 0

In [None]:
cerveza.query('ABV == 0 and IBU == 0')

**Ejemplo:** Obtenga todas las cervezas que tengan los siguientes estilos: 1, 6, 12, 67, 32. Indique cuantos registros son.

In [None]:
cerveza.query('StyleID in [1, 6, 12, 67, 32]').shape

#### Orden

Para ordenar valores, basta con usar la sentencia ```sort_values(['columnas'],  ascending=True/False)```.


**Ejemplo:** Ordene la tabla de cervezas según grado alcoholico en orden decendente. ¿Cuáles son las 10 cervezas más alcoholicas?

In [None]:
cerveza.sort_values(['ABV'], ascending = False).head(10)

#### Uniones

Pandas permite trabajar la union de varias tablas. El método más simple es el concat, el cual une dos tabla "hacia abajo"


In [None]:
A = pd.DataFrame({'C1': ['A', 'D', 'C', 'B'], 'C2': [12, 11, 4, 6]})
B = pd.DataFrame({'C1': ['B', 'D'], 'C2': [13, 20], 'C3': [1, 2]})

In [None]:
pd.concat([A, B])

Notar que si las columnas no cuadran, se rellena con NaN. Otra alternativa es usar el append

In [None]:
B.append(A)

Está la posibilidad de unir "para el lado", ocupando la opción axis=1

In [None]:
pd.concat([A, B], axis = 1)

Cuando se requieren uniones más complejas, se puede usar el .merge, el cual emula un "join" de SQL, se usa como:

```pd.merge(A, B, how = 'inner', left_on = None, right_on = None) ```

- **A, B:** Son las tablas a unir
- **how:** indica de que forma unir, puede ser inner, left, right o outer
- **left_on:** Columnas por las cuales unir en la tabla izquierda
- **right_on:** Columnas por las cuales unir en la tabla derecha


In [None]:
A.merge(B, how = 'inner', left_on = ['C1'], right_on = ['C1'])

In [None]:
A.merge(B, how = 'left', left_on = ['C1'], right_on = ['C1'])

**Ejemplo:** Lea la tabla syle_data.csv, la cual contiene los códigos del estilo de cerveza con sus nombres. Péguela a la tabla de cervezas y seleccione sólo las con nombre 'Saison'. Indique cuantas hay.

In [None]:
estilos = pd.read_table('style_data.csv',
                       sep = ',',
                       header = 0,
                       decimal = '.',
                       encoding = "latin1")

In [None]:
cervezas_Saison = (cerveza.
                  merge(estilos, how = 'left', left_on = ['StyleID'], right_on = ['StyleID']).
                  query('Style in "Saison"'))
cervezas_Saison.shape

#### Agrupar

Pandas soporta operaciones de agrupamiento de datos, usando la sentencia groupby, esta agrupa por una llave indicada, y reliza la operación proporcionada. La estructura más básica es la siguientes:

``` groupby(['key'])['selection'].sum()```

Aquí se agrupa por la llave, y se aplica la operación indicada al final a selection. Por defecto la llave agrupada queda como índice del data frame. Para romper el ínidice y operarla como columna, se usa reset_index

**Ejemplo:** Obtenga el promedio de amargor IBU de las cervezas por estilo. Luego indique el estilo más amargo.

In [None]:
(cerveza.groupby(['StyleID'])['IBU'].
    mean().
    reset_index().
    merge(estilos, how = 'left', left_on = ['StyleID'], right_on = ['StyleID']).
    sort_values(['IBU']))