# Contendidos

1.  [Introducción](#intro)  
2.  [Elementos Básicos de Python](#elementos)  
3.  [Valores y Operadores](#valores)  
    3.1 [Variables y manejo de números](#valoresNum)  
    3.2 [Operadores lógicos](#opLog)  
    3.3 [Manejo de texto](#strings)
4. [Estructuras de datos](#dataStruc)
5. [Control de flujo](#flow)
6. [Funciones](#funciones)
7. [Modulos](#modulos)  
    7.1 [Numpy](#numpy)
1. [Por qué elegir Python?](#opcional)


# Introducción <a id="intro"></a>

Python es un lenguaje de programación multipropósito, diseñado para 
preservar legibilidad y simpleza sintáctica. Sus características y 
[principios](https://en.wikipedia.org/wiki/Zen_of_Python) lo convierten
en un lenguaje poderoso y fácil de aprender.

Este lenguaje presenta hoy en día un amplio soporte por parte de la comunidad de ciencia de datos / aprendizaje automático, dándose como resultado, la creación de un gran ecosistema compuesto por librerías abiertas, desarrolladas por terceros (*third party packages*), el cual crece de manera activa y provee las herramientas necesarias para la investigación en análisis de datos. 

Las librerías fundamentales para el desarrollo de ciencia de datos en Python provienen de tal contexto y corresponden a:

- Numpy: Manipulación de datos homogéneos basados en arreglos.
- Pandas: Manipulación de datos heterogéneos y/o etiquetados.
- SciPy: Rutinas básicas de computación científica.
- Matplotilib: Visualizaciones de alta calidad.
- Scikit-Learn: Rutinas orientadas aprendizaje automático.
- IPython/Jupyter: Ejecución interactiva y distribución de código.

# Elementos Básicos de Python <a id="elementos"></a>

Es posible trabajar con Python desde la *consola* o *terminal*, desde una interfaz de usuario dedicada (como *spyder* o *pycharm*) o desde **notebooks**. 

Un notebook (o Jupyter-notebook) es un documento basado en navegador, pensado para programar de manera interactiva y de fácil difusión. Su estructura consiste en una lista ordenada de celdas configuradas para soportar código (Python, R, Julia, Haskell ...), texto, formulas matemáticas (latex) y contenido multimedia (imágenes, videos, sonido, etc...). 

Este documento es un notebook, su extensión es .ipynb y esta compuesto por celdas. Para editar una celda, basta con hacer doble click sobre ella. Para ejecutar su contenido se utiliza el comando `Ctrl+Enter`. En el proceso de ejecución, Python procederá de manera secuencial e imprimirá cualquier resultado, gráfico o error bajo la celda. Para ejecutar una celda e inmediatamente pasar a la siguiente es posible usar `Shift+Enter`.

**Ejercicio**

1. Agregue una celda inferior a esta con texto de su preferencia. (markdown)
2. Agregue una segunda celda inferior a la anterior con el siguiente código: 

```python
x = 'Hola CEPAL :)'
print(x)
```

## Valores y operadores <a id="valores"></a>

Python permite trabajar de manera nativa con expresiones matemáticas, texto y estructuras de datos tales como listas y diccionarios. 

### Variables y manejo de números
<a id="valoresNum"></a>

Un aspecto esencial en programación, es el manejo de variables. La asignación de variables en Python utiliza la siguiente sintaxis:

In [None]:
x = 10
y = 5

Donde se ha creado la variable de nombre `x` y se le asigna el valor `10`, análogamente se define la variable `y`. De manera natural, es posible operar sobre los valores de estas variables:

In [None]:
z_1 = x*y
z_2 = x + y
print(z_1)
print(z_2)

En la celda anterior obtenemos el valor de las variables `z_1` y `z_2` dadas `x` e `y`. 

Se hace explicito el valor de estas variables imprimiéndolas en pantalla con la función `print()`.

También se pueden hacer operaciones mas especificas, como la división entera `//` (donde se descarta la fracción), la exponenciación `**` y el módulo `%` (resto de una división).

In [None]:
print(7 // 3)
print(9 ** 2)
print(17 % 4)

### Funciones Numéricas

**Ejercicios**

1. Inserte una celda de código y escriba `pow`, luego presione `Shift+Tab`. Utilice la información mostrada para calcular la raíz cuadrada de `10`.

2. Utilice las funciones `int` y `round` sobre el número `3.5`.

### Operadores lógicos <a id="opLog"></a>

También es posible el manejo de valores booleanos, que pueden ser verdaderos (`True`) o falsos (`False`).
Pueden ser compuestos con los operadores lógicos `and`, `or` y `not`, que corresponden a "y", "o" y "negación".

Notar que la primera letra de `True` y `False` debe ser mayúscula.

In [None]:
print(not False and True)
print(not True or False)
print(True or (not True and ((True and False) or (True and not False))))

Estos operadores booleanos serán útiles a la hora de comparar valores. Existen varios comparadores: para indicar igualdad `==` , desigualdad `!=`, menor que `<`, mayor que `>`, menor o igual que `<=` y mayor o igual que `>=`.

In [None]:
a = (1/7 <= 0.2)
b = 1 + 7 * (8 - 4) / 3
H = (b > 11)

print('Valores a,H,b :',a,H,b, '\n')
print('Resultado a "y" H :', a and H, '\n')

Observación: 
* El operador `'\n'` en `print()` indica un salto de linea.

**Ejercicio**

* Suponga que los ingresos monetarios de una población presentan valores entre 0 y 100 unidades. Dada una persona con ingreso P, muestre en pantalla si tal persona pertenece al tramo A, de ingresos inferiores a 30 unidades, B entre 31 y 70 unidades o C entre 71 y 100 unidades.

### Manejo de texto <a id="strings"></a>

Para trabajar con fragmentos de texto, rodearemos el texto entre comillas simples `'` o dobles `"`. No importa cual de las dos, mientras ambas comillas sean del mismo tipo. Este tipo de valor se conoce como "string" por su nombre en inglés.

In [None]:
print("¡Hola")
print('Mundo!')

Podemos "sumar" strings con `+` para obtener su concatenación. Igual que con los números podemos guardar valores intermedios en variables

In [None]:
print("¡Hola " + "mundo!")

nombre = "CEPAL"
print("¡Hola " + nombre + "!")

Podemos convertir valores numéricos en strings usando la transformación `str(número)`.

La transformación `str()` también sirve para todo tipo de objetos en Python.

In [None]:
x = 2
print("x = " + str(x))

Es posible añadir *comentarios* en un bloque de código. Un comentario corresponde a texto dentro del código, que es visible pero no se ejecuta. En Python, los comentarios se marcan con el signo `#`. Todo lo que viene después de este signo en una línea no afecta la ejecución del programa. El uso de comentarios es útil para indicar el significado de cierta sección del código o para quitar de la ejecución cierto tramo para buscar errores.

La siguiente celda tiene un ejemplo de su uso.

In [None]:
# Comentario: visible pero no ejecutado.
print('Celda comentada')

Los tipos de dato en Python son considerados como objetos y por tanto poseen métodos asociados, en el caso de las variables tipo `str` el método `format` es de especial utilidad:

In [None]:
'La suma de 2 + 2 es "{}" (modulo "{}") '.format(1,2)

Este método busca todas las instancias de `{}` dentro de la variable `str` y los reemplaza por su argumento, en este caso 1 y 2.

## Estructuras de datos<a id="dataStruc"></a> 

Python posee tipos de datos compuestos, usados para agrupar valores. El común es la lista, esta puede ser escrita como un arreglo de valores separados por coma (ítems) entre corchetes `[]`. Las listas pueden contener ítems de diferentes tipos, pero usualmente los ítems son del mismo tipo:

In [None]:
a = [1, 2, 3]
b = [4, 'auto']
print(a)
print(b)

Es posible acceder a sus elementos con la sintaxis `variable[índice]`. En Python, los índices comienzan en cero.

In [None]:
a = [4, 6, 5]
print("el primer elemento es " + str(a[0]))
print("el segundo elemento es " + str(a[1]))
print("el tercer elemento es " + str(a[2]))

El tamaño de la lista se obtiene usando `len()`. También sirve para strings.

In [None]:
print(len([3, 5, 4, 1]))
print(len("Texto de prueba"))

Una practica habitual consisten en definir listas vacías como contenedores de valores futuros. Estos valores futuros se agregan mientras se van obteniendo con la función append usando `lista.append(nuevo_elemento)`.

In [None]:
a = [] # Lista vacia
a.append(4) 
a.append(5)

print(a)

Además de acceder a cada elemento, las listas de Python pueden ser indexadas por rango. Esto permite entregar una nueva lista con elementos contiguos de la lista original. La sintaxis para esta operación es `lista[inicio:fin]`. La nueva lista contendrá los elementos en los índices que cumplen `inicio <= índice < fin`.

Así, `lista[0:6]` entregará una nueva lista con los primeros seis valores de la lista original.

Si se omite `inicio` se asumirá que es cero. Por ejemplo `lista[:6]` toma los primeros seis valores.

Si se omite `fin` se asumirá que es el final de la lista. Por ejemplo `lista[6:]` toma todos los valores después del sexto.

Si se omiten ambos `inicio` y `fin` se generará una copia completa de la lista. Por ejemplo `lista[:]` contendrá una copia de cada valor.

Ambos valores pueden ser negativos, que indica que hay que contar desde el final. Por ejemplo `lista[-2:]` entregará los valores desde el segundo desde el final, es decir, los dos últimos valores.

In [None]:
x = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

print("x[0:6] = " + str(x[0:6]))
print("x[:6]  = " + str(x[:6]))
print("x[6:]  = " + str(x[6:]))
print("x[:]   = " + str(x[:]))
print("x[-2:] = " + str(x[-2:]))

Esta operación (conocida como `slice`) permite la simplificación de operaciones en los índices de las listas y es ampliamente soportada por librerías externas de Python (como Numpy por ejemplo, que se verá más adelante). 

En la siguiente celda se intenta operar sobre una lista `X` entendida como una serie valores. Se quiere calcular la variación de esta serie  $\hat{x_t} = x_{t+1} - x_{t}$, sin embargo, esta operación no es posible, por lo que se obtiene un error:

In [None]:
X  = [1.2, 2.4, 3.1, 4.2, 1.2, 6.5, 3.2, 1.1]
X_hat = X[1:] - X[:-1]

print(X[:-1])
print(X_hat)

Dentro de las operaciones con listas, no se encuentra la resta, esto pues dos listas pueden contener ítems completamente heterogéneos, aparte de poseer longitudes distintas. 

La estructura de los mensajes de error es bastante estándar en Python: la última línea indica el nombre del error que ocurrió (en este caso, `TypeError`), junto con una explicación de cuál es el problema (en este caso, no se pueden restar listas).

Las líneas anteriores indican en que parte del código se generó el error. En este caso, indica que en la línea 2 se produjo.

Observación: El manejo de arreglos numérico se lleva a cabo de manera estándar con la librería Numpy, haciendo uso de esta se podrá reparar el problema de la celda anterior.

**Ejercicio**

1. La estructura de lista posee *funciones internas* o *métodos*. Dada una lista `L`, es posible acceder a estas funciones usando un punto `.` luego del nombre de la lista, en esta caso `L.método`. Defina una lista y explore los métodos `extend`, `append` y `sort`. 

### Diccionarios

Una estructura de datos bastante común, dada su flexibilidad son los diccionarios, denotados por `dict`. Estos corresponden a una colección de pares ordenados  por valores de "llave":

In [None]:
# Una forma de declarar un diccionario es usar parentesis "curvas"

dict_1 = {'a':'valor_1','b':list('abcd'), 'c':1}
# Observación: se debe declarar dentro de "{}" la estructura es 'key' : 'value' 

# Para buscar una llave dentro del diccionario se puede usar 'key' in dict:

print('c' in dict_1) # la llave 'c' esta presente en el dict
print()
print('d' in dict_1) # el valor 'd' esta en la llave 'b' pero no es una llave
print()

# Se puede acceder a los valores del diccionario usando dict['llave']
print(dict_1['b'])
print()

# Los elementos de un diccionario pueden ser listas o estructuras propias
# en el caso dict_1['b'] es una lista, podemos acceder al elemento [i] de la
# lista usando dict_1['b'][i]

print(dict_1['b'][2])
print()

Existen más estructuras de datos, entre ellas las tuplas y conjuntos. En el siguiente enlace es posible encontrar más información al respecto:

http://docs.python.org.ar/tutorial/3/datastructures.html

## Control de Flujo<a id="flow"></a> 

Hasta ahora, Python se presenta como una calculadora capaz de manejar estructuras de datos, compararlas y mostrarlas en pantalla. Sin embargo, los algoritmos interesantes toman decisiones a lo largo del procesamiento. Para ello, Python incluye el comando `if`, que ejecutará una serie de ordenes sólo si una condición lógica es verdadera.

Su sintaxis es:
```python
if condición: #(no indentado, termina con ":")
	código condicional #(indentado)
	más código condicional #(indentado)
este código ya no es condicional #(no indentado)
```

Todo el código condicional debe estar indentado un nivel más que el `if`. Esta última condición es obligatoria y se incluye para mejorar la estética del código, facilitando su lectura. Esto diferencia a Python de la mayoría de los otros lenguajes de programación, donde la indentación no juega ningún papel "funcional" dentro de la estructura del código.

In [None]:
a = 2
if a > 4:
    print("a es mayor que 4")

if a < 4:
    print("a es menor que 4")

`if` puede ser acompañado de una cláusula `else` que se ejecutará en caso de que la condición sea falsa.

In [None]:
a = 5.2

if a > 5.0:
    print("a es mayor que 5.0")
else:
    print("a no es mayor que 5.0")

También podemos encadenar varios `if` usando `elif` de manera que el primero que sea verdadero ejecute su código. Nuevamente podemos agregar un `else` que se ejecutará si ninguna otra cláusula es verdadera

In [None]:
a = 7.2

if a > 10.0:
    print("a es mayor que 10.0")
elif a > 8.0:
    print("a es mayor que 8.0")
elif a > 6.0:
    print("a es mayor que 6.0")
else:
    print("a no es mayor que 10.0, que 8.0 o que 6.0")

Así como un programa interesante suele tomar decisiones, también suele repetir un mismo procesamiento varias veces. Esto se expresa con `for` en Python.

Su sintaxis es:
```python
for i in L: #(no indentado)
	código a iterar #(indentado)
	más código a iterar #(indentado)
este código no se iterará #(no indentado)
```
Nuevamente el código dependiente debe estar indentado.

Python ejecutará el código para cada elemento `i` de la lista (o iterador) `L`. En cada iteración, `i` tomará el valor del siguiente elemento de `L`.

**Observación**: Los iteradores se comportan como listas, pero son más eficientes con los recursos, `range()` es un iterador de uso frecuente. (`range(N)` entrega los números desde `0` hasta `N-1`. Por ejemplo `range(4)` será `[0, 1, 2, 3]`)

In [None]:
for i in range(5):
    print(i)    

In [None]:
N = 10
lista_autos = []n la proxima sesión se va a observar como estos centroides se van poscionando 
for NoImportaElNombre in range(N):
    
    nombre_pivote = str(NoImportaElNombre+1)
    lista_autos.append('A' + nombre_pivote)
    
print(lista_autos)

La última instrucción de control de flujo es `while`. Al igual que `for`, repite un grupo de comandos varias veces, pero en vez de ejecutarlos para cada elemento de una lista, `while` los ejecuta hasta que una condición dada sea falsa.

Su sintaxis es:
```python
while condición_lógica: #(no indentado)
	código a iterar #(indentado)
	más código a iterar #(indentado)
este código no se iterará #(no indentado)
```

Al encontrarse con `while`, Python calculará el valor de la condición. Si es verdadero, ejecutará el código dependiente. Luego volverá a revisar el valor de la condición. Si nuevamente es verdadero, volverá a ejecutar el código, y así hasta que sea falso.

In [None]:
a = 1

while a < 10:
    print(a)
    a = a + 1

print("Completado")

Otra característica útil es la comprensión de listas, esta hace uso de una sintaxis reducida de control de flujo para producir listas de manera compacta:

In [None]:
# Lista de los primeros 100 numeros entre 0 y 99.
a = [i for i in range(100)]

# Lista de los cuadrados de los numeros anteriores.
b = [i**2 for i in a]
print(b)

De igual manera la comprensión de diccionarios permite simplificar la escritura:

In [None]:
{'elemento_'+str(i):i for i in range(6)}

nombres = ['Priscila','Celestino','Angelino','Bernardo','Rosa','Serafina']
nombres_dict = {n:i for i,n in enumerate(nombres)}

print('diccionario de nombres enumerados: ')
print(nombres_dict,'\n')

nombres.sort()
print('Nombres ordeados:', nombres)

**Ejercicios**

Con lo hasta aquí visto, es posible comenzar a construir un algoritmo de clustering básico pero ampliamente utilizado en ciencia de datos. 

El algoritmo a implementar se conoce como **k-means**, este corresponde a la rama del aprendizaje no supervisado y consiste en agrupar de manera iterativa puntos similares dentro de un mismo cluster (o grupo). Para calcular la similitud se hace valer de una función de distancia la cual usted deberá implementar.

*  Declare dos listas numéricas de longitud N. Estas listas serán usadas para probar si su función de distancia funciona correctamente, por tanto N puede ser el valor que Usted estime conveniente. (En la siguiente sección abstraerá su función para que funcione con datos reales)

* Implemente la distancia euclidiana sobre las listas que declaró en el paso anterior. Esta se define por  $\sqrt{\sum_{i = 1}^{N} |x_i - y_i|^{2}}$, donde $x = (x_1, ..., x_N)$ e $y = (y_1, ..., y_N)$ son las listas definidas anteriormente.  

In [None]:
# Inpute las listas de largo arbitrario
lista_a = []
lista_b = []

# Inicialice 'Suma'
Suma = 

# Recorra los valores de ambas listas mediante un ciclo for
for i in range(len()):
    # Para cada i , actualice el valor de 'Suma'
    Suma += 

# Una vez el ciclo for terminado se realiza la última operación necesaria sobre 'Suma'
Suma = pow(Suma, 1 / 2)

# Pruebe su rutina
print(Suma)

## Funciones<a id="funciones"></a> 

En la práctica, una vez que se resuelve un problema, no tiene sentido resolverlo de nuevo. En su lugar, tiene sentido abstraer la solución para reutilizar tal sección de código en las situaciones pertinentes. Para ello se creará una función con la instrucción `def`.

Su sintaxis es:
```python
def nombre_funcion(argumento1, argumento2, argumento3):
	código reutilizado
	más código reutilizado
```

Los argumentos sirven para pasar información externa al código de la función.

Para usar la función se debe usar su nombre, junto con los argumentos correspondientes,

```python
nombre_funcion(dato1, dato2, dato3)
```

Al encontrarse con esta instrucción, Python ejecutará el código de la función, donde `argumento1` tendrá el valor de `dato1` y así sucesivamente.

Una función puede tener tantos argumentos como sea necesario.

In [None]:
def saludar():
    print("¡Hola!")

def contar_hasta(N):
    for i in range(N):
        print(i + 1)

def contar_entre(bajo, alto):
    for i in range(bajo, alto):
        print(i)
#Comment
x = 'chao'
print(x)
print("-------")
saludar()
saludar()
saludar()
print("-------")
contar_entre(2, 5)#Comment
x = 'chao'
print(x)
print("-------")
contar_hasta(6)

Muchas veces es útil que una función entregue un valor al código que la llamó. Para ello se usa la instrucción `return`.

Sintaxis:
```python
def funcion(argumentos): #(no indentado)
	código reutilizado #(indentado)
	más código reutilizado #(indentado)
	...
	return valor_de_interés #(indentado)
```

Luego, a la hora de usar a la función, se puede extraer el valor que devolvió y usarlo posteriormente, por ejemplo, guardarlo en una variable.

```python
x = funcion(1)
```

En este caso, tras ejecutar la función, el valor de `x` será `valor_de_interés`.

In [None]:
def cuadrado(x):
    return x * x

def cubo(x):
    return x * x * x

x = 4
x2 = cuadrado(x)
x3 = cubo(x)

print(x)
print(x2)
print(x3)
print(cubo(x3))

Una función puede devolver más de un valor

In [None]:
def intercambiar(x, y):
    return y, x

x = 2
y = 3

x, y = intercambiar(x, y)

print("x = " + str(x))
print("y = " + str(y))

**Ejercicio**

Se va a continuar la construcción del algoritmo **k-means** como una función. 

* Defina la distancia antes obtenida usando la sintaxis de función. esta deberá ser capaz de calcular la distancias entre dos listas numéricas de igual longitud. Declare tal función como `dist(arg_1,arg_2)`.

In [None]:
def dist(lista_x, lista_y):
    """
    lista_x <- list, lista de números.
    lista_y <- list, lista de números.
    """
    # Utilice parte del código del ejercicio de la Sección Control de flujo
    
    return Suma

# Pruebe su función
dist([3, 4], [0, 0])

* Una alternativa a la definición de funciones usando la sintaxis declarativa antes expuesta, es usar una sintaxis funcional, esta se vale de la función `lambda`, la cual permite definir funciones en línea, por ejemplo, la siguiente función calcula los valores de $f(x) = 2x^{2}$: 
```python
f = lambda x: 2*x**2
```  
Modifique la función de distancia antes obtenida  para calcular la *distancia p*:
\begin{equation*}
    \left ( {\sum_{i = 1}^{N} |x_i - y_i|^{p}}  \right )^{\frac{1}{p}}
\end{equation*}
Para ello, declare el exponente $p$ como argumento de su función. Utilice la notación `lambda` para fijar una función de distancia dado el valor $p$ de su elección. (Esta propiedad se conoce como evaluación parcial en programación funcional)

In [None]:
def dist(lista_x, lista_y, p):
    """
    lista_x <- list, lista de números.
    lista_y <- list, lista de números.
    p <- int, potencia de la distancia.
    """
     
    # defina la función potencia_p con la sintaxis 'lambda'
    potencia_p = lambda x: 
    
    # Utilice el código de la celda anterior y modifique lo necesario
   
    return Suma

# Pruebe su función
dist([4, 5], [1, 1], 2)

## Módulos<a id="modulos"></a> 

Las librerías, o *módulos* en Python corresponden a colecciones de funciones, estructuras de datos y objetos en general. Cada módulo suele especializarse en un área en particular. Por ejemplo, Numpy trata todo el tema de matrices y manejo numérico, Scikit-learn aprendizaje de máquinas; Matplotlib que respecta a gráficos, etc..

Para usar las funciones de un módulo primero se debe descargar el módulo al computador (Anaconda viene con los módulos más usados en Data Science). Luego, se debe importar desde Python usando la instrucción `import`.

Sintaxis:
```python
import nombre_del_modulo
```

Una vez importado, todas las funciones y otros objetos dentro del módulo pueden ser accesados usando su nombre completo `nombre_del_modulo.nombre_de_la_funcion`. Es posible asignar nombre al modulo, de manera que acceder a las funciones sea más sencillo, también es posible solo obtener una función en especifico dado un modulo.

En el primer caso:
```python
import nombre_del_modulo as nuevo_nombre_modulo
```

En el segundo:
```python
from nombre_del_modulo import funcion as nuevo_nombre_funcion
```
Donde `nuevo_nombre_función`, al igual que `nuevo_nombre_modulo` sólo renombra el recurso que se desea importar (`as`es por tanto opcional).

### Numpy<a id="numpy"></a> 

NumPy es el módulo fundamenta para la computación científica en Python, según [Numpy](http://www.numpy.org/). Este modulo contiene operaciones de alto rendimiento en algebra lineal, transformada de Fourier y calculo de valores aleatorios. Permite el manejo eficiente de arreglos N dimensionales y se integra con C/C++ y Fortran.

Su uso se ha vuelto un estándar en computación científica, en particular en ciencia de datos y machine learning. Se importa usando la sintaxis:

In [None]:
import numpy as np
# " as np " es opcional pero se usa como regla estandar.

Algunas funcionalidades básicas corresponden a:

In [None]:
# Arreglo de "unos" + operacion componente a componente "*9"
e = np.ones(100)*9

# Matriz identidad de dimension "10"
I = np.eye(10)

# Medición robusta de dimensión
len(e)
len(I)

# "Forma" del arreglo

e.shape
I.shape

# Cambio de forma del arreglo argumento [IMPORTANTE]
e_reshape = e.reshape(10,10)

Es posible hacer **slice** como en las listas:

In [None]:
# declaración de un arreglo 4x3
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print('a = ', a)

# Slice del arreglo 

b = a[:2, 1:3]
print('b=',b)

In [None]:
b[0, 0] = 77
print(b)

También permite hacer operaciones lógicas:

In [None]:
a > 3

In [None]:
# seleccionamos los valores "a" mayores que 3
a[a>3]

### Broadcasting de arreglos

**Ejercicio**

* Defina un arreglo 2-dimensional, para ello genere una lista de valores numéricos usando `np.arange` (símil de `range`) luego use el método `reshape` para definir las dimensiones. (hint: Una tabla de 2x2 se puede producir a partir de una lista de 4 elementos con `shape=[2,2]`)

* Declare un arreglo con tantos elementos como columnas tenga su arreglo inicial. ¿Cómo se comporta la suma entre estos arreglos? (hint: la función `randomn` del Módulo  `random` de `Numpy`: `np.random.randomn` permite crear arreglos conformados por números al azar)

Dentro de las funciones disponibles en Numpy se encuentra la exportación y carga de arreglos en formato `.npy`. Si bien esta funcionalidad permite trabajar con datos, existen módulos especializados en esta tarea (pandas por ejemplo). No obstante, a modo de introducción a manejo de datos y uso de Numpy se hará uso de tal funcionalidad. (En la siguiente sesión se profundizará en torno a la visualización y manejo de datos con pandas + matplotlib y seaborn)

**Ejercicios**

Haciendo uso del módulo Numpy y la función de distancia antes definida, se completará el algoritmo **k-means**. Esto se hará con datos reales, correspondientes a la medición del índice de desarrollo humano en relación a la capacidad estadística en 140 países. 

Utilice el siguiente código, para cargar los datos en la variable df (dataframe):

In [None]:
from utils.utils_c1 import grafica_inicialización, grafica_kmeans

# Cargar los datos en una matriz
df = np.load('datos/C1/SCI_HDI.npy')

# Es necesario escalar la columna 0 que corresponde al IDH
df[:, 1] = df[:, 0] / 100

Para programar el algoritmo k-means serán definidas dos funciones: `inicializar_centroides` e `iteracion_kmeans`. Para ello use la estructura declarativa `def` y modele como variables: 
  
   * `k`: correspondiente al numero de centroides.
   * `tol`: tolerancia del modelo.
   * `max_it`: máximo de iteraciones permitidas.
   * `p` (opcional): El grado de la p-distancia a usar.

In [None]:
# Parámetros del algoritmo
k = 6
tol = 0.0001
max_iter = 100
p = 2

# Variables de inicialización
dists = None
n_iter = 0

La función `inicializar_centroides` debe:

1. Dada una cantidad `k`, la función debe obtener `k` números enteros al azar entre 0 y 139. Estos servirán para obtener los centroides iniciales. Utilice para ello la función np.random.choice

2. Con la lista anterior de números enteros, seleccione `k` filas en la variable `df`, donde la fila seleccionada, corresponderá a un numero entre 0 y 139 tomado de la lista. Cree una nueva lista `centroides` en donde cada ítem sea una de las filas seleccionadas en `df`.

3. Genere un arreglo de tamaño 140 usando `np.zeros`. Este se usará para almacenar el cluster al que cada fila de `df` pertenece. Denote este arreglo por `clust`.

In [None]:
def inicializar_centroides(df, k, seed=1950):
    """
    df <- numpy array, matriz. En las filas, las observaciones y en las columnas, 
            las características o atributos correspondientes.
    k <- int, número de cluster.
    """
    
    # Garantizar replicabilidad
    np.random.seed(seed=seed)
    
    # Inicialice los centroides mediante 'np.random.choice'
    indices_centroides = np.random.choice()
    centroides = df[]  # Recupere las filas que corresponden a 'indices_centroides'
    clust = np.zeros((,))  # Inpute la dimensión del vector
    return centroides, clust

centroides, clust = inicializar_centroides(df, 6)
grafica_inicialización(df, centroides)

La función `iteracion_kmeans` debe:
1. Generar un control de flujo (`if`) que permita un máximo de `max_it` pasos. En cada iteración debe:   
2. Para cada fila de `df`, modificar el arreglo `dists` que contiene la distancia `p` a cada ítem de `centroides`. Es decir, deberá recorrer cada fila de `df` y en cada paso, obtener un arreglo de tamaño `k` con su distancia a cada elemento de `centroides`.    Las filas de `df` se denotarán como *observaciones*.  
3. En `dists` obtener el índice con menor distancia usando np.argmin() y almacenar este valor en el arreglo `clust`. Este índice representa al centroide más cercano para la observación actual. (Note que el arreglo `dists` varia para cada observación de `df` y en cada iteración del ciclo)  
4. Una vez obtenido el centroide más cercano a cada observación, obtener todas aquellas filas que comparten el mismo índice en `clust` y calcular el promedio de estas. El valor obtenido debe reemplazar al valor del centroide correspondiente. Para ello definir la variable `centroides_old` con los valores actuales de `centroides` y luego reemplazar los valores de `centroides` con los promedios obtenidos. (Recuerde que si el centroide $j$ es el más cercano a la observación $i$ entonces su valor de `clust` es $j$, en este paso, se le pide que calcule el promedio de todas las filas de `df` que comparten `clust` = $j$ y reemplace el valor del centroide $j$ por aquel promedio)  
5.  Calcule la distancia entre los ítems de `centroides_old` y `centroides`, almacenándolos en `dists_centroides`. Si la máxima distancia entre ellos es menor que `tol` debe detener el flujo externo (el número de iteraciones `n_iter` no se incrementa).
    
El resultado es graficado gracias a la función `grafica_kmeans` que fue diseñada para dicho fin.

Observe que si bien los centroides iniciales pertenecen a `df`, los obtenidos finalmente son *prototipos* que permiten hacer cierto análisis sobre la distribución de los datos en el plano.

In [None]:
def iteracion_kmeans(df, centroides, clust, dists, p, tol, max_iter, n_iter):
    """
    df <- numpy array, matriz. En las filas, las observaciones y en las columnas, 
            las características o atributos correspondientes.
    centroides <- numpy array, matriz. En las filas, los centroides y en las columnas, 
            las características o atributos correspondientes.
    clust <- numpy array, vector. Contiene las asignaciones de las observaciones de df
    dists <- numpy array, matriz. Contiene las distancias de la observaciones y los k
               centroides. 
    p <- int, potencia de la función distancia
    tol <- float, tolerancia del modelo.
    max_iter <- int, máximo de iteraciones permitidas.
    n_iter <- int, número de iteraciones realizadas.
    """
    
    # verificar que el máximo numero de iteraciones no se haya alcanzado
    if max_iter < n_iter:
        print("Maximo numero de iteraciones alcanzado!")
    else:
        # Verificar que la matriz de distancias se haya inicializado
        if dists is None:
            dists = np.ones(()) * np.inf  # inpute el tamaño de 'np.ones'
            
        # Actualizar la distancia y la asignación de cada una de las observaciones
        for i in range():  # inpute el largo del ciclo for
            
            # Calcular la distancia de la observación a todos los centroides
            for j in range(): # inpute el largo del ciclo for
                dists[i, j] = dist() 
            # Reasignar la observación a su centroide más cercano
            clust[i] = 
            
        # Guardar los centroides actuales en memoria
        centroides_old = centroides.copy()
        
        # Inicializar el vector 'dists_centroides'
        dists_centroides = np.ones((,)) * np.inf
        
        # Actualizar los centroides de cada cluster
        for j in range():  # inpute el largo del ciclo for
            centroides[j] = np.mean(, axis=0)  # inpute el argumento de 'np.mean'
            
            # Calcular la distancia del cenroide anterior y el nuevo
            dists_centroides[j] = dist() 
            
        # Verificar si la solución convergió
        if np.max(dists_centroides) <= tol:
            print("La solución convergió!")
        else:
            n_iter = n_iter + 1
    return centroides, clust, dists, n_iter

# Pruebe su función
centroides, clust, dists, n_iter = iteracion_kmeans(df, centroides, clust, dists, p, tol, max_iter, n_iter)

# Grafique el resultado de la iteración
grafica_kmeans(df, centroides, clust, n_iter)

* Finalmente, para ejecutar el procedimiento hasta que la solución converja. Para ello implemente un ciclo `for`, que verifique si la solución converge para pasar a la siguiente iteración:

In [None]:
# Parámetros del algoritmo
k = 6
tol = 0.0001
max_iter = 100
p = 2

# Variables de inicialización
dists = None
n_iter = 0
centroides, clust = inicializar_centroides()

# Grafique la inicialización de los centroides
grafica_inicialización(df, centroides)


for i in range():  # inpute el largo del ciclo for
    
    # Guarde al valor actual de 'n_iter' en 'n_iter_old'
    n_iter_old = n_iter
    centroides, clust, dists, n_iter = iteracion_kmeans()
    
    # Verifique la convergencia del algoritmo
    if n_iter_old == n_iter:
        # Grafique el resultado del algoritmo
        grafica_kmeans(df, centroides, clust, n_iter)
        break

# Conclusión

Así termina esta pequeña introducción al lenguaje Python. Finalmente un pequeño articulo de por que elegir Python sobre otras herramientas.

In [None]:
print("Auf wiedersehen :D")

### ¿Por qué elegir Python por sobre otras alternativas como R, Stata o SAS? <a id="opcional"></a>

Python no es la solución mágica para todo el mundo. Tanto Python como R, Stata y SAS tienen sus puntos fuertes en diferentes áreas, por lo que cada uno tiene su lugar. Sin embargo, haremos un pequeño argumento a favor de Python. Es la responsabilidad del lector analizar qué tanto se aplica en su caso.

Lo primero que hay que notar es que Python y R son lenguajes abiertos y "libres" (así como la mayoría de sus librerías). Esto significa que no hay licencias que pagar o condiciones de uso que seguir; pueden ser usados para cualquier fin de manera gratuita. Incluso, si un "paquete" o librería no calza adecuadamente al proyecto, se puede modificar (o pedir amablemente a algún colaborador que modifique) para incluir nuevas características. Esta apertura es la que atrae a muchos investigadores a publicar sus resultados en Python y R.

Por otro lado, como es natural, Stata y SAS valen lo que valen por algo. Sus interfaces gráficas hacen el proceso simple, sin siquiera necesitar código la mayoría de las veces. Sin embargo, esta simplicidad puede a veces ser su propia desventaja, ya que muchos parámetros pueden quedar escondidos detrás de la interfaz. Aquí Python y R ofrecen más control sobre el proceso de estimación, ya que todos los parámetros pueden ser entregados a medida que sea necesario (pero manteniendo un valor por defecto razonable).

Python y R, al ser lenguajes, pueden automatizar tareas con facilidad. En vez de tener que cambiar parámetros, definir algoritmos y fuentes de datos manualmente cada vez que se utilizan como en las interfaces gráficas, Python y R pueden describir todo el flujo de trabajo en el mismo lenguaje, siendo sólo necesario hacer un click para ejecutar todo el proceso. SAS y Stata también tienen sistemas de Macros para conseguir un resultado similar, pero Python es más legible y además más poderoso ya que tiene acceso a todo tipo de herramientas de sistema: ¿Necesitas bajar un dato de internet como parte del proceso? Se puede. ¿Enviar un email cuando termine? Se puede. ¿Generar un gráfico interactivo? Se puede. ¿Realizar pruebas de rigor para determinar que el algoritmo generaliza a nuevos datos automáticamente cada vez que cambia el algoritmo? Se puede. Etcétera.

En cuanto a disponibilidad de metodologías, los métodos más comunes están en todas las opciones. Posiblemente algún método recién salido del horno estará sólo en R o sólo en Python, pero la gran mayoría aparece en las otras alternativas rápidamente. Un caso importante es el de métodos del estado del arte como redes neuronales profundas (_deep learning_), que sólo están en Python (SAS tiene redes neuronales, pero usa modelos de los años 60-80, todos los avances de la última década están en Python y es poco probable que sean portados a otros lenguajes en el corto o mediano plazo por su gran complejidad).

Entre Python y R podemos contar que R es un lenguaje específicamente apuntado a la estadística, mientras que Python es un lenguaje para uso general, lo que se refleja en su sintaxis (para ver una comparación de tareas típicas, puedes ver [este link](https://www.dataquest.io/blog/python-vs-r/)). Como punto adicional, la sintaxis de Python es más estándar con respecto a otros lenguajes de programación, lo que es una ventaja si después se desea trabajar en otra área más especializada.

También hay que considerar que Python ha sido diseñado para que sea fácil de conectar a otras librerías especializadas y optimizadas. Por ejemplo, las partes críticas de Numpy, la librería de matrices de Python, están escrita en C, un lenguaje usado para código de alto desempeño. Así, Python logra ser fácil de escribir y veloz a la vez. Esto hace que sea más fácil de usar en un ambiente de producción que R (entendiendo por producción un producto expuesto al cliente final, como por ejemplo las páginas de Google, YouTube y Facebook).

Por todos estas ventajas, Python es uno de los lenguajes preferidos para trabajar con Big Data y Machine Learning, ya que cuando hay muchísimos datos tenemos que sincronizarlos entre diferentes bases de datos, lo que significa comunicarse con herramientas externas especializadas (que es donde Python brilla). SAS y Stata también tienen sus propias soluciones, pero se deben comprar aparte y son menos flexibles como ya ha sido descrito antes.

Como conclusión podemos quedarnos con uno de los dichos típicos en la industria: "R para el análisis, Python para la producción".