**Metadata**: Estos notebooks están (más que) inspirados en el excelente trabajo de [Jake Vanderplas](https://github.com/jakevdp/) y su [Whirlwind Tour Of Python](https://github.com/jakevdp/WhirlwindTourOfPython). Ver A Whirlwind Tour of Python by Jake VanderPlas (O’Reilly). Copyright 2016 O’Reilly Media, Inc., 978-1-491-96465-1.". Estos notebooks están protegidos con la misma licencia de los originales, [Creative Commons 0](). Todas las notas están disponibles en [PrograUDD](https://github.com/leoferres/prograUDD).

**Nota**: Estos notebooks están basados en la cátedra de programación dirigida por el Excmo. Sr. Dr. [Leo Ferres](https://github.com/leoferres). 
Bajo licencia [Creative Commons 0](). Todas las notas están disponibles en [TallerDataScience](https://github.com/diegocaro/tallerds).


**Nota2**: Esta presentación basada en el trabajo de [Jake Vanderplas](https://github.com/jakevdp/) https://github.com/jakevdp/PythonDataScienceHandbook. Bajo licencia CC0.


# Objetivos de la clase
1. Elaborar código Python usando estructuras de datos ``list`` y ``str``.
1. Analizar datos usando el módulo Pandas.

# Ciclos iterativos aka ``for``

Los loops en Python son una manera de ejecutar código repetidamente. Supongamos que queremos imprimir todos los elementos de una lista:

In [2]:
for k in [2, 3, 5, 7]:
    print(k, end=' ')

2 3 5 7 

Fíjense las partes del loop: el `for`, una variable `k` para mantener estado, el operador de membresía `in` y la lista misma. 

**Es casi lenguaje natural**

La parte más a la derecha del ciclo for (donde está la lista) puede ser cualquier *iterador* (un objeto que podamos "recorrer"), para más información revisar [aqui](http://anandology.com/python-practice-book/iterators.html).

Uno de los iteradores más comunes de Python es la función `range()`, que genera una secuencia de números.

In [3]:
for i in range(10):
    print(i, end=' ')

0 1 2 3 4 5 6 7 8 9 

Noten que siempre las iteraciones empiezan con 0 y que por convención el último elemento del objeto no se incluye (el número "10" en este caso). El objeto `range` puede tomar secuencias (rangos, por eso el nombre) más complicados, por ejemplo:

In [4]:
# range de 5 a 10
list(range(5, 10))

[5, 6, 7, 8, 9]

In [5]:
# range de 0 a 10 de a 2
list(range(0, 10, 2))

[0, 2, 4, 6, 8]

In [6]:
range(5,10)

range(5, 10)

Vocabulario:
- Usaremos la palabra **iterar** cuando se debe ejecutar un ciclo para computar algún valor.

## `break` y `continue`

Algunas veces se necesita interrumpir el código

 - `break` detiene el loop
 - `continue` se salta a la siguiente iteración del código

In [7]:
for n in range(20):
    # si el resto es 0, salte lo que queda de la iteración
    if n % 2 == 0:
        continue
    print(n, end=' ')

1 3 5 7 9 11 13 15 17 19 

In [8]:
for n in range(20):
    # si el resto es 0, salte lo que queda de la iteración
    if n == 5:
        break
    print(n, end=' ')

0 1 2 3 4 

In [9]:
nombre = "pablo"
if nombre != "jose":
  print('caso 1')

caso 1


# Estructuras de datos!


Hemos visto los tipos de datos simples de Python: `int`, `float`, `str`, etc. Python también tiene algunas tipos de datos complejos:

| Tipo | Ejemplo                    |Descripción                            |
    |-----------|---------------------------|---------------------------------------|
    | ``list``  | ``[1, 2, 3]``             | colección                     |
    | ``tuple`` | ``(1, 2, 3)``             |colección ordenada inmutable (no se puede actualizar)          |
    | ``dict``  | ``{'a':1, 'b':2, 'c':3}``  | Diccionario (llave,valor) sin orden         |
    | ``set``   | ``{1, 2, 3}``              |Conjunto, colección sin orden objectos únicos |
    
Como ven, lo que define el tipo de objetos son los parentesis, corchetes, y llaves con ciertas pequeñas diferencias.

## Las listas

Una lista es una colección de objetos ordenados de la misma manera en que fueron insertados.
Se definen con los valores separados por comas:


In [10]:
L = [7, 3, 5, 2]

In [11]:
L # ¿Qué pasó aquí? ¿Por qué se imprimió sin usar "print"?

[7, 3, 5, 2]

Hay una serie de **métodos** disponibles para las listas, veamos algunos de los más comunes:

(Recordar que un **método** es una mecanismo que permite acceder y modificar el contenido de una variable)

In [12]:
# largo de la lista
len(L)

4

In [13]:
# agregar un elemento a la lista
L.append(11)
L

[7, 3, 5, 2, 11]

In [14]:
# aquí, la operación de suma concatena (une) listas
L + [13, 17, 19]

[7, 3, 5, 2, 11, 13, 17, 19]

In [15]:
nuevalista = L +[11, 33, 44]
nuevalista

[7, 3, 5, 2, 11, 11, 33, 44]

In [16]:
L.extend([11, 33, 44])
L

[7, 3, 5, 2, 11, 11, 33, 44]

In [17]:
# sort() ordena la lista (modifica la posición de los elementos de acuerdo a alguna operación)
L = [2, 5, 1, 6, 3, 4]
L.sort()
L

[1, 2, 3, 4, 5, 6]

Hay muchos más métodos que se encuentran en la [documentación de Python](https://docs.python.org/3/tutorial/datastructures.html).

Las listas pueden contener cualquier clase de objeto, pero guarda como la estructuran y acceden!

In [18]:
L = [1, 'two', 3.14, [0, 3, 5]]

In [19]:
L[3]

[0, 3, 5]

Las listas también puedes recorrerlas con un ciclo for:

In [20]:
L = [44, 31, 0, 21]
for elem in L:
  print(elem)

44
31
0
21


Y también podemos hacer código más entretenido cuando recorremos la lista con [iteradores](https://docs.python.org/3/glossary.html#term-iterator).

In [21]:
L = [44, 31, 0, 21]
for elem in reversed(L):
  print(elem)

21
0
31
44


## Accediendo a elementos de la listas y sublistas

Python tiene un metodo conveniente para acceder a los diversos valores de las listas o a "rangos" de valores. Esto se hace a través de una notación tipo matricial (bueh, donde los subíndices se cambian por corchetes):

In [22]:
L = [2, 3, 5, 7, 11]

De nuevo, Python usa 0-based indexing para acceder a los miembros, eso significa que el primer elemento de la lista está en la posición cero:

In [23]:
L[0]

2

In [24]:
L[1]

3

Los elementos al final de la lista pueden accederse con índices negativos:

In [25]:
L[-1]

11

In [26]:
L[-2]

7

También podemos obtener una subsecuencia de elementos. Los elementos dentro del corchete indican el inicio y el fin de los elementos que se desean recuperar:

In [27]:
L[2:4]

[5, 7]

Recordar: 

![indexando listas](https://github.com/jakevdp/WhirlwindTourOfPython/raw/f40b435dea823ad5f094d48d158cc8b8f282e9d5/fig/list-indexing.png)

## Intermezzo: documentación y autocompletado en Jupyter Notebook

Si no recordamos para que sirve una función o que argumentos recibe, podemos usar la función de documentación de Jupyter. Para acceder a la documentación de una función presiona **shift+tab** sobre el nombre de una función dentro de una celda de código. Por ejemplo, mueve el cursor sobre la palabra print y presiona shift+enter:

In [28]:
print()




Jupyter también permite autocompletar el nombre de variables y funciones usando la tecla **tab**. Escribe `pri` y presiona tab:

In [29]:
print()




La función de autocomletar también funciona para descubrir los argumentos de una función. Prueba presionando **tab** entre los paréntesis de la función print:

In [30]:
print()




Y también pueden chequear si la función/método tiene parámetros especiales!

In [31]:
L = [2, 5, 1, 6, 3, 4]
L.sort(reverse=True)
L

[6, 5, 4, 3, 2, 1]

## Ejercicio

* Asuma que el entregan una lista con números. Diseñe un código que calcule el cuadrado de cada número. El resultado se debe entregar en una lista.


In [32]:
numeros = [1, 2, 99, 101]
cuadrado = []

# su codigo acá

cuadrado # esto debería devolver [1, 4, 9801, 10201]

[]

* Resolver el problema 1 del [diagnóstico](https://drive.google.com/file/d/1_lKKVBerBLTbZD0kb0WBLRhAu81tNel8/view?usp=sharing) usando ciclos.

In [33]:
notas = [4.0, 6.5, 7.0]
promedio = 0

# su código acá

promedio # esto debería devolver 5.8333333333

0

* Modifique el programa del ejercicio anterior para que tome en cuenta la ponderación de cada nota

In [34]:
notas = [4.0, 6.5, 7.0]
ponderacion = [0.1, 0.3, 0.6]
promedio = 0

# su código acá

promedio # esto debería devolver 6.55

0

# Más sobre strings (cadenas de texto)

Un string es una cadena de texto. Simplemente usa comillas para crear un nuevo string, por ejemplo:

In [35]:
s = "Hola mundo!"
print(s)

Hola mundo!


Puedes unir dos strings con el operador +, y acceder a la i-ésima letra usando el operador corchete '[ ]'. También se puede devolver un substring utilizando la misma notación que en las listas.

In [36]:
s1 = 'Hola'
s2 = 'Chao'

s1 + s2

'HolaChao'

In [37]:
s1[3] # posiciones comienzan en cero!

'a'

In [38]:
s1[:2]

'Ho'

En Python los strings son inmutables. Eso quiere decir que no se pueden modificar. Por ejemplo, no se puede actualizar una letra dentro de un string:

In [39]:
s = "Mi super string"
s[0] = "m"

TypeError: 'str' object does not support item assignment

Para actualizar el string debes crear uno nuevo. Puedes hacer concatenando (unir) strings:

In [40]:
nuevos = "nuestro" + s[2:]
nuevos

'nuestro super string'

Esta es otra forma de hacer lo mismo. Los paréntesis `{}` se reemplazan por el parámetro del método `.format(...)`:

In [41]:
nuevos2 = 'nuestro {}'.format(s[2:])
nuevos2

'nuestro  super string'

También es posible dividir el string en substrings de acuerdo a un separador. El siguiente código obtiene una lista con las palabras de una frase (separadas por espacio):

In [42]:
s = "Había una vez una gata blanca"
L = s.split()
print(L)

['Había', 'una', 'vez', 'una', 'gata', 'blanca']


Y también se puede concatenar varios strings. En el siguiente código se unen las palabras que están en L con un punto.

In [43]:
".".join(L)

'Había.una.vez.una.gata.blanca'

### Ejercicio
* ¿Cómo imprimir un string al revés? (hint: usa un ciclo o la generación con sublistas 'con espacios'!)

In [44]:
mensaje = 'Hola Mundo!'

# tu codigo aquí

mensaje # debería devolver '!odnuM aloH'

'Hola Mundo!'

* Resolver el problema 2 del [diagnóstico](https://drive.google.com/file/d/1_lKKVBerBLTbZD0kb0WBLRhAu81tNel8/view?usp=sharing) recuperaendo el país con el **mejor y el peor coeficiente de Gini**. Para abrir un archivo puede usar la función `open(path)`, por ejemplo:

In [45]:
!mkdir clase03;
!wget -O clase03/gini_by_country.csv https://raw.githubusercontent.com/diegocaro/tallerds/master/clases/clase03/gini_by_country.csv

mkdir: clase03: File exists
--2018-04-05 11:14:28--  https://raw.githubusercontent.com/diegocaro/tallerds/master/clases/clase03/gini_by_country.csv
Resolving raw.githubusercontent.com... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 637 [text/plain]
Saving to: 'clase03/gini_by_country.csv'


2018-04-05 11:14:28 (16.4 MB/s) - 'clase03/gini_by_country.csv' saved [637/637]



In [46]:
!head clase03/gini_by_country.csv

Slovenia,0.251
Denmark,0.256
Slovak Republic,0.247
Czech Republic,0.257
Iceland,0.246
Norway,0.257
Finland,0.257
Belgium,0.266
Austria,0.274
Germany,0.289


In [47]:
file = open('clase03/gini_by_country.csv')
for line in file: # este ciclo recorre cada linea del archivo
    print(line, end='')

Slovenia,0.251
Denmark,0.256
Slovak Republic,0.247
Czech Republic,0.257
Iceland,0.246
Norway,0.257
Finland,0.257
Belgium,0.266
Austria,0.274
Germany,0.289
Hungary,0.288
Poland,0.298
Luxembourg,0.284
Korea,0.302
France,0.297
Ireland,0.298
Canada,0.313
Australia,0.337
Italy,0.326
Japan,0.33
New Zealand,0.349
Spain,0.344
Portugal,0.338
Greece,0.339
Latvia,0.35
Lithuania,0.381
United Kingdom,0.356
Israel,0.365
Turkey,0.398
Mexico,0.459
Costa Rica,0.491
Chile,0.454
Estonia,0.346
Netherlands,0.305
Sweden,0.274
Switzerland,0.297
United States,0.394
Brazil,0.47
China (People's Republic of),0.556
India,0.495
Russia,0.376
South Africa,0.62

# Introducción a Pandas

![pandas](http://pandas.pydata.org/_static/pandas_logo.png)

* Introducción a Pandas para análisis de datos.
* Pandas es un módulo de Python para realizar análisis de datos http://pandas.pydata.org/


In [0]:
import pandas as pd

In [0]:
df = pd.read_csv('clase03/gini_by_country.csv', names=['country','gini'])
df.head()

Unnamed: 0,country,gini
0,Slovenia,0.251
1,Denmark,0.256
2,Slovak Republic,0.247
3,Czech Republic,0.257
4,Iceland,0.246


In [0]:
df = df.sort_values('gini', ascending=False)
df.head(10)

Unnamed: 0,country,gini
41,South Africa,0.62
38,China (People's Republic of),0.556
39,India,0.495
30,Costa Rica,0.491
37,Brazil,0.47
29,Mexico,0.459
31,Chile,0.454
28,Turkey,0.398
36,United States,0.394
25,Lithuania,0.381


# Resumen de la clase

  * **for**: recorrer elementos de alguna colección o iterador (ejemplo: recorrer los elementos de una lista).
  * **continue**: saltar a la siguiente iteración.
  * **break**: detener el ciclo for o while.
  * **list**: colección de objetos, están ordenados según como se insertaron. Se accede con la posición del elemento.
  * **str**: una colección de caractéres. No se pueden modificar. Se accede con la posición del elemento.
  * **reversed**: iterador para recorrer de manera reversa una lista o str.
  * **int**: convertir str con un número a un objeto tipo entero.
  * **float**: convertir str con un número real a un objeto tipo entero.
  * **DataFrame**: nuestra guía espiritual



# Extra
## Sublistas

La operación de corchetes devuelve solo un elemento. Si queremos obtener una sublista, se debe indicar el rango de elementos que se desea obtener.

In [0]:
# Retorna una lista con los elementos 0, 1 y 2.
L[0:3]

[2, 3, 5]

Si sacamos el 0, se entiende igual "desde el principio de la lista"

In [0]:
L[:3]

[2, 3, 5]

Si dejamos afuera el último índice, se asume el largo de la lista.

In [0]:
L[-3:]

[5, 7, 11]

También como en el "range" podemos especificar un entero más como "salto", tipo:

In [0]:
L[::2]  # equivalent to L[0:len(L):2]

[2, 5, 11]

Si especificamos un "salto" negativo, revertimos la lista:

In [0]:
L[::-1]

[11, 7, 5, 3, 2]

**Vocabulario**:
- Indexing: acceder a un elemento de la lista. Devuelve un elemento.
- Slicing: acceder a un rango de elementos de la lista. Devuelve una sublista.

### Modificando elementos de la lista

No solo podemos usar "indexing" y "slicing" para acceder a elementos, sino también para asignarlos, por ejemplo:

In [0]:
L[0] = 100
print(L)

[100, 3, 5, 7, 11]


In [0]:
L[1:3] = [55, 56]
print(L)

[100, 55, 56, 7, 11]
