# Introducción Python 

Autores : Cindee Madison, Thomas Kluyver (https://bids.github.io/2016-01-14-berkeley/python/00-python-intro.html)

Gracias a: Justin Kitzes, Matt Davis

Traducción y extensiones por: Santiago Alonso

## 1. VARIABLES 

El componente más básico de cualquier lenguaje de programación son "cosas" o (en casos especiales) objetos

Las "cosas" básicas más comunes en Python son: 
- integer
- float 
- strings 
- booleans 
- Otros (e.g. pandas dataframes, numpy array). Conoceremos muchos de estos a medida que avancemos en la lección.


__TIP:__ Este tutorial está hecho en un jupyter notebook. Para correr rápidamente el código de una celda del notebook, presione shift + enter.

__TIP:__ Para añadir una nueva celda oprima el signo + en el menu de arriba. Cambie el tipo de celda a Markdown, Code, o Raw dependiendo de lo que desee. 

In [None]:
# Una "cosa" (integer)
2

In [None]:
# Use la función print para imprimir multiples "cosas"
# Note que puede usar comillas dobles o sencillas para strings
print(2)
print("hola mundo")
print('hola mundo')

In [None]:
# La función type nos dice el tipo de la cosa 
print(type(a))
print(type(b))
print(type(c))

In [None]:
# Las "cosas" pueden guardarse en variables
a = 2
b = 'hello'
c = True  # This is case sensitive
print(a, b, c)

### <span style="color:purple">Ahora usted</span>
Haga tres variables con los nombres y tipos que usted quiera. Para hacerlo, cree una celda de código abajo de esta

## 2. COMANDOS QUE OPERAN SOBRE LAS "COSAS"

Solo guardar información en variables no es muy útil. Queremos hacer operaciones y manipulaciones sobre esa data y variables.

Hay muchas formas de hacer operaciones. Veamos tres muy comunes.

### 2.1 Operadores

Hay operadores de varios tipos. Tal vez los que todos conocemos bien son los usuales operadores matemáticos (e.g. +). En python, aplicados a números (int o float), funcionan como esperaríamos.

Hay otros operadores, por ejemplo booleanos. Veamos algunos ejemplos a continuación.


In [None]:
# Los operadores matemáticos funcionan en números como esperamos
a = 2
b = 3
print(a + b)
print(a * b)
print(a ** b)  # a elevado a la b (PRECAUCIÓN: diferencia con R: a^b hace otra cosa)
print(a / b)   # Usemos Python 3; en Python 2 es diferente

In [None]:
# Algunos operadores también se pueden usar con strings
print('hello' + 'world')
print('hello' * 3)
#print('hello' / 3)  # You can't do this!

In [None]:
# Los operadores Booleanos comparan "cosas" 
a = (1 > 3)
b = (3 == 3)
c = 'vaca' == 'Vaca' 
d = 'vaca' == 'vaca'
print(a)
print(b)
print(c)
print(d)
print(a or b)
print(a and b)

### 2.2 Funciones

Son grupos de instrucciones que transforman el input deseado. 

In [None]:
# Hay miles de funciones que operan sobre "cosas"
print(type(3))
print(len('hello'))
print(round(3.3))

__TIP:__ Para saber qué hace una función, escriba el nombre de la función seguido de el signo de pregunta.

In [None]:
round?
round(3.14159, 2)

__TIP:__ Muchas funciones no están incluidas en la instalación base de Python. Hay paquetes científicos que hay que instalar e importar manualmente. Aprenderemos de algunos importantes en este curso.

In [None]:
# Muchas funciones importantes están en paquetes externos. 
# Conozcamos numpy y pandas
import numpy as np  #le pusimos a numpy un apodo "np", para acortar cuando lo usamos
import pandas as pd

In [None]:
# Para ver las funciones que tiene un paquete, escriba el nombre/apodo seguido de un punto y oprima tab.
# También, vaya a foros como stackoverflow cuando tenga dudas o errores
# pd?
# pd.

In [None]:
# Algunos ejemplos de funciones y 'cosas' en numpy 
print(np.sqrt(4))
print(np.pi)  # No es una función, es una variable
print(np.sin(np.pi))

### 2.3 Métodos

Ya es momento de dejar hablar de 'cosas'. En python hay objetos de diferentes clases. Antes nos referíamos a int, strings, o arrays numpy como "cosas" pero de hecho son objetos de clase int, de clase string, y de clase numpy. 

En los términos más sencillos, piense un objeto como una colección de data y funciones. Las funciones las llamaremos métodos y la sintaxis es diferente. En vez de `function(arguments)`, los métodos se usan `variable.method(arguments)`

Por ejemplo, strings son objetos donde la data son caracteres, con varios métodos aplicables a esa data. 

In [None]:
# Un string es un objeto 
a = 'hola, mundo'
print(type(a))

In [None]:
# Los objetos tienen varios métodos; depende de la clase. Los métodos para strings son diferentes a los de int o numpy
#a. #para ver los métodos y data/valores dentro del objeto a
print(a.capitalize())
print(a.replace('l', 'X'))

### EJERCICIO 1 - Conversión

En este tutorial, vamos a construir poco a poco un programa que calcule la varianza de alturas. La data está en pies, así que lo primero es convertirla a metros. Por el momento, solo convertiremos un valor. Este es el factor de conversión: 

## $inch = \frac{metre}{39}$

1. Cree una celda de code abajo de esta. En esa celda haga lo siguiente.
1. Cree una variable llamada `inches_in_metre` que indique cuantos inches hay en un metro.
1. Cree una variable (`inches`) con cualquier valor en inches.
2. Divida `inches` por `inches_in_metre`, y guarde el resultado en una nueva variable `metres`.
1. Imprima el resultado en pantalla

## 3. COLECCIÓN DE OBJETOS

En el anterior ejercicio, manipulamos un valor. En ciencia de datos, incluyendo economía, tenemos datos más complejos. En el ejemplo que estamos construyendo nos interesa las características y distribución de varias alturas. Python tiene varios objetos que nos permite manipular colecciones de objetos.

Casi con certeza, su trabajo científico en Python va a usar alguno de estos objetos: `lists`, `tuples`, `dictionaries`, `numpy arrays`, `pandas dataframes`. Miremos cada uno de ellos para que pueden servirle


### 3.1 Lists

Las lists son probablemente los contenedores de objetos más flexibles. 

Las lists se declaran con corchetes cuadrados []. 

Elementos individuales en una lista se pueden seleccionar con la sintaxis `a[ind]`.

In [None]:
# Las listas son creadas con corchetes cuadrados 
a = ['blueberry', 'strawberry', 'pineapple']
print(a, type(a))

In [None]:
# Las listas, y en general cualquier objeto que tenga varios elementos, se indexan con corchetes cuadrados
# NOTA IMPORTANTE: El primer indice es zero no uno 
print(a[0])
print(a[1])

In [None]:
## Puede indexar contando desde el ultimo elemento de la lista usando indices negativos
print('último item es:', a[-1])
print('penúltimo item es:', a[-2])

In [None]:
# Puede acceder a varios items de la lista a la vez con slicing, con dos puntos entre los indices
# NOTA: El ultimo valor no se incluye (per ejemplo en 0:2, no incluye el indice 2, va hasta el indice 1)
print('a =', a)
print('get first two:', a[0:2])

In [None]:
# Los dos puntos pueden ir al comienzo o al final o solos
print(a[:2]) #comienzo hasta el item 1 (item 1 es el 2, recuerde que contamos desde 0)
print(a[2:]) #item 2 hasta el final
print(a[:]) #toda la lista
print(a[:-1]) #comienzo hasta el penultimo item (i.e. hasta el -2, recordar que -1 no se incluye)

In [None]:
# Las listas son objetos y tienen métodos p.ej. append
a.append('banana')
print(a)

a.append([1,2])
print(a)

a.pop() #¿Qué hace?
print(a)


__PRECAUCIÓN:__ Una importante fuente de confusión para nuevos usuarios de Python es que hay objetos inmutables y mutables. Muchos objetos que agrupan otros objetos, como las listas, son mutables. Esto quiere decir que son apuntadores que apuntan a la data en la memoria, NO son la data como tal. 

Parece confuso pero veamos un ejemplo para aclarar.

In [None]:
#Int, float, strings, son inmutables
a = 1
b = a
print('original b', b)
a = 2
print('¿Qué es b después de cambiar a?', b)

#Las listas son mutables
a = [1, 2, 3]
b = a
print('original b', b)
a[0] = 42
print('¿Qué es b después de cambiar a?', b) # !!!Cambie a pero tambien cambio b!!!

#¿Qué hacer si se quiere que otra lista sea igual a otra sin que el cambio en una se refleje en la otra? Ver el modulo copy
import copy
a = [1,2,3]
b = copy.deepcopy(a)
print('original b', b)
a[0] = 42
print('¿Qué es b después de cambiar a?', b) 


### EJERCICIO 2 - Ponga muchas alturas (en metros) en una lista

1. Cree una celda de code abajo de esta.
1. Preguntele a cinco personas alrededor suyo su altura en metros
2. Pongalas en una lista llamada `heights`.
3. Adjunte su propia altura a la lista anterior con el método `append`
4. Imprima la primera altura de la lista 
5. Imprima el último elemento de la lista
6. Utilicé la función `len` en la lista `heights`. ¿Qué hace la función?

### 3.2 Tuplas

No diremos mucho de tuplas excepto que son parecidas a las listas con dos importantes excepciones:

1. Se declaran usando () no con []
1. Son inmutables, es decir, una vez creadas no se puede cambiar los valores

Es más común usar listas pero las tuples usualmente se usan para: 

1. Cuando la posición de un elemento es esencial, como en coordenadas coord = (x,y)
1. Cuando se quiere evitar modificaciones accidentales de items e.g. shape = (12,23)

In [None]:
xy = (23, 45)
print(xy[0])
xy[0] = "this won't work with a tuple"

### Anatomy of a traceback error

Traceback errors aparecen cuando intenta hacer algo con el código que no debe hacer. Pretende ser informativo, pero no siempre lo es.

Hay muchos tipos de error. El error que aparece cuando corre la celda anterior tiene las siguientes características:

1. **TypeError** significa que se usó una variable de una forma no es aceptable por Python
2. En especifico, los objetos `tuple` son inmutables, no podemos asignar nuevos valores a los items.
3. En notebooks Jupyter, la flecha ----> apunta a la línea donde ocurrió el error.
4. En caso de no entender bien el error, se puede copiar el texto del error y buscarlo en Google. Stackoverflow, un foro de usuarios de lenguajes de programación, es particularmente bueno para aclarar. 
    


### 3.3 Diccionarios

Al igual que las listas, sirven para guardar colecciones de objetos. Su principal diferencia es que permite recuperar items por su nombre en vez de posición. 

Se declaran usando corchetes de llave {}.

In [None]:
# Diccionarios guardan objetos como pares key:value
convertors = {'inches_in_feet' : 12,
              'inches_in_metre' : 39}

print(convertors)
print(convertors['inches_in_feet'])

In [None]:
## Add a new key:value pair
convertors['metres_in_mile'] = 1609.34
print(convertors)

In [None]:
# Raise a KEY error
print(convertors['blueberry'])

### 3.4 Numpy arrays (ndarrays)

Numpy arrays (ndarrays) no son objetos de Python básico pero son muy útiles. Se pueden pensar como vectores o matrices. Entre otras razones, son importantes por:

1. Los arrays pueden tener n-dimensiones (e.g. matrices mxn)
1. Se pueden hacer operaciones de matrices con numpy arrays
1. Se pueden concatenar

Ahora que estamos empezando nuestro recorrido por Python para ciencia de datos, es recomendable tratar de siempre usar ndarrays para guardar colecciones de objetos de la misma clase. Dejar los otros tipos, como listas o tuplas, para usos muy específicos.


In [None]:
# Necesitamos importar la libreria numpy (además de permitirnos construir ndarrays, tiene muchos métodos y atributos útiles)
# La importamos con el apodo np, comunmente usado en la comunidad de usuarios de Python
# Ya la habíamos importado arriba, no es necesario hacerlo 2 veces pero por motivos pedagógicos acá va de nuevo.

import numpy as np

In [None]:
# Hacer un numpy array de una list
alist = [2, 3, 4]
blist = [5, 6, 7]
a = np.array(alist)
b = np.array(blist)
print(a, type(a))
print(b, type(b))

In [None]:
# Hacer aritmética con arrays
print(a**2)
print(np.sin(a))
print(a * b)
print(a.dot(b), np.dot(a, b))

In [None]:
# Los operadores Booleanos también funcionan con arrays y devuelven arrays con valores Booleanos
print(a > 2)
print(b == 6)

c = a > 2
print(c)
print(type(c))
print(c.dtype)

In [None]:
# Indexar/acceder a elementos de arrays
print(a[0:2])

c = np.random.rand(3,3)
print(c)
print('\n')
print(c[1:3,0:2])

c[0,:] = a
print('\n')
print(c)

In [None]:
# Los arrays se pueden indexar con arrays Booleanos (logic indexing)
print(a)
print(b)
print(a > 2)
print(a[a > 2])
print(b[a > 2])

b[a == 3] = 77
print(b)

In [None]:
# Los ndarrays tienen atributos además de métodos
#c.
print(c.shape)
print(c.prod())

In [None]:
# Hay métodos que nos permiten hacer arrays llenos de unos o zeros 
# Útil para cosas como inicializar una variable que luego se llena con otros elementos
print(np.zeros(5), '\n')
print(np.ones(5), '\n')
print(np.identity(5), '\n')

In [None]:
# También tiene métodos para inicializar secuencias de números
print(np.arange(0, 10, 2))

### 3.5 Pandas dataframes

Los dataframes son parecidos a los numpy arrays, de hecho se construyen sobre ellos, y también se pueden pensar como matrices donde cada columna tiene que ser de la misma clase de objetos (e.g. una columna son strings; otra números; otra listas; etc).

Al mismo tiempo, un dataframe y numpy ndarray difieren. Por ejemplo, los numpy array se procesan más rápido por Python pero los dataframe tienen métodos que no tienen los ndarrays y que son muy útiles. Por eso aprendemos ambos.


In [None]:
# Necesitamos importar la libreria pandas (además de permitirnos construir dataframes, tiene muchos métodos y atributos útiles)
# La importamos con el apodo pd, comunmente usado en la comunidad de usuarios de Python
# Ya la habíamos importado arriba, no es necesario hacerlo 2 veces pero por motivos pedagógicos acá va de nuevo.
import pandas as pd

In [None]:
# Un dataframe se puede construir con otros objetos como diccionarios
data = {
    'manzanas': [3, 2, 0, 1], 
    'naranjas': [0, 3, 7, 2]
}
compras = pd.DataFrame(data) #Cada key del diccionario es una columna del dataframe
compras


In [None]:
# Construir con un numpy array
data_numpy_array = np.array([[3, 2, 0, 1], [0, 3, 7, 2]])
compras = pd.DataFrame(np.transpose(data_numpy_array), columns = ['manzanas','naranjas'])
compras


In [None]:
# Construir con una lista
data_list = [[3, 0], [2, 3], [0, 7],[1,2]] #Cada item de la lista es una fila del dataframe
compras = pd.DataFrame(data_list, columns = ['manzanas','naranjas'])
compras


In [None]:
# El constructor enumera las filas pero podemos ponerle nombres
# En un dataframe las filas se llaman index
compras = pd.DataFrame(data, index=['June', 'Robert', 'Lily', 'David'])
compras

In [None]:
# Podemos ubicar los datos de un cliente con el nombre del index
compras.loc['Robert',:] #los dos puntos le dice a python que traiga todas las columnas

In [None]:
# Podemos ubicar los datos de un producto con el nombre de la columna
compras.loc[:,'naranjas'] #los dos puntos le dice a python que traiga todas las filas

In [None]:
# Podemos acceder al valor de una celda 
compras.loc['David','manzanas']

In [None]:
# Con el método reset_index() podemos volver a enumerar las filas si nos arrepentimos de los nombres que pusimos
compras = compras.reset_index(drop = True)
compras

# Esto es útil si preferimos acceder a celdas con posiciones 
compras.iloc[0,0] #accede al valor de la primera celda en la matriz (recordar que en Python se cuenta desde cero)


### EJERCICIO 3 - Análisis simple con numpy arrays

Use la lista de alturas que construyó en el anterior ejercicio.

1. Cree una nueva celda code abajo
1. Convierta la lista en un numpy array y pongalo en una nueva variable
2. Calcule el promedio y la desviación estandard
3. Construya una nueva variable con un array que tenga las alturas mayores a un cierto valor de su preferencia
4. Calcule el promedio de la nueva variable


## 4. ITERAR: LOOPS FOR Y LOOPS WHILE

En las secciones que vienen vamos a empezar a tomar provecho del poder de programar para que automatice tareas.

Comecemos con acciones que se pueden repetir i.e. iterar. Las dos maneras básicas para iterar en un programa es con loops for y loops while. 

Los loops for repiten un mismo set de operaciones sobre los elementos de una colección de objetos, por ejemplo sobre cada fila (o columna) de un dataframe.

Los loops while repiten un mismo set de operaciones hasta que se cumpla una condición.

Abajo veremos algunos ejemplos para clarificar.


In [None]:
# Un loop for básico 
wordlist = ['hi', 'hello', 'bye']
for word in wordlist:
    print(word + '!')

**IMPORTANTE INDENTACIÓN**: Note la indentación una vez entramos al for loop. Python usa esa indentación para saber cuales son los comandos a repetir. Todos los comandos al mismo nivel de indentación entran en el for loop.

Vamos a ver que aplica para otros procedimientos como while loops, condicionales if, declaración de funciones, etc. Lo que hace único a Python es esta indentación. Python es mucho más fácil de leer, relativo a otros lenguajes de programación.

Si no tiene una indentación consistente le aparece un error `IndentationError`. Afortunadamente, la mayoría de editores, incluyendo Jupyter, corrigen la indentación.


In [None]:
# Error de indentación: ¡Arreglelo!
for word in wordlist:
    new_word = word.capitalize()
   print(new_word + '!') # Bad indent

In [None]:
# Sume los valores de la lista 
numlist = [1, 4, 77, 3]

total = 0
for num in numlist:
    total = total + num
    
print("Sum is", total)

In [None]:
# Es usual que necesitemos en la iteración los items e indices 
print(wordlist)
for i, word in enumerate(wordlist):
    print(i, word, wordlist[i])

In [None]:
# Los loops while son útiles cuando no sabes cuántos pasos necesitarás
# y quieres parar tan pronto una condición se cumpla
step = 0
prod = 1
while prod < 100:
    step = step + 1
    prod = prod * 2
    print(step, prod)
    
print('Reached a product of', prod, 'at step number', step)

### EJERCICIO 4 - Varianza

Ahora podemos calcular la varianza de las alturas que recolectamos antes.

Como recordatorio, **la varianza muestral** es la suma de las diferencias de cada observación de la media, elevado al cuadrado:

### $variance = \frac{\Sigma{(x-mean)^2}}{n-1}$

donde **mean** es el promedio de nuestras observaciones, **x** es cada observación individual, y **n** es el número de observaciones.

Primero, cree una celda code abajo de esta.

Segundo, calculemos el promedio:

1. Cree una variable `total` para la suma de las alturas.
2. Usando un loop `for`, agregue cada altura a `total`.
3. Encuentre la media dividiéndola por el número de mediciones y guárdela como `mean`.


__Nota__: Para obtener el número de items en una lista, use `len (the_list)`.

Ahora usaremos otro loop para calcular la varianza:

1. Cree una variable `sum_diffsq` para la suma de las diferencias al cuadrado.
2. Haga un segundo bucle `for` sobre` alturas`.
  - En cada paso, reste la altura de la media y llámela `diff`.
  - Eleve `diff` al cuadrado y llámalo `diffsq`.
  - Agregue `diffsq` a` sum_diffsq`.
3. Divida `sum_diffsq` por` n-1` para obtener la varianza.
4. Mostrar la varianza.

__Nota__: Para elevar un número al cuadrado use `**`, eg. `5**2`.


## 5. CONDICIONAL IF

A menudo queremos verificar si una condición es Verdadera y tomar una acción si es así, y otra acción si la condición es falsa. Podemos lograr esto en Python con una declaración if.

__TIP:__ Puede usar cualquier expresión que devuelva un valor booleano (verdadero o falso) en una instrucción if.
Los operadores booleanos comunes son ==, !=, <, <=, >, >=. También puede usar `is` y` is not` si desea
comprobar si dos variables son idénticas en el sentido de que están almacenadas en la misma ubicación en la memoria.


In [None]:
# Un ejemplo básico del condicional if 
x = 3
if x > 0:
    print('x es positivo')
elif x < 0:
    print('x es negativo')
else:
    print('x es cero')

In [None]:
# Se pueden usar variables booleanas en condicionales if 
x = -1
test = (x > 0)
print(type(test)); print(test)

if test:
    print('Test fue verdadero')

## 6. FUNCIONES Y MODULOS

Una forma de programar es escribir comandos, como los descritos anteriormente, y luego ejecutar ese archivo para generar sus resultados. Esto puede funcionar, pero si son muchas lineas puede ser cognitivamente difícil seguir la lógica de los programas escritos en este estilo. Además, no le permite reutilizar su código fácilmente, por ejemplo, ¿qué pasaría si quisiéramos ejecutar nuestro modelo de crecimiento logístico para varias opciones diferentes de parámetros iniciales?

Podemos "fragmentar" el código en funciones y luego reunir estas funciones en módulos y eventualmente paquetes. A continuación discutiremos cómo crear funciones y módulos. Un tercer tipo común de "fragmento" en Python son las clases, pero no las cubriremos en este taller.


In [None]:
# Hemos usado funciones todo el tiempo en este tutorial 
x = 3.333333
print(round(x, 2))
print(np.sin(x))

In [None]:
# Es muy fácil escribir sus propias funciones
def multiply(x, y):
    return x*y

In [None]:
# Una vez que corre la función esta queda en memoria y puede usarla como cualquier otra
print(type(multiply))
print(multiply(4, 3))

In [None]:
# Es útil incluir docstrings para describir qué hace sus función 
def say_hello(time, people):
    '''
    La función saluda. Útil para generar goodwill
    '''
    return 'Good ' + time + ', ' + people

**Docstrings**: tipo especial de comentario que le dice qué hace una función. Puede verlos cuando solicita ayuda sobre una función.

In [None]:
say_hello('afternoon', 'friends')

In [None]:
# Todos los argumentos deben estar presentes o la función genera un error
say_hello('afternoon')

In [None]:
# Puede poner valores default a los argumentos
def say_hello(time, people='friends'):
    return 'Good ' + time + ', ' + people

In [None]:
say_hello('afternoon')

In [None]:
say_hello('afternoon', 'students')

### EJERCICIO 5 - Crear una función de varianza

Finalmente, convirtamos nuestro cálculo de varianza en una función que podamos usar una y otra vez.

Cree una celda code abajo y copie su código del Ejercicio 4 en el cuadro a continuación y haga lo siguiente:

1. Convierta su código en una función llamada `Calculate_variance` que toma una lista de valores y devuelve su varianza.
1. Escribe docstring que describa lo que hace tu función.
1. En una celda posterior, llame a su función con diferentes conjuntos de números para asegurarse de que funciona.

Cree otra celda code y haga lo siguiente
1. Reescriba su función sacando la sección que calcula la media y ponga ese cálculo en otra función llamada `Calculate_mean`. Llame esa nueva función dentro de su función `Calculate_variance`.
2. Asegúrese de que funcione correctamente con diferentes listas de datos.
3. Dar un mensaje de error mejor cuando se pasa una lista vacía. Use la web para descubrir cómo generar excepciones en Python.


### EJERCICIO 6 - Poner las funciones `Calculate_mean` y` Calculate_variance` en un módulo

Podemos poner nuestras funciones en módulos que podamos importar, tal como hemos estado haciendo con `numpy`. Es bastante simple hacer esto.

1. Copie sus funciones en un nuevo archivo de texto llamado `stats.py` y guardelo en el mismo directorio de este notebook,.
1. En una celda code, escriba `import stats` para importar el módulo. Escriba `stats` y presione tab para ver las  funciones disponibles en el módulo. Intente calcular la varianza de varias muestras de alturas (u otros números aleatorios) utilizando su módulo importado.

## 7. CARGAR, ARREGLAR, USAR, Y GUARDAR BASES DE DATOS 

El científico de datos obtiene y usa información proveniente de diferentes fuentes. Python puede reconocer diferentes formatos (csv, dta, RData, mat, json, sql, otros), cargar, y guardarlos en una variable. En esta sección usaremos `pandas dataframes` para ilustrar cómo trabajar con algunos de estos formatos. 

### 7.1 Cargar

In [None]:
# Para poder cargar algunos formatos, necesitamos algunos paquetes
import pyreadr 
import json
import pandas as pd #Ya lo cargamos arriba, no hay que hacerlo de nuevo, pero lo hacemos acá como estrategia pedagógica

In [None]:
# Para cargar bases de datos .csv
data_csv = pd.read_csv('GHE2016_AllAges.csv') #Tasa de muerte en diferentes países por tipo de enfermedad
data_csv.head() #Es un desorden, luego veremos como arreglarla

In [None]:
# Para cargar bases de datos .RData
result = pyreadr.read_r('babynames.RData') #diccionario
print(result.keys()) # objetos en .RData (puede ser un workspace entero, con funciones y variables)
data_R = result["babynames"] #.RData tenía un dataframe llamado babynames
print('\n') #indica salto de linea; es como poner "enter" en el teclado
print(data_R.dtypes) # nombre y tipo de datos de las columnas (i.e. variables)
data_R

In [None]:
# Para cargar bases de datos de stata .dat
data_stata = pd.read_stata('heus_mepssample.dta')
itr = pd.read_stata('heus_mepssample.dta', iterator=True) #tiene, entre otras cosas, la descripción de las variables
print(data_stata.dtypes) 
print('\n')
print("La variable ed_hs es: " + itr.variable_labels()['ed_hs'])

In [None]:
# Para cargar bases de datos .json
with open('black_mirror.json') as f: #Esto carga el archivo json como texto
  data = json.load(f) #esto interpreta el texto en f (parse) y lo pone en un diccionario
print(data.keys()) #Items del diccionario. Nota: Jupyterlab tiene un viewer para archivos json
data_json = pd.DataFrame(data['_embedded']['episodes']) #episodios de black mirror en un dataframe
print(data_json.dtypes) #columnas y tipos de datos. Cada fila es un episodio
print('\n')
episode = 6
print(data_json.loc[episode,'name']) 
print(data_json.loc[episode,'season']) 
print(data_json.loc[episode,'summary'])



### 7.2 Arreglar

Inspirado en el tutorial premiers de rstudio cloud

In [None]:
# Mismos datos diferente organización
tabla1 = pd.read_csv('For_Reshape_Tutorial.csv')
tabla2 = pd.read_csv('For_Reshape_Tutorial_2.csv')
tabla3 = pd.read_csv('For_Reshape_Tutorial_3.csv')
tabla4a = pd.read_csv('For_Reshape_Tutorial_4a.csv') #casos
tabla4b = pd.read_csv('For_Reshape_Tutorial_4b.csv') #población
tabla5 = pd.read_csv('For_Reshape_Tutorial_5.csv')


In [None]:
# Veamos primero la tabla 1
print(tabla1.dtypes)
print("(filas, columnas): " + str(tabla1.shape))
print('\n')
print(tabla1) 

Algunas definiciones:
* **Variable:** cantidad, calidad o propiedad que se puede medir.

* **Valor**: valor de una variable. Puede cambiar de una medición a otra.

* **Observación**: conjunto de mediciones que se realizan en condiciones similares (por lo general, se realizan todas las mediciones en una observación al mismo tiempo y en el mismo objeto). Una observación contendrá varios valores, cada uno asociado con una variable diferente. Una observación es un caso o punto de datos e.g. todas las medidas que un médico hace de un paciente en un momento determinado.


### EJERCICIO 7 - Identificar variables, valores, y observaciones

En la tabla 1:
- ¿qué son variables?
- ¿qué son valores?
- ¿qué son observaciones?

In [None]:
# Veamos las otras tablas
tabla2

In [None]:
tabla3

In [None]:
tabla4a

In [None]:
tabla4b

In [None]:
tabla5

Todas las tablas tienen la misma información, sin embargo algunas veces preferimos una organización sobre otra. Imaginemos que nos dieron la tabla 2 pero nos interesa el formato de la tabla 1. ¿Cómo la transformamos?

In [None]:
# Queremos que la tabla 2 se vea como la tabla 1
# Problema: en la tabla 2, cases y population están en la columna type
# Objetivo: ir de formato largo a ancho: extender la columna type en dos nuevas columnas cases y population
# Solución: pd.pivot_table()

tabla2_wide = pd.pivot_table(tabla2, index = ['country', 'year'], columns = ['type'], values = ['count']).reset_index()
tabla2_wide.columns = ['country','year', 'cases','population']
tabla2_wide #en formato wide (ancho)

In [None]:
# Para comparar con la obtenida en la anterior celda
tabla1

In [None]:
# También puede ocurrir el problema opuesto: hay columnas separadas que quiero tener en una
# Es decir, queremos que la tabla 1 se vea como la tabla 2
# Problema: en la tabla 1, cases y population están en columnas diferentes
# Objetivo: ir de formato ancho a largo: colapsar columnas cases y population en una sola
# Solución: pd.melt()

tabla1_long = pd.melt(tabla1, id_vars = ['country', 'year'], value_vars = ['cases','population'], 
                     var_name = 'type', value_name = 'count').reset_index(drop=True)
tabla1_long = tabla1_long.sort_values(by = ['country', 'year'], ascending = True)
tabla1_long #en formato long (largo)

In [None]:
# Para comparar con la obtenida en la anterior celda
tabla2

### EJERCICIO 8 - Arreglar una tabla
En la base de datos GHE2016_AllAges.csv cada país tiene una columna. Imaginé que a usted le interesa usar país como una variable. Esto quiere decir que el formato original no es el apropiado. Tiene que ponerla en formato long i.e. recoger varias columnas y ponerlas en una sola. Para hacerlo debe hacer lo siguiente:

* Cargue la base de datos en una variable llamada `data_raw`
* Cree una variable llamada `columnas_data_raw` con el nombre de las columnas de `data_raw`. TIP: obtenga el nombre de las columnas de `data_raw` con el método .columns
* Use pd.melt para crear una nueva base de datos llamada `data_long`, donde todos los paises estén en una sola columna/variable llamada `country`. TIP: los nombres de los paises estan `columnas_data_raw`, desde el item 7 en adelante; uselos para el parametro value_vars de pd.melt.
* ¿Qué son las columnas temp3 y temp4? Renombre estas columnas TIP: busque en internet el método .rename; funciona asi: data_long = data_long.rename(columns={"temp3":"nuevo_nombre1", "temp4":"nuevo_nombre2"})


### 7.3 Usar

Python tiene muchas funciones y métodos para analizar datos. En esta sección veremos como obtener estadísticas descriptivas (inspirada en R studio cloud premiers). Análisis y usos más elaborados de las bases de datos, por ejemplo regresiones, se verán en otro tutorial.

Usaremos una base de datos de R llamada babynames. Tiene la frecuencia (n) y proporción (prop) de diferentes nombres (name) masculinos y femeninos (sex) durante el periodo (1880 - 2017) (year) en Estados Unidos. 

P.S. Algunas comparaciones con R https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_r.html

In [None]:
# Cargar la data (no olvidar importar pyreadr)
babynames = pyreadr.read_r('babynames.RData')["babynames"] #diccionario
print(babynames)
print('\n')
print(babynames.describe())
print('\n')
print("Cantidad de nombres diferentes: " + str(len(babynames['name'].drop_duplicates()))) #.drop_duplicates() deja los items únicos


In [None]:
# Contemos cuantas veces aparece el nombre Santiago de hombre
# Solución .query() sirve para filtrar la base de datos.
name = babynames.query("(name == 'Santiago') & (sex == 'M')") #primero filtremos. Note como empezamos con doble comillas, para poder usar comillas sencillas dentro
name['n'].sum() #sumemos la columna de frecuencias 

In [None]:
# Ahora saquemos otras estadisticas como el max, min, mean, std de Santiago
name = babynames.query("(name == 'Santiago') & (sex == 'M')")
print("En promedio el nombre aparece por año: " + str(round(name['n'].mean())))
print("La desviación estandar atraves de los años: " + str(round(name['n'].std())))
print("El mínimo número de veces del nombre en un año: " + str(round(name['n'].min())))
print("El máximo número de veces del nombre en un año: " + str(round(name['n'].max())))

In [None]:
# Saquemos estadisticas de todos los nombres.
# Solución .groupby parte la base datos por grupos existentes en variables/columnas

# hombres
baby_filter = babynames.query("(sex == 'M')")
names_mean = round(baby_filter.groupby(['name']).mean()) #luego de groupby podemos usar funciones como mean, sum, std, etc.
print(names_mean['n'].sort_values(ascending = False).head(20)) #top 20
print('\n')

# mujeres
baby_filter = babynames.query("(sex == 'F')")
names_mean = round(baby_filter.groupby(['name']).mean())
print(names_mean['n'].sort_values(ascending = False).head(20)) #top 20
print('\n')

# total por año y genero
names_mean = babynames.groupby(['year','sex']).sum().reset_index()
print(names_mean.head(20)) 


In [None]:
# Graficas con ggplot via plotnine
import plotnine as p9
from plotnine import ggplot, geom_line, aes, stat_smooth, facet_wrap, themes

names_mean = babynames.groupby(['year','sex']).sum().reset_index()
p1 = (ggplot(names_mean, aes('year', 'n', color='sex'))
 + geom_line() 
 + themes.theme_xkcd() #many themes e.g. theme_classic()
)

p1

In [None]:
# Graficas con matplotlib
import matplotlib
from matplotlib import pyplot as plt

fig1 = plt.figure(figsize = [9,6])
idx = names_mean['sex'] == 'F'
x = names_mean.loc[idx,'year']
y = names_mean.loc[idx,'n']
plt.plot(x, y, color = 'red', label = 'F')

idx = names_mean['sex'] == 'M'
x = names_mean.loc[idx,'year']
y = names_mean.loc[idx,'n']
plt.plot(x, y, color = 'cyan', label = 'M')

plt.legend()
plt.xlabel('Year')
plt.ylabel('Number of names')

### EJERCICIO 9 - Uso de base de datos

Con el método .query, filtre tres enfermedades presentes en la base de datos GHE2016_AllAges.csv. Importe la base como un dataframe de pandas.

Imprima para cada enfermedad las primeras 30 filas. Tip: use el método .head()

Use la version `data_long` que hizo en el ejercicio 8.

### 7.4 Guardar

Es usual que partes de nuestro código tarden tiempo, minutos o incluso horas. Puede ser buena idea guardar el output de esos procesos para que la próxima vez tan solo se cargue la información. En esta sección, aprenderemos cómo guardar output en Python.

In [None]:
# Guardar en formato csv
data_long.to_csv('GHE2016_AllAges_long.csv')

In [None]:
# Guardar en formato pickle (de python)
data_long.to_pickle('GHE2016_AllAges_long.pkl')

In [None]:
# Guardar en formato dat (de Stata)
# Si tiene un nombre de columna no aceptado por el formato, puede renombrar columnas asi
# data_long = data_long.rename({'People(x1000)':'People_x_1000'}) 
data_long.to_stata('GHE2016_AllAges_long.dat')

In [None]:
# Guardar en formato excel 
data_long.to_excel('GHE2016_AllAges_long.xlsx')

In [None]:
# Guardar imagenes
ggplot.save(p1, filename = 'p1_ggplot.pdf')

fig1.savefig('p1_matplotlib.pdf')

### EJERCICIO 10 - Haga una gráfica y guardela 

Gráfique la evolución a través de los años del nombre Mary para mujer en la base `babynames`. Guarde la gráfica en un archivo que se llame `mi_primera_figura.png`. Utilicé matplotlib.
