# Machine Learning para Economistas
## Tutorial 1. Introducción a Python (parte II)

El objetivo de esta tutorial es continuar conociendo cómo trabajar en Python
* Funciones
* Manejo de errores
* Módulos
* Importar/exportar archivos txt
* Importar/exportar archivos de tablas

### Funciones 

Las funciones permiten definir un bloque de código reutilizable que se puede ejecutar muchas veces dentro de un programa. 
Sirven para modularizar el código, hacerlo más reutilizable y fácil de leer, corregir y mantener.

Las funciones toman argumentos (inputs) y devuelven (o no) outputs.

Para crear una función comenzamos con 'def', luego un nombre para la función, luego entre ( ) ponemos los argumentos o parámetros y finalmente ':'

<img src="https://media.geeksforgeeks.org/wp-content/uploads/20220721172423/51.png" />

In [8]:
def pbi_per_capita(pbi_millones, pob_millones):
    pbi_pc = round(pbi_millones/pob_millones) # Hay que respetar la sangría
    return pbi_pc

In [10]:
bra_carac = {'cod':'BRA', 'pob_millones':211, 'pbi_millones':1810612}
chl_carac = {'cod':'CHL', 'pob_millones':18.9, 'pbi_millones':352664}
pry_carac = {'cod':'PRY', 'pob_millones':7, 'pbi_millones':39197}
ury_carac = {'cod':'URY', 'pob_millones':3.4, 'pbi_millones':63741}

Para usar una función, escribimos el nombre y entre ( ) ponemos los argumentos

In [12]:
# Para el caso de Uruguay podríamos calcular:
print(pbi_per_capita(63741, 3.4)) # si no se indica el nombre del argumento, respetar el orden en que se definieron
print(pbi_per_capita(pob_millones=3.4, pbi_millones=63741))
print(pbi_per_capita(pbi_millones=63741, pob_millones=3.4)) # si se aclara el nombre del argumento, el orden es indistinto
print(pbi_per_capita(ury_carac['pbi_millones'], ury_carac['pob_millones']))

18747
18747
18747
18747


Los argumentos de las funciones pueden tener un valor predefinido (por defecto) o no.

Los argumentos que no tienen un valor predefinido se llaman **argumentos posicionales**, mientras que los que sí tienen un valor predefinido se llaman **argumentos por nombre**. 
Un punto importante a la hora de definir la función es que si para algún atributo queremos poner un valor por defecto, este debe presentarse luego de los atributos que estén si un valor predefinido

In [14]:
def pbi_per_capita(pbi, pob, pbi_mm = False): # pbi y pob son argum. posicionales mientras que pbi_mm es un argum. por nombre
    if pbi_mm == True: # equivale a if pbi_mm == True :
        pbi_pc = round(pbi*1000/pob)
    else:
        pbi_pc = round(pbi/pob)
    return pbi_pc

In [16]:
print(pbi_per_capita(1810612, 211)) # pbi_mm = False
print(pbi_per_capita(1810.612, 211, pbi_mm=True))
print(pbi_per_capita(pob=211, pbi=1810612))
print(pbi_per_capita(1810.612, 211, True))

8581
8581
8581
8581


Los valores predefinidos generan que a veces no sea suficiente con especificar los valores de los atributos solo por la posición

In [18]:
def pbi_per_capita(pbi, pob, pbi_mm = False, pbi_billon = False):
    if pbi_mm: # equivale a if pbi_mm == True :
        pbi_pc = round(pbi*1000/pob)
    elif pbi_billon: # equivale a if pbi_billon == True
        pbi_pc = round(pbi*1000000/pob)
    else:
        pbi_pc = round(pbi/pob)
    return pbi_pc

In [20]:
print(pbi_per_capita(1810612, 211)) #pbi_mm = False, pbi_billon = False
print(pbi_per_capita(1810.612, 211, True, False))
print(pbi_per_capita(1.810612, 211, pbi_billon=True)) # Como ahora hay 2 argumentos booleanos, tenemos que indicar a cuál nos referimos

8581
8581
8581


In [22]:
# Notar que: 
# 1. Si invertimos el orden, el resultado cambia
pbi_per_capita(211, 1810612)

0

In [24]:
# 2. Si al llamar a la función definimos los argumentos por nombre antes de los posicionales, tendremos un error
pbi_per_capita(pbi_billon=True, 1.810612, 211)

SyntaxError: positional argument follows keyword argument (378198173.py, line 2)

Un DocString es una de cadena de caracteres (strings) o varias líneas, delimitado por comillas, que aparece al comienzo de un módulo, clase, método o función y describe lo que hace la función, sirven para documentar el código.

A diferencia de los comentarios, los DocStrings los definimos con comillas y podemos "acceder" a ellos con el método .__doc__ luego del nombre de la función/método creado.

(También podemos usar los comentarios de varias lineas con las comillas)

In [26]:
def pbi_per_capita(pbi_millones, pob_millones):
    """
    Esta función calcula el PBI per cápita
    Input:
    pbi_millones: el PBI en millones de un país 'X'
    pob_millones: la población en millones de un país 'X'
    Output :
    pbi_pc: el PBI per cápita del país 'X'
    """
    pbi_pc = round(pbi_millones/pob_millones)
    return pbi_pc

Dos formas de acceder al DocString de la función:

In [28]:
# Accedemos al Docstring
help(pbi_per_capita)

Help on function pbi_per_capita in module __main__:

pbi_per_capita(pbi_millones, pob_millones)
    Esta función calcula el PBI per cápita
    Input:
    pbi_millones: el PBI en millones de un país 'X'
    pob_millones: la población en millones de un país 'X'
    Output :
    pbi_pc: el PBI per cápita del país 'X'



In [30]:
# Accedemos al Docstring
print(pbi_per_capita.__doc__)


    Esta función calcula el PBI per cápita
    Input:
    pbi_millones: el PBI en millones de un país 'X'
    pob_millones: la población en millones de un país 'X'
    Output :
    pbi_pc: el PBI per cápita del país 'X'
    


Vamos con otro ejemplo

In [32]:
# Definimos un diccionario con la información de algunos países

bra_carac = {'cod':'BRA', 'pob_millones':211, 'pbi_millones':1810612}
chl_carac = {'cod':'CHL', 'pob_millones':18.9, 'pbi_millones':352664}
pry_carac = {'cod':'PRY', 'pob_millones':7, 'pbi_millones':39197}
ury_carac = {'cod':'URY', 'pob_millones':3.4, 'pbi_millones':63741}

paises_info = {'brasil':bra_carac, 
               'chile':chl_carac, 
               'paraguay':pry_carac, 
               'uruguay':ury_carac}

In [34]:
paises_info['brasil']

{'cod': 'BRA', 'pob_millones': 211, 'pbi_millones': 1810612}

Podemos usar la función pbi_per_capita para agregar ese dato para cada país del diccionario 'paises_info'. Armemos un loop

In [36]:
# Recordemos algunos métodos básicos propios de los diccionarios:
# El método keys nos devuelve una lista con las keys del diccionario
print(paises_info.keys())
# El método values nos devuelve una lista con los valores
print(paises_info.values())
# El método items nos devuelve una lista con tuplas conformadas por cada par de key y value
print(paises_info.items())

dict_keys(['brasil', 'chile', 'paraguay', 'uruguay'])
dict_values([{'cod': 'BRA', 'pob_millones': 211, 'pbi_millones': 1810612}, {'cod': 'CHL', 'pob_millones': 18.9, 'pbi_millones': 352664}, {'cod': 'PRY', 'pob_millones': 7, 'pbi_millones': 39197}, {'cod': 'URY', 'pob_millones': 3.4, 'pbi_millones': 63741}])
dict_items([('brasil', {'cod': 'BRA', 'pob_millones': 211, 'pbi_millones': 1810612}), ('chile', {'cod': 'CHL', 'pob_millones': 18.9, 'pbi_millones': 352664}), ('paraguay', {'cod': 'PRY', 'pob_millones': 7, 'pbi_millones': 39197}), ('uruguay', {'cod': 'URY', 'pob_millones': 3.4, 'pbi_millones': 63741})])


In [38]:
for key, val in paises_info.items():
    paises_info[key]['pbi_pc'] = pbi_per_capita(val['pbi_millones'], val['pob_millones'])
    
'''
Como usamos el método items, tenemos una lista con tuplas (key, value) del diccionario. El loop itera por esa lista. 
En cada iteración el loop reemplaza: 
- key por el primer elemento de cada una de las tuplas (nombre el país) y 
- val por el segundo elemento de cada una de las tuplas (diccionario de cada país)
'''

paises_info

{'brasil': {'cod': 'BRA',
  'pob_millones': 211,
  'pbi_millones': 1810612,
  'pbi_pc': 8581},
 'chile': {'cod': 'CHL',
  'pob_millones': 18.9,
  'pbi_millones': 352664,
  'pbi_pc': 18659},
 'paraguay': {'cod': 'PRY',
  'pob_millones': 7,
  'pbi_millones': 39197,
  'pbi_pc': 5600},
 'uruguay': {'cod': 'URY',
  'pob_millones': 3.4,
  'pbi_millones': 63741,
  'pbi_pc': 18747}}

In [40]:
# Podemos ver qué otros métodos hay disponibles para este tipo de objeto (diccionarios) y que propiedades tienen usando dir
paises_info.__dir__() 

['__new__',
 '__repr__',
 '__hash__',
 '__getattribute__',
 '__lt__',
 '__le__',
 '__eq__',
 '__ne__',
 '__gt__',
 '__ge__',
 '__iter__',
 '__init__',
 '__or__',
 '__ror__',
 '__ior__',
 '__len__',
 '__getitem__',
 '__setitem__',
 '__delitem__',
 '__contains__',
 '__sizeof__',
 'get',
 'setdefault',
 'pop',
 'popitem',
 'keys',
 'items',
 'values',
 'update',
 'fromkeys',
 'clear',
 'copy',
 '__reversed__',
 '__class_getitem__',
 '__doc__',
 '__str__',
 '__setattr__',
 '__delattr__',
 '__reduce_ex__',
 '__reduce__',
 '__getstate__',
 '__subclasshook__',
 '__init_subclass__',
 '__format__',
 '__dir__',
 '__class__']

Funciones: ámbito interno vs ámbito global

- **Ámbito interno**: contiene las variables locales (por ejemplo, de una función)
- **Ámbito global**: contiene las variables globales del módulo actual

In [42]:
a = 3 # a definida en ámbito global

def suma_uno(numero):
    a = numero + 1 # a definida en ámbito interno
    print(a)

In [None]:
suma_uno(10)

In [None]:
print(a)

El ámbito interno de la función "tapa" al ámbito global (al convocar a la función la variable a que se imprime es la que definimos en el ámbito local)

Otro ejemplo más de una función para que indaguen

In [44]:
def es_par(x):
    string_x = str(x)
    if x % 2 == 0:
        frase_par = "El número " + string_x + " es Par"
        print(frase_par)
    else:
        frase_impar = "El número " + string_x + " es Impar"
        print(frase_impar)
           
es_par(3)

El número 3 es Impar


### Manejo de errores

Al momento de aprender, cometer errores e ir viendo los motivos por los cuales surgieron nos ayuda a entender mejor cómo funciona Python

Los print() son útiles para esto

In [46]:
def suma_uno(lista):
    for elem in lista:
        elem + 1

In [48]:
mi_lista = [1, 2, 'a']
suma_uno(mi_lista) # vemos que el error es que intentamos concatenar un número (int)

TypeError: can only concatenate str (not "int") to str

In [62]:
def suma_uno(lista, depurar=False):
    for elem in lista:
        if depurar:
            print('item:', elem, 'tipo:', type(elem))
        elem + 1

In [72]:
suma_uno(mi_lista[0:2], depurar=True)

item: 1 tipo: <class 'int'>
item: 2 tipo: <class 'int'>


Hay algunos mecanismos para actuar cuando hay un comportamiento eróneo o inesperado.
Para esto, se utiliza la declaración try/except

In [74]:
def suma_uno(lista):
    for elem in lista:
        try:
            print(elem + 1)
        except:
            print('No se puede sumar', elem, 'con 1')

In [76]:
mi_lista = [1, 2, 'a', 4, 5]
suma_uno(mi_lista)

2
3
No se puede sumar a con 1
5
6


### Módulos

Un módulo es un archivo de Python (con extensión .py) que puede contener definiciones de funciones o sentencias ejecutables, y puede ser *importado* desde otros módulos o desde una sesión interactiva (y en particular, desde una sesión de Jupyter).

Un módulo puede ser escrito por el usuario, y también pueden utilizarse módulos escritos por otras personas (instalándolos previamente).

Permiten ampliar las funcionalidades nativas de Python y también almacenar código que uno puede querer reutilizar en el futuro (un Jupyter Notebook también permite esto último, pero los notebooks no son importables de manera directa). Así, ayudan a organizar el código y evitar repetición.

Python se distribuye con una *biblioteca estándar* preinstalada. Esta biblioteca contiene un conjunto muy amplio de paquetes para resolver problemas usuales en programación. 

Algunos de estos paquetes son:
- math: para funciones matemáticas
- os: para acceder a funcionalidades del sistema operativo
- csv: para manejo de archivos tabulares separados por comas

La lista completa se puede consultar acá: https://docs.python.org/es/3/library/index.html

#### ¿Cómo importamos un módulo?

Usando la palabra `import` seguida del nombre del módulo (que es el nombre del archivo sin la extensión .py). Por ejemplo, importemos el módulo math de la biblioteca estándar

In [None]:
import math

Ahora podemos usar el módulo de esta forma:

In [None]:
# log devuelve el logaritmo natural de un número
print(math.log(2.7183))
print(math.log(1))

Podemos importar otros módulos. Vamos ahora con el módulo os, también de la biblioteca estándar de Python

In [None]:
import os # Entre otras cosas, este módulo nos permite manipular rutas

In [None]:
# Veamos nuestro directorio actual
print(os.getcwd())

# Podemos modificar el directorio: 
os.chdir("H:\Mi unidad\Big Data UdeSA\Colab\T01")

Notar que por la forma en la que importamos el módulo, si queremos usar un atributo o función del módulo tenemos que cumplir este formato:

`<modulo>.<atributo>`

Pero hay otra forma de importar, que es usando la sintaxis `from <modulo> import <atributo>`. Veamos:

In [None]:
from os import getcwd

getcwd()

In [None]:
# Otro ejemplo

from math import log

Es decir, de esta manera no necesitamos usar el nombre del módulo (math) para acceder a su atributo (log).

In [None]:
print(log(2.7183))
print(log(1))

También se puede usar un alias para el atributo, de la forma `from <modulo> import <atributo> as <alias>`

In [None]:
from math import log as ln

In [None]:
print(ln(2.7183))
print(ln(1))

Otro ejemplo con el módulo csv

In [None]:
import csv

In [None]:
with open("ejemplo.csv", 'r') as file:
    archivo = csv.reader(file)
    for row in archivo:
        print(row)

In [None]:
from csv import reader, writer # Podemos importar más de un atributo de un módulo a la vez

with open("ejemplo.csv", 'r') as file:
    archivo = reader(file)
    for row in archivo:
        print(row)

### Importar/Exportar archivos txt

#### Entrada de y salida a archivos txt

open() nos permite leer o escribir un archivo

In [None]:
f = open("archivo.txt", "w") # write (sobreescribe)
f.write("Escribimos las primeras palabras en el archivo. \n")
f.close()

f = open("archivo.txt", "a") # append (agrega al final)
f.write("Luego, estas palabras se agregarán al final del archivo.")
f.close()


In [None]:
f = open("archivo.txt")
print(f.read())

f.close() # es importante cerrarlo!

### Importar/Exportar archivos de tablas

####  Instalación e introducción a Pandas

Hasta acá, trabajamos con módulos que están en la biblioteca estándar de Python.
Pero hay muchos otros.
Para poder seguir esta clase a la par, con la consola o un Jupyter Notebook, por favor instalen la librería pandas.

Pandas nos permitirá trabajar con datos en formato estructurados. Es decir con tablas de datos como las que estamos acostumbrados a trabajar en Excel o Stata, que contienen la información organizada en filas y columnas.

En la consola de Anaconda (Anaconda prompt), abran una nueva consola y escriban:

`pip install pandas`


Otra opción es: en el Jupyter Notebook:

In [None]:
import sys
!{sys.executable} -m pip install pandas

#### Importar pandas

pandas es la librería más usada para este tipo de operaciones, tiene funciones y métodos que facilitan mucho el trabajo con tablas de datos (*dataframes*)

En esta clase vamos a usarla para:
- importar/exportar archivos de distintos formatos
- exportar la tablas de datos

Como primer paso, importemos la librería:

In [78]:
import pandas as pd 

#### Abrir un dataframe 

Primer paso. Abrimos un archivo. Ya vimos una forma de abrir txt, ahora vamos a abrir una tabla con Pandas

Por convención:
- pandas se importa con el alias 'pd'
- la base importada se refiere como dataframe y se abrevia df

Pandas tiene funciones para abrir muchos tipos de archivos estructurados. Algunos ejemplos son:
- pd.read_excel()
- pd.read_csv()
- pd.read_stata()
- pd.read_spss()

Veamos en detalle. Primero, abramos un archivo *Excel*, para hacerlo:

In [None]:
#!pip install openpyxl  # para trabajar con excel debemos antes instalar esta dependencia

In [None]:
pd.read_excel('ejemplo.xlsx')

Por default, Pandas abre la primera hoja del archivo (esté visible o escondida). Para indicar otra hoja:

In [None]:
pd.read_excel('ejemplo.xlsx', sheet_name = 'ejemplo')

Ahora, esa función abre el archivo pero no lo guarda en memoria. Para eso, hay que asignarle un nombre de variable:

In [None]:
df = pd.read_excel('ejemplo.xlsx', sheet_name = 'ejemplo')
df
df.head(3)
df.tail(3)

Abrir un *.csv* es prácticamente lo mismo:

In [None]:
df = pd.read_csv('ejemplo.csv')
df

Al abrir un csv, python intenta inferir el separador. El separador es el símbolo que separa los valores: ",", ";", etc. Si hay algún inconveniente se puede especificar el separador con sep:

(Pueden ver la documentación de la función en este enlace: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

In [None]:
df = pd.read_csv('ejemplo.csv', sep = ';')
df


Abrir un archivo de *Stata* es similar

In [None]:
df = pd.read_stata('ejemplo.dta')
df

####  Explorar los datos

¿Cómo exploramos los datos que importamos? Hay muchas maneras.
Primero veamos las funciones de pandas que sirven para hacer una inspección general y una primera visualización de los datos importados:

- df.head(N): nos muestra las primeras N líneas
- df.tail(N): nos muestra las últimas N líneas
- df.sample(N): muestra aleatoria de N líneas

In [None]:
df.head(3) # imprime nombres de las columnas y las 3 primeras lineas

In [None]:
df.tail(3) # igual que head pero empieza desde el fondo

In [None]:
df.sample(5) # muestra aleatoria de n=5

#### Crear un DataFrame

In [None]:
# Creamos el df
df_estud = pd.DataFrame({'Apellido':['García', 'Rucci', 'López'],
                         'Curso':['Big Data', 'Big Data', 'Big Data'],
                         'Grupo':[1, 3, 2]})
 
# Creamos el índice
index_ = ['Row_1', 'Row_2', 'Row_3']
 
# Seteamos el índice
df_estud.index = index_

print(df_estud)
df_estud # Notar que en este caso sí se ve el 'formato/estilo' de Pandas

#### Exportar un DataFrame 

Exportar un df también es sencillo con pandas. Dos opciones comunes:
- df.to_excel()
- df.to_csv()

Por default, el dataframe exportado se guardará en directorio en el que se está trabajando, con el nombre de archivo que especifiquemos.

In [None]:
df.to_excel("exportar_ejemplo.xlsx", index = False)

#### Algunos ejercicios

1. Escribir una función llamada 'saludar' que toma como argumento el nombre de una persona e imprime el saludo "Hola, (nombre)!"

In [80]:
def saludar(nombre):
    #print('Hola,', nombre) #es equivalente a print('Hola, {}'.format(nombre)) o print(f"Hola, {nombre}!") 
    print(f"Hola, {nombre}!") 

saludar('Victoria')

Hola, Victoria!


In [None]:
# Sobre como formatear el output:
print('La materia {} se dicta desde {}'.format('Big data', 'marzo'))
 
# También podemos referirnos a la posición del objeto:
print('{0} y {1}'.format('marzo', 'abril'))
print('{1} y {0}'.format('abril', 'marzo'))
print('La materia {0} se dicta desde {1}'.format('Big data', 'marzo'))

# O también podemos formatear el string de esta forma
print(f"\nLa materia {'Big data'} se dicta desde {'marzo'}")

2. Ahora modificar la función del ejercicio anterior tal que tenga el argumento de nombre predefinido. 
Si no se define un nombre debería imprimir "Hola, amigo".


In [None]:
def saludar(nombre_pred = 'amigo'):
    print('Hola,', nombre_pred)

saludar()
saludar('Victoria')

3. Escribir una función llamada 'calcular_area' que toma los parámetros de base y altura de un rectángulo y devuelve el área.

In [None]:
def calcular_area(base, altura):
    return base*altura

calcular_area(4, 8)

4. Escribir una función 'sumar_nros' que toma como argumentos dos números y devuelve su suma. Incluir un docstring que describe qué hace la función.


In [None]:
def sumar_nros(a, b):
    '''
    Esta función toma como argumentos dos números y devuelve su suma
    '''
    return a+b

sumar_nros(3, 5)

In [None]:
help(sumar_nros)

5. Escribir una función llamada 'ver_info' que toma dos argumentos, nombre y edad, e imprime un mensaje de la forma: "Nombre: (nombre) Edad: (edad)".

In [None]:
def ver_info(nombre, edad):
    print(f'Nombre: {nombre}, Edad: {edad}') # es equivalente a print('Nombre: {}, Edad: {}'.format(nombre, edad))
    #print('Nombre:', nombre, ', Edad:', edad)
    
ver_info(nombre='Juan', edad=24)
ver_info('Juan', 24)
# notar que si no especificamos el nombre del parámetro e invertimos el orden de los argumentos, el resultado cambia:
ver_info(24, 'Juan')
# pero si especificamos el nombre del parámetro, el resultado queda bien ordenado aunque el orden esté invertido
ver_info(edad=24, nombre='Juan')

6. Modificar la función del ejercicio anterior para que tenga valores por default para nombre y edad. 
Si no se especifica un valor, la función debería imprimir "Nombre: Desconocido, Edad: Desconocida".

In [None]:
def ver_info(nombre = 'Desconocido', edad = 'Desconocida'):
    print(f'Nombre: {nombre}, Edad: {edad}')

ver_info()
ver_info(nombre='Juan', edad=24)

Ahora veamos un ejercicio cuando la cantidad de parámetros de la función no es fija

7. Escribir una función llamada 'equipo' que tome una cantidad variable de argumentos (nombres de los miembros de un equipo) e imprima 'Hola, (miembro)'

Ayuda: El símbolo * permite indicar que habrá un número variable de argumentos posicionales para la función.
Se usa el asterisco antes del nombre del parámetro (sería: ``def funcion(*args):`` )
Esto se usa para evitar errores en el código cuando no sabemos cuántos argumentos se pasarán a la función. 

In [5]:
def equipo(*miembros):
    for i in miembros:
        print('Hola,', i)

equipo('Tomas', 'Facundo')
equipo('Tomas', 'Facundo', 'Carla')

Hola, Tomas
Hola, Facundo


Ahora veamos un ejercicio cuando la cantidad de parámetros de la función no es fija y podemos definirlos por su nombre

8. Crear una nueva función llamada 'equipo' que permita pasar parámetros con distintos nombres e imprima el nombre de cada parámetro y su valor

Ayuda: Con doble asterisco ** podemos indicar que habrá un **número variable de argumentos por nombre** (keyword) en la función.
Se usa el asterisco antes del nombre del parámetro (sería: ``def funcion(**kwargs)``: )
En este caso los argumentos se pasan como un diccionario, los argumentos conforman un diccionario dentro de la función

In [7]:
def equipo(**detalles):
    #print(type(detalles)) #tipo: diccionario
    
    for key,value in detalles.items():
        print(f'{key}: {value}')
        
#equipo(nro_equipo=1, cantidad_miembros=3, paper = "Blumenstock", tp=4)

#equipo(nro_equipo=1, cantidad_miembros=3, paper = "Blumenstock")

In [11]:
equipo(nro_equipo=1, cantidad_miembros=3, paper = "Blumenstock", tp=4, aguante = 'boca')

<class 'dict'>
nro_equipo: 1
cantidad_miembros: 3
paper: Blumenstock
tp: 4
aguante: boca
