<img src="assets/socalo-ICDA.png">

# Python para Finanzas y Ciencia de Datos
Federico Brun | fedejbrun@gmail.com

_Jueves 08 Octubre 2020_

## Interrupción de Flujo de Ejecución y Limpieza de datos con Numpy y Pandas

<img src="https://files.realpython.com/media/A-Guide-to-Pandas-Dataframes_Watermarked.7330c8fd51bb.jpg">

_Fuente: realpython.com_

### Break y Pass

Cuando comenzamos nuestro estudio de estructuras de control, vimos la importancia de definir correctamente la **instrucción de corte** para poder interrumipir la ejecución de los mismos dada una condición.

En algunas implementaciones, incluso definiendo correctamente dicha condición, vemos que se ejecutan instrucciones adicionales que no habíamos planificado. 

Para ello contamos con dos palabras reservadas en Python que cumplen diferentes funciones según sea necesario:
* `break` interrumpe el flujo del bloque ejecutado, cancela las ejecuciones pendientes dentro del bucle y sale de este.
* `pass` pasa de largo y permite que se ejecuten las siguientes instrucciones.

In [None]:
# Queremos mostrar los elementos de una lista uno a uno, pero terminar
# la ejecución cuando encontremos una texto específico

nombres_de_alumnos = ["Ricardo", "Martín", "Romina", "Federico", "Micaela", "Agustina" ]

In [None]:
nombres_de_alumnos

Vemoas que pasa si no usamos `break`.

In [None]:
for alumno in nombres_de_alumnos:
    if alumno == "Federico":
        print(alumno)
        print("Aca debería interrumpirse el bucle")
    else:
        print(alumno)        

Y ahora usando `break` para lograr lo que queremos.

In [None]:
for alumno in nombres_de_alumnos:
    if alumno == "Federico":
        print(alumno)
        print("Aca debería interrumpirse el bucle")
        break
    else:
        print(alumno)     

Ahora veamos como funciona `pass` por ejemplo, para imprimir todos los nombres que NO sean "Federico".

In [None]:
for alumno in nombres_de_alumnos:
    if alumno == "Federico":
        pass
    else:
        print(alumno)     

In [None]:
for alumno in nombres_de_alumnos:
    if alumno != "Federico":
        print(alumno)
    else:
        pass     

Un último ejemplo, en el armamos una estructura `while` pero usando un contador hacemos que se comporte como un `for`.

In [None]:
win = 0  # Contador de clientes ganadores 

In [None]:
while True:
    win = win + 1
    print("Felicitaciones, usted es el " + str(win) + "º ganador!")
        
    if win == 10:
        print("Y se ha llevado el ultimo premio!!!!!")
        break

Veamos lo que pasa si no usamos la palabra `break` (Atentos para hacer click en el boton de pausa para interrumpir la ejecucion).

In [None]:
while True:
    win = win + 1
    print("Felicitaciones, usted es el " + str(win) + "º ganador!")
        
    if win == 10:
        print("Y se ha llevado el ultimo premio!!!!!")
        break

Dependiendo la **lógica** que necesitemos implementar, ambas palabras reservadas pueden usarse en cualquier tipo de bloque de Python (funciones, `while`, `for`, `if`).

Particularmente `pass` nos resulta muy util por ejemplo, cuando necesitamos definir una funcion pero todavía no implementamos 100% su funcionalidad. Si no lo hacemos el interprete de Python nos va a devolver un error.

In [None]:
actividades_por_dia = {
    1: 'Lunes = Gym',
    2: 'Martes = Tenis',
    3: 'Miercoles = Gym',
    4: 'Jueves = Descanso',
    5: 'Viernes = Natación',
    6: 'Sabado = Gym',
    7: 'Doming = Golf'
}

In [None]:
dia = input("Numero de 1 a 6 que representa el día: ")

Llamo a las posibles funciones sin haberlas definido. Por "adelantarme" al codigo, voy a tener errores porque las funciones que estoy llamando todavía no existen.

In [None]:
if dia == "1":
    print(actividades_por_dia.get(1))
    gym()
elif dia == "2":
    print(actividades_por_dia.get(2))
    tenis()
elif dia == "3":
    print(actividades_por_dia.get(3))
    gym()
elif dia == "4":
    print(actividades_por_dia.get(4))
    descanso()
elif dia == "5":
    print(actividades_por_dia.get(5))
    natacion()
elif dia == "6":
    print(actividades_por_dia.get(6))
    gym()
elif dia == "7":
    print(actividades_por_dia.get(6))
    golf()

Quiero que esos errores dejen de aparecer, pero todavia no se muy bien qué es lo que va a hacer cada funcion. <br>Defino las funciones y pongo dentro de ellas la palabra `pass`para que el interprete "pase de largo" sin mostrar errores.

In [None]:
def gym():
    pass

def tenis():
    pass

def natacion():
    pass

def golf():
    pass

def descanso():
    pass

Ahora puedo seguir haciendo pruebas sin ver errores por no haber imlementado las funciones.

In [None]:
dia = input("Numero de 1 a 6 que representa el día: ")

In [None]:
if dia == "1":
    print(actividades_por_dia.get(1))
    gym()
elif dia == "2":
    print(actividades_por_dia.get(2))
    tenis()
elif dia == "3":
    print(actividades_por_dia.get(3))
    gym()
elif dia == "4":
    print(actividades_por_dia.get(4))
    descanso()
elif dia == "5":
    print(actividades_por_dia.get(5))
    natacion()
elif dia == "6":
    print(actividades_por_dia.get(6))
    gym()
elif dia == "7":
    print(actividades_por_dia.get(6))
    golf()

Implemento la lógica de cada funcion.

In [None]:
def gym():
    print("Los días de Gym entreno por 1 hora")

def tenis():
    print("Los días de Tenis juego con mis amigos de la infancia")

def natacion():
    print("Los días de Natación nado unos 1000 metros")

def golf():
    print("Los dias de Golf nos encontramos con algunos compañeros de la oficina")

def descanso():
    print("Los dias de descanso me gusta pasear junto a mi perra")
    print("y leer algun libro tomando mates")

In [None]:
dia = input("Numero de 1 a 6 que representa el día: ")

In [None]:
if dia == "1":
    print(actividades_por_dia.get(1))
    gym()
elif dia == "2":
    print(actividades_por_dia.get(2))
    tenis()
elif dia == "3":
    print(actividades_por_dia.get(3))
    gym()
elif dia == "4":
    print(actividades_por_dia.get(4))
    descanso()
elif dia == "5":
    print(actividades_por_dia.get(5))
    natacion()
elif dia == "6":
    print(actividades_por_dia.get(6))
    gym()
elif dia == "7":
    print(actividades_por_dia.get(6))
    golf()

Este ejemplo también ilustra cómo las funciones nos sirven para **reutilizar** código.

---

### Limpieza de Datos con Numpy y Pandas

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png"/>


**Pandas** es una librería que que proporciona unas estructuras de datos flexibles y que permiten trabajar con ellos de forma muy eficiente.

Muy comúnmente utilizada junto a Numpy para limpiar y analizar conjuntos de datos; y junto a Matplotlib o Plotly para visualizarlos.

<a href="https://covid19.who.int/" target="_blank">Motivación para el final del módulo</a>

In [None]:
import pandas as pd
import numpy as np

Las estructuras basicas de Pandas son **DataFrame** y **Series**.

<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe1.svg"/>

In [None]:
covid_cases = {
    "pais": ['Argentina', 'Brasil', 'Chile', 'Uruguay'],
    "casos": [1150, 3000, 2500, 80]
}

In [None]:
df = pd.DataFrame(covid_cases)

In [None]:
df

In [None]:
df.index = pd.RangeIndex(1, 5)
df

In [None]:
df.loc[1]

In [None]:
df.iloc[1]

<img src="https://files.realpython.com/media/iloc_vs_loc_80_border20.d5280f475f4e.png" />

Un **DataFrame** de Pandas, es una estructura de datos bidimensional, que puede almacenar diferentes tipos de datos en columnas. Similar a una hoja de calculo de Excel.

Cada **columna** de un _DataFrame_ es una **Serie** de pandas.

<img src="https://pandas.pydata.org/docs/_images/01_table_series.svg"/>

In [None]:
paises = df["pais"]
paises

In [None]:
int_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

int_numpy_array = np.array(int_list)

int_pandas_serie = pd.Series(int_list)

In [None]:
print(int_list)
type(int_list)

In [None]:
print(int_numpy_array)
type(int_numpy_array)

In [None]:
print(int_pandas_serie)
type(int_pandas_serie)

Si bien conceptualmente una lista, un arreglo de Numpy y una Serie de Pandas no son distintas, si son tres **tipos de objetos** distintos en Python, por lo tanto cuentan con sus propias funciones para manipularlos.

In [None]:
help(int_pandas_serie)

La forma mas intuitva de entender Pandas, es como una representacion de datos en **filas y columnas**, justo como Excel.

De hecho, podemos crear DataFrames a partir de archivos de excel o archivos de tipo CSV.
<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite1.svg" />
_Algunos formatos soportados por Pandas para crear DataFrames a partir de archivos_ .

Para empezar a aplicar los conceptos en un set de datos real, vamos a descargar la informacion de COVID-19 provista por la Organización Mundial de la Salud.
Para ello vamos a descargar un archivo CSV y leerlo de forma local, y tambien usarlo directamente desde internet para tenerlo siempre actualizado.

https://covid19.who.int/

Al trabajar con datos usando Numpy, podemos proponer una serie de pasos a seguir:
1. Obtener los datos
2. Explorar y limpiar el set de datos
3. Presentar los datos de acuerdo a nuestras necesidades

#### 1. Obtener datos

In [None]:
covid_global_archivo = pd.read_csv('WHO-COVID-19-global-data.csv')

In [None]:
covid_global_web = pd.read_csv('https://covid19.who.int/WHO-COVID-19-global-data.csv')

#### 2. Explorar y Limpiar datos

In [None]:
covid_global_web

In [None]:
type(covid_global_web)

In [None]:
covid_global_web.head()

In [None]:
covid_global_web.tail()

In [None]:
covid_global_web.dtypes

In [None]:
covid_global_web.info()

In [None]:
covid_global_web.to_excel('covid-clase6.xlsx')

In [None]:
covid_df = pd.read_excel('covid-clase6.xlsx')

In [None]:
covid_df

### OBJETIVO: Obtener los datos pertinentes para Argentina (Nuevos Casos por dia y derivar Casos Acumulados usando pandas)

In [None]:
columnas_originales = covid_df.columns
columnas_originales

In [None]:
ignorar_columnas = [
    ' WHO_region',
    ' Cumulative_cases',
    ' New_deaths',
    ' Cumulative_deaths'
]

In [None]:
arg_df = covid_df
arg_df

In [None]:
arg_df.drop(ignorar_columnas, inplace=True, axis=1)
arg_df

In [None]:
arg_df.columns

In [None]:
arg_df.drop(arg_df.columns[0], inplace=True, axis=1)
arg_df

In [None]:
arg_df.rename(columns={
    'Date_reported': 'fecha',
    ' Country_code': 'cod_pais',
    ' Country': 'pais',
    ' New_cases':'nuevos_casos'}
              , inplace=True)
arg_df

In [None]:
arg_df.index

In [None]:
arg_df.loc[0]

In [None]:
arg_df.values

Atención cómo internamente Pandas hace uso de Numpy.

In [None]:
type(arg_df.values)

In [None]:
arg_df

In [None]:
arg_df = arg_df[arg_df['pais'] == 'Argentina']
arg_df

#### 3. Mostrar datos

In [None]:
arg_df.plot()

In [None]:
arg_df['nuevos_casos'].cumsum().plot()

Revisando mi set de datos, descubro que para realizar un análisis temporal, los índices de mi DataFrame no son descriptivos por lo que voy a cambiarlos para que sean las fechas.

In [None]:
arg_df.set_index('fecha', inplace=True)
arg_df

In [None]:
arg_df.plot();

In [None]:
arg_df['nuevos_casos'].cumsum().plot();

Ahora sí nuestro DataFrame está mas "limpio" y lo fuimos modificando para que refleje la información que nos interesa.

In [None]:
print(covid_global_archivo)
print("="*70)
print(arg_df)

---
Podemos continuar con un análisis exploratorio de los datos para obtener estadísticas.

In [None]:
arg_df.describe()

In [None]:
max_nuevos_casos = arg_df.describe(include='all').loc['max']

In [None]:
max_nuevos_casos['nuevos_casos']

In [None]:
arg_df[arg_df['nuevos_casos'] == max_nuevos_casos['nuevos_casos']]

In [None]:
arg_df['casos_acumulados'] = arg_df['nuevos_casos'].cumsum()

In [None]:
arg_df

In [None]:
arg_df.plot();

In [None]:
arg_df.shape

In [None]:
arg_df['nuevos_casos'].plot.hist();

Veamos ahora otras funcionalidades de Pandas

In [None]:
covid_global_web

Agrupamos los casos por pais, sumando los resultados.

In [None]:
covid_por_pais = covid_global_web.groupby([' Country'], as_index=False).sum()

In [None]:
covid_por_pais

In [None]:
covid_por_pais[covid_por_pais[' Country'] == "Argentina"]

Si prestamos atención a la muestra anterior, los Casos acumulados son muy superiores a los casos nuevos.<br>
Esto se debe a que en la transformacion anterior, sumamos todos los campos con si mismos. Por lo que ahora nuestro set de datos tiene informacion incorrecta.

In [None]:
covid_por_pais.drop([' Cumulative_cases', ' Cumulative_deaths'], inplace=True, axis=1)

In [None]:
covid_por_pais[covid_por_pais[' Country'] == "Argentina"]

Con el cambio que acabmos de hacer, los nombres de las columnas ya no son representativos, por lo que debo cambiarlos.

In [None]:
covid_por_pais.rename(columns={
    ' Country': 'pais',
    ' New_cases': 'casos',
    ' New_deaths': 'fatalidades'}
                     , inplace=True)

In [None]:
covid_por_pais

Puedo tomar muestras aleatorias de mis datos.

In [None]:
covid_por_pais.sample()

In [None]:
covid_por_pais.sample()

In [None]:
covid_por_pais.sample()

In [None]:
covid_por_pais['pais'].nunique()

In [None]:
top5_casos = covid_por_pais.sort_values(by='casos', ascending=False)

In [None]:
top5_casos

In [None]:
top5_casos.head(5)

In [None]:
top5_casos['tasa-mortalidad'] = (top5_casos['fatalidades'] / top5_casos['casos']) * 100

In [None]:
top5_casos

Podemos reemplazar los datos vacios por algo que tenga mas sentido.

In [None]:
top5_casos.dropna(0)
top5_casos.

In [None]:
top5_casos[top5_casos['pais'] == 'Argentina']

Finalmente mostramos nuestros resultados:

In [None]:
top5_casos

In [None]:
top5_casos.head(5).plot.scatter(x='pais', y='casos');