<img src="assets/socalo-ICDA.png">

# Python para Finanzas y Ciencia de Datos
Federico Brun | fedejbrun@gmail.com

_Jueves 08 Octubre 2020_

## Interrupción de Flujo de Ejecución y Limpieza de datos con Numpy y Pandas

<img src="https://files.realpython.com/media/A-Guide-to-Pandas-Dataframes_Watermarked.7330c8fd51bb.jpg">

_Fuente: realpython.com_

### Break y Pass

Cuando comenzamos nuestro estudio de estructuras de control, vimos la importancia de definir correctamente la **instrucción de corte** para poder interrumipir la ejecución de los mismos dada una condición.

En algunas implementaciones, incluso definiendo correctamente dicha condición, vemos que se ejecutan instrucciones adicionales que no habíamos planificado. 

Para ello contamos con dos palabras reservadas en Python que cumplen diferentes funciones según sea necesario:
* `break` interrumpe el flujo del bloque ejecutado, cancela las ejecuciones pendientes dentro del bucle y sale de este.
* `pass` pasa de largo y permite que se ejecuten las siguientes instrucciones.

In [6]:
# Queremos mostrar los elementos de una lista uno a uno, pero terminar
# la ejecución cuando encontremos una texto específico

nombres_de_alumnos = ["Ricardo", "Martín", "Romina", "Federico", "Micaela", "Agustina" ]

In [7]:
nombres_de_alumnos

['Ricardo', 'Martín', 'Romina', 'Federico', 'Micaela', 'Agustina']

In [8]:
for alumno in nombres_de_alumnos:
    if alumno == "Federico":
        print(alumno)
        print("Aca debería interrumpirse el bucle")
    else:
        print(alumno)        

Ricardo
Martín
Romina
Federico
Aca debería interrumpirse el bucle
Micaela
Agustina


In [9]:
for alumno in nombres_de_alumnos:
    if alumno == "Federico":
        print(alumno)
        print("Aca debería interrumpirse el bucle")
        break
    else:
        print(alumno)     

Ricardo
Martín
Romina
Federico
Aca debería interrumpirse el bucle


In [14]:
win = 0  # Contador de clientes ganadores 

In [15]:
import time  # Para producir una espera entre cliente y cliente
import random  # Para que la espera sea una cantidad de segundos aleatoria        

In [16]:
while True:
    win = win + 1
    print("Felicitaciones, usted es el " + str(win) + " ganador!")
    
    dormir = random.randint(0, 3)
    time.sleep(dormir)
    
    if win == 10:
        print("Y se ha llevado el ultimo premio!!!!!")
        break

Felicitaciones, usted es el 1 ganador!
Felicitaciones, usted es el 2 ganador!
Felicitaciones, usted es el 3 ganador!
Felicitaciones, usted es el 4 ganador!
Felicitaciones, usted es el 5 ganador!
Felicitaciones, usted es el 6 ganador!
Felicitaciones, usted es el 7 ganador!
Felicitaciones, usted es el 8 ganador!
Felicitaciones, usted es el 9 ganador!
Felicitaciones, usted es el 10 ganador!
Y se ha llevado el ultimo premio!!!!!


Dependiendo la **lógica** que necesitemos implementar, ambas palabras reservadas pueden usarse en cualquier tipo de bloque de Python (funciones, `while`, `for`, `if`).

Particularmente `pass` nos resulta muy util por ejemplo, cuando necesitamos definir una funcion pero todavía no implementamos 100% su funcionalidad. Si no lo hacemos el interprete de Python nos va a devolver un error.

In [36]:
actividades_por_dia = {
    1: 'Lunes= Gym',
    2: 'Martes= Tenis',
    3: 'Miercoles= Gym',
    4: 'Jueves= Descanso',
    5: 'Viernes= Natación',
    6: 'Sabado= Golf'
}

In [37]:
dia_aleatorio = random.randint(1, 6)

Llamo a las posibles funciones sin haberlas definido.

In [40]:
print(dia_aleatorio)

if dia_aleatorio == 1:
    print(actividades_por_dia.get(1))
    gym()
elif dia_aleatorio == 2:
    print(actividades_por_dia.get(2))
    tenis()
elif dia_aleatorio == 3:
    print(actividades_por_dia.get(3))
    gym()
elif dia_aleatorio == 4:
    print(actividades_por_dia.get(4))
    descanso()
elif dia_aleatorio == 5:
    print(actividades_por_dia.get(5))
    natacion()
elif dia_aleatorio == 6:
    print(actividades_por_dia.get(6))
    golf()

6
Sabado= Golf
Los dias de Golf nos encontramos con algunos compañeros de la oficina


Defino las funciones pero todavía no sé bien que lógica va a ejecutar cada una.

In [41]:
def gym():
    pass

def tenis():
    pass

def natacion():
    pass

def golf():
    pass

def descanso():
    pass

In [42]:
dia_aleatorio = random.randint(1, 6)
print(dia_aleatorio)

if dia_aleatorio == 1:
    print(actividades_por_dia.get(1))
    gym()
elif dia_aleatorio == 2:
    print(actividades_por_dia.get(2))
    tenis()
elif dia_aleatorio == 3:
    print(actividades_por_dia.get(3))
    gym()
elif dia_aleatorio == 4:
    print(actividades_por_dia.get(4))
    descanso()
elif dia_aleatorio == 5:
    print(actividades_por_dia.get(5))
    natacion()
elif dia_aleatorio == 6:
    print(actividades_por_dia.get(6))
    golf()

5
Viernes= Natación


Implemento la lógica de cada funcion.

In [43]:
def gym():
    print("Los días de Gym entreno por 1 hora")

def tenis():
    print("Los días de Tenis juego con mis amigos de la infancia")

def natacion():
    print("Los días de Natación nado unos 1000 metros")

def golf():
    print("Los dias de Golf nos encontramos con algunos compañeros de la oficina")

def descanso():
    print("Los dias de descanso me gusta pasear junto a mi perra")
    print("y leer algun libro tomando mates")

In [54]:
dia_aleatorio = random.randint(1, 6)
print(dia_aleatorio)

if dia_aleatorio == 1:
    print(actividades_por_dia.get(1))
    gym()
elif dia_aleatorio == 2:
    print(actividades_por_dia.get(2))
    tenis()
elif dia_aleatorio == 3:
    print(actividades_por_dia.get(3))
    gym()
elif dia_aleatorio == 4:
    print(actividades_por_dia.get(4))
    descanso()
elif dia_aleatorio == 5:
    print(actividades_por_dia.get(5))
    natacion()
elif dia_aleatorio == 6:
    print(actividades_por_dia.get(6))
    golf()

2
Martes= Tenis
Los días de Tenis juego con mis amigos de la infancia


---

### Limpieza de Datos con Numpy y Pandas

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png"/>


**Pandas** es una librería que que proporciona unas estructuras de datos flexibles y que permiten trabajar con ellos de forma muy eficiente.

Muy comúnmente utilizada junto a Numpy para limpiar y analizar conjuntos de datos; y junto a Matplotlib o Plotly para visualizarlos.

<a href="https://covid19.who.int/" target="_blank">Motivación para el final del módulo</a>

In [2]:
import pandas as pd
import numpy as np

Las estructuras basicas de Pandas son **DataFrame** y **Series**.

<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe1.svg"/>

In [3]:
covid_cases = {
    "pais": ['Argentina', 'Brasil', 'Chile', 'Uruguay'],
    "casos": [1150, 3000, 2500, 80]
}

In [4]:
df = pd.DataFrame(covid_cases)

In [5]:
df

Unnamed: 0,pais,casos
0,Argentina,1150
1,Brasil,3000
2,Chile,2500
3,Uruguay,80


Un **DataFrame** de Pandas, es una estructura de datos bidimensional, que puede almacenar diferentes tipos de datos en columnas. Similar a una hoja de calculo de Excel.

Cada **columna** de un _DataFrame_ es una **Serie** de pandas.

<img src="https://pandas.pydata.org/docs/_images/01_table_series.svg"/>

In [7]:
paises = df["pais"]
paises

0    Argentina
1       Brasil
2        Chile
3      Uruguay
Name: pais, dtype: object

In [8]:
int_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

int_numpy_array = np.array(int_list)

int_pandas_serie = pd.Series(int_list)

In [9]:
print(int_list)
type(int_list)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


list

In [10]:
print(int_numpy_array)
type(int_numpy_array)

[ 1  2  3  4  5  6  7  8  9 10]


numpy.ndarray

In [11]:
print(int_pandas_serie)
type(int_pandas_serie)

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
dtype: int64


pandas.core.series.Series

Si bien conceptualmente una lista, un arreglo de Numpy y una Serie de Pandas no son distintas, si son tres **tipos de objetos** distintos en Python, por lo tanto cuentan con sus propias funciones para manipularlos.

In [63]:
help(int_pandas_serie)

Help on Series in module pandas.core.series object:

class Series(pandas.core.base.IndexOpsMixin, pandas.core.generic.NDFrame)
 |  Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
 |  
 |  One-dimensional ndarray with axis labels (including time series).
 |  
 |  Labels need not be unique but must be a hashable type. The object
 |  supports both integer- and label-based indexing and provides a host of
 |  methods for performing operations involving the index. Statistical
 |  methods from ndarray have been overridden to automatically exclude
 |  missing data (currently represented as NaN).
 |  
 |  Operations between Series (+, -, /, *, **) align values based on their
 |  associated index values-- they need not be the same length. The result
 |  index will be the sorted union of the two indexes.
 |  
 |  Parameters
 |  ----------
 |  data : array-like, Iterable, dict, or scalar value
 |      Contains data stored in Series.
 |  
 |      .. versionchanged::

La forma mas intuitva de entender Pandas, es como una representacion de datos en **filas y columnas**, justo como Excel.

De hecho, podemos crear DataFrames a partir de archivos de excel o archivos de tipo CSV.
<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite1.svg" />
_Algunos formatos soportados por Pandas para crear DataFrames a partir de archivos_ .

Para empezar a aplicar los conceptos en un set de datos real, vamos a descargar la informacion de COVID-19 provista por la Organización Mundial de la Salud.
Para ello vamos a descargar un archivo CSV y leerlo de forma local, y tambien usarlo directamente desde internet para tenerlo siempre actualizado.

https://covid19.who.int/

In [14]:
covid_global_archivo = pd.read_csv('WHO-COVID-19-global-data.csv')

In [15]:
covid_global_web = pd.read_csv('https://covid19.who.int/WHO-COVID-19-global-data.csv')

In [16]:
covid_global_web

Unnamed: 0,Date_reported,Country_code,Country,WHO_region,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
0,2020-01-03,AF,Afghanistan,EMRO,0,0,0,0
1,2020-01-04,AF,Afghanistan,EMRO,0,0,0,0
2,2020-01-05,AF,Afghanistan,EMRO,0,0,0,0
3,2020-01-06,AF,Afghanistan,EMRO,0,0,0,0
4,2020-01-07,AF,Afghanistan,EMRO,0,0,0,0
...,...,...,...,...,...,...,...,...
65325,2020-10-02,ZW,Zimbabwe,AFRO,12,7850,0,228
65326,2020-10-03,ZW,Zimbabwe,AFRO,8,7858,0,228
65327,2020-10-04,ZW,Zimbabwe,AFRO,0,7858,0,228
65328,2020-10-05,ZW,Zimbabwe,AFRO,30,7888,0,228


In [17]:
type(covid_global_web)

pandas.core.frame.DataFrame

In [18]:
covid_global_web.head()

Unnamed: 0,Date_reported,Country_code,Country,WHO_region,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
0,2020-01-03,AF,Afghanistan,EMRO,0,0,0,0
1,2020-01-04,AF,Afghanistan,EMRO,0,0,0,0
2,2020-01-05,AF,Afghanistan,EMRO,0,0,0,0
3,2020-01-06,AF,Afghanistan,EMRO,0,0,0,0
4,2020-01-07,AF,Afghanistan,EMRO,0,0,0,0


In [19]:
covid_global_web.tail()

Unnamed: 0,Date_reported,Country_code,Country,WHO_region,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
65325,2020-10-02,ZW,Zimbabwe,AFRO,12,7850,0,228
65326,2020-10-03,ZW,Zimbabwe,AFRO,8,7858,0,228
65327,2020-10-04,ZW,Zimbabwe,AFRO,0,7858,0,228
65328,2020-10-05,ZW,Zimbabwe,AFRO,30,7888,0,228
65329,2020-10-06,ZW,Zimbabwe,AFRO,10,7898,0,228


In [22]:
covid_global_web.dtypes

Date_reported         object
 Country_code         object
 Country              object
 WHO_region           object
 New_cases             int64
 Cumulative_cases      int64
 New_deaths            int64
 Cumulative_deaths     int64
dtype: object

In [23]:
covid_global_web.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65330 entries, 0 to 65329
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Date_reported       65330 non-null  object
 1    Country_code       65052 non-null  object
 2    Country            65330 non-null  object
 3    WHO_region         65330 non-null  object
 4    New_cases          65330 non-null  int64 
 5    Cumulative_cases   65330 non-null  int64 
 6    New_deaths         65330 non-null  int64 
 7    Cumulative_deaths  65330 non-null  int64 
dtypes: int64(4), object(4)
memory usage: 4.0+ MB


In [24]:
covid_global_web.to_excel('covid-clase6.xlsx')

In [41]:
covid_df = pd.read_excel('covid-clase6.xlsx')

In [42]:
covid_df

Unnamed: 0.1,Unnamed: 0,Date_reported,Country_code,Country,WHO_region,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
0,0,2020-01-03,AF,Afghanistan,EMRO,0,0,0,0
1,1,2020-01-04,AF,Afghanistan,EMRO,0,0,0,0
2,2,2020-01-05,AF,Afghanistan,EMRO,0,0,0,0
3,3,2020-01-06,AF,Afghanistan,EMRO,0,0,0,0
4,4,2020-01-07,AF,Afghanistan,EMRO,0,0,0,0
...,...,...,...,...,...,...,...,...,...
65325,65325,2020-10-02,ZW,Zimbabwe,AFRO,12,7850,0,228
65326,65326,2020-10-03,ZW,Zimbabwe,AFRO,8,7858,0,228
65327,65327,2020-10-04,ZW,Zimbabwe,AFRO,0,7858,0,228
65328,65328,2020-10-05,ZW,Zimbabwe,AFRO,30,7888,0,228


### OBJETIVO: Obtener los datos pertinentes para Argentina (Nuevos Casos por dia y derivar Casos Acumulados usando pandas)

In [43]:
columnas_originales = covid_df.columns
columnas_originales

Index(['Unnamed: 0', 'Date_reported', ' Country_code', ' Country',
       ' WHO_region', ' New_cases', ' Cumulative_cases', ' New_deaths',
       ' Cumulative_deaths'],
      dtype='object')

In [47]:
ignorar_columnas = [
    ' WHO_region',
    ' Cumulative_cases',
    ' New_deaths',
    ' Cumulative_deaths'
]

In [48]:
arg_df = covid_df
arg_df

Unnamed: 0.1,Unnamed: 0,Date_reported,Country_code,Country,WHO_region,New_cases,Cumulative_cases,New_deaths,Cumulative_deaths
0,0,2020-01-03,AF,Afghanistan,EMRO,0,0,0,0
1,1,2020-01-04,AF,Afghanistan,EMRO,0,0,0,0
2,2,2020-01-05,AF,Afghanistan,EMRO,0,0,0,0
3,3,2020-01-06,AF,Afghanistan,EMRO,0,0,0,0
4,4,2020-01-07,AF,Afghanistan,EMRO,0,0,0,0
...,...,...,...,...,...,...,...,...,...
65325,65325,2020-10-02,ZW,Zimbabwe,AFRO,12,7850,0,228
65326,65326,2020-10-03,ZW,Zimbabwe,AFRO,8,7858,0,228
65327,65327,2020-10-04,ZW,Zimbabwe,AFRO,0,7858,0,228
65328,65328,2020-10-05,ZW,Zimbabwe,AFRO,30,7888,0,228


In [49]:
arg_df.drop(ignorar_columnas, inplace=True, axis=1)
arg_df

Unnamed: 0.1,Unnamed: 0,Date_reported,Country_code,Country,New_cases
0,0,2020-01-03,AF,Afghanistan,0
1,1,2020-01-04,AF,Afghanistan,0
2,2,2020-01-05,AF,Afghanistan,0
3,3,2020-01-06,AF,Afghanistan,0
4,4,2020-01-07,AF,Afghanistan,0
...,...,...,...,...,...
65325,65325,2020-10-02,ZW,Zimbabwe,12
65326,65326,2020-10-03,ZW,Zimbabwe,8
65327,65327,2020-10-04,ZW,Zimbabwe,0
65328,65328,2020-10-05,ZW,Zimbabwe,30


In [50]:
arg_df.columns

Index(['Unnamed: 0', 'Date_reported', ' Country_code', ' Country',
       ' New_cases'],
      dtype='object')

In [53]:
arg_df.drop(arg_df.columns[0], inplace=True, axis=1)
arg_df

Unnamed: 0,Date_reported,Country_code,Country,New_cases
0,2020-01-03,AF,Afghanistan,0
1,2020-01-04,AF,Afghanistan,0
2,2020-01-05,AF,Afghanistan,0
3,2020-01-06,AF,Afghanistan,0
4,2020-01-07,AF,Afghanistan,0
...,...,...,...,...
65325,2020-10-02,ZW,Zimbabwe,12
65326,2020-10-03,ZW,Zimbabwe,8
65327,2020-10-04,ZW,Zimbabwe,0
65328,2020-10-05,ZW,Zimbabwe,30


In [57]:
arg_df.rename(columns={
    'Date_reported': 'fecha',
    ' Country_code': 'cod_pais',
    ' Country': 'pais',
    ' New_cases':'nuevos_casos'}
              , inplace=True)
arg_df

Unnamed: 0,fecha,cod_pais,pais,nuevos_casos
0,2020-01-03,AF,Afghanistan,0
1,2020-01-04,AF,Afghanistan,0
2,2020-01-05,AF,Afghanistan,0
3,2020-01-06,AF,Afghanistan,0
4,2020-01-07,AF,Afghanistan,0
...,...,...,...,...
65325,2020-10-02,ZW,Zimbabwe,12
65326,2020-10-03,ZW,Zimbabwe,8
65327,2020-10-04,ZW,Zimbabwe,0
65328,2020-10-05,ZW,Zimbabwe,30


In [63]:
arg_df.index

RangeIndex(start=0, stop=65330, step=1)

In [62]:
arg_df.loc[0]

fecha            2020-01-03
cod_pais                 AF
pais            Afghanistan
nuevos_casos              0
Name: 0, dtype: object