## ¿Cuántos casos de COVID19 hay en los estados de US?

**Propósito:** En este notebook se aprenderá y profundizará sobre el uso de bucles for y como leer y escribir textos planos en Python.

Como analistas de datos se desea conocer cuantos casos confirmados de COVID han habido entre el 22 de Enero de 2020 y el 8 de Febrero de 2021 para cada estado en Estados Unidos, y guardar el resultado en un archivo de texto. También se necesita saber cuántos casos acumulados han habido en todo el país.

Los datos se encuentran en un archivo llamado confirmed, el cuál tiene 52 subcarpetas al interior, una carpeta por cada estado + 2 territorios. Dentro de cada subcarpeta, hay archivos por cada condado. Esos archivos cuentan con 385 filas (cantidad de días analizados)

Esos dato representan casos acumulados confirmados de COVID-19, eso significa que, los números reportados no solamente son para las personas enfermas ese día, sino que también cuantos han sido contagiados desde Enero 22, incluyendo aquellos que se han recuperado, no recuperado o han tenido el virus más de una vez.

## Madison, Indiana

Para leer un archivo en Python se usa el método open() y el argumento r (read) para leerlo. Para obtener una lista de todas las filas, se usa `.readlines()`.

**Nota:** A través de este caso se truncaran algunas salidas para hacer más legible el notebook

In [1]:
file = open("data/confirmed/Indiana/Madison.csv", "r")
madison_indiana = file.readlines()
madison_indiana[0:15] # La lista tiene 385 filas, por lo que se filtra y se muestran solo las primeras 15

['0\n',
 '0\n',
 '0\n',
 '0\n',
 '0\n',
 '0\n',
 '0\n',
 '0\n',
 '0\n',
 '0\n',
 '0\n',
 '0\n',
 '0\n',
 '0\n',
 '0\n']

Cada fila es una cadena de texto que contiene la cantidad de casos confirmados y el carácter `\n`, que indica nueva línea. Se desea transformar esta lista en una de valores enteros. Para hacer esto posible se hara lo siguiente:

1. Iterar a través de cada valor en la lista
2. Extraer el número
3. Almacenar el número en una nueva lista

Hacer estas tareas es posible mediante un bucle `for` que itere sobre cada valor, o que realice una tarea repetitiva. La sintáxis es la siguiente

~~~python
for item in secuencia:
    <hacer algo>  # Se puede incluir el nombre de la variable "item"
~~~

Secuencia puede ser una lista, tupla, diccionario, array o cadena de caractéres (en este caso itera sobre cada carácter). En el bucle de arriba "hacer algo" para cada item de la secuencia, por lo que si tiene 10 elementos la secuencia, entonces se repetirá 10 veces la tarea.

## Cómo escribir un bucle for

1. El primer paso sería iterar sobre cada elemento de la lista:

~~~Python
for row in madison_indiana:
~~~

2. El segundo paso es declarar la tarea, que bien en este caso sería extraer el número, así:

~~~Python
row = row.replace("\n", "") # Eliminar el salto de línea
number = int(row) # Convertir la fila a entero
~~~

Estas dos líneas se podrían generalizar y mejor incluir en una función:

~~~python
def extract_number(some_text):
    some_text = some_text.replace("\n", "") # Eliminar el salto de línea
    number = int(some_text) # Convertir la fila a entero
    return number
~~~

Ahora esta función podría ser incluída dentro del bucle

In [2]:
def extract_number(some_text):
    some_text = some_text.replace("\n", "") # Eliminar el salto de línea
    number = int(some_text) # Convertir la fila a entero
    return number

for row in madison_indiana[0:15]:
    print(extract_number(row))

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0


Trabajo hecho, ahora solo haría falta incluir los valores en una lista para todos los años.

In [3]:
def extract_number(some_text):
    some_text = some_text.replace("\n", "") # Eliminar el salto de línea
    number = int(some_text) # Convertir la fila a entero
    return number

madison_indiana_number = []    # Se crea una lista vacía 

for row in madison_indiana:
    number = extract_number(row)             # Se guarda cada número en una variable
    madison_indiana_number.append(number)    # Se agrega la variable a la lista vacía
    
madison_indiana_number[:15]

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

Al tratarse de una lista acumulativa, el número de infectados se podría conocer así:

In [4]:
max(madison_indiana_number)

11495

## Aplicar un bucle for para todo Indiana

Hay 94 archivos en la carpeta de Indiana. En caso de no haber bucles for se debería revisar cada uno de los archivos de manera individual, una tarea muy tediosa y repetitiva, lo bueno es que ya sabemos como automatizarla.

### Ejercicio 1

Escriba un bucle `for` para iterar sobre los condados de Indiana en la carpeta `data/confirmed/Indiana` y guarde cada uno en una lista llamada indiana_data

In [5]:
import glob # librería para obtener la ruta de todos los archivos de un directorio/carpeta

list_of_files = glob.glob("data/confirmed/Indiana/*.csv")

indiana_data = []

for i in list_of_files:
    file = open(i, "r")
    county = file.readlines()
    indiana_data.append(county)


### Ejercicio 2

Ahora que se ha creado la lista con cada uno de los condados, cree otro bucle para extraer los números de cada lista. Almacene los valores en una nueva lista llamada indiana_data_clean

In [6]:
indiana_data_clean = []

for county in indiana_data:
    county_number = []
    for row in county:
        number = extract_number(row)             # Se guarda cada número en una variable
        county_number.append(number)             # Se agrega la variable a la lista vacía
    indiana_data_clean.append(county_number)

Finalmente, se puede computar el valor máximo de cada condado y almacenarlo para el estado, de esta manera se puede confirmar la cantidad total de casos confirmados

In [7]:
indiana_current = []

for county in indiana_data_clean:
    curr_case = max(county)
    indiana_current.append(curr_case)

print("El total de casos confirmados para Indiana son: %.2f"%(sum(indiana_current)))

El total de casos confirmados para Indiana son: 642071.00


## Demás estados

Ahora el reto va a ser realizar la tarea anterior para los demás estados y territorios. Por conveniencia lo mejor sería crear una función

In [8]:
def clean_county_data(path):
    """
    Toma la ubicación de un archivo y lo carga en python.
    Regresa una lista con los datos limpios
    """
    # Leer el archivo
    file = open(path, "r")
    content = file.readlines()
    
    # Limpiar los datos y agregar el conteo de casos
    county_numbers = []
    for row in content:
        number = extract_number(row)    # Se aplica la función para extraer números
        county_numbers.append(number)
        
    return county_numbers

### Ejercicio 3

Construir una lista con el nombre del estado y el total de casos confirmados para la ventana de tiempo estudiada. El resultados esperado debería ser algo similar a:

![Desired output](data/images/desired_result.png)

In [9]:
import os # Librería para interactuar con el sistema operativo

In [10]:
list_of_states = os.listdir("data/confirmed") # acceder al nombre de los archivos almacenados en el directorio (Estados)

result = []

for state in list_of_states:
    list_of_current_numbers = []
    list_of_counties = glob.glob("data/confirmed/" + state +"/*.csv") # Lista a todas las rutas en para cada Estado ("Path")

    for county in list_of_counties:                      # Para cada condado dentro de un estado
        county_clean = clean_county_data(county)         # Aplicar la función para limpiar los datos
        current_number = max(county_clean)               # Se toma el máximo del condado evaluado
        list_of_current_numbers.append(current_number)   # Agregar el máximo a la lista de valores actuales
    
    state_total = sum(list_of_current_numbers)           # Se suman todos los condados (max) para el estado
    result.append([state, state_total])                  # Se agrega el total del estado junto a su nombre

Con el listado para cada Estado también es posible inferir los valores para el país como un todo

In [11]:
only_totals = []
for item in result:
    only_totals.append(item[1]) # Se tiene interés solamente en el total, no en el nombre del estado

print("El total de casos confirmados es: %i"%(sum(only_totals)))

El total de casos confirmados es: 27224644


Para guardar el resultado del listado total se crea el archivo `covid_case.txt`. Para esto se usa de nuevo la función `open()` solo que se sustituye `r` por `w` (write)

In [12]:
new_file_to_save = open("covid_cases.txt", "w")
line = "From Jan 22, 2020 to Feb 9, 2021, the number of cumulative COVID-19 cases in the US was 27,224,664."
new_file_to_save.write(line)
new_file_to_save.close()

## Resumen

* **Apertura de archivos de texto:** `file = open("path/to/the/file", "r")`. Para leer las líneas del archivo y guardarlas en una lista se puede usar: `list_of_lines = file.readlines()`. 
* **Para bucles for:** El siguiente describe las partes de un bucle

![For loops](data/images/for_anatomy.png)

* **Poblar una lista vacía de manera iterativa:** Esta tarea frecuente puede ser realizada así: 

~~~python
list_to_populate = []
for item in some_sequence:
    new_item = some_function(item)
    list_to_populate.append(new_item)
~~~

* **Obtener una lista de todos los archivos y su extensión en un directorio:**

~~~Python
import gob
list_of_files = glob.glob("path/to/directory/*.extension")
~~~

Dos punto importantes por resaltar. Primero, si no esta familiarizado con el término de **extension**, este es simplemente el texto que viene después del punto en el nombre del archivo. Las extensiones ayudan a diferenciar el tipo de archivo. Por ejemplo, el archivo `hola.xlsx` tiene la extensión `.xlsx` indicando que se trata un archivo de `Excel`. Como segundopunto, la **wildcard** asterísco (*) indica que aplica para todos los archivos o para un valor indeterminado. Por ejemplo, *.txt incluye hola.txt, adios.txt pero no a bye.xlsx

* **Lista de subdirectorios en un directorio**
~~~Python
import os
list_of_subfolders = os.listdir("path/to/directory")
~~~

* **Bucles `for` anidados:** Para anidar un bucle dentro de otro se debe prestar atención a la adecuada indentación. Se indenta dos veces

* **Creación de un archivo, escritura de una línea y almacenamiento en disco:** Un ejemplo para esta tarea esta dado por:

~~~python
new_file_to_save = open("path/to/folder/name_of_new_file.txt", "w")
line = "Some text to write"
new_file_to_save.write(line)
new_file_to_save.close()
~~~

## Atribuciones

Los datos fueron tomados del sitio  https://github.com/CSSEGISandData/COVID-19. Para información adicional se puede referir a: "Dong E, Du H, Gardner L. An interactive web-based dashboard to track COVID-19 in real time. Lancet Inf Dis. 20(5):533-534. doi: 10.1016/S1473-3099(20)30120-1"