¿Cuántos casos confirmados de COVID19 hay en los estados de Estados Unidos?
=================================================================

**Objetivo de aprendizaje:** En este caso aprenderás a escribir **loops**, (qué en inglés significa **bucles**) `for` y a leer y escribir archivos de texto plano utilizando Python.

---

Trabajas como analista de datos en un Centro de Pensamiento local especializado en política social. Hoy tu jefe ha obtenido un buen conjunto de datos sobre el COVID-19 y quiere que le ayudes con un informe rápido para incluirlo en una de sus presentaciones. Quiere que averigües *cuántos casos confirmados* hubo entre el 22 de enero de 2020 y el 9 de febrero de 2021 en cada estado, y que guardes los *resultados en un archivo de texto*. También necesita saber cuántos casos acumulados ha habido en todo EEUU.

Los datos le llegan en una carpeta llamada `confirmed` (que en inglés significa confirmado), y tiene 52 subcarpetas dentro, una carpeta por cada estado de EEUU más 2 territorios adicionales. Dentro de cada subcarpeta, hay archivos de texto plano, un archivo por condado (los condados en Estados Unidos son más o menos como lo que nosotros llamamos municipios en Colombia). Estos archivos tienen 385 filas cada uno, porque hubo 385 días entre el 22 de enero de 2020 y el 9 de febrero de 2021.

Estos datos representan los casos acumulados confirmados de COVID-19 por condado. Eso significa que los números informan no sólo de cuántas personas se enfermaron ese día, sino también de cuántas han tenido COVID-19 antes (desde el 22 de enero de 2020), incluyendo las que se recuperaron, las que no se recuperaron y las que contrajeron el virus más de una vez.


Madison, Indiana
----------------

Para leer un archivo en Python, utilizamos el método **`open()`** y el argumento `r` (que es la inicial de la palabra *read*, que significa "leer"). Para obtener una lista de todas las filas del archivo, utilizamos **`.readlines()`**.

**Nota:** A lo largo de este caso, truncaremos las salidas de algunas de las celdas rebanando algunas listas para facilitarte la navegación por el cuaderno.

In [None]:
archivo = open("data/confirmed/Indiana/Madison.csv", "r")
madison_indiana = archivo.readlines()
madison_indiana[0:15] # La lista tiene 385 filas, pero solamente mostramos las primeras 15

Cada fila es una cadena de texto que contiene los casos reales confirmados y el carácter `\n`, que señala una nueva línea. Queremos convertir esta extraña lista de cadenas de texto en una lista de números enteros. Para conseguirlo, necesitamos

1.  Iterar por cada elemento de la lista
2.  Extraer el número
3.  Almacenar el número en otra lista


Nuestra mejor ayuda para este tipo de tareas es el **bucle** **`for`**. Los bucles `for` son bloques de código en Python que automatizan tareas repetitivas. La sintaxis es la siguiente


```python
for item in secuencia:
    <hacer algo> # posiblemente incluyendo el nombre de la variable `item`
```


donde `secuencia` es una lista, tupla, conjunto, diccionario o cadena de texto (en el caso de una cadena, los bucles `for` iteran sobre todos los caracteres de esa cadena). El bucle `for` anterior "hace algo" *por cada* elemento de la secuencia, de modo que si la secuencia tiene 10 elementos, el bucle realiza la tarea 10 veces. La palabra clave `for` es la abreviatura de \"para cada\".


Practicando con bucles `for`
------------------------


### Ejemplo 1

Itera a través de una cadena de texto `mi_texto` y guarda cada carácter de esta cadena en una lista. La entrada debe ser

```python
mi_texto = "Correlation1"
```

Y la salida debe ser

```python
['C','o','r','r','e','l','a','t','i','o','n','1']
```

**Respuesta.**


In [None]:
#Este primer bloque imprime los resultados usando "print()" para mostrar visualmente lo que sucede durante cada iteración de nuestro bucle.

mi_texto = "Correlation1"

lista_de_letras = []

for letra in mi_texto:
    print('-->Comenzando la iteración del bucle--')
    print(f'\tElemento de la cadena en esta iteración = {letra}')
    print('\t Agregando esta letra a la lista de letras')
    lista_de_letras.append(letra )
    print('\t',lista_de_letras)
    print()

print(lista_de_letras)

In [None]:
#Este bloque de código hace lo mismo que el anterior, solo que no imprime los pasos

mi_texto = "Correlation1"

lista_de_letras = []

for letra in mi_texto:
    lista_de_letras.append(letra)
    
print(lista_de_letras)

### Ejemplo 2

Haz una nueva lista utilizando la primera letra de cada palabra de la lista de palabras proporcionada.

Entrada:

```python
['Data', 'Science', '4', 'All']
```


Resultado:

```python
['D', 'S', '4', 'A']
```

**Respuesta.**


In [None]:
#Este primer bloque imprime los resultados usando "print()" para mostrar visualmente lo que sucede durante cada iteración de nuestro bucle.

lista_de_palabras = ["Data", "Science", "4", "All"]
resultado = []

for palabra in lista_de_palabras:
    print('--Comienza la iteración del loop--')
    print(f'\tElemento de la lista de palabras en esta iteración= {palabra}')
    print(f'\tExtrar primera letra de esta palabra: {palabra[0]}')
    print('\tAgregar esta letra en nuestra lista de resultado')
    resultado.append(palabra[0])
    print('\t', resultado)
    print()

print(resultado)

In [None]:
#Este bloque de código hace lo mismo que el anterior, solo que no imprime los resultados

lista_de_palabras = ["Data", "Science", "4", "All"]
resultado = []

for palabra in lista_de_palabras:
    resultado.append(palabra[0])
    
print(resultado)

Escribiendo un bucle `for`
-----------------------

Cada elemento de la lista `madison_indiana` es una cadena de texto que contiene los casos reales confirmados y el carácter `\n`, que señala una nueva línea, así `['25\n', '35\n', ...]`. Queremos convertir esta extrañísima lista de cadenas de texto en una lista de enteros (como esta `[25, 35, ...]`). Para conseguirlo, necesitamos: 

1.  Iterar por cada elemento de la lista
2.  Extraer el número
3.  Almacenar el número en otra lista

¿Cómo sería nuestro bucle `for`? El primer paso, "iterar por cada elemento de la lista", es fácil:


```python
for linea in madison_indiana:
```


Para el segundo paso, tenemos que extraer el número. Podríamos escribir algo así:


```python
linea = linea.replace("\n", "") # Eliminar la nueva linea
numero = int(linea) # Convertir en entero
```


Sin embargo, envolver ó incluir estas dos líneas en una función podría ser más fácil de leer:


```python
def extraer_numero(cualquier_texto):
    cualquier_texto = cualquier_texto.replace("\n", "") # Eliminar la nueva linea
    numero = int(cualquier_texto) # Convertir en entero
    return numero
```


Ahora podemos incluir `extraer_numero(cualquier_texto)` dentro de nuestro bucle `for`:

In [None]:
def extraer_numero(cualquier_texto):
    cualquier_texto = cualquier_texto.replace("\n", "")
    numero = int(cualquier_texto)
    return numero

for fila in madison_indiana[0:15]:
    print(extraer_numero(fila))

Ahora que hemos extraído con éxito los números, esta sería una forma de hacer el  último paso, que es "Almacenar el número en otra lista":


In [None]:
numeros_madison_indiana = []

for fila in madison_indiana:
    numero = extraer_numero(fila)
    numeros_madison_indiana.append(numero)

Primero creamos una lista vacía, `numeros_madison_indiana`, luego iteramos a través de las líneas del archivo con el bucle `for` y para cada fila, extraemos el número con nuestra función y añadimos el resultado a nuestra lista vacía. Así que básicamente hemos rellenado nuestra lista de forma iterativa (recuerda de un caso anterior que puedes añadir elementos a una lista utilizando `mi_lista.append()`). Veamos como se ven nuestros datos depurados:


In [None]:
numeros_madison_indiana[0:15]

Para encontrar el número más reciente de casos confirmados, utilizamos el método **`max()`** (los datos son una serie temporal acumulativa, por lo que el valor más reciente será siempre el máximo):


In [None]:
max(numeros_madison_indiana)

### Haciendo el cálculo para todos los condados de Indiana

Solamente en la carpeta de Indiana hay 94 archivos. Si los bucles `for` no existieran, tendrías que leer los archivos uno por uno y almacenar los resultados manualmente, pero ahora tienes los conocimientos necesarios para automatizar esta tarea.


### Ejercicio 1

Escribe un bucle  `for` para recorrer todos los archivos de la carpeta `data/confirmed/Indiana` y guardar cada archivo como un elemento de una lista llamada `datos_indiana`.

**Pista:** Este código te dará una lista de todos los archivos CSV que están dentro de la carpeta Indiana, con sus correspondientes rutas:


```python
import glob
lista_de_archivos = glob.glob("data/confirmed/Indiana/*.csv")
```


Además, recuerda utilizar `open()` y `.readlines()`.

**Respuesta.**

-------

### Ejercicio 2

Ahora que tienes `datos_indiana`, crea un bucle `for` que lo recorra y extraiga los números. Llama a la lista anidada resultante `datos_indiana_limpios`.

Para este ejercicio, tendrás que utilizar un **bucle** `for` **anidado**, es decir, un bucle `for` dentro de otro bucle `for`. El bucle anidado debe estar indentado. Como en el siguiente ejemplo:


```python
for i in [1,2,3]: # Este es el primer bucle
    for j in [4,5,6]: # Este es el bucle anidado
        print(i+j)
```


**Pista:** Necesitas dos listas vacías: Una es `datos_indiana_limpios` y la otra corresponde a los números de condado de un determinado condado (te damos estas listas en el código de abajo). Vas a tener que añadir los números limpios a esta segunda lista, y luego añadir iterativamente todas las listas de condados (una por condado) a `datos_indiana_limpios`.

Te proporcionamos una parte del código para ayudarte a empezar:


```python
datos_indiana_limpios = []

for condado in datos_indiana:
    numeros_de_este_condado = []
    # Agrega tu bucle aquí
    datos_indiana_limpios.append(numeros_de_condado)
```



**Respuesta.**

-------

Por último, calculemos el número actual de casos para cada condado y luego el total estatal:


In [None]:
indiana_actual = []
for condado in datos_indiana_limpios:
    casos_actuales = max(condado)
    indiana_actual.append(casos_actuales)
    
sum(indiana_actual)

Ahora sabemos que se han confirmado 642.071 casos en Indiana.


Haciendo lo mismo para todos los estados y condados
---------------------------------------------------

Hay 3.334 archivos en nuestro conjunto de datos. Ampliar nuestro análisis a todo el país parece un buen trabajo para un bucle `for`.

Para nuestra comodidad, vamos a envolver nuestro código de limpieza en una función:


In [None]:
def datos_limpios_condado(ruta):
    """
    Toma una ruta de un archivo, carga el archivo en Python 
    y devuelve una lista con los datos limpios.
    """
    # Leyendo el archivo
    archivo = open(ruta, "r")
    content = archivo.readlines()
    
    # Limpiando los datos y agregandolos a numeros_de_condado
    numeros_de_este_condado = []
    for fila in content:
        numero = extraer_numero(fila)
        numeros_de_este_condado.append(numero)
        
    return numeros_de_este_condado

Para llamar a esta función, necesitas escribir algo similar al código siguiente, y el resultado será una lista de enteros (los números que corresponden al condado que se ingresa como input o entrada):


In [None]:
datos_limpios_condado("data/confirmed/Indiana/Madison.csv")

### Ejercicio 3

Este código te da la lista de todos los estados:


```python
import os
lista_de_estados = os.listdir("data/confirmed")
```


Y esto te da la lista de todos los archivos en `` `data/confirmed/Indiana` ``:


```python
glob.glob("data/confirmed/Indiana/*.csv")
```


Puedes parametrizar este último pedazo de código así


```python
estado = "Indiana"
glob.glob("data/confirmed/" + estado + "/*.csv")
```


Con esto en mente, escribe un bucle `for` que dé el siguiente resultado (tendrás que anidar los bucles):

![Salida deseada](data/images/desired_result.png)

El resultado deseado es una lista en la que cada elemento es una lista con dos elementos 1) El nombre del estado y 2) el número total de casos confirmados en ese estado. Llama a esta lista `resultado`.

**Pista:** Te damos parte del código para ayudarte a empezar (tienes que añadir tu bucle `for` después del comentario `#Tu código aquí`):


```python
import os
lista_de_estados = os.listdir("data/confirmed")

resultado = []
for estado in lista_de_estados:
    # Una lista en la cual vamos a almacenar los máximos de cada condado en este estado
    lista_de_numeros_actuales = []
    
        # Limpiando todos los archivos correspondientes y encontrando sus máximos
        lista_de_condados = glob.glob("data/confirmed/" + estado + "/*.csv")
        # Tu código aquí
    
    # Sumando los números actuales de todos los condados de este estado
    total_estado = sum(lista_de_numeros_actuales)
    
    # Agregando los resultados a la lista de resultados
    resultado.append([estado, total_estado])

resultado
```



**Respuesta.**

-------

Finalmente, podemos sumar todos los totales a nivel estatal para obtener un total general para todo EEUU:


In [None]:
solo_totales = []
for estado in resultado:
    solo_totales.append(estado[1]) # Solo nos interesa el número, no en el nombre del estado

sum(solo_totales)

Desde el 22 de enero de 2020 hasta el 9 de febrero de 2021, el número de casos acumulados de COVID-19 en EEUU fue de 27.224.664.


Guardar tus resultados en un archivo de texto es fácil. Vamos a crear el archivo `casos_covid.txt`. Para ello, utilizaremos este código (fíjate en que esta vez hemos utilizado `w` en lugar de `r`, porque queremos **escribir** en ese archivo (*write* en inglés), no sólo **leerlo**):


In [None]:
nuevo_archivo_a_guardar = open("casos_covid.txt", "w")
linea = "Desde enero 22 de 2020 hasta febrero 9 de 2021, el número acumulado de casos de COVID-19 en EEUU fue 27.224.664."
nuevo_archivo_a_guardar.write(linea)
nuevo_archivo_a_guardar.close()

Ve a la carpeta de este caso. El nuevo archivo debería estar allí con los resultados.


 Apéndice
--------

Aquí tienes un resumen de los principales puntos que hemos tratado en este caso:

-   **Abrir un archivo de texto**: `archivo = open("ruta/al/archivo", "r")`. Para leer las líneas del archivo y guardarlas en forma de lista, utiliza `lista_de_líneas = archivo.readlines()`.
-   **Bucles `for`**. Este diagrama muestra las diferentes partes de un bloque de bucle `for`:

![Bucles for](data/images/for_anatomy.png)

-   **Rellenar una lista de forma iterativa:** Esta es una tarea común, así que guarda el fragmento código:


```python
lista_a_llenar = []
for item in cualquier_secuencia:
    nuevo_item = cualquier_funcion(item)
    lista_a_llenar.append(nuevo_item)
```


-   **Obtener una lista de todos los archivos con `extensión` en un directorio (directorio es sólo otro nombre para \"carpeta\")**:


```python
import glob
lista_de_archivos = glob.glob("ruta/al/archivo/*.extension")
```


Aquí hay que tener en cuenta dos cosas importantes:

En primer lugar, si no estás familiarizado con el término **extensión**, es simplemente el texto que va después del punto en los nombres de los archivos. Las extensiones ayudan a identificar el tipo de archivo. Por ejemplo, `mi_excel.xlsx` tiene la extensión `.xslx`, que identifica los archivos de Excel, y `mi_imagen.png` tiene la extensión `.png`, que te indica que se trata de un archivo de imagen PNG. 

En segundo lugar, es que este fragmento de código utiliza un asterisco (`*`) como **comodín**. En este contexto, este símbolo le dice a Python que tenga en cuenta todos los archivos que están dentro de esa carpeta y que terminan en . `extension`. Así, por ejemplo, este código detectaría `hola.extensión` y `adiós.extensión` pero no `esto_es.otraextensión`. Los comodines son marcadores de posición que representan un texto indeterminado antes o después de otro texto conocido. \* **Obtener una lista de todos los subdirectorios de un directorio**:


```python
import os
lista_de_subcarpetas = os.listdir("ruta/al/directorio")
```


-   **Bucles `for` anidados:** Para anidar un bucle `for` dentro de otro bucle `for`, tienes que indentar el bucle interior (los fragmentos de código dentro del bucle interior tendrán, por tanto, doble indentación).
-   **Crear un archivo, escribir una línea y guardar el archivo en el disco**: Este es un fragmento genérico para hacerlo:


```python
nuevo_archivo_a_guardar = open("ruta/al/archivo/nombre_de_nuevo_archivo.txt", "w")
linea = "Cualquier texto para ser escrito"
nuevo_archivo_a_guardar.write(linea)
nuevo_archivo_a_guardar.close()
```



Créditos
--------

*JHU CSSE COVID-19 Dataset*. Johns Hopkins University on behalf of its Center for Systems Science in Engineering. February 9, 2021. Creative Commons Attribution 4.0 International. https://github.com/CSSEGISandData/COVID-19. For additional information, please refer to "Dong E, Du H, Gardner L. An interactive web-based dashboard to track COVID-19 in real time. Lancet Inf Dis. 20(5):533-534. doi: 10.1016/S1473-3099(20)30120-1"

