# Ciencia de datos
## Práctica 2. Lectura y manipulación de datos con pandas
### Alberto Benavides

Una vez extraídos los datos de los archivos PDF como se mencionó en la [prácita anterior](https://nbviewer.jupyter.org/github/jbenavidesv87/CienciaDatos/blob/master/Notebooks/P1.ipynb), se lidió con los errores de lectura de las librerías y programas con los que se realizó el proceso. Los datos extraídos se guardaron en formato CSV y se ven como

```
2006|01|TOTAL| 'T�tanos\rCIE-10a REV.\rA34| '-'
2006|2006_sem23|TOTAL| 'Hepatitis\raguda tipo A\rCIE-10a REV.\rB15'| '276'
2006|2006_sem30|TOTAL| 'Varicela\rCIE-10a REV.\rB01'| '3 320'
```

Se optó por separar las columnas de los datos con `|` en lugar de `,`, separador por defecto, puesto que en algunos casos la separación por miles se denota con `,` o se utiliza este mismo símbolo para separar nombres de enfermedades. Además, la segunda columna que corresponde al número de la semana podía contener prefijos del nombre del archivo, como en `2006_sem23` asociado a la semana 23 del año 2006. Aunado a esto, la cuarta columna contiene tanto el nombre de la enfermedad como la CIE correspondiente y suele contener la revisión de la CIE con base en la cual se hizo la clasificación para cada enfermedad. Esto tiende a aparecer como `CIE-10a REV.`. También es posible encontrar símbolos para saltar líneas, espacios o tabulaciones como `\r`, `\n`, etc. Finalmente, es común que el algoritmo de extracción de datos desde tablas en archivos PDF incluya espacios en blanco al inicio o al final de los datos extraídos además de `'` o `"` cuando se toma la información de la celda como textual y no numérica.

Para solucionar todas estas eventualidades, primero se leyeron los archivos generados con [`csv.reader`](https://docs.python.org/3/library/csv.html) especificando que `|` es el separador de columnas con

```python
with open('test/{}enf.csv'.format(year), "r", newline='') as f:
    reader = csv.reader(f, delimiter='|')
```

La información obtenida se almacena en `reader` y, para poder manipular las columnas, se convierten a arreglos con 

```python
lines = list(reader)
```

De esta manera, se puede iterar entre registros

```python
for i in range(len(lines)):
```

tal que, por ejemplo, `lines[i][1]` corresponde al registro `i`, segunda columna.

Ahora se sobreescriben los datos indeseables con los de interés. Primero se extrajo la semana con

```python
lines[i][1] = lines[i][1][-2:]
```

El índice `[-2:]` se utiliza para tomar desde el penúltimo caracter hasta el último de la columna de la semana. Con ello se elimina todo lo correspondiente a los nombres de archivo y se conserva sólo el número de la semana, desde la `01` hasta la `53`. Por su parte, es necesario forzar la conversión de casos reportados (`lines[i][4]`) a cadenas de texto para poderlas manipular, lo que se logra con

```python
lines[i][4] = str(lines[i][4])
```

En tanto los casos son cadenas de texto, es posible eliminar las `'` con

```python
lines[i][4] = lines[i][4].replace("'", "")
```

que utiliza [`string.replace`](https://docs.python.org/3.3/library/stdtypes.html#str.replace) para sustituir el primer argumento de la función por el segundo en la cadena de texto desde la que se llama el método. Ya que se eliminan las `'` se requiere eliminar espacios iniciales en la cadena mediante

```python
lines[i][4] = re.sub("^\s+", "", lines[i][4])
```

Después, es necesario convertir los `-` a ceros

```python
if lines[i][4][0] is "-":
  lines[i][4] = "0"
```

y los `n.e` o `n.d` a `NA`

```python
lines[i][4] = lines[i][4].replace("n.e", "NA")
lines[i][4] = lines[i][4].replace("n.d", "NA")
```

El trato que se da a la columna de las enfermedades es similar. Primer se eliminan los espacios iniciales y finales

```python
lines[i][3] = re.sub("\s+", " ", lines[i][3])
lines[i][3] = re.sub("^\s+", "", lines[i][3])
```

luego se eliminan los `'`

```python
lines[i][3] = lines[i][3].replace("'", "")
```

se cambian los `\r` por espacios en blanco puesto que los saltos de línea en los cuadros de los PDFs corresponden con espacios en los nombres de las enfermedades

```python
lines[i][3] = lines[i][3].replace("\\r", " ")
```

y, por estandarizar el nombre de las enfermedades, se convierten todas a minúsculas

```python
lines[i][3] = str.lower(lines[i][3]) # a minúsculas
```

por último, cuando se encuentra `cie` en la columna correspondiente al nombre de la enfermedad, se almacenan los caracteres posteriores a `cie-10a rev.` en `cie`, variable temporal que se agregará como columna a la línea con la instrucción [`append`](https://www.tutorialspoint.com/python3/list_append.htm)

```python
if "cie" in lines[i][3]:
  cie = lines[i][3][lines[i][3].find("cie-10a rev.") + 13:] 
  lines[i][3] = lines[i][3][:lines[i][3].find("cie-10a rev.") - 1]
  lines[i].append(cie)
```

Tras corregir todos estos detalles, se procede al guardado de estos archivos en CSV con [`csv.writer`](https://docs.python.org/3/library/csv.html#csv.writer)

```python
with open('csvSemanales/{}enf_limpio.csv'.format(year), "w", newline = "") as f:
  writer = csv.writer(f)
  writer.writerows(lines)
```