# Apertura de archivos con datos con pandas y exploración inicial
## Marco Arieli Herrera-Valdez$^1$
### $^1$Facultad de Ciencias, UNAM



##### Financiado por DGAPA-UNAM, PAPIME PE114919

Primero importemos el módulo [pandas](https://pandas.pydata.org) (para ver tutorial haz click [aquí](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html))

In [1]:
import pandas as pd
import numpy as np

Para abrir archivos csv del internet es posible utilizar el comando read_csv del módulo pandas de python. Para ello, necesitamos tener la dirección del servidor donde están los archivos. Por ejemplo, para los archivos de casos sobre la pandemia de COVID-19 del sitio de CSSEGISandData,

In [2]:
# Los nombres de los archivos y del sitio de internet deben escribirse en variables de tipo <cadenas de caracteres>
sitio='https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/'
archCasos='time_series_covid19_confirmed_global.csv'

print('Datos de casos extraidos desde %s'%(sitio+archCasos))

Datos de casos extraidos desde https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv


Para extraer los archivos csv a un cuadro de datos en pandas, es necesario saber el tipo de codificación de los caracteres y si están comprimidos, el tipo de compresión. Un cuadro de datos es un objeto (definición de objeto en python [aquí](https://docs.python.org/3/tutorial/classes.html)) en python cuyos datos son la información del archivo csv, y los métodos son funciones u otras secuencias de operaciones que se pueden realizar sobre los datos.  

Por ejemplo, 

In [3]:
data=pd.read_csv(sitio+archCasos, compression=None,encoding='latin-1')

En la medida de lo posible, siempre es conveniente construir funciones para poder llevar a cabo procesos que pudiera interesarnos repetir. En este caso, una función para abrir archivos con pandas con la que podemos repetir el proceso de apertura para varios archivos. Por ejemplo, 

In [4]:
def openCSV_DB(path, comp='zip',enc='latin-1'):
    data=pd.read_csv(path, compression=comp,encoding=enc)
    print('Data obtained from %s'%path)
    return data

Si queremos abrir otros tres archivos, podemos usar la función openCSV_DB. 

In [5]:
archFatal='time_series_covid19_deaths_global.csv'
archRecov='time_series_covid19_recovered_global.csv'
compr=None; codif='latin-1'
cases = openCSV_DB(sitio+archCasos,compr,codif)
# Los argumentos de una función pueden aparecer en orden distinto al orden en que fueron introducidos
recovs= openCSV_DB(enc=codif,path=sitio+archRecov,comp=compr)
# Usando los valores para los argumentos que están previamente especificados
deaths= openCSV_DB(path=sitio+archFatal,comp=compr)

Data obtained from https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv
Data obtained from https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_recovered_global.csv
Data obtained from https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_global.csv


Si los archivos no están comprimidos, 

In [6]:
sitioCOVID19Mexico='http://187.191.75.115/gobmx/salud/datos_abiertos/'
archCOVID19Mexico = 'datos_abiertos_covid19.zip'
datosMexico = openCSV_DB(sitioCOVID19Mexico+archCOVID19Mexico,enc='latin-1',comp='zip')

Data obtained from http://187.191.75.115/gobmx/salud/datos_abiertos/datos_abiertos_covid19.zip


### Exploración de los datos

Para ver tutorial de pandas haz click [aquí](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html).

Para ver en general el principio y el final del cuadro de datos, se usan los métodos head y tail. 

In [7]:
datosMexico.head(4)

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,2020-05-06,z166d5,1,12,1,1,1,1,1,2,...,2,2,2,2,2,1,99,MÃ©xico,99,2
1,2020-05-06,0a34f3,1,4,32,2,32,32,17,2,...,2,1,2,2,99,1,99,MÃ©xico,99,2
2,2020-05-06,029c12,1,4,21,1,21,21,156,1,...,2,2,2,1,99,2,99,MÃ©xico,99,97
3,2020-05-06,002579,1,4,3,1,3,3,3,2,...,2,2,2,2,99,2,99,MÃ©xico,99,2


En el caso de los datos de la Secretaría de Salud de México, es necesario tiener otros archivos CSV con las claves para algunas de las columnas de datos. Para ver sólo algunos datos de una columna en específico (los registros 11-20), hay que especificar el nombre de la columna y los índices que corresponden a las filas que deseamos ver. En este caso,

In [8]:
datosMexico['ENTIDAD_UM'][10:19]

10     5
11     2
12    21
13    26
14    14
15    26
16    19
17     5
18    24
Name: ENTIDAD_UM, dtype: int64

El sitio donde están los archivos se llama [diccionario de datos](http://187.191.75.115/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zip). 
Al bajarlos podemos darnos cuenta de en un zip con archivos xls ['diccionario_datos_covid19/Catalogos_0412.xlsx', 'diccionario_datos_covid19/Descriptores_0419.xlsx']. Además de ser varios archivos, cada archivo en excel tiene varias hojas de cálculo, por lo que primero hay que identificar cada hoja, y después abrirlas por separado. En este caso es más conveniente tener los archivos en un directorio local, y abrirlos de ahi. A diferencia de los archivos con series de tiempo que se van actualizando, esos archivos no deberían cambiar mucho con el tiempo. Los archivos en este caso son guardados en un directorio local llamado [dataBases](./dataBases).

In [28]:
import xlrd #rutaDicc= 'diccionario_datos_covid19.zip'
direc = './dataBases/diccionario_datos_covid19/'
archCatalogos= 'Catalogos_0412.xlsx'
archDescriptores= 'Descriptores_0419.xlsx'

cataXLS = pd.ExcelFile(direc+archCatalogos)
catalogos=dict()
for sn in cataXLS.sheet_names:  # see all sheet names
    print(sn)
    catalogos[sn]= pd.read_excel(direc+archCatalogos,sheet_name=sn)




descriptores=pd.read_excel(direc+archDescriptores)


Catálogo ORIGEN
Catálogo SECTOR
Catálogo SEXO
Catálogo TIPO_PACIENTE
Catálogo SI_NO
Catálogo NACIONALIDAD
Catálogo RESULTADO
Catálogo de ENTIDADES
Catálogo MUNICIPIOS


Para ver sólo uno de los catálogos, por ejemplo, el de ENTIDADES, 

In [30]:
print(catalogos['Catálogo de ENTIDADES'])

    CLAVE_ENTIDAD               ENTIDAD_FEDERATIVA ABREVIATURA
0               1                   AGUASCALIENTES          AS
1               2                  BAJA CALIFORNIA          BC
2               3              BAJA CALIFORNIA SUR          BS
3               4                         CAMPECHE          CC
4               5             COAHUILA DE ZARAGOZA          CL
5               6                           COLIMA          CM
6               7                          CHIAPAS          CS
7               8                        CHIHUAHUA          CH
8               9                 CIUDAD DE MÉXICO          DF
9              10                          DURANGO          DG
10             11                       GUANAJUATO          GT
11             12                         GUERRERO          GR
12             13                          HIDALGO          HG
13             14                          JALISCO          JC
14             15                           MÉXICO     

In [33]:
print(catalogos['Catálogo MUNICIPIOS'])

      CLAVE_MUNICIPIO        MUNICIPIO  CLAVE_ENTIDAD
0                   1   AGUASCALIENTES              1
1                   2         ASIENTOS              1
2                   3         CALVILLO              1
3                   4            COSÍO              1
4                   5      JESÚS MARÍA              1
...               ...              ...            ...
2496              999  NO ESPECIFICADO             32
2497              999  NO ESPECIFICADO             36
2498              997        NO APLICA             97
2499              998        SE IGNORA             98
2500              999  NO ESPECIFICADO             99

[2501 rows x 3 columns]


In [10]:
cases.tail(3)

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,4/27/20,4/28/20,4/29/20,4/30/20,5/1/20,5/2/20,5/3/20,5/4/20,5/5/20,5/6/20
263,,Yemen,15.552727,48.516388,0,0,0,0,0,0,...,1,1,6,6,7,10,10,12,22,25
264,,Comoros,-11.6455,43.3333,0,0,0,0,0,0,...,0,0,0,1,1,3,3,3,3,8
265,,Tajikistan,38.861034,71.276093,0,0,0,0,0,0,...,0,0,0,15,15,76,128,230,293,379


En los cuadros de datos de pandas los renglones están asociados al método <index> y las columnas al método <columns>. Para las filas

In [9]:
datosMexico.index

RangeIndex(start=0, stop=110994, step=1)

que indica que las filas son números enteros entre 0 y 110994. Para las columnas será útil guardar los nombres en una lista. Explícitamente,

In [None]:
colsDatosMexico=datosMexico.columns
print(colsDatosMexico)

Entonces, para ver los datos que corresponden a la Ciudad de México, hay que seleccionar la columna correspondiente del catálogo de Entidades.

### Visualización de los datos

Los datos se pueden graficar de varias formas. Una manera es usar [bokeh](https://docs.bokeh.org) (para ver tutorial haz click [aquí](https://docs.bokeh.org/en/0.10.0/docs/user_guide/setup.html))

In [None]:
from bokeh.plotting import figure, output_file, output_notebook, show
output_file("test.html")
p = figure()
p.line(cases[], line_width=2)
show(p)