In [1]:
import pandas as pd
from sqlalchemy import create_engine
import numpy as np
import pymysql
pymysql.install_as_MySQLdb()

### Sources of data

We extracted the first data set from the Secretary of Health's website and a second data set from an open government source. The first data set consists of a catalogue containing a list of all hospitals in Mexico. The second data set corresponds to all emergencies attended in SSA hospitals in Mexico.
The main objective of this work was to create a relational data base containing the two data sets as tables. The unifying item in both of them is "CLUES" a unique number which identifies the hospital.
The resulting database will allow  the analysis of the number of patients admitted to public emergency rooms during 2015, the average age and sex of patients, length of stay in the emergency room, and month of admission, with the finality of determining which is the age group and gender more prone to use emergency services, the month with more admissions, and the average time patients spend in the emergency department, by making queries, using sql.

For these matters, we based our analysis using the following datasets:

* Establecimientos 2018 (hospital_index): http://www.dgis.salud.gob.mx/contenidos/intercambio/clues_gobmx.html
* Urgencias 2015 (emergencies_2015): https://datos.gob.mx/busca/dataset/urgencias

The name of the file downloaded from  http://www.dgis.salud.gob.mx/contenidos/intercambio/clues_gobmx.html, was long and complicated. As a first step we changed the name of the first document to Establecimientos_2018. We also transformed the document to a csv format.

## Data loading
First data set

In [6]:
hospital_file = "Establecimientos_2018.csv"
hospitals = pd.read_csv(hospital_file, encoding='latin-1')
#hospitals = pd.read_csv(hospital_file, encoding='UTF-8)
hospitals.head()

Unnamed: 0,CLUES,NOMBRE DE LA ENTIDAD,CLAVE DE LA ENTIDAD,NOMBRE DEL MUNICIPIO,CLAVE DEL MUNICIPIO,NOMBRE DE LA LOCALIDAD,CLAVE DE LA LOCALIDAD,NOMBRE DE LA JURISDICCION,CLAVE DE LA JURISDICCION,NOMBRE DE LA INSTITUCION,...,CLAVE ESTRATO UNIDAD,TIPO OBRA,CLAVE TIPO OBRA,HORARIO DE ATENCION,AREAS Y SERVICIOS,ULTIMO MOVIMIENTO,FECHA ULTIMO MOVIMIENTO,CERTIFICACION CSG,TIPO CERTIFICACION,VIGENCIA CERTIFICACION
0,ASDIF000011,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1,SISTEMA NACIONAL PARA EL DESARROLLO INTEGRAL D...,...,2.0,NO ESPECIFICADO,6.0,,,CAMBIO,2012-01-03,NO CERTIFICADO,NO ESPECIFICADO,
1,ASDIF000023,AGUASCALIENTES,1,COSÍO,4,COSIO,1,RINCÓN DE ROMOS,2,SISTEMA NACIONAL PARA EL DESARROLLO INTEGRAL D...,...,2.0,NO ESPECIFICADO,6.0,,,CAMBIO,2012-01-03,NO CERTIFICADO,NO ESPECIFICADO,
2,ASDIF000035,AGUASCALIENTES,1,RINCÓN DE ROMOS,7,RINCON DE ROMOS,1,RINCÓN DE ROMOS,2,SISTEMA NACIONAL PARA EL DESARROLLO INTEGRAL D...,...,2.0,NO ESPECIFICADO,6.0,,,CAMBIO,2012-01-03,NO CERTIFICADO,NO ESPECIFICADO,
3,ASDIF000040,AGUASCALIENTES,1,TEPEZALÁ,9,TEPEZALA,1,RINCÓN DE ROMOS,2,SISTEMA NACIONAL PARA EL DESARROLLO INTEGRAL D...,...,2.0,NO ESPECIFICADO,6.0,,,CAMBIO,2012-01-03,NO CERTIFICADO,NO ESPECIFICADO,
4,ASDIF000052,AGUASCALIENTES,1,CALVILLO,3,CALVILLO,1,CALVILLO,3,SISTEMA NACIONAL PARA EL DESARROLLO INTEGRAL D...,...,2.0,NO ESPECIFICADO,6.0,,,CAMBIO,2012-01-03,NO CERTIFICADO,NO ESPECIFICADO,


 Beginning with the data extraction, we filtered our datframe, and kept only rows, which correponded to hospitals:

In [7]:
hospitals = hospitals.loc[hospitals["NOMBRE TIPO ESTABLECIMIENTO"] == "DE HOSPITALIZACIÓN", :]
hospitals.head()

Unnamed: 0,CLUES,NOMBRE DE LA ENTIDAD,CLAVE DE LA ENTIDAD,NOMBRE DEL MUNICIPIO,CLAVE DEL MUNICIPIO,NOMBRE DE LA LOCALIDAD,CLAVE DE LA LOCALIDAD,NOMBRE DE LA JURISDICCION,CLAVE DE LA JURISDICCION,NOMBRE DE LA INSTITUCION,...,CLAVE ESTRATO UNIDAD,TIPO OBRA,CLAVE TIPO OBRA,HORARIO DE ATENCION,AREAS Y SERVICIOS,ULTIMO MOVIMIENTO,FECHA ULTIMO MOVIMIENTO,CERTIFICACION CSG,TIPO CERTIFICACION,VIGENCIA CERTIFICACION
8,ASIMS000016,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1,INSTITUTO MEXICANO DEL SEGURO SOCIAL,...,2.0,NO ESPECIFICADO,6.0,,,CAMBIO,2015-10-08,NO CERTIFICADO,NO ESPECIFICADO,
9,ASIMS000021,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1,INSTITUTO MEXICANO DEL SEGURO SOCIAL,...,2.0,NO ESPECIFICADO,6.0,,,CAMBIO,2015-10-08,NO CERTIFICADO,NO ESPECIFICADO,
23,ASIMS000161,AGUASCALIENTES,1,JESÚS MARÍA,5,JESUS MARIA [EJIDO],469,AGUASCALIENTES,1,INSTITUTO MEXICANO DEL SEGURO SOCIAL,...,2.0,OBRA NUEVA,1.0,"URGENCIAS - L,M,X,J,V,S,D, DE 00:00:00 A 12:00...",URGENCIAS - URGENCIAS | INFECTOLOGÍA - HOSPITA...,ALTA,2018-01-06,,,
24,ASIST000016,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1,INSTITUTO DE SEGURIDAD Y SERVICIOS SOCIALES PA...,...,2.0,NO ESPECIFICADO,6.0,,,CAMBIO,2015-10-08,NO CERTIFICADO,NO ESPECIFICADO,
41,ASSMP000016,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1,SERVICIOS MEDICOS PRIVADOS,...,2.0,NO ESPECIFICADO,6.0,,,CAMBIO,2014-01-17,NO CERTIFICADO,NO ESPECIFICADO,


 The finality of the data extraction was to create a relational data base.

Since the file "uregencias_2015" only contains hospitals of the type SSA, we decided to filter the catalogue, so it would only contain hospitals SSA

In [6]:
hospitals = hospitals.loc[(hospitals["CLAVE DE LA INSTITUCION"] == "SSA")]


In the hospital catalogue there are some hospitals listed with 0 beds. These hospitals are in fact closed, so we removed them.

In [7]:
hospitals = hospitals.loc[(hospitals["TOTAL DE CAMAS"] != 0)]

In order to reduce the size of the dataframe, we are going to keep only columns of interest, resulting in the following data frame:


In [8]:
# Drop the following columns
hospitals_clean = hospitals[['CLUES', 'NOMBRE TIPO ESTABLECIMIENTO',
       'NOMBRE DE TIPOLOGIA',
       'CLAVE DE TIPOLOGIA','TOTAL DE CAMAS', 'NOMBRE DE LA UNIDAD','VIALIDAD',
       'NUMERO EXTERIOR', 'NUMERO INTERIOR',
       'CLAVE DEL TIPO DE ASENTAMIENTO', 'TIPO DE ASENTAMIENTO',
       'ASENTAMIENTO', 'CODIGO POSTAL',
       'ESTATUS DE OPERACION',
       'LONGITUD', 'LATITUD']]



In [9]:
hospitals_clean = hospitals_clean.rename(columns={"CLUES": "CLUES", "NOMBRE TIPO ESTABLECIMIENTO": "NOMBRE_TIPO_ESTABLECIMIENTO",
                                                  "NOMBRE DE TIPOLOGIA": "NOMBRE_DE_TIPOLOGIA", "CLAVE DE TIPOLOGIA": "CLAVE_DE_TIPOLOGIA",
                                                  "TOTAL DE CAMAS": "TOTAL_DE_CAMAS", "NOMBRE DE LA UNIDAD": "NOMBRE_DE_LA_UNIDAD",
                                                  "VIALIDAD": "VIALIDAD", "NUMERO EXTERIOR": "NUMERO_EXTERIOR", "NUMERO INTERIOR": "NUMERO_INTERIOR",
                                                  "CLAVE DEL TIPO DE ASENTAMIENTO": "CLAVE_DEL_TIPO_DE_ASENTAMIENTO", "TIPO DE ASENTAMIENTO": "TIPO_DE_ASENTAMIENTO",
                                                  "ASENTAMIENTO": "ASENTAMIENTO", "CODIGO POSTAL": "CODIGO_POSTAL", "ESTATUS DE OPERACION": "ESTATUS_DE_OPERACION",
                                                  "LONGITUD": "LONGITUD", "LATITUD": "LATITUD"})

hospitals_clean.head(172)


                                                  
                                                  

Unnamed: 0,CLUES,NOMBRE_TIPO_ESTABLECIMIENTO,NOMBRE_DE_TIPOLOGIA,CLAVE_DE_TIPOLOGIA,TOTAL_DE_CAMAS,NOMBRE_DE_LA_UNIDAD,VIALIDAD,NUMERO_EXTERIOR,NUMERO_INTERIOR,CLAVE_DEL_TIPO_DE_ASENTAMIENTO,TIPO_DE_ASENTAMIENTO,ASENTAMIENTO,CODIGO_POSTAL,ESTATUS_DE_OPERACION,LONGITUD,LATITUD
133,ASSSA000025,DE HOSPITALIZACIÓN,HOSPITAL ESPECIALIZADO,O,144,CENTENARIO HOSPITAL MIGUEL HIDALGO,GALEANA SUR,465,,7.0,COLONIA,OBRAJE,20230.0,FUERA DE OPERACION,-102.296401,21.875724
134,ASSSA000030,DE HOSPITALIZACIÓN,HOSPITAL GENERAL,M,60,HOSPITAL GENERAL TERCER MILENIO,AVENIDA SIGLO XXI,SIN NÚMERO,,,,CIUDAD SATÉLITE MORELOS,20298.0,EN OPERACION,-102.255516,21.855710
135,ASSSA000042,DE HOSPITALIZACIÓN,HOSPITAL ESPECIALIZADO,O,61,HOSPITAL DE LA MUJER,SIGLO XXI,109,,16.0,FRACCIONAMIENTO,CIUDAD SATÉLITE MORELOS,20298.0,EN OPERACION,-102.25315632841097,21.856559459786606
136,ASSSA000054,DE HOSPITALIZACIÓN,HOSPITAL PSIQUIÁTRICO,Y,90,HOSPITAL DE PSIQUIATRÍA DR. GUSTAVO LEÓN MOJIC...,BOULEVARD JUAN PABLO II KM. 4.2,SN,,,,FRACCIONAMIENTO FUENTES DEL LAGO,20206.0,EN OPERACION,-102.35532023012638,21.839200132853698
171,ASSSA000404,DE HOSPITALIZACIÓN,HOSPITAL GENERAL,M,30,HOSPITAL GENERAL CALVILLO,RODOLFO LANDEROS,440,,7.0,COLONIA,BUGAMBILIAS,20800.0,EN OPERACION,-102.70324859351354,21.84834533972848
192,ASSSA000614,DE HOSPITALIZACIÓN,HOSPITAL GENERAL,M,30,HOSPITAL GENERAL PABELLÓN DE ARTEAGA,VENUSTIANO CARRANZA,50,,,,,20670.0,EN OPERACION,-102.279334,22.149965
196,ASSSA000655,DE HOSPITALIZACIÓN,HOSPITAL GENERAL,M,30,HOSPITAL GENERAL RINCÓN DE ROMOS,PROLONGACIÓN MORELOS SUR,SIN NÚMERO,,,,SAN JOSÉ,20415.0,EN OPERACION,-102.321294,22.224826
264,ASSSA001331,DE HOSPITALIZACIÓN,HOSPITAL ESPECIALIZADO,O,374,CENTENARIO HOSPITAL MIGUEL HIDALGO,GOMEZ MORIN,,,3.0,BARRIO,LA ESTACION,20259.0,EN OPERACION,-102.28305771827695,21.894723712240364
958,BCSSA000015,DE HOSPITALIZACIÓN,HOSPITAL GENERAL,M,174,HOSPITAL GENERAL DE ENSENADA,TRANSPENINSULAR,111,,7.0,COLONIA,CARLOS PACHECO,22785.0,EN OPERACION,-116.6,31.8251
1001,BCSSA000440,DE HOSPITALIZACIÓN,HOSPITAL GENERAL,M,129,HOSPITAL GENERAL DE MEXICALI,AVENIDA DEL HOSPITAL S/N,SIN NÚMERO,,,,CENTRO CÍVICO,21000.0,EN OPERACION,-115.476271,32.644334


## Data loading
Second data set

In [9]:
#File loading
urgencias = "URGENCIAS_2015.csv"
urgencias_df=pd.read_csv(urgencias, encoding='latin-1')
urgencias_df.head()

  interactivity=interactivity, compiler=compiler, result=result)


Unnamed: 0,ID,CLUES,FOLIO,FECHAALTA,EDAD,CVEEDAD,SEXO,ENTRESIDENCIA,MUNRESIDENCIA,DERHAB,...,IRA,PLANEDA,SOBRESEDA,FECHAINGRESO,HORASESTANCIA,MES_ESTADISTICO,HORAINIATE,MININIATE,HORATERATE,MINTERATE
0,1641,CCSSA017670,1138,2015-10-28 00:00:00,31,3,2,4,2,0,...,,,,2015-10-28 00:00:00,1,11.0,14,20,15,0
1,1642,CCSSA017670,1138,2015-12-13 00:00:00,85,3,2,4,2,0,...,,,,2015-12-13 00:00:00,1,12.0,12,50,13,10
2,1643,CCSSA017670,1139,2015-01-04 00:00:00,18,3,2,4,2,0,...,,,,2015-01-04 00:00:00,0,1.0,9,15,9,30
3,1644,CCSSA017670,1139,2015-02-03 00:00:00,42,3,2,4,2,0,...,,,,2015-02-03 00:00:00,0,2.0,21,0,21,20
4,1645,CCSSA017670,1139,2015-03-02 00:00:00,19,3,1,4,2,0,...,,,,2015-03-02 00:00:00,0,3.0,12,30,12,50


In [11]:
#Inspecting all the columns
urgencias_df.columns.values

array(['ID', 'CLUES', 'FOLIO', 'FECHAALTA', 'EDAD', 'CVEEDAD', 'SEXO',
       'ENTRESIDENCIA', 'MUNRESIDENCIA', 'DERHAB', 'TIPOURGENCIA',
       'MOTATE', 'TIPOCAMA', 'ENVIADOA', 'MP', 'AFECPRIN', 'IRA',
       'PLANEDA', 'SOBRESEDA', 'FECHAINGRESO', 'HORASESTANCIA',
       'MES_ESTADISTICO', 'HORAINIATE', 'MININIATE', 'HORATERATE',
       'MINTERATE'], dtype=object)

The file "urgencias", also contains a lot of columns that are not of interest. We kept only the columns valuable for the planned analysis.

In [12]:
emergencies_2015 = urgencias_df[['CLUES', 'FECHAALTA', 'EDAD', 'SEXO',
       'DERHAB', 'TIPOURGENCIA','MOTATE', 'TIPOCAMA', 'ENVIADOA', 'FECHAINGRESO', 'HORASESTANCIA',
       'MES_ESTADISTICO']]
emergencies_2015.head()

Unnamed: 0,CLUES,FECHAALTA,EDAD,SEXO,DERHAB,TIPOURGENCIA,MOTATE,TIPOCAMA,ENVIADOA,FECHAINGRESO,HORASESTANCIA,MES_ESTADISTICO
0,CCSSA017670,2015-10-28 00:00:00,31,2,0,1,3.0,1,1,2015-10-28 00:00:00,1,11.0
1,CCSSA017670,2015-12-13 00:00:00,85,2,0,2,2.0,3,2,2015-12-13 00:00:00,1,12.0
2,CCSSA017670,2015-01-04 00:00:00,18,2,0,2,2.0,3,4,2015-01-04 00:00:00,0,1.0
3,CCSSA017670,2015-02-03 00:00:00,42,2,0,2,2.0,3,4,2015-02-03 00:00:00,0,2.0
4,CCSSA017670,2015-03-02 00:00:00,19,1,0,1,2.0,1,1,2015-03-02 00:00:00,0,3.0


## Mysql 



We created a database called "hospital_index" in Mysql. Within the database, two tables were creates: "emergencies_2015" and "hospitals".

In [15]:
#This peace of code creates the connection with data base.
engine = create_engine("mysql://root:password$.@localhost/hospital_index")

In [13]:
engine.table_names()

OperationalError: (pymysql.err.OperationalError) (1045, "Access denied for user 'root'@'localhost' (using password: YES)") (Background on this error at: http://sqlalche.me/e/e3q8)

In [18]:
#emergencies_2015.to_sql(name='emergencies_2015', con=engine, if_exists='append', index=False)
emergencies_2015.to_csv("emergencies_2015_clean.csv", encoding = "latin-1", index=False, header=True)

In [25]:
hospitals_clean.to_sql(name='hospitals', con=engine, if_exists='append', index=False)

