## Import Libraries

In [1]:
# DATA WRANGLING, MANIPULATION AND ANALYSIS
import pandas as pd
import numpy as np

# VISUALIZE DATA
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go
import plotly.express as xp

# Jupyter Dash
import json
from jupyter_dash import JupyterDash
from dash import dash, html, dcc, Input, Output, dash_table

## Extract and Structure Primarily Information

### Download and select data related to "Claves Unicas de Establecimientos de Salud (CLUES)"

In [2]:
url_clues = "http://gobi.salud.gob.mx/historico_clues/ESTABLECIMIENTO_SALUD_202012.xlsx?v=1.1"
data = pd.read_excel(url_clues, sheet_name="CLUES DIC 2020")
data.head(5)

Unnamed: 0,ID,CLUES,NOMBRE DE LA ENTIDAD,CLAVE DE LA ENTIDAD,NOMBRE DEL MUNICIPIO,CLAVE DEL MUNICIPIO,NOMBRE DE LA LOCALIDAD,CLAVE DE LA LOCALIDAD,NOMBRE DE LA JURISDICCION,CLAVE DE LA JURISDICCION,...,CLAVE TIPO OBRA,HORARIO DE ATENCION,AREAS Y SERVICIOS,ULTIMO MOVIMIENTO,FECHA ULTIMO MOVIMIENTO,MOTIVO BAJA,FECHA EFECTIVA DE BAJA,CERTIFICACION CSG,TIPO CERTIFICACION,VIGENCIA CERTIFICACION
0,2,ASDIF000011,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1.0,...,6.0,,,CAMBIO,2012-01-03,,,NO CERTIFICADO,NO ESPECIFICADO,
1,3,ASDIF000023,AGUASCALIENTES,1,COSÍO,4,COSIO,1,RINCÓN DE ROMOS,2.0,...,6.0,,,CAMBIO,2012-01-03,,,NO CERTIFICADO,NO ESPECIFICADO,
2,4,ASDIF000035,AGUASCALIENTES,1,RINCÓN DE ROMOS,7,RINCON DE ROMOS,1,RINCÓN DE ROMOS,2.0,...,6.0,,,CAMBIO,2012-01-03,,,NO CERTIFICADO,NO ESPECIFICADO,
3,5,ASDIF000040,AGUASCALIENTES,1,TEPEZALÁ,9,TEPEZALA,1,RINCÓN DE ROMOS,2.0,...,6.0,,,CAMBIO,2012-01-03,,,NO CERTIFICADO,NO ESPECIFICADO,
4,6,ASDIF000052,AGUASCALIENTES,1,CALVILLO,3,CALVILLO,1,CALVILLO,3.0,...,6.0,,,CAMBIO,2012-01-03,,,NO CERTIFICADO,NO ESPECIFICADO,


#### As we can see in the following section, our dataframe possess 40,226 rows and 82 features. We have 3,298,532 registers altogether but we don't necessarily need all this information. Lets see what we can pick up from those columns.

In [3]:
print("Total data shape: ", data.shape)
print("Total data size: ", data.size)
print("Total memory usage: {} Mb".format(sum(data.memory_usage())/1000000))

Total data shape:  (40226, 82)
Total data size:  3298532
Total memory usage: 26.388384 Mb


In [4]:
count = 0
for feature in data.columns:
    count+=1
    print("{}. {}".format(count,feature))

1. ID
2. CLUES
3. NOMBRE DE LA ENTIDAD
4. CLAVE DE LA ENTIDAD
5. NOMBRE DEL MUNICIPIO
6. CLAVE DEL MUNICIPIO
7. NOMBRE DE LA LOCALIDAD
8. CLAVE DE LA LOCALIDAD
9. NOMBRE DE LA JURISDICCION
10. CLAVE DE LA JURISDICCION
11. NOMBRE DE LA INSTITUCION
12. CLAVE DE LA INSTITUCION
13. NOMBRE TIPO ESTABLECIMIENTO
14. CLAVE TIPO ESTABLECIMIENTO
15. NOMBRE DE TIPOLOGIA
16. CLAVE DE TIPOLOGIA
17. NOMBRE DE SUBTIPOLOGIA
18. CLAVE DE SUBTIPOLOGIA
19. CLAVE SCIAN
20. DESCRIPCION CLAVE SCIAN
21. CONSULTORIOS DE MED GRAL
22. CONSULTORIOS EN OTRAS AREAS
23. TOTAL DE CONSULTORIOS
24. CAMAS EN AREA DE HOS
25. CAMAS EN OTRAS AREAS
26. TOTAL DE CAMAS
27. NOMBRE DE LA UNIDAD
28. CLAVE DE VIALIDAD
29. TIPO DE VIALIDAD
30. VIALIDAD
31. NUMERO EXTERIOR
32. NUMERO INTERIOR
33. CLAVE DEL TIPO DE ASENTAMIENTO
34. TIPO DE ASENTAMIENTO
35. ASENTAMIENTO
36. ENTRE TIPO DE VIALIDAD 1
37. ENTRE VIALIDAD 1
38. ENTRE TIPO DE VIALIDAD 2
39. ENTRE VIALIDAD 2
40. OBSERVACIONES DE LA DIRECCION
41. CODIGO POSTAL
42. ESTATUS D

#### Evidently we don't need every single column from this collection, hence we'll only select the most significant traits that can describe the institutions.

In [5]:
Ncol = ["CLUES","NOMBRE DE LA ENTIDAD","NOMBRE DEL MUNICIPIO",
       "NOMBRE DE LA JURISDICCION","NOMBRE DE LA INSTITUCION","CLAVE DE LA INSTITUCION","NOMBRE TIPO ESTABLECIMIENTO",
       "NOMBRE DE TIPOLOGIA","NOMBRE DE LA UNIDAD","CODIGO POSTAL","ESTATUS DE OPERACION",
       "FECHA DE CONSTRUCCION","FECHA DE INICIO DE OPERACION","NIVEL ATENCION","LATITUD","LONGITUD"]
data = data.loc[:,Ncol]
data.describe(include="all")

Unnamed: 0,CLUES,NOMBRE DE LA ENTIDAD,NOMBRE DEL MUNICIPIO,NOMBRE DE LA JURISDICCION,NOMBRE DE LA INSTITUCION,CLAVE DE LA INSTITUCION,NOMBRE TIPO ESTABLECIMIENTO,NOMBRE DE TIPOLOGIA,NOMBRE DE LA UNIDAD,CODIGO POSTAL,ESTATUS DE OPERACION,FECHA DE CONSTRUCCION,FECHA DE INICIO DE OPERACION,NIVEL ATENCION,LATITUD,LONGITUD
count,40226,40226,40226,40225,40226,40226,40226,40226,40226,40133.0,40226,16607,33682,40226,39309.0,39309.0
unique,40226,32,2309,244,17,17,4,99,31870,,3,5212,8249,4,33604.0,32731.0
top,ASDIF000011,MEXICO,TIJUANA,VALLES CENTRALES,SECRETARIA DE SALUD,SSA,DE CONSULTA EXTERNA,CONSULTORIO ADYACENTE A FARMACIA,FARMACIAS SIMILARES,,EN OPERACION,1900-01-01,2000-01-01,PRIMER NIVEL,19.4215,-99.0017
freq,1,3206,474,850,19449,19449,32434,6588,4108,,34998,164,199,32394,52.0,52.0
mean,,,,,,,,,,63872.861037,,,,,,
std,,,,,,,,,,27038.194645,,,,,,
min,,,,,,,,,,1000.0,,,,,,
25%,,,,,,,,,,41100.0,,,,,,
50%,,,,,,,,,,67190.0,,,,,,
75%,,,,,,,,,,87400.0,,,,,,


#### A brief look into the description and we can notice certain interesting facts.
1. México is the federal entity with most quantity of healthcare institutions;
2. Tijuana city has the greatest quantity of healthcare institutions among another cities in México;
3. "Secretaria de Salud" is the most plentiful institution in the country;
4. Outpatien department institutions are the most abundantly in México;
5. The most abundant private healthcare institution is "Farmacias Similares"

In [6]:
print("Partial data shape: ", data.shape)
print("Partial data size: ", data.size)
print("Partial memory usage: {} Mb".format(sum(data.memory_usage())/1000000))

Partial data shape:  (40226, 16)
Partial data size:  643616
Partial memory usage: 5.149056 Mb


#### Now we only have 16 out of 80 features from our data, getting approximately 20% of memory usage. 

### Download information related to healthcare resources "Secretaría de Salud".

In [7]:
url_SSA = "Datos/Recursos/Recursos Secretaria de Salud 2020.csv"
dataSSA = pd.read_csv(url_SSA, encoding="latin-1")
dataSSA.head(5)

Unnamed: 0,CLUES,CLAVE ENTIDAD,ENTIDAD,CLAVE JURISDICCIÓN,JURISDICCIÓN,CLAVE MUNICIPIO,MUNICIPIO,CLAVE LOCALIDAD,LOCALIDAD,TIPO DE ESTABLECIMIENTO,...,C1725,C1729,C1735,C1738,C1745,C1746,C1747,C1749,C1730,C1750
0,ASSSA000030,1,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,HO,...,8,1,1,0,0,0,0,0,0,2020
1,ASSSA000042,1,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,HO,...,2,0,0,0,0,0,1,0,0,2020
2,ASSSA000054,1,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,1,AGUASCALIENTES,HO,...,0,0,0,0,0,0,0,0,0,2020
3,ASSSA000404,1,AGUASCALIENTES,3,CALVILLO,3,CALVILLO,1,CALVILLO,HO,...,3,0,0,0,0,0,0,0,0,2020
4,ASSSA000614,1,AGUASCALIENTES,2,RINCÓN DE ROMOS,6,PABELLÓN DE ARTEAGA,1,PABELLON DE ARTEAGA,HO,...,1,0,0,0,0,0,0,0,0,2020


In [8]:
print("Total data shape: ", dataSSA.shape)
print("Total data size: ", dataSSA.size)
print("Total memory usage: {} Mb".format(sum(dataSSA.memory_usage())/1000000))

Total data shape:  (14503, 146)
Total data size:  2117438
Total memory usage: 16.939632 Mb


In [9]:
dataSSA.iloc[:,0:15].describe(include="all")

Unnamed: 0,CLUES,CLAVE ENTIDAD,ENTIDAD,CLAVE JURISDICCIÓN,JURISDICCIÓN,CLAVE MUNICIPIO,MUNICIPIO,CLAVE LOCALIDAD,LOCALIDAD,TIPO DE ESTABLECIMIENTO,TIPOLOGÍA,NOMBRE DEL ESTABLECIMIENTO,UNIDADES,E13,C1301
count,14503,14503.0,14503,14503.0,14503,14503.0,14503,14503.0,14503,14503,14503,14503,14503.0,14503.0,14501.0
unique,14503,,32,,243,,2095,,8819,2,32,13590,,,
top,ASSSA000030,,MEXICO,,CENTRO,,CENTRO,,TIJUANA,CE,A,EMILIANO ZAPATA,,,
freq,1,,1288,,296,,105,,66,13679,5315,24,,,
mean,,17.125215,,4.974695,,58.449011,,90.301248,,,,,1.0,2.867476,1.499621
std,,7.826084,,3.772818,,82.277871,,614.550883,,,,,0.0,6.446962,1.574479
min,,1.0,,1.0,,1.0,,1.0,,,,,1.0,0.0,0.0
25%,,12.0,,2.0,,12.0,,1.0,,,,,1.0,1.0,1.0
50%,,15.0,,4.0,,33.0,,9.0,,,,,1.0,1.0,1.0
75%,,23.0,,7.0,,71.0,,45.0,,,,,1.0,3.0,2.0


### Download healthcare resources from "Salud Sectorial"

In [10]:
url_SSE = "Datos/Recursos/Recursos Salud Sectorial 2020.csv"
dataSSE = pd.read_csv(url_SSE, encoding="latin-1")
dataSSE.head(5)

  dataSSE = pd.read_csv(url_SSE, encoding="latin-1")


Unnamed: 0,Año,CLUES,Sector,Institución,Clave Estado,Nombre Estado,Clave Municipio,Nombre Municipio,Clave Localidad,Nombre Localidad,...,Personal Técnico en Banco de Sangre,Personal Técnico en inhaloterapia,Partera,Otro personal técnico,Total otro personal,Personal administrativo,Personal en archivo clínico,Personal en conservación y mantenimiento,Personal de Intendencia (incluye lavandería),Otro personal
0,2020,DFDIF000640,PUBLICO,DIF,9,CIUDAD DE MEXICO,2,AZCAPOTZALCO,1,AZCAPOTZALCO,...,0.0,0.0,0.0,11.0,72,32.0,0.0,1.0,5.0,34.0
1,2020,DFDIF000652,PUBLICO,DIF,9,CIUDAD DE MEXICO,3,COYOACAN,1,COYOACAN,...,0.0,0.0,0.0,0.0,70,35.0,0.0,6.0,15.0,14.0
2,2020,DFDIF000664,PUBLICO,DIF,9,CIUDAD DE MEXICO,3,COYOACAN,1,COYOACAN,...,0.0,0.0,0.0,0.0,62,36.0,2.0,5.0,8.0,11.0
3,2020,DFDIF000676,PUBLICO,DIF,9,CIUDAD DE MEXICO,3,COYOACAN,1,COYOACAN,...,0.0,0.0,0.0,0.0,36,20.0,1.0,7.0,8.0,0.0
4,2020,DFDIF000681,PUBLICO,DIF,9,CIUDAD DE MEXICO,3,COYOACAN,1,COYOACAN,...,0.0,0.0,0.0,0.0,21,15.0,0.0,1.0,5.0,0.0


#### The previous warning message involve mixed type columns thus we need to replace empty spaces for 0 number. 

In [11]:
dataSSE = dataSSE.replace([" ",""],'0')
dataSSE = dataSSE.fillna(0)

In [12]:
print("Total data shape: ", dataSSE.shape)
print("Total data size: ", dataSSE.size)
print("Total memory usage: {} Mb".format(sum(dataSSE.memory_usage())/1000000))

Total data shape:  (21857, 229)
Total data size:  5005253
Total memory usage: 40.042152 Mb


In [13]:
dataSSE.iloc[:,0:15].describe(include="all")

Unnamed: 0,Año,CLUES,Sector,Institución,Clave Estado,Nombre Estado,Clave Municipio,Nombre Municipio,Clave Localidad,Nombre Localidad,Nombre de la Unidad,Tipo de Establecimiento,Tipología,Unidades,¿Cuenta con agua potable?
count,21857.0,21857,21857,21857,21857.0,21857,21857.0,21857,21857.0,21857,21857,21857,21857,21857.0,21857.0
unique,,21857,1,11,,32,,2307,,11500,20268,4,78,,
top,,DFDIF000640,PUBLICO,SSA,,CHIAPAS,,CUAUHTEMOC,,CUAUHTEMOC,EMILIANO ZAPATA,DE CONSULTA EXTERNA,A,,
freq,,1,21857,14503,,1787,,133,,123,26,20309,5318,,
mean,2020.0,,,,17.359153,,62.648259,,98.063687,,,,,1.0,0.779659
std,0.0,,,,8.071272,,87.39391,,690.388761,,,,,0.0,0.414486
min,2020.0,,,,1.0,,1.0,,1.0,,,,,1.0,0.0
25%,2020.0,,,,11.0,,13.0,,1.0,,,,,1.0,1.0
50%,2020.0,,,,16.0,,35.0,,7.0,,,,,1.0,1.0
75%,2020.0,,,,24.0,,77.0,,42.0,,,,,1.0,1.0


### Compare dataframes resources

#### Now we have to compare resources from both dataframes and select the best one.

In [14]:
duplicates = dataSSE.loc[:,"CLUES"].isin(dataSSA.loc[:,"CLUES"])
duplicates.sum()

14503

In [15]:
dataCLUES = {"Subdescriptores SSA":[21,8,8,25,4,5,4,3,7,15,5,12,4,0],
            "Subdescriptores SSE":[38,25,14,36,4,5,4,3,8,17,5,12,19,20]}
idx = ["Consultorios",
      "Camas Censables",
       "Camas No Censables",
       "Médicos Generales, Especialistas y Odontólogos",
       "Personal Médico de Adiestramiento",
       "Médicos en Otras Actividades",
       "Personal de Enfermería en contacto con Pacientes",
       "Personal de Enfermería en otras Labores",
       "Otro Personal Profesional",
       "Personal Técnico",
       "Otro Personal",
       "Equipo Médico",
       "Áreas Médicas",
       "Infraestructura Hospitalaria"
      ]


compData = pd.DataFrame(data=dataCLUES, index=idx)
CompTotales = pd.Series(data=compData.sum(), name="Total")
compData = compData.append(CompTotales, ignore_index=False)
compData["Diferencia Absoluta"] = (compData["Subdescriptores SSA"] - compData["Subdescriptores SSE"]).abs().values

compData.index.name = "Descriptores"
#compData.style.set_caption('Cantidad de Descriptores Secundarios por cada Descriptor')
compData.style.highlight_max(subset=compData.columns[0:2],
                                       color="#2978A0",axis=1)

  compData = compData.append(CompTotales, ignore_index=False)


Unnamed: 0_level_0,Subdescriptores SSA,Subdescriptores SSE,Diferencia Absoluta
Descriptores,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Consultorios,21,38,17
Camas Censables,8,25,17
Camas No Censables,8,14,6
"Médicos Generales, Especialistas y Odontólogos",25,36,11
Personal Médico de Adiestramiento,4,4,0
Médicos en Otras Actividades,5,5,0
Personal de Enfermería en contacto con Pacientes,4,4,0
Personal de Enfermería en otras Labores,3,3,0
Otro Personal Profesional,7,8,1
Personal Técnico,15,17,2


#### As we can notice, "Salud sectorial" dataframe has an overflowing quantity of information rather than "Secrearía de Salud".



### Display Results

#### We split our information in two sections: 
##### 1. HC Institutions in SSE dataframe
##### 2. HC Institutions not in SSE dataframe

In [16]:
Columns = ["ESTATUS DE OPERACION","NOMBRE TIPO ESTABLECIMIENTO","CLAVE DE LA INSTITUCION"] 
NoSSE = data[~data["CLUES"].isin(dataSSE["CLUES"])] #NoSSE almacena las instituciones que no se encuentran en la base de datos de SSE

NoSSE_Array = [0,] * len(Columns)

for i in range(len(Columns)):
    NoSSE_Array[i] = NoSSE.loc[:,Columns[i]].groupby(NoSSE.loc[:,Columns[i]]).count()
    print(NoSSE_Array[i],"\n")

ESTATUS DE OPERACION
EN OPERACION                        13185
FUERA DE OPERACION                   5177
PENDIENTE DE ENTRAR EN OPERACION       38
Name: ESTATUS DE OPERACION, dtype: int64 

NOMBRE TIPO ESTABLECIMIENTO
DE APOYO                 1852
DE ASISTENCIA SOCIAL      687
DE CONSULTA EXTERNA     12147
DE HOSPITALIZACIÓN       3714
Name: NOMBRE TIPO ESTABLECIMIENTO, dtype: int64 

CLAVE DE LA INSTITUCION
CIJ                  52
CRO                 145
DIF                 657
FGE                  20
HUN                   6
IMSS                261
IMSS-BIENESTAR      447
ISSSTE               71
PGR                  36
SCT                  43
SEDENA              202
SEMAR                 3
SME                 162
SMM                  59
SMP               11290
SSA                4946
Name: CLAVE DE LA INSTITUCION, dtype: int64 



In [17]:
Columns = ["ESTATUS DE OPERACION","NOMBRE TIPO ESTABLECIMIENTO","CLAVE DE LA INSTITUCION"] 
InSSE = data[data["CLUES"].isin(dataSSE["CLUES"])] #NoSSE almacena las instituciones que no se encuentran en la base de datos de SSE

InSSE_Array = [0,] * len(Columns)

for i in range(len(Columns)):
    InSSE_Array[i] = InSSE.loc[:,Columns[i]].groupby(InSSE.loc[:,Columns[i]]).count()
    print(InSSE_Array[i],"\n")

ESTATUS DE OPERACION
EN OPERACION                        21813
FUERA DE OPERACION                     12
PENDIENTE DE ENTRAR EN OPERACION        1
Name: ESTATUS DE OPERACION, dtype: int64 

NOMBRE TIPO ESTABLECIMIENTO
DE APOYO                   11
DE ASISTENCIA SOCIAL       14
DE CONSULTA EXTERNA     20287
DE HOSPITALIZACIÓN       1514
Name: NOMBRE TIPO ESTABLECIMIENTO, dtype: int64 

CLAVE DE LA INSTITUCION
DIF                  24
HUN                  36
IMSS               1453
IMSS-BIENESTAR     4073
ISSSTE             1156
PEMEX                65
SEDENA              101
SEMAR                36
SME                 300
SMM                  79
SSA               14503
Name: CLAVE DE LA INSTITUCION, dtype: int64 



#### Afterwards, we join both information (InSSE_Array and NoSSE_Array) adding relative proportions.

In [18]:
f = lambda r: (r.iloc[:,0]*100 / (r.iloc[:,0] + r.iloc[:,1]))

compSSE_Array = [0,]*3

titlePerc = "% NoSSE"
titlePerc2 = "% InSSE"

for i in range(3):
    compSSE_Array[i] = pd.DataFrame({"NoSSE":NoSSE_Array[i], "InSSE":InSSE_Array[i]}).fillna(value=0)
    compSSE_Array[i] = compSSE_Array[i].assign(**{titlePerc : f(compSSE_Array[i]).values, titlePerc2 : 100-f(compSSE_Array[i]).values})
    compSSE_Array[i].sort_values(by = [titlePerc, "NoSSE"], ascending=[True,True], inplace=True)
    
print(compSSE_Array[0], "\n", compSSE_Array[1], "\n", compSSE_Array[2])

                                  NoSSE  InSSE    % NoSSE    % InSSE
ESTATUS DE OPERACION                                                
EN OPERACION                      13185  21813  37.673581  62.326419
PENDIENTE DE ENTRAR EN OPERACION     38      1  97.435897   2.564103
FUERA DE OPERACION                 5177     12  99.768742   0.231258 
                              NoSSE  InSSE    % NoSSE    % InSSE
NOMBRE TIPO ESTABLECIMIENTO                                    
DE CONSULTA EXTERNA          12147  20287  37.451440  62.548560
DE HOSPITALIZACIÓN            3714   1514  71.040551  28.959449
DE ASISTENCIA SOCIAL           687     14  98.002853   1.997147
DE APOYO                      1852     11  99.409554   0.590446 
                            NoSSE    InSSE     % NoSSE     % InSSE
CLAVE DE LA INSTITUCION                                          
PEMEX                        0.0     65.0    0.000000  100.000000
ISSSTE                      71.0   1156.0    5.786471   94.213529
SEM

#### Interactive display of information with Dash

In [19]:
app2 = JupyterDash(__name__,external_stylesheets=['https://codepen.io/chriddyp/pen/bWLwgP.css'])
server = app2.server

app2.layout = html.Div([
    dcc.Dropdown(
        id = "graph_selector",
        options = [{"label":i,"value":Columns.index(i)} for i in Columns],
        value = 0,
        clearable = False
    ),
    
    dcc.RadioItems(
        id = "abs_operation",
        options = [{'label': i[0], 'value': i[1]} for i in [["Absoluto",0],["Relativo",1]]],
        value = 0,
        labelStyle = {'display': 'inline-block'}
    ),
    
    dcc.Graph(
        id='graph'
    )
], style={
    'borderBottom': 'thin lightgrey solid',
    'backgroundColor': 'rgb(250, 250, 250)',
    'padding': '10px 5px',
    'textAlign': 'center'
})

@app2.callback(
    Output('graph', 'figure'),
    [Input('graph_selector', 'value'),
     Input("abs_operation","value")]
)
def update_output(graph_selector_value, abs_value):
    
    if abs_value == 0:
        data = compSSE_Array[graph_selector_value].columns[:2]
    else:
        data = compSSE_Array[graph_selector_value].columns[-2:]
    
    fig_callback = xp.bar(data_frame=compSSE_Array[graph_selector_value],
                          y = compSSE_Array[graph_selector_value].index,
                          x = data,
                          barmode="relative", orientation="h",
                          color_discrete_sequence=['#EF553B','#636EFA'],
                          title="{} entre NoSSE e InSSE".format(Columns[graph_selector_value]))
    
    #fig_callback.update_layout(transition_duration=500)
    
    return fig_callback


In [20]:
app2.run_server(mode="inline", port=8060)

#### There is a significant amount of units whose resources are not registered on "Salud Sectorial" thus we need to know why.
#### It's visible that only 34,998 out of 40,226 units are in operation therefore we can exclude every unit not opperative.
#### Let's print the NoSSE columns to get a better reference for the next procedures.

In [21]:
NoSSE.columns

Index(['CLUES', 'NOMBRE DE LA ENTIDAD', 'NOMBRE DEL MUNICIPIO',
       'NOMBRE DE LA JURISDICCION', 'NOMBRE DE LA INSTITUCION',
       'CLAVE DE LA INSTITUCION', 'NOMBRE TIPO ESTABLECIMIENTO',
       'NOMBRE DE TIPOLOGIA', 'NOMBRE DE LA UNIDAD', 'CODIGO POSTAL',
       'ESTATUS DE OPERACION', 'FECHA DE CONSTRUCCION',
       'FECHA DE INICIO DE OPERACION', 'NIVEL ATENCION', 'LATITUD',
       'LONGITUD'],
      dtype='object')

In [22]:
NoSSE["CLAVE DE LA INSTITUCION"].unique()

array(['DIF', 'IMSS', 'ISSSTE', 'SCT', 'SEDENA', 'SMP', 'SSA', 'CIJ',
       'CRO', 'IMSS-BIENESTAR', 'SMM', 'PGR', 'FGE', 'SME', 'SEMAR',
       'HUN'], dtype=object)

In [23]:
NoSSE[NoSSE["ESTATUS DE OPERACION"]=="EN OPERACION"]["CLAVE DE LA INSTITUCION"].unique()

array(['DIF', 'IMSS', 'SCT', 'SMP', 'SSA', 'CIJ', 'CRO', 'SMM', 'PGR',
       'FGE', 'SME', 'SEMAR', 'HUN'], dtype=object)

#### With this action we achieve to remove the following institutions: "ISSSTE", "SEDENA" and "IMSS-BIENESTAR"
#### "Salud Sectorial" only recorded public institutions so we must select only those ones.

In [24]:
import copy

In [25]:
NoSSE_Filtrado = copy.deepcopy(NoSSE[(NoSSE["ESTATUS DE OPERACION"]=="EN OPERACION") & (NoSSE["CLAVE DE LA INSTITUCION"]!="SMP")])
NoSSE_Filtrado.groupby("NOMBRE TIPO ESTABLECIMIENTO").count()["CLUES"]

NOMBRE TIPO ESTABLECIMIENTO
DE APOYO                1439
DE ASISTENCIA SOCIAL     615
DE CONSULTA EXTERNA      323
DE HOSPITALIZACIÓN        26
Name: CLUES, dtype: int64

In [26]:
NoSSE_Filtrado.groupby("CLAVE DE LA INSTITUCION").count()["CLUES"]

CLAVE DE LA INSTITUCION
CIJ        52
CRO       141
DIF       612
FGE        20
HUN         1
IMSS      150
PGR        17
SCT        43
SEMAR       1
SME        31
SMM        27
SSA      1308
Name: CLUES, dtype: int64

#### We've got much less units which are out of our resources dataframe.
#### Now we'll analyse the institution "SSA" which has the more quantity of units out of the list.

In [27]:
NoSSE_Filtrado[NoSSE_Filtrado["CLAVE DE LA INSTITUCION"]=="SSA"]["NOMBRE DE TIPOLOGIA"].unique()

array(['ALMACENES', 'ANTIRRABICOS (CONTROL CANINO)',
       'OFICINAS ADMINISTRATIVAS', 'LABORATORIOS',
       'CENTRO ESTATAL DE TRASFUSION SANGUÍNEA (BANCOS DE SANGRE)',
       'OTROS ESTABLECIMIENTOS DE APOYO', 'UNIDAD MÓVIL',
       'CLÍNICA DE ESPECIALIDADES', 'NO ESPECIFICADO'], dtype=object)

#### Apparently "SSA" contains warehouses, offices, and mobil units, therefore we can ignore them.

In [28]:
List = ['ALMACENES','ANTIRRABICOS (CONTROL CANINO)','OFICINAS ADMINISTRATIVAS','UNIDAD MÓVIL']
NoSSE_Filtrado = NoSSE_Filtrado[~ NoSSE_Filtrado["NOMBRE DE TIPOLOGIA"].isin(List)]

In [29]:
print(NoSSE_Filtrado.groupby("NOMBRE TIPO ESTABLECIMIENTO").count()["CLUES"], "\n")
print(NoSSE_Filtrado.groupby("CLAVE DE LA INSTITUCION").count()["CLUES"])

NOMBRE TIPO ESTABLECIMIENTO
DE APOYO                469
DE ASISTENCIA SOCIAL    615
DE CONSULTA EXTERNA     321
DE HOSPITALIZACIÓN       26
Name: CLUES, dtype: int64 

CLAVE DE LA INSTITUCION
CIJ       52
CRO      141
DIF      610
FGE       20
HUN        1
IMSS     117
PGR       17
SCT       43
SEMAR      1
SME       15
SMM        9
SSA      405
Name: CLUES, dtype: int64


In [30]:
NoSSE_Filtrado["NOMBRE DE TIPOLOGIA"].unique()

array(['NO ESPECIFICADO', 'LABORATORIOS',
       'CENTRO ESTATAL DE TRASFUSION SANGUÍNEA (BANCOS DE SANGRE)',
       'OTROS ESTABLECIMIENTOS DE APOYO', 'UNIDAD DE MEDICINA FAMILIAR',
       'SERVICIO MEDICO FORENSE', 'CENTRO DE PREVENCION EN ADICCIONES',
       'CLÍNICA DE ESPECIALIDADES'], dtype=object)

#### It's evident that forensic services are not significant for this project because the first one is a service to resolve crimes

In [31]:
List = ['SERVICIO MEDICO FORENSE']
NoSSE_Filtrado = NoSSE_Filtrado[~ NoSSE_Filtrado["NOMBRE DE TIPOLOGIA"].isin(List)]
print(NoSSE_Filtrado.groupby("NOMBRE TIPO ESTABLECIMIENTO").count()["CLUES"], "\n")
print(NoSSE_Filtrado.groupby("CLAVE DE LA INSTITUCION").count()["CLUES"])

NOMBRE TIPO ESTABLECIMIENTO
DE APOYO                441
DE ASISTENCIA SOCIAL    615
DE CONSULTA EXTERNA     321
DE HOSPITALIZACIÓN       26
Name: CLUES, dtype: int64 

CLAVE DE LA INSTITUCION
CIJ       52
CRO      141
DIF      610
HUN        1
IMSS     117
PGR        9
SCT       43
SEMAR      1
SME       15
SMM        9
SSA      405
Name: CLUES, dtype: int64


In [32]:
print(NoSSE_Filtrado.groupby("NOMBRE TIPO ESTABLECIMIENTO").count()["CLUES"].sum())

1403


#### We get data loss of 1403 out of 40,226. That is to say we only lost 3% of our global information. This percentage is accceptable due to data missrecording. Now we'll make more visible and interactive part of our assumptions.

In [33]:
Columns = ["ESTATUS DE OPERACION",
           "NOMBRE TIPO ESTABLECIMIENTO",
           "CLAVE DE LA INSTITUCION"]

NoSSE_par = NoSSE.loc[:,Columns]
InSSE_par = InSSE.loc[:,Columns]

GroupNoSSE = NoSSE_par[NoSSE_par["ESTATUS DE OPERACION"]=="EN OPERACION"].groupby(Columns[1:3])["CLAVE DE LA INSTITUCION"].count()
GroupInSSE = InSSE_par[InSSE_par["ESTATUS DE OPERACION"]=="EN OPERACION"].groupby(Columns[1:3])["CLAVE DE LA INSTITUCION"].count()

CompGroupSSE = pd.DataFrame({"GroupNoSSE":GroupNoSSE,"GroupInSSE":GroupInSSE}).fillna(value=0)

titlePerc = "% GroupNoSSE"
titlePerc2 = "% GroupInSSE"

CompGroupSSE = CompGroupSSE.assign(**{titlePerc : f(CompGroupSSE).values, titlePerc2 : 100-f(CompGroupSSE).values})

#CompGroupSSE[titlePerc] = f(CompGroupSSE).values
#CompGroupSSE[titlePerc2] = 100 - CompGroupSSE[titlePerc]
CompGroupSSE.sort_values(by=["NOMBRE TIPO ESTABLECIMIENTO",titlePerc,"GroupNoSSE"],ascending=True,inplace=True)

CompGroupSSE

Unnamed: 0_level_0,Unnamed: 1_level_0,GroupNoSSE,GroupInSSE,% GroupNoSSE,% GroupInSSE
NOMBRE TIPO ESTABLECIMIENTO,CLAVE DE LA INSTITUCION,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
DE APOYO,ISSSTE,0.0,1.0,0.0,100.0
DE APOYO,IMSS,33.0,10.0,76.744186,23.255814
DE APOYO,HUN,1.0,0.0,100.0,0.0
DE APOYO,PGR,8.0,0.0,100.0,0.0
DE APOYO,SME,16.0,0.0,100.0,0.0
DE APOYO,FGE,20.0,0.0,100.0,0.0
DE APOYO,SMM,26.0,0.0,100.0,0.0
DE APOYO,CRO,39.0,0.0,100.0,0.0
DE APOYO,SMP,66.0,0.0,100.0,0.0
DE APOYO,SSA,1296.0,0.0,100.0,0.0


In [34]:
app2 = JupyterDash(__name__,external_stylesheets=['https://codepen.io/chriddyp/pen/bWLwgP.css'])
server2 = app2.server

app2.layout = html.Div([
    
    html.Div([
        dcc.RadioItems(
            id = "filter_operation",
            options = [{'label': i, 'value': i} for i in data["ESTATUS DE OPERACION"].unique()],
            value = data["ESTATUS DE OPERACION"].unique()[0],
            labelStyle = {'display': 'inline-block'}
        ),
        
        dcc.Dropdown(
            id = 'graph_selector',
            options = [{"label":i,"value":i} for i in data["NOMBRE TIPO ESTABLECIMIENTO"].unique()],
            value = data["NOMBRE TIPO ESTABLECIMIENTO"].unique()[0],
            clearable = False
        )
    ],style={
    'borderBottom': 'thin lightgrey solid',
    'backgroundColor': 'rgb(250, 250, 250)',
    'padding': '10px 5px',
    'textAlign': 'center'
    }),
    
    html.Div([
        dcc.Graph(
            id='graph'
        )
    ]),
    
    html.Div([
        dcc.RadioItems(
            id = "bar_mode",
            options = [{'label': "Relativo", 'value': "percent"},
                       {'label': "Absoluto", 'value': ""}],
            value = "percent",
            labelStyle = {'display': 'inline-block'}
        )
    ])
], style={
    'borderBottom': 'thin lightgrey solid',
    'backgroundColor': 'rgb(250, 250, 250)',
    'padding': '10px 5px',
    'textAlign': 'center'
})

@app2.callback(
    Output('filter_operation', 'options'),
    Input('graph_selector', 'value')
)
def update_filter(graph_selector_value):
    UnNoSSE = NoSSE_par[NoSSE_par["NOMBRE TIPO ESTABLECIMIENTO"] == graph_selector_value].loc[:,"ESTATUS DE OPERACION"].unique()
    UnInSSE = InSSE_par[InSSE_par["NOMBRE TIPO ESTABLECIMIENTO"] == graph_selector_value].loc[:,"ESTATUS DE OPERACION"].unique()
    
    UniqueSSE = [{'label': i, 'value': i} for i in np.unique(np.concatenate((UnNoSSE,UnInSSE)))]
    
    return UniqueSSE

@app2.callback(
    Output('filter_operation', 'value'),
    Input('filter_operation', 'options')
)
def update_filter(filter_value):
    
    
    return filter_value[0]['value']
    
@app2.callback(
    Output('graph', 'figure'),
    [Input('filter_operation', 'value'),
     Input('graph_selector', 'value'),
     Input('bar_mode', 'value')]
)
def update_output(filter_value, graph_selector_value, bar_mode_value):
    
    GNoSSE = NoSSE_par[NoSSE_par["ESTATUS DE OPERACION"]==filter_value].groupby(Columns[1:3])["CLAVE DE LA INSTITUCION"].count()
    GInSSE = InSSE_par[InSSE_par["ESTATUS DE OPERACION"]==filter_value].groupby(Columns[1:3])["CLAVE DE LA INSTITUCION"].count()
    
    CG_SSE = pd.DataFrame({"GroupNoSSE":GNoSSE,"GroupInSSE":GInSSE}).fillna(value=0)
    
    CG_SSE = CG_SSE.assign(**{titlePerc : f(CG_SSE).values, titlePerc2 : 100-f(CG_SSE).values})
    
    CG_SSE.sort_values(by=["NOMBRE TIPO ESTABLECIMIENTO",titlePerc,"GroupNoSSE","GroupInSSE"], ascending = True, inplace = True)

    fig_callback = xp.histogram(data_frame=CG_SSE.loc[graph_selector_value],
                          y = CG_SSE.loc[graph_selector_value].index,
                          x = CG_SSE.loc[graph_selector_value].columns[:-2],
                          barnorm = bar_mode_value, orientation="h",
                          color_discrete_sequence=['#EF553B','#636EFA'],
                          title="Permanencia entre NoSSE e InSSE en Establecimientos de {} {}".format(graph_selector_value[3:].title(), 
                                                                                                      filter_value.lower()))
    
    return fig_callback


In [35]:
app2.run_server(mode="inline", port=8070) #, port=8060

### Merge and structure final dataframe 

#### We proceed to get all the operative institutions. Then, we obtain only the resources from these ones.

In [36]:
CluesOp = InSSE[InSSE["ESTATUS DE OPERACION"] == "EN OPERACION"]["CLUES"]
CluesOp.shape

(21813,)

In [37]:
sseOp = dataSSE[dataSSE["CLUES"].isin(CluesOp.values)]

eliminar = ["Año","Sector","Clave Localidad","Nombre Localidad"]
sseOp = sseOp.drop(labels = eliminar, axis = 1)
sseOp = sseOp.fillna(value=0)

sseOp['camas de otras especialidades en área de hospitalización'] = abs(sseOp['camas de otras especialidades en área de hospitalización'].astype(int))

sseOp.head(3)

Unnamed: 0,CLUES,Institución,Clave Estado,Nombre Estado,Clave Municipio,Nombre Municipio,Nombre de la Unidad,Tipo de Establecimiento,Tipología,Unidades,...,Personal Técnico en Banco de Sangre,Personal Técnico en inhaloterapia,Partera,Otro personal técnico,Total otro personal,Personal administrativo,Personal en archivo clínico,Personal en conservación y mantenimiento,Personal de Intendencia (incluye lavandería),Otro personal
0,DFDIF000640,DIF,9,CIUDAD DE MEXICO,2,AZCAPOTZALCO,C.N.M.A.I.C.G. VICENTE GARCÍA TORRES,DE ASISTENCIA SOCIAL,NES,1,...,0.0,0.0,0.0,11.0,72,32.0,0.0,1.0,5.0,34.0
1,DFDIF000652,DIF,9,CIUDAD DE MEXICO,3,COYOACAN,C.N.M.A.I.C. CASA COYOACÁN,DE ASISTENCIA SOCIAL,NES,1,...,0.0,0.0,0.0,0.0,70,35.0,0.0,6.0,15.0,14.0
2,DFDIF000664,DIF,9,CIUDAD DE MEXICO,3,COYOACAN,C.N.M.A.I.C. CASA CUNA TLALPAN,DE ASISTENCIA SOCIAL,NES,1,...,0.0,0.0,0.0,0.0,62,36.0,2.0,5.0,8.0,11.0


#### Let's group this information by states.

In [38]:
sseOpEs = sseOp.groupby(["Nombre Estado","Clave Estado"], as_index=True).sum().loc[:,"Unidades":]
sseOpEs = sseOpEs.reset_index(level="Clave Estado")
sseOpEs = sseOpEs.astype("int")

sseOpEs

Unnamed: 0_level_0,Clave Estado,Unidades,¿Cuenta con agua potable?,¿Cuenta con red municipal?,¿Cuenta con pozo?,¿Cuenta con cisterna?,¿Cuenta con otra fuente?,¿Cuenta con drenaje?,¿Cuenta con planta eléctrica?,¿Cuenta con radio (banda civil)?,...,Personal Técnico en Banco de Sangre,Personal Técnico en inhaloterapia,Partera,Otro personal técnico,Total otro personal,Personal administrativo,Personal en archivo clínico,Personal en conservación y mantenimiento,Personal de Intendencia (incluye lavandería),Otro personal
Nombre Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
AGUASCALIENTES,1,144,128,131,109,0,13,132,30,48,...,0,57,0,845,3030,1936,57,204,605,228
BAJA CALIFORNIA,2,285,217,214,69,0,22,171,45,58,...,26,37,0,1565,5044,2998,167,475,1051,353
BAJA CALIFORNIA SUR,3,151,123,123,60,0,4,129,34,21,...,0,4,0,526,1985,1100,46,177,395,267
CAMPECHE,4,200,192,172,118,0,14,126,48,17,...,2,3,0,355,2101,942,121,206,236,596
CHIAPAS,7,1785,1012,771,1163,0,416,651,122,106,...,34,12,43,893,6930,4549,135,352,818,1076
CHIHUAHUA,8,567,359,355,250,0,50,335,74,102,...,12,13,1,1986,6735,3934,92,624,1393,692
CIUDAD DE MEXICO,9,651,544,466,328,0,35,556,312,40,...,108,630,0,10168,42448,23625,1069,2416,8452,6886
COAHUILA DE ZARAGOZA,5,381,328,327,215,0,37,271,72,56,...,29,15,0,1968,5858,3391,148,567,1100,652
COLIMA,6,174,157,148,97,0,7,157,25,13,...,3,8,1,419,1620,901,33,141,274,271
DURANGO,10,528,372,330,347,0,73,336,32,63,...,4,5,0,720,3072,1838,76,287,460,411


#### We are ready to modify our final dataframe. We'll configurate our columns in categories and subcategories as well as setting a MultiIndex format. This is necessary to achieve effective filtering procedures.

#### First, we'll simplificate actual column names.

In [39]:
LowerColumn = lambda x: x.lower()
LowName = [LowerColumn(i) for i in sseOpEs.columns.values]

LowName[0:10]

['clave estado',
 'unidades',
 '¿cuenta con agua potable?',
 '¿cuenta con red municipal?',
 '¿cuenta con pozo?',
 '¿cuenta con cisterna?',
 '¿cuenta con otra fuente?',
 '¿cuenta con drenaje?',
 '¿cuenta con planta eléctrica?',
 '¿cuenta con radio (banda civil)?']

In [40]:
UseLess = {
    "¿cuenta con área de ": "", 
    "¿cuenta con ": "",
    "?":"",
    "área de ": "",
    "área ": "",
    "consultorios de ": "",
    "camas de ": "",
    "camas en ": "",
    "médicos ": "",
    "médicos en ": "",
    "personal de ": "",
    "número personal de enfermería en ": "",
    "personal de enfermería en ": "",
    "personal técnico en ": "",
    "personal técnico ": "",
    "personal en ": "",
    "personal de ": "",
}
Replace = lambda x,old,new: x.replace(old, new)

for old,new in UseLess.items():
    for i in range(len(LowName)):
         LowName[i] = Replace(LowName[i], old,new)

TitleColumn = lambda x: x.title()
TitleName = [TitleColumn(i) for i in LowName]

TitleName[0:10]

['Clave Estado',
 'Unidades',
 'Agua Potable',
 'Red Municipal',
 'Pozo',
 'Cisterna',
 'Otra Fuente',
 'Drenaje',
 'Planta Eléctrica',
 'Radio (Banda Civil)']

#### Let's create our MultiColumn categories. For this step it was necesary to select subcategories manually looking at the CSV columns. We'll show our simplificate titles at the dashboard (label) whereas our original titles will be used for filtering processes (values). 

In [41]:
Equipo = list(range(116,127))
Equipo.append(34)

Infra = list(range(2,15))
Infra.append(35)

TitleNameS = pd.Series(TitleName)

Categorias = {
    "label": {
        "Unidades": ["Unidades"],
        "Consultorios": TitleNameS[36:75].values.tolist(),
        "Camas Censables": TitleNameS[75:101].values.tolist(),
        "Camas No Censables": TitleNameS[101:116].values.tolist(),
        "Médicos Generales, Especialistas y Odontólogos": TitleNameS[127:164].values.tolist(),
        "Personal Médico de Adiestramiento": TitleNameS[164:169].values.tolist(),
        "Médicos en Otras Actividades": TitleNameS[169:175].values.tolist(),
        "Personal de Enfermería en contacto con Pacientes": TitleNameS[175:180].values.tolist(),
        "Personal de Enfermería en otras Labores": TitleNameS[180:184].values.tolist(),
        "Otro Personal Profesional": TitleNameS[184:193].values.tolist(),
        "Personal Técnico": TitleNameS[193:211].values.tolist(),
        "Otro Personal": TitleNameS[211:217].values.tolist(),
        "Equipo Médico": TitleNameS[Equipo].values.tolist(),
        "Áreas Médicas": TitleNameS[15:34].values.tolist(),
        "Infraestructura Hospitalaria": TitleNameS[Infra].values.tolist()
    },
    
    "values": {
        "Unidades": ["Unidades"],
        "Consultorios": sseOpEs.iloc[:,36:75].columns.values.tolist(),
        "Camas Censables": sseOpEs.iloc[:,75:101].columns.values.tolist(),
        "Camas No Censables":sseOpEs.iloc[:,101:116].columns.values.tolist(),
        "Médicos Generales, Especialistas y Odontólogos": sseOpEs.iloc[:,127:164].columns.values.tolist(),
        "Personal Médico de Adiestramiento": sseOpEs.iloc[:,164:169].columns.values.tolist(),
        "Médicos en Otras Actividades": sseOpEs.iloc[:,169:175].columns.values.tolist(),
        "Personal de Enfermería en contacto con Pacientes": sseOpEs.iloc[:,175:180].columns.values.tolist(),
        "Personal de Enfermería en otras Labores": sseOpEs.iloc[:,180:184].columns.values.tolist(),
        "Otro Personal Profesional": sseOpEs.iloc[:,184:193].columns.values.tolist(),
        "Personal Técnico": sseOpEs.iloc[:,193:211].columns.values.tolist(),
        "Otro Personal": sseOpEs.iloc[:,211:217].columns.values.tolist(),
        "Equipo Médico": sseOpEs.iloc[:,Equipo].columns.values.tolist(),
        "Áreas Médicas": sseOpEs.iloc[:,15:34].columns.values.tolist(),
        "Infraestructura Hospitalaria": sseOpEs.iloc[:,Infra].columns.values.tolist()
    }
}

Categorias["label"]["Consultorios"][0:10]

['Total De Consultorios',
 'Medicina General',
 'Medicina Familiar',
 'Estomatología',
 'Planificación Familiar',
 'Cirugía Maxilo Facial',
 'Alergología',
 'Angiología',
 'Cardiología',
 'Cirugía General Y Cirugía']

#### We proceed to obtain institutions and establishment type names to show them at the option menu. We add a Total option. 

In [42]:
Op_Estab = sseOp["Tipo de Establecimiento"].unique().tolist()
Op_Estab.insert(0,"TODAS")
Op_Estab

All_Estab = sseOp["Tipo de Establecimiento"].unique().tolist()

In [43]:
Op_Inst = sseOp["Institución"].unique().tolist()
Op_Inst.insert(0,"TODAS")
Op_Inst

All_Inst = sseOp["Institución"].unique().tolist()

#### We configure our DataFrame as multi-index applying State, Town, Stablishment and Institution as new indexes.

In [44]:
sseOp = sseOp.set_index(["Nombre Estado","Nombre Municipio","Tipo de Establecimiento","Institución"]).sort_index()

#### Then we must configure the structure of multicolumn format.

In [45]:
MultiCol = {
    "Otros": sseOp.iloc[:,0:5].columns.values,
    "Unidades": ["Unidades"],
    "Consultorios": sseOpEs.iloc[:,36:75].columns.values,
    "Camas Censables": sseOpEs.iloc[:,75:101].columns.values,
    "Camas No Censables":sseOpEs.iloc[:,101:116].columns.values,
    "Médicos Generales, Especialistas y Odontólogos": sseOpEs.iloc[:,127:164].columns.values,
    "Personal Médico de Adiestramiento": sseOpEs.iloc[:,164:169].columns.values,
    "Médicos en Otras Actividades": sseOpEs.iloc[:,169:175].columns.values,
    "Personal de Enfermería en contacto con Pacientes": sseOpEs.iloc[:,175:180].columns.values,
    "Personal de Enfermería en otras Labores": sseOpEs.iloc[:,180:184].columns.values,
    "Otro Personal Profesional": sseOpEs.iloc[:,184:193].columns.values,
    "Personal Técnico": sseOpEs.iloc[:,193:211].columns.values,
    "Otro Personal": sseOpEs.iloc[:,211:217].columns.values,
    "Equipo Médico": sseOpEs.iloc[:,Equipo].columns.values,
    "Áreas Médicas": sseOpEs.iloc[:,15:34].columns.values,
    "Infraestructura Hospitalaria": sseOpEs.iloc[:,Infra].columns.values
    }


In [46]:
Multi = []

for i in sseOp.columns.values:
    
    Multi += [(key,i) for key,value in MultiCol.items() if i in value]

Multi[0:10]

[('Otros', 'CLUES'),
 ('Otros', 'Clave Estado'),
 ('Otros', 'Clave Municipio'),
 ('Otros', 'Nombre de la Unidad'),
 ('Otros', 'Tipología'),
 ('Unidades', 'Unidades'),
 ('Infraestructura Hospitalaria', '¿Cuenta con agua potable?'),
 ('Infraestructura Hospitalaria', '¿Cuenta con red municipal?'),
 ('Infraestructura Hospitalaria', '¿Cuenta con pozo?'),
 ('Infraestructura Hospitalaria', '¿Cuenta con cisterna?')]

In [47]:
cols = pd.MultiIndex.from_tuples(Multi)
sseOp.columns = cols

# Final DataFrame
sseOp

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Otros,Otros,Otros,Otros,Otros,Unidades,Infraestructura Hospitalaria,Infraestructura Hospitalaria,Infraestructura Hospitalaria,Infraestructura Hospitalaria,...,Personal Técnico,Personal Técnico,Personal Técnico,Personal Técnico,Otro Personal,Otro Personal,Otro Personal,Otro Personal,Otro Personal,Otro Personal
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,CLUES,Clave Estado,Clave Municipio,Nombre de la Unidad,Tipología,Unidades,¿Cuenta con agua potable?,¿Cuenta con red municipal?,¿Cuenta con pozo?,¿Cuenta con cisterna?,...,Personal Técnico en Banco de Sangre,Personal Técnico en inhaloterapia,Partera,Otro personal técnico,Total otro personal,Personal administrativo,Personal en archivo clínico,Personal en conservación y mantenimiento,Personal de Intendencia (incluye lavandería),Otro personal
Nombre Estado,Nombre Municipio,Tipo de Establecimiento,Institución,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2
AGUASCALIENTES,AGUASCALIENTES,DE CONSULTA EXTERNA,IMSS,ASIMS000033,1,1,UMF 1 AGUASCALIENTES,UMF,1,1.0,1.0,0.0,0.0,...,0.0,0.0,0.0,52.0,51,41.0,0.0,2.0,8.0,0.0
AGUASCALIENTES,AGUASCALIENTES,DE CONSULTA EXTERNA,IMSS,ASIMS000045,1,1,UMF 10 AGUASCALIENTES,UMF,1,1.0,1.0,1.0,0.0,...,0.0,0.0,0.0,64.0,72,51.0,0.0,5.0,16.0,0.0
AGUASCALIENTES,AGUASCALIENTES,DE CONSULTA EXTERNA,IMSS,ASIMS000050,1,1,UMF 7 SAN MARCOS,UMF,1,1.0,1.0,0.0,0.0,...,0.0,0.0,0.0,38.0,54,39.0,0.0,3.0,12.0,0.0
AGUASCALIENTES,AGUASCALIENTES,DE CONSULTA EXTERNA,IMSS,ASIMS000062,1,1,UMF 8 AGUASCALIENTES,UMF,1,1.0,1.0,1.0,0.0,...,0.0,0.0,0.0,66.0,69,58.0,0.0,2.0,9.0,0.0
AGUASCALIENTES,AGUASCALIENTES,DE CONSULTA EXTERNA,IMSS,ASIMS000074,1,1,UMF 9 AGUASCALIENTES,UMF,1,1.0,1.0,0.0,0.0,...,0.0,0.0,0.0,47.0,63,51.0,0.0,3.0,9.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
ZACATECAS,ZACATECAS,DE CONSULTA EXTERNA,SSA,ZSSSA013090,32,56,CENTRO DE SALUD LA PINTA,E,1,1.0,1.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0
ZACATECAS,ZACATECAS,DE CONSULTA EXTERNA,SSA,ZSSSA013102,32,56,CENTRO DE SALUD CIENEGUILLAS,A,1,1.0,1.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0
ZACATECAS,ZACATECAS,DE HOSPITALIZACIÓN,IMSS,ZSIMS000353,32,56,HGZ 1 ZACATECAS,HGZ,1,1.0,1.0,1.0,0.0,...,0.0,4.0,0.0,182.0,184,127.0,0.0,31.0,26.0,0.0
ZACATECAS,ZACATECAS,DE HOSPITALIZACIÓN,ISSSTE,ZSIST000160,32,56,ZACATECAS,HG,1,0.0,1.0,0.0,0.0,...,0.0,1.0,0.0,10.0,143,81.0,0.0,0.0,14.0,48.0


### Download population data

In [48]:
# “Fuente: INEGI, Censo de Población y Vivienda 2020”
import zipfile as zp

Poblacion_Link = "Datos/Poblacion/iter_00_cpv2020_csv.zip"

zf = zp.ZipFile(Poblacion_Link, mode = "r")

poblacion = pd.read_csv(zf.open("iter_00_cpv2020/conjunto_de_datos/conjunto_de_datos_iter_00CSV20.csv"))


Columns (8) have mixed types. Specify dtype option on import or set low_memory=False.



In [49]:
def tilde(S):
    letters = (
        ("Á","A"),
        ("É","E"),
        ("Í","I"),
        ("Ó","O"),
        ("Ú","U"),
    )
    
    for a,b in letters:
        S = S.replace(a,b).replace(a.lower(),b.lower())
    
    return S


#### The file actualy has total amount of population per state and town based on counties population. We only need to select the desired information based on "MUN" and "LOC" columns, which will be used as filter options.

In [50]:
PobMun = copy.deepcopy(poblacion.loc[3:,["NOM_ENT","NOM_MUN","MUN","LOC","POBTOT"]].sort_values(["NOM_ENT","MUN"]))

filtro = (PobMun["MUN"] != 0) & (PobMun["LOC"]==0) # We select exclusively total population per town.

PobMun = PobMun.loc[filtro]
PobMun = PobMun.drop(["MUN","LOC"], axis=1).reset_index(drop=True)

PobMun["NOM_MUN"] = PobMun["NOM_MUN"].apply(lambda x: x.upper())
PobMun["NOM_MUN"] = PobMun["NOM_MUN"].apply(lambda x: tilde(x))

PobMun["NOM_ENT"] = PobMun["NOM_ENT"].apply(lambda x: x.upper())
PobMun["NOM_ENT"] = PobMun["NOM_ENT"].apply(lambda x: tilde(x))

PobMun = PobMun.set_index(["NOM_ENT","NOM_MUN"])

PobMun = PobMun.rename_axis(index=["Nombre Estado","Nombre Municipio"])
PobMun

Unnamed: 0_level_0,Unnamed: 1_level_0,POBTOT
Nombre Estado,Nombre Municipio,Unnamed: 2_level_1
AGUASCALIENTES,AGUASCALIENTES,948990
AGUASCALIENTES,ASIENTOS,51536
AGUASCALIENTES,CALVILLO,58250
AGUASCALIENTES,COSIO,17000
AGUASCALIENTES,JESUS MARIA,129929
...,...,...
ZACATECAS,VILLA HIDALGO,19446
ZACATECAS,VILLANUEVA,31558
ZACATECAS,ZACATECAS,149607
ZACATECAS,TRANCOSO,20455


In [51]:
PobEst = copy.deepcopy(poblacion.loc[3:,["NOM_ENT","MUN","LOC","POBTOT"]].sort_values(["NOM_ENT","MUN"]))

filtro = (PobEst["MUN"] == 0) & (PobEst["LOC"] == 0) # We select exclusively total population per state.

PobEst = PobEst.loc[filtro]
PobEst = PobEst.drop(["MUN","LOC"], axis=1).reset_index(drop=True)

PobEst["NOM_ENT"] = PobEst["NOM_ENT"].apply(lambda x: x.upper())
PobEst["NOM_ENT"] = PobEst["NOM_ENT"].apply(lambda x: tilde(x))

PobEst = PobEst.set_index(["NOM_ENT"])

PobEst = PobEst.rename_axis(index=["Nombre Estado"])
PobEst

Unnamed: 0_level_0,POBTOT
Nombre Estado,Unnamed: 1_level_1
AGUASCALIENTES,1425607
BAJA CALIFORNIA,3769020
BAJA CALIFORNIA SUR,798447
CAMPECHE,928363
CHIAPAS,5543828
CHIHUAHUA,3741869
CIUDAD DE MEXICO,9209944
COAHUILA DE ZARAGOZA,3146771
COLIMA,731391
DURANGO,1832650


### Download political boundaries in México. 

##### Originally, GEOJSON files have an overflowing level of specificity to describe political boundaries of towns and states, hence files are extremely big and redundant. Therefore we needed to generate a reshape program using K-means algorithm and probabilistic distribution among geographical coordinates. You can analyse the full reshape process in KM_GeoJSON_Ent and KM_GeoJSON_Mun notebooks.

In [52]:
# STATES BOUNDARIES
import json as js

EstadosLink = "CleanData/EstadosGeo.json"

jsEstados = js.load(open(EstadosLink, "r"))

#### We must add "id" feature to JSON file with federal entities IDs to plot the Choropeh Map 

In [53]:
for Estados in jsEstados["features"]:
    Estados["id"] = Estados["properties"]["gid"]

In [54]:
# TOWNS BOUNDARIES

MunLink = "CleanData/MunGeo.json"
munGeneral = js.load(open(MunLink, "r"))

## Generate DashBoard

In [55]:
NombreEst = sseOpEs.index.values #sseOp.index.get_level_values(0).unique().values  #sseOpEs.index.values
none = slice(None)

In [56]:
import json
from jupyter_dash import JupyterDash

from dash import dash, html, dcc, Input, Output, dash_table
import plotly.graph_objects as go

from math import ceil

app = JupyterDash(__name__,external_stylesheets=['https://codepen.io/chriddyp/pen/bWLwgP.css'])
server = app.server

styles = {
    'pre': {
        'border': 'thin lightgrey solid',
        'overflowX': 'scroll'
    }
}

app.layout = html.Div([
    
    dcc.Store(id='store-data', data=[], storage_type='session'), # "memory",'local' or 'session'
    dcc.Store(id='store_Mun', data=[], storage_type='session'),  # "memory",'local' or 'session'
    
    html.H1("Recursos Salud Sectorial 2020", style={'textAlign':'center'}),

    html.Div([
        html.Div([
            
            html.Div([
                html.Div(["Filtrar por Tipo de Establecimiento"],style={'fontWeight': 'bold'}),
            
                dcc.Dropdown(
                    id = 'establecimiento',
                    options = [{"label":i.title(),"value":i} for i in Op_Estab],
                    value = "TODAS",
                    clearable = False
                )
            ]),
            
            html.Div([
                html.Div(["Filtrar por Institución"],style={'fontWeight': 'bold'}),
            
                dcc.Dropdown(
                    id = 'institucion',
                    options = [{"label":i,"value":i} for i in Op_Inst],
                    value = "TODAS",
                    clearable = False
                )
            ])
            
        ], style={'width': '50%', 'display': 'inline-block'}),
        
        html.Div([
            
            html.Div(["Característica Principal"],style={'fontWeight': 'bold'}),
            
            dcc.Dropdown(
                id = 'cat_selector',
                options = [{"label":i,"value":i} for i in Categorias["label"].keys()],
                value = "Consultorios",
                clearable = False
            ),
            
            html.Div(["Característica Secundaria"],style={'fontWeight': 'bold'}),
            
            dcc.Dropdown(
                id = 'subcat_selector',
                options = [{"label":i,"value":j} for i,j in zip(Categorias["label"]["Consultorios"], Categorias["values"]["Consultorios"])],
                value = 'Total De Consultorios',
                clearable = False
            )
            
        ], style={'width': '50%', 'display': 'inline-block'})
    ], style={'display': 'block'}),
    
    html.Div([
        
        html.Div([
            
            html.Div([
                
                html.Div([
                    dcc.RadioItems(
                        id = "prop_graphMex",
                        options = [{"label":i[0], "value":i[1]} for i in [["Absoluto",0],["Cada 100K habitantes",1]]],
                        value = 0,
                        labelStyle = {'display': 'inline-block'}
                    )
                ], style={'textAlign': 'center'}),
                    
                
                html.Div([
                    dcc.RadioItems(
                        id = "color_graphMex",
                        options = [{"label":i[0], "value":i[1]} for i in [["Secuencial",0],["Divergente en Mediana",1]]],
                        value = 0,
                        labelStyle = {'display': 'inline-block'}
                    )
                ], style={'textAlign': 'center'}),
                
                
                dcc.Graph(
                    id='graphMex',
                    clickData={'points': [{'location': 9,'hovertext': 'CIUDAD DE MEXICO'}]}
                )
            ], style={"margin-top":"50px"}),
            
            html.Div([
                
                html.Div([
                    dash_table.DataTable(
                        id = "tblEst",
                        #page_action='none',
                        page_size = 16,
                        fixed_rows={'headers': True},
                        style_table={'height': 450},
                        style_cell={
                            'width': '70%',#.format(len(sseOpEs[["Unidades"]].reset_index().columns)),
                            'textOverflow': 'ellipsis',
                            'overflow': 'hidden',
                            'border': '1px solid grey' 
                        },
                        virtualization=True,
                        style_header={'border': '1px solid black' },
                    )
                ], style={"display":"inline-block",
                          'width': '49%'}),

                html.Div([
                    dcc.Graph(
                        id = "graph_VioMex",
                        config={
                            'scrollZoom': False,
                            'modeBarButtonsToRemove': ["zoom", "pan", "select", 
                                                       "lasso2d", "zoomIn", "zoomOut", 
                                                       "autoScale"],
                            'displaylogo': False
                        }
                    )
                ], style={"display":"inline-block",
                          'width': '49%'})

            ], style={"textAlign":"right"})
            
        ], style={
            "display":"inline-block",
            'width': '49%', 
            "height":"996px"}),
        
        html.Div([
            
            html.Div([
                html.Div([
                    dcc.RadioItems(
                        id = "prop_graphEst",
                        options = [{"label":i[0], "value":i[1]} for i in [["Absoluto",0],["Cada 100k habitantes",1]]],
                        value = 0,
                        labelStyle = {'display': 'inline-block'}
                    )
                ], style={'textAlign': 'center'}),
                    
                
                html.Div([
                    dcc.RadioItems(
                        id = "color_graphEst",
                        options = [{"label":i[0], "value":i[1]} for i in [["Secuencial",0],["Divergente en Mediana",1]]],
                        value = 0,
                        labelStyle = {'display': 'inline-block'}
                    )
                ], style={'textAlign': 'center'}),
                
                dcc.Graph(
                    id='graphEst'
                )
            ]),
            
            html.Div([
                
                html.Div([
                    dash_table.DataTable(
                        id = "tblMun",
                        #page_action='none',
                        page_size = 16,
                        fixed_rows={'headers': True},
                        style_table={'height': 450},
                        style_cell={
                            'width': '70%',#.format(len(sseOpEs[["Unidades"]].reset_index().columns)),
                            'textOverflow': 'ellipsis',
                            'overflow': 'hidden',
                            'border': '1px solid grey' 
                        },
                        virtualization = True,
                        style_header={'border': '1px solid black' },
                    )
                ], style={"display":"inline-block",
                          'width': '49%', "height":"498"}),

                html.Div([
                    dcc.Graph(
                        id = "graph_VioMun",
                        config={
                            'scrollZoom': False,
                            'modeBarButtonsToRemove': ["zoom", "pan", "select", 
                                                       "lasso2d", "zoomIn", "zoomOut", 
                                                       "autoScale"],
                            'displaylogo': False
                        }
                    )
                ], style={"display":"inline-block",
                          'width': '49%'})

            ], style={"textAlign":"right"})
            
            
        ], style={
            "display":"inline-block",
            'width': '49%',
            "height":"996px"
        })
    ]),

    html.Div([
        
        html.Div([
            
            html.Div([
                
                html.Div(["Manipulación de los Datos"], 
                         style={'textAlign': 'center', 'fontWeight': 'bold'}),
        
                html.Div([
                    dcc.RadioItems(
                        id = "group_ANOVA",
                        options = [{"label":i[0],"value":i[1]} for i in [["Por Municipios",0],["Por Unidades",1]]],
                        value = 0,
                        labelStyle = {'display': 'inline-block'}
                    ),
                ], style={'textAlign': 'center'}),

                html.Div([
                    dcc.RadioItems(
                        id = "prop_ANOVA",
                        options = [{"label":i[0],"value":i[1]} for i in [["Absoluto",0],["Cada 100K habitantes",1]]],
                        value = 0,
                        labelStyle = {'display': 'inline-block'}
                    ),
                ], style={'textAlign': 'center'}),

                html.Div([
                    dcc.RadioItems(
                        id = "Outlier_ANOVA",
                        options = [{"label":i[0],"value":i[1]} for i in [["Con Outliers",0],["Sin Outliers",1]]],
                        value = 0,
                        labelStyle = {'display': 'inline-block'}
                    ),
                ], style={'textAlign': 'center'}),
                
            ], style={"display":"inline-block",'width': '49%',"textAlign": "center"}),
            
            html.Div([
                
                html.Div(["Manipulación de la Gráfica"], 
                         style={'textAlign': 'center', 'fontWeight': 'bold'}),
        
                html.Div([
                    dcc.RadioItems(
                        id = "norm_ANOVA",
                        options = [{"label":i[0],"value":i[1]} for i in [["Por Diferencia de Medias",0],["Por Normalidad",1]]],
                        value = 0,
                        labelStyle = {'display': 'inline-block'}
                    ),
                ], style={'textAlign': 'center'}),

                html.Div([
                    dcc.RadioItems(
                        id = "std_ANOVA",
                        options = [{"label":i[0],"value":i[1]} for i in [["Sin Desviación Estándar",0],["Con Desviación Estandar",1]]],
                        value = 0,
                        labelStyle = {'display': 'inline-block'}
                    ),
                ], style={'textAlign': 'center'}),
                
            ], style={"display":"inline-block",'width': '49%',"textAlign": "center", "verticalAlign":"top"})
        
        ], style={"margin-top":"100px"}),
        
        html.Div([
            dcc.Graph(
                id = "graph_ANOVA",
                config={'scrollZoom': False,
                        'modeBarButtonsToRemove': ["zoom", "pan", "select", 
                                                   "lasso2d", "zoomIn", "zoomOut", 
                                                   "autoScale"],
                        'displaylogo': False
                       }
            )
        ], style={'textAlign': 'center'})
        
    ])
    
])


# ACTUALIZACIÓN DE INSTITUCIONES DISPONIBLES
@app.callback(
    Output('institucion', 'options'),
    Input('establecimiento', 'value')
)
def update_filter(establecimiento_value):
    
    if establecimiento_value == "TODAS":
        options = sseOp.index.get_level_values(3).unique().insert(0,"TODAS")
    else:
        value = sseOp.loc[(none, none, establecimiento_value, none)].index.get_level_values(2).unique()
        
        if len(value) > 1:
            options = value.insert(0,"TODAS")
        else:
            options = value
    
    return [{"label":i,"value":i} for i in options] 

@app.callback(
    Output('institucion', 'value'),
    [Input('institucion', 'options'),
     Input("institucion","value")]
)
def update_filter(institucion_options, institucion_value):
    
    for Option in institucion_options:
        if institucion_value == Option["value"]:
            return institucion_value
    
    return institucion_options[0]["value"]
    
# ACTUALIZACIÓN DE TIPO DE ESTABLECIMIENTOS DISPONIBLES
@app.callback(
    Output('establecimiento', 'options'),
    Input('institucion', 'value')
)
def update_filter(institucion_value):
    
    if institucion_value == "TODAS":
        options = sseOp.index.get_level_values(2).unique().insert(0,"TODAS")
    else:
        value = sseOp.loc[(none, none, none, institucion_value)].index.get_level_values(2).unique()
        
        if len(value) > 1:
            options = value.insert(0,"TODAS")
        else:
            options = value
        
    return [{"label":i.title(),"value":i} for i in options]


# ACTUALIZACIÓN DE CATEGORÍAS Y SUBCATEGORIAS (VALUES-LABEL)
@app.callback(
    Output('subcat_selector', 'options'),
    Input('cat_selector', 'value')
)
def update_filter(cat_selector_value):
    
    subcat = [{"label":i,"value":j} for i,j in zip(Categorias["label"][cat_selector_value], Categorias["values"][cat_selector_value])]
    
    return subcat

@app.callback(
    Output('subcat_selector', 'value'),
    Input('subcat_selector', 'options')
)
def update_filter(subcat_selector_options):
    
    return subcat_selector_options[0]["value"]


# GUARDAR INFORMACION MÉXICO
@app.callback(
    Output('store-data', 'data'),
    [Input('establecimiento', 'value'),
     Input('institucion', 'value'),
     Input('cat_selector', 'value'),
     Input('subcat_selector', 'value')]
)
def update_output(establecimiento_value, institucion_value, cat_value, subcat_value):
    ### CREAR TABLA CON TODOS LOS ESTADOS
    
    filtro = (none,none,none,none)
    cat = [("Otros","Clave Estado")]
    
    df2 = sseOp.loc[filtro,cat].groupby(["Nombre Estado",("Otros","Clave Estado")]).sum()
    
    df2 = df2.reset_index(1)
    df2.columns = df2.columns.droplevel(0)
    
    ### INFORMACIÓN PRINCIPAL
    if establecimiento_value == "TODAS":
        establecimiento_value = none
        
    if institucion_value == "TODAS":
        institucion_value = none
    
    filtro = (none,none,establecimiento_value,institucion_value)
    cat = [(cat_value, subcat_value)]
    
    df = sseOp.loc[filtro,cat].groupby(["Nombre Estado"]).sum()
    
    df.columns = df.columns.droplevel(0)
    
    
    ### CREAR TABLA CON CEROS
    dfFinal = df2.join(df, how="left")
    dfFinal = dfFinal.fillna(0).sort_values("Clave Estado", ascending=True)
    
    
    ### AÑADIR INFORMACION POBLACIONAL
    dfFinal = dfFinal.join(PobEst, how="inner")
    dfFinal["Mil_Hab"] = round((dfFinal[subcat_value]*100000)/dfFinal["POBTOT"], 2)
    dfFinal = dfFinal.drop(["POBTOT"], axis=1).reset_index()
    
    return dfFinal.to_json(orient='split')


# ACTUALIZACIÓN DEL GRÁFICO MÉXICO
@app.callback(
    Output('graphMex', 'figure'),
    [Input('store-data', 'data'), 
     Input('subcat_selector', 'value'), 
     Input("prop_graphMex","value"), 
     Input("color_graphMex","value")]
)
def update_output(store_data,subcat_value,prop_value,color_value):
    
    df = pd.read_json(store_data, orient='split')
    
    if prop_value == 0:
        seleColor = subcat_value
    else:
        seleColor = "Mil_Hab"
        
    if color_value == 0:
        Range = (0, df[seleColor].max()) if (df[seleColor].max() != 0) else (0,100)
        Midpoint = None
        Scale = "blues"
    else:
        Range = None
        Midpoint = df[seleColor].median()
        Scale = xp.colors.diverging.Picnic
    
    fig_map = xp.choropleth(data_frame = df,
                            locations = "Clave Estado",
                            hover_name  = "Nombre Estado",
                            hover_data = {"Clave Estado":False},
                            range_color = Range,
                            geojson = jsEstados,
                            color = seleColor, 
                            color_continuous_scale = Scale,#xp.colors.diverging.Picnic, #"blues", 
                            color_continuous_midpoint = Midpoint,
                            scope = 'north america')

    fig_map.update_geos(fitbounds = "locations", visible = False, resolution = 50)
    fig_map.update_layout(margin={"r":0,"t":0,"l":0,"b":0},
                          dragmode = False,
                          coloraxis_colorbar_x=-0.15)
    
    return fig_map


# ACTUALIZACIÓN DE LA TABLA MËXICO
@app.callback(
    Output('tblEst', 'data'),
    [Input('store-data', 'data'),
     Input("prop_graphMex","value")]
)
def update_output(store_data, prop_value):
    
    df = pd.read_json(store_data, orient='split')
    df = df.rename(columns={df.columns[2]:"Total"})
    
    if prop_value == 0:
        df = df.drop(["Clave Estado", "Mil_Hab"], axis=1)
        df = df.sort_values("Total", ascending=False)
        
    else:
        df["Mil_Hab"] = round(df["Mil_Hab"], 2)
        df = df.drop(["Clave Estado", "Total"], axis=1)
        df = df.sort_values("Mil_Hab", ascending=False)
    
    return df.to_dict("records")

@app.callback(
    Output('tblEst', 'columns'),
    [Input('tblEst', 'data'), 
     Input("prop_graphMex","value")]
)
def update_output(store_data, prop_value):
    
    df = pd.DataFrame.from_records(store_data)
    
    if prop_value == 0:
        Columns = sorted(df.columns, reverse=False)
    else:
        Columns = sorted(df.columns, reverse=True)
    
    return [{"name": i, "id": i} for i in Columns]


# ACTUALIZACIÓN DEL GRÁFICO VIOLIN MÉXICO
@app.callback(
    Output('graph_VioMex', 'figure'),
    [Input('store-data', 'data'), 
     Input("prop_graphMex","value")]
)
def update_output(store_data, prop_value):
    
    df = pd.read_json(store_data, orient='split')
    
    if prop_value == 0:
        yValue = df.iloc[:,2]
    else:
        yValue = df.iloc[:,3]
    
    figVio = xp.violin(data_frame = df, y = yValue, box = True, points = "all",
                       custom_data=["Nombre Estado"],
                       color_discrete_sequence = ['#370031'],
                       orientation = "v")
    
    figVio.update_traces(hovertemplate=
                         'Value: %{y}' + 
                         "<br> Estado: %{customdata[0]} </br>")
    
    return figVio


# ALMACENAR INFORMACIÓN DEL ESTADO SELECCIONADO
@app.callback(
    Output('store_Mun', 'data'),
    [Input('establecimiento', 'value'),
     Input('institucion', 'value'),
     Input('cat_selector', 'value'),
     Input('subcat_selector', 'value'),
     Input('graphMex', 'clickData')]
)
def display_click_data(establecimiento_value, institucion_value, cat_value, subcat_value, clickData):
    
    ### CREAR TABLA CON TODOS LOS MUNICIPIOS
    
    filtro = (none,none,none,none)
    cat = [("Otros","Clave Municipio")]
    
    df2 = sseOp[sseOp[("Otros","Clave Estado")] == clickData["points"][0]['location']]
    df2 = df2.loc[filtro,cat].groupby(["Nombre Municipio",("Otros","Clave Municipio")]).sum()
    
    df2 = df2.reset_index(1)
    df2.columns = df2.columns.droplevel(0)
    
    ### CREAR TABLA CON LOS MUNICIPIOS QUE CUMPLEN LAS OPCIONES DE FILTRADO
    if establecimiento_value == "TODAS":
        establecimiento_value = none
        
    if institucion_value == "TODAS":
        institucion_value = none
    
    
    filtro2 = (clickData["points"][0]['hovertext'],none,establecimiento_value,institucion_value)
    cat2 = [(cat_value, subcat_value)]
    
    
    #df = sseOp[sseOp[("Otros","Clave Estado")] == clickData["points"][0]['location']]
    
    try:
        
        df = sseOp.loc[filtro2,cat2].groupby(["Nombre Municipio"]).sum()
        df.columns = df.columns.droplevel(0)

        ### UNIR AMBAS TABLAS Y LIMPIAR DATOS
        df2 = df2.join(df, how="left")
        df2 = df2.fillna(0).sort_values("Clave Municipio", ascending=True)
        
    except KeyError:
        df2.insert(df2.shape[1], subcat_value, [0,]*len(df2.index))
        
    
    ### JUNTAR AMBAS TABLAS
    dfFinal = df2.join(PobMun.loc[clickData["points"][0]['hovertext']], how="inner")
    dfFinal["Mil_Hab"] = round((dfFinal[subcat_value]*100000)/dfFinal["POBTOT"], 2)
    dfFinal = dfFinal.drop(["POBTOT"], axis=1).reset_index()
    
    return dfFinal.to_json(orient='split')


# ACTUALIZACIÓN DEL MAPA SOBRE MUNICIPIOS
@app.callback(
    Output("graphEst","figure"),
    [Input("store_Mun","data"), 
     Input('subcat_selector', 'value'),
     Input('graphMex', 'clickData'),
     Input("prop_graphEst","value"), 
     Input("color_graphEst","value")]
)
def update_output(store_data, subcat_value, clickData, prop_value, color_value):
    df = pd.read_json(store_data, orient='split')
    
    if prop_value == 0:
        seleColor = subcat_value
    else:
        seleColor = "Mil_Hab"
        
    if color_value == 0:
        
        if df[seleColor].max() == 0:
            Range = (0,100)
        else:
            Range = (0, df[seleColor].max())
            
        Midpoint = None
        Scale = "blues"
    else:
        Range = None
        Midpoint = df[seleColor].median()
        Scale = xp.colors.diverging.Picnic
    
    if clickData["points"][0]['hovertext'] == "COLIMA":
        Center = {"lat":19.16 ,"lon":-104.07} #{"lat":19.167107 ,"lon":-103.860833}
        Fitbounds = False
    else:
        Center = {}
        Fitbounds = "locations"
        
    
    fig_map = xp.choropleth(data_frame = df,
                            locations = "Clave Municipio", 
                            center=Center,
                            hover_name  = "Nombre Municipio",
                            hover_data = {"Clave Municipio":False},
                            range_color = Range,
                            geojson = munGeneral[int(clickData["points"][0]['location'])-1],
                            color = seleColor, 
                            color_continuous_scale = Scale, 
                            color_continuous_midpoint = Midpoint,
                            fitbounds = Fitbounds,
                            scope = 'north america')

    fig_map.update_geos(visible = False, resolution = 50, lataxis=dict(range=[18.67,19.56]), lonaxis=dict(range=[-104.96,-103.34])) #fitbounds = "locations", 
    fig_map.update_layout(margin={"r":0,"t":0,"l":0,"b":0},
                          dragmode = False,
                          coloraxis_colorbar_x=-0.15)
    
    return fig_map

# ACTUALIZACIÓN DE LA TABLA MUNICIPIOS
@app.callback(
    Output('tblMun', 'data'),
    [Input('store_Mun', 'data'),
     Input("prop_graphEst","value")]
)
def update_output(store_data,prop_value):
    
    df = pd.read_json(store_data, orient='split')
    
    df = df.rename(columns={df.columns[2]:"Total"})
    
    if prop_value == 0:
        df = df.drop(["Clave Municipio", "Mil_Hab"], axis=1)
        df = df.sort_values("Total", ascending=False)
        
    else:
        df["Mil_Hab"] = round(df["Mil_Hab"], 2)
        df = df.drop(["Clave Municipio", "Total"], axis=1)
        df = df.sort_values("Mil_Hab", ascending=False)
    
    return df.to_dict('records')

@app.callback(
    [Output('tblMun', 'columns'),
     Output("tblMun","page_size")],
    [Input('tblMun', 'data'), 
     Input("prop_graphEst","value")]
)
def update_output(store_data, prop_value):
    
    df = pd.DataFrame.from_records(store_data)
    
    if prop_value == 0:
        Columns = sorted(df.columns, reverse=False)
    else:
        Columns = sorted(df.columns, reverse=True)
    
    return [{"name": i, "id": i} for i in Columns], ceil(df.shape[0]/2)


# ACTUALIZACIÓN DEL GRÁFICO VIOLIN MUNICIPIOS
@app.callback(
    Output('graph_VioMun', 'figure'),
    [Input('store_Mun', 'data'),
     Input("prop_graphEst","value")]
)
def update_output(store_data, prop_value):
    
    df = pd.read_json(store_data, orient='split')
    
    if prop_value == 0:
        yValue = df.iloc[:,2]
    else:
        yValue = df.iloc[:,3]
    
    figVio = xp.violin(data_frame = df, y = yValue, box = True, points = "all",
                       color_discrete_sequence = ['#370031'],
                       custom_data=['Nombre Municipio'],
                       orientation = "v")
    
    figVio.update_traces(hovertemplate=
                         'Value: %{y}' + 
                         "<br> Municipio: %{customdata[0]} </br>")
    
    return figVio


# ACTUALIZAR COMPARACIÓN ANOVA
@app.callback(
    Output('group_ANOVA', 'options'),
    Input('prop_ANOVA', 'value')
)
def update_output(prop_value):
    
    if prop_value == 1:
        options = [{"label":i[0],"value":i[1]} for i in [["Por Municipios",0]]]
    else:
        options = [{"label":i[0],"value":i[1]} for i in [["Por Municipios",0],["Por Unidades",1]]]
        
    return options

@app.callback(
    Output('prop_ANOVA', 'options'),
    [Input('group_ANOVA', 'value')]
)
def update_output(group_value):
    
    if group_value == 1:
        options = [{"label":i[0],"value":i[1]} for i in [["Absoluto",0]]]
    else:
        options = [{"label":i[0],"value":i[1]} for i in [["Absoluto",0],["Cada 100K habitantes",1]]]
        
    return options

@app.callback(
    Output('graph_ANOVA', 'figure'),
    [Input('establecimiento', 'value'),
     Input('institucion', 'value'),
     Input('cat_selector', 'value'),
     Input('subcat_selector', 'value'),
     Input("Outlier_ANOVA","value"), 
     Input("prop_ANOVA", "value"),
     Input("group_ANOVA","value"), 
     Input("norm_ANOVA","value"), 
     Input("std_ANOVA","value")]
)
def update_output(establecimiento_value, institucion_value,
                  cat_value, subcat_value,
                  outlier_value, prop_value, group_value, 
                  norm_value, std_value):

    ### CREAR TABLA CON TODOS LOS MUNICIPIOS
    
    filtro = (none,none,none,none)
    cat = [("Otros","CLUES"),("Otros","Nombre de la Unidad")]
    
    dfTotal = sseOp.loc[filtro,cat]
    dfTotal.columns = dfTotal.columns.droplevel(0)
    dfTotal = dfTotal.reset_index([2,3], drop=True)
    
    ### CREAR TABLA DE MUNICIPIOS CON INFORMACION
    if establecimiento_value == "TODAS":
        establecimiento_value = none
        
    if institucion_value == "TODAS":
        institucion_value = none
    
    filtro = (none,none,establecimiento_value,institucion_value)
    cat = [("Otros","CLUES"),(cat_value,subcat_value)]
    
    dfInfo = sseOp.loc[filtro,cat]
    dfInfo.columns = dfInfo.columns.droplevel(0)
    dfInfo = dfInfo.reset_index([2,3], drop=True)
    
    ###################################################################
    ### GENERAR TABLA CON MUNICIPIOS AUNQUE NO SE TENGA INFORMACION
    
    dfInfo = dfInfo.reset_index([0,1])
    dfTotal = dfTotal.reset_index([0,1])

    dfInfo = dfInfo.set_index(["Nombre Estado","Nombre Municipio","CLUES"])
    dfTotal = dfTotal.set_index(["Nombre Estado","Nombre Municipio","CLUES"])

    df = dfTotal.join(dfInfo, how="left")
    df = df.reset_index([2], drop=True)
    df = df.fillna(0)
    
    ##############################################################
    
    ### DECLARAR CARACTERÍSTICAS DE GRÁFICOS
    Points = "outliers"
    
    if group_value == 0:
        hover = "Nombre Municipio"
        template = "Municipio"
        
        df = df.groupby(["Nombre Estado","Nombre Municipio"]).sum()
        
        if prop_value == 0:
            xValue = subcat_value
            
        else:
            xValue = "C/100K"
            df = df.join(PobMun, how="inner")
            df[xValue] = round((df[subcat_value]*100000)/df["POBTOT"],2)
            
        promedio = round(df.groupby(["Nombre Estado"]).mean(),2)
        STD = round(df.groupby(["Nombre Estado"]).std(ddof = 0),2)
        
        df = df.reset_index([0,1])
        
    else:
        xValue = subcat_value
        hover = "Nombre de la Unidad"
        template = "Unidad"
        
        promedio = round(df.groupby(["Nombre Estado"]).mean(),2)
        STD = round(df.groupby(["Nombre Estado"]).std(ddof = 0),2)
        
        df = df.reset_index([0,1])
    
    if outlier_value == 1:
        Estados = df["Nombre Estado"].unique()
        Points = False
        
        for Estado in Estados:
            DF1 = df[df["Nombre Estado"] == Estado].loc[:,xValue]
            
            Q1 = DF1.quantile(0.25)
            Q3 = DF1.quantile(0.75)
            
            IQR = Q3 - Q1
            Multi = 1.5
            
            conditional = DF1[~((DF1 > Q1 - (Multi*IQR)) & (DF1 < Q3 + (Multi*IQR)))]
            
            df = df.drop(conditional.index)
        
        promedio = round(df.groupby(["Nombre Estado"]).mean(),2)
        STD = round(df.groupby(["Nombre Estado"]).std(ddof = 0),2)
    
    
    if norm_value == 0:
        Norm = abs(promedio - round(df[xValue].mean(),2))
        Norm = (200 - ((Norm/Norm.max())*200)) if (Norm[xValue].max()!=0) else (200 - Norm)
    else:
        Norm = abs(promedio - round(df[xValue].mean(),2))
        Norm = Norm/STD
        Norm[xValue] = Norm[xValue].apply(lambda x: 0 if(np.isnan(x)==True) else x)
        Norm[xValue] = Norm[xValue].apply(lambda x: 1.96 if(x>1.96) else x)
        Norm = 200-(Norm/1.96)*200
    
    
    if std_value == 0:
        BoxMean = False
    else:
        BoxMean = "sd"
    
    

    
    ### GENERAR GRÁFICOS
    
    figANOVA = go.Figure()
    
    for Estado in df["Nombre Estado"].sort_values(ascending=False).unique():
        dfEst = df[df["Nombre Estado"] == Estado]
        color = Norm.loc[Estado,xValue]
        
        figANOVA.add_trace(go.Box(x = dfEst[xValue], name = Estado, boxpoints = Points, whiskerwidth = 0.5,
                                  width = 0.5, boxmean = BoxMean,
                                  marker_color = "rgb(90,90,90)", fillcolor = "rgb({},200,{})".format(color,color),
                                  customdata=dfEst[hover].values, showlegend = False, 
                                  hovertemplate='Value: %{x}' + "<br>" + template + ": %{customdata} </br>"))
        
    
    figANOVA.add_trace(go.Scatter(x = [round(df[xValue].mean(),2),] * df["Nombre Estado"].unique().shape[0], 
                                  y = df["Nombre Estado"].unique(), 
                                  mode="lines", marker=dict(color="#FF0000"),name="Prom. Global", showlegend=True, 
                                  hovertemplate = "Value: %{x}"))
    
    
    figANOVA.add_trace(go.Scatter(x = [i for i in promedio[xValue]], 
                                  y = df["Nombre Estado"].unique(), 
                                  marker_symbol = "diamond-tall", showlegend=True,
                                  mode="markers", marker=dict(color="#020100",size=8), name="Prom. Estatal"))

    figANOVA.update_layout(height = 1500, boxgap=0, boxgroupgap=0.5, showlegend=True)
    
    return figANOVA

In [57]:
app.run_server("external")

Dash app running on http://127.0.0.1:8050/


## Save dataframes for Heroku app

#### We proceed to save our dataframes into "CleanData" folder to use it on our Heroku app.

In [58]:
import os  
os.makedirs('CleanData', exist_ok=True) 

PobEst.to_csv("CleanData/PobEst.csv")
PobMun.to_csv("CleanData/PobMun.csv")
sseOp.to_csv("CleanData/sseOp.csv")

In [59]:
CategoriasLink = "CleanData/"

with open(CategoriasLink + "Categorias.json", 'w') as json_file:
  js.dump(Categorias, json_file)

#### You can find the file used in the Heroku app at the following paths:
#### 1. NoteBook/CLUES_Script.py 
#### Or
#### 2. App/app.py

## **Heroku App Link: https://sse-clues.herokuapp.com/**