<h2> Desafío Data México </h2>
<h4> <p> Segunda Edición - Datos con perspectiva de género </p> </h4> 

Importación de librerías:

In [1]:
import pandas as pd
import numpy as np
import requests
import plotly.express as px

In [2]:
pd.options.display.max_columns = None
pd.options.display.max_rows = None

Carga de información:

- Utilizamos la **DataMexico API Explorer** para obtener los datos actualizados:

In [3]:
data=requests.get('https://api.datamexico.org/tesseract/data.jsonrecords?cube=gobmx_covid&drilldowns=Death+Date%2CCovid+Result%2CHealth+Institution+Attended%2CPneumonia+Diagnose%2CSpeaks+Indigenous+Language%2CCOPD+Diagnose%2CAsthma+Diagnose%2CInmunosupresion+Diagnose%2CHypertension+Diagnose%2CCardiovascular+Diagnose%2CObesity+Diagnose%2CChronic+Kidney+Failure+Diagnose%2CDiabetes+Diagnose%2CSmoking+Diagnose%2CContact+with+Another+Covid+Case%2CState+Patient+Attended%2CState+Patient+Origin&measures=Cases&parents=false&sparse=false')
data_api=pd.DataFrame(data.json()["data"])

In [None]:
# basecovid=pd.read_csv('BaseCovid2021.csv')

- Datos históricos de **Mortalidad 2012-2019** del INEGI:

In [4]:
hist_muertes=pd.read_csv(f'defunciones_generales_{2012}.csv')
hist_muertes['date']='2012'

for i in range(2013,2020):
    aux=pd.read_csv(f'defunciones_generales_{i}.csv')
    aux['date']=i
    hist_muertes=pd.concat([hist_muertes,aux])

In [None]:
hist_muertes.to_csv("Bases_INEGI.csv")

In [None]:
# hist_muertes[600000:600050]
hist_muertes.tail(2)

- Resultados de **Censo Nacional de Población 2020** realizado por el INEGI:

In [None]:
# inegi2020=pd.read_csv('inegi2020_con_clavegeo.csv')

### Exploración de Información

In [None]:
def Exp_Data(data):
    
    print(f'Shape: {data.shape}\n')

    nulos=data.isnull().sum()
    print(f'Datos nulos: \n {nulos[nulos>0]}\n')
    
    info=data.info()
    
    return data.head(3)

API Data México

In [None]:
Exp_Data(data_api)

Hay valores nulos en **State** los podemos llenar con el ID que les corresponda, para eso creamos una dupla con las claves únicas:

In [None]:
cve_state=[[clave,data_api[data_api['State ID']==clave]['State'].unique()[0]] for clave in sorted(data_api['State ID'].unique())]
claves=[clave[0] for clave in cve_state]
edos=[edo[1] for edo in cve_state]

Y tranformamos la data en DF:

In [None]:
df_cve_state=pd.DataFrame({'State ID':claves, 'State': edos}).set_index('State ID')
df_cve_state.head(2)

Hacemos *merge* para rellenar los valores y eliminamos la columna dulicada:

In [None]:
inner_join = pd.merge(data_api,df_cve_state,on ='State ID',how ='inner')
data_api=inner_join.drop('State_x',axis=1)
print(f'Valores nulos: {data_api.isna().sum().sum()}')

INEGI

In [None]:
Exp_Data(inegi2020)

In [None]:
data_api.head(3)

### Mortalidad mujeres

In [5]:
mortalidad_mujeres = hist_muertes.loc[hist_muertes['sexo'] == 2]

Removemos outliers para el año de ocurrencia

In [None]:
outliers = mortalidad_mujeres.loc[mortalidad_mujeres['anio_ocur'] == 9999]
lista = outliers.index.to_list()

In [6]:
mortalidad_mujeres = mortalidad_mujeres.drop([65254,75238,85213,87781,191879, 209226, 349174, 391293, 470337, 481586, 578035, 579352, 580016,580972, 581455, 601474])

In [8]:
frecuencias= mortalidad_mujeres['causa_def'].value_counts()
frecuencias.head(20)

I219    296099
E112     95447
E119     89895
J189     59558
C509     51602
J449     47039
E149     45418
K746     42459
E117     38305
E142     36543
C539     31667
I10X     31084
I110     29971
I64X     29076
J440     28872
N189     27399
I120     27173
E116     26760
I619     25036
N390     23576
Name: causa_def, dtype: int64

In [None]:
#I219 Infarto agudo del miocardio
#E119 Diabetes mellitus no insulinodependiente, sin complicaciones
#E112 Diabetes mellitus no insulinodependiente, con complicaciones renales
#E149 Diabetes mellitus no especificada
#J189 Neumonia no especificada 
#C509 Tumor maligno de mama 
#J449 Enfermedad pulmonar obstructiva
#K746 Cirrosis del higado
#E142 Diabetes mellitus no especificada, con complicaciones renales
#C539 Tumor maligno del cuello del utero
#I10X Hipertension esencial (primaria)
#I64X Accidente vascular encefálico 
#I110 Enfermedad cardiaca hipertensiva con insuficiencia cardiaca
#J440 Enfermedad pulmonar obstructiva crónica con infección aguda de las vías respiratorias
#E117 Diabetes mellitus no insulinodependiente con complicaciones múltiples
#N189 Enfermedad renal crónica 
#I120 Enfermedad renal hipertensiva
#I619 Enfermedad renal hipertensiva con insuficiencia renal
#C169 Tumor maligno del estómago
#N390 Infección en vías urinarias 

### Regiones Nielsen 

In [None]:
# NIELSEN
# Área I: Pacífico - Baja California Norte, Baja California Sur, Sonora, Sinaloa, Nayarit (5) - [2, 3, 26, 25, 18]
# Área II: Norte - Chihuahua, Coahuila, Durango, Nuevo León, San Luis Potosí, Tamaulipas, Zacatecas (7) - [8, 5, 10, 19, 24, 28, 32]
# Área III: Bajío-  Aguascalientes, Jalisco, Guanajuato, Colima, Michoacan (5) - [1, 14, 11, 6, 16]
# Área IV: Centro- Hidalgo, Querétaro, Morelos, Edo. México, Tlaxcala, Puebla, Guerrero (7) - [13, 22, 17, 15, 29, 21, 12]
# Área V: Valle de México - Cdmx (1) - [9]
# Área VI: Sureste - Chiapas, Campeche, Yucatan, Quintana Roo, Veracruz, Oaxaca, Tabasco (7) - [7, 4, 31, 23, 30, 20, 27]

In [9]:
pacifico = mortalidad_mujeres[mortalidad_mujeres['ent_regis'].isin([2, 3, 26, 25, 18])]
norte = mortalidad_mujeres[mortalidad_mujeres['ent_regis'].isin([8, 5, 10, 19, 24, 28, 32])]
bajio = mortalidad_mujeres[mortalidad_mujeres['ent_regis'].isin([1, 14, 11, 6, 16])]
centro = mortalidad_mujeres[mortalidad_mujeres['ent_regis'].isin([13, 22, 17, 15, 29, 21, 12])]
vallem = mortalidad_mujeres[mortalidad_mujeres['ent_regis'].isin([9])]
sureste = mortalidad_mujeres[mortalidad_mujeres['ent_regis'].isin([7, 4, 31, 23, 30, 20, 27])]

In [None]:
defuncionesi = pacifico['causa_def'].value_counts() # No hay diferencias significativas
#Infarto agudo del miocardio, Diabetes no insulinodependiente, Tumor maligno de mama, Neumonia no especificada, Diabetes no especificada 

In [None]:
defuncionesii = norte['causa_def'].value_counts() # No hay diferencias significativas
# Infarto agudo del miocardio, Diabetes no insulinodependiente, Diabetes no insulinodependiente, Neumonia no especificada, Tumor maligno de mama  

In [None]:
defuncionesiii = bajio['causa_def'].value_counts() # No hay diferencias significativas
# Infarto agudo del miocardio, Diabetes no insulinodependiente, Diabetes no insulinodependiente, Neumonia, Tumor maligno de mama

In [None]:
defuncionesiv = centro['causa_def'].value_counts() #Registra más probabilidad de morir de diabetes
# Infarto agudo del miocardio, Diabetes no insulinodependiente, Diabetes no insulinodependiente, Enfermedad pulmonar obstructiva, Diabetes mellitus no insulinodependiente 

In [None]:
defuncionesv= vallem['causa_def'].value_counts() #No hay diferencias significativas
#Infarto agudo del miocardio, Diabetes no insulinodependiente, Neumonia no especificada, Diabetes no insulinodependiente, Tumor maligno de mama  

In [None]:
defuncionesvi = sureste['causa_def'].value_counts() #Más probabilidad de morir de diabetes, único caso de cirrosis
#Infarto agudo, Diabetes, Diabetes, Cirrosis del higado, Diabetes

### Clasificación de las Enfermedades según la CIE-10 

In [None]:
EPOC=["J44"+str(i) for i in range(0,10)]

asma=["J450","J451","J458","J459","J46X"]

# cardiovascular=["I0"+str(i)+str(j) for i in range(5,10) for j in range(0,10)]+\ # Cardiopatía reumática
# ["I10X"]+["I1"+str(i)+str(j) for i in range(0,6) for j in range(0,10)]+\ # Hipertensión Arterial
# ["I42X"]+["I42"+str(i)+str(j)  for i in range(0,10) for j in range(0,10)]+\ # Miocardiopatías
# ["I50X"]+["I50"+str(i)+str(j)  for i in range(0,10) for j in range(0,10)]+\ # Insuficiencia cardiaca
# ["I60X"]+["I"+str(i)+str(j)  for i in range(60,70) for j in range(0,10)] +\ # Enfermedad cerebrovascular
# ["I70X","I80X"]+["I"+str(i)+str(j)  for i in range(70,90) for j in range(0,10)] +\ # Enfermedad vascular perifería
# ["Q20X"]+["Q2"+str(i)+str(j)  for i in range(0,9) for j in range(0,10)] # Cardiopatía congénita

cardiovascular=["I0"+str(i)+str(j) for i in range(5,10) for j in range(0,10)]+ \
["I10X"]+["I1"+str(i)+str(j) for i in range(0,6) for j in range(0,10)]+ \
["I42X"]+["I42"+str(i) for i in range(0,10)]+\
["I50X"]+["I50"+str(i)  for i in range(0,10)]+\
["I60X"]+["I"+str(i)+str(j)  for i in range(60,70) for j in range(0,10)] +\
["I70X","I80X"]+["I"+str(i)+str(j)  for i in range(70,90) for j in range(0,10)] +\
["Q20X"]+["Q2"+str(i)+str(j)  for i in range(0,9) for j in range(0,10)] 

hipertension=['G932','I270','I272','K766','O10X','O11X','O13X','O14X','O16X','P292']+ \
["O"+str(i)+str(j) for i in range(10,15) for j in range(0,10)]+\
["O16"+str(i) for i in range(0,10)]

diabetes=["E1"+str(i)+str(j) for i in range(0,5) for j in range(0,10)]+['E232','N251','P702']+["O24"+str(i) for i in range(0,10)]

neumonia=["J1"+str(i)+str(j) for i in range(0,9) for j in range(0,10)]+['J851']+["P23"+str(i) for i in range(0,10)]

insuf_renal=["N1"+str(i)+str(j) for i in range(7,10) for j in range(0,10)]+["I17X","I18X","I19X"]+['P960']

obesidad=["E66"+str(i) for i in range(0,10)]

'''VIH [B20-B24] + Cáncer [C0-C97] + Rechazo de trasplantes [T86] ''' 
inmunosup=["B"+str(i)+str(j) for i in range(20,25) for j in range(0,10)]+['B24X','O987','R75X']+\
["C00"+str(i) for i in range(0,10)]+["C0"+str(i) for i in range(10,100)]+["C"+str(i)+str(j) for i in range(10,97) for j in range(0,10)]+\
["T86"+str(i) for i in range(0,10)]

**Catálogo completo de enfermedades**

Concatenamos todas las incidencias:

In [None]:
cat_enfermedad=pd.read_csv(f'decatcausa{2012}.csv', encoding='latin-1')

for i in range(2013,2020):
    aux=pd.read_csv(f'decatcausa{i}.csv',encoding='latin-1')
    cat_enfermedad=pd.concat([cat_enfermedad,aux])
    
cat_enfermedad=cat_enfermedad.reset_index()

Creamos los diccionarios para encontrar las claves únicas:

In [None]:
claves_duplicadas={}

for i in range(len(cat_enfermedad)):
    claves_duplicadas[cat_enfermedad['CVE'][i]]=str(cat_enfermedad['DESCRIP'][i])
    
dict_no_duplicados = {} 
for key, value in claves_duplicadas.items(): 
    if not value in dict_no_duplicados.values(): 
        dict_no_duplicados[key] = value 

Creamos y exportamos un DF con todas los dictámenes históricos:

In [None]:
claves=pd.DataFrame(list(dict_no_duplicados.keys()),columns=['Clave'])  

desc=[]
for i in claves['Clave']:
    desc.append(dict_no_duplicados[str(i)])
    
descr=pd.DataFrame(pd.Series(desc),columns=['Dictamen'])

catalogo_completo=pd.concat([claves,descr],axis=1)

catalogo_completo.to_csv('Catalogo_CIE_10.csv')
catalogo_completo.head(5)

In [None]:
import altair as alt
from vega_datasets import data

source = data.unemployment_across_industries.url
selection = alt.selection_multi(fields=['series'], bind='legend')

alt.Chart(source).mark_area().encode(
    alt.X('yearmonth(date):T', axis=alt.Axis(domain=False, format='%Y', tickSize=0)),
    alt.Y('sum(count):Q', stack='center', axis=None),
    alt.Color('series:N', scale=alt.Scale(scheme='category20b')),
    opacity=alt.condition(selection, alt.value(1), alt.value(0.2))
).add_selection(
    selection
)


In [None]:
import plotly.express as px
df = px.data.iris()
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species",
                 size='petal_length', hover_data=['petal_width'])
fig.show()

In [None]:
import plotly.express as px
df = px.data.tips()
fig = px.sunburst(df, path=['day', 'time', 'sex'], values='total_bill')
fig.show()

In [None]:
df = pacifico
fig = px.line(df, x='anio_ocur', y='causa_def', color='causa_def')
fig.show()