<a href="https://colab.research.google.com/github/Fernando-LunaP/Ing-Caracteristicas/blob/main/Descarga_de_datos/Descarga_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Descargando datos**

En esta libreta estaremos descargando información sobre la prevalencia de diabetes en el Estado de Sonora, asi mismo mostraremos la tasa de mortalidad correspondiente a la diabetes tipo II.

1. Importamos las librerías necesarias.

In [1]:
import os  # Para manejo de archivos y directorios
import urllib.request # Una forma estandard de descargar datos
# import requests # Otra forma no de las librerías de uso comun

import datetime # Fecha de descarga
import pandas as pd # Solo para ver el archivo descargado
import zipfile # Descompresión de archivos

import csv

2. Obtenemos la ruta en la que nos encontramos y el directorio que vamos a utilizar para la descarga e indicamos las fuentes de donde estamos descargando la información

In [2]:
# pwd
print(os.getcwd())

#  Estos son los datos que vamos a descargar y donde vamos a guardarlos
#  Datos del INEGI
diabetes_mexico_url = "https://www.inegi.org.mx/contenidos/investigacion/pohd/2018/tabulados/a_peq_prev_2018.xlsx"
diabetes_mexico_archivo = "a_peq_prev_2018.xlsx"
#  Datos del IMSS
diabetes_imss_url = "http://www.dgis.salud.gob.mx/descargas/datosabiertos/Tasa_Mortalidad_Diabetes_Tipo_II_Serie_Historica.csv"
diabetes_imss_archivo = "Tasa_Mortalidad_Diabetes_Tipo_II_Serie_Historica.xls"
subdir = "./data/"

/content


3. Generamos el directorio y procedemos con la descarga de la base de datos y creamos un archivo para indicar la fecha y el lugar donde se tomaron los datos.

In [5]:
# Si no existe el directorio lo creamos
if not os.path.exists(diabetes_mexico_archivo):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
# Empezamos a descargar el primer archivo
    urllib.request.urlretrieve(diabetes_mexico_url, subdir + diabetes_mexico_archivo)  

# Empezamos a descargar el archivo de la segunda fuente
    urllib.request.urlretrieve(diabetes_imss_url, subdir + diabetes_imss_archivo)  

# Generamos el documento para indicar los datos generales de la descarga
    with open(subdir + "info.txt", 'w') as f:
        f.write("Archivo sobre prevalencia de diabetes\n")
        info = """
        Datos de prevalencia diabetes en el Estado de Sonora.

        Los datos se obtuvieron de la página del INEGI con la información correspondiente
        al año 2018

        """ 
        f.write(info + '\n')
        f.write("Descargado el " + datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "\n")
        f.write("Desde: " + diabetes_mexico_url + "\n")
        f.write("Nombre: " + diabetes_mexico_archivo + "\n")
        f.write("Datos nacionales descargados desde: " + diabetes_mexico_url + "\n")
        f.write("Nombre: " + diabetes_mexico_archivo + "\n")

        info = """
        Datos sobre la tasa de mortalidad por Diabetes tipo II.

        Los datos se obtuvieron de la página del IMSS con la información correspondiente
        al año 1998 al 2013

        """ 
        f.write(info + '\n')
        f.write("Descargado el " + datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "\n")
        f.write("Desde: " + diabetes_imss_url + "\n")
        f.write("Nombre: " + diabetes_imss_archivo + "\n")
        f.write("Datos nacionales descargados desde: " + diabetes_imss_url + "\n")
        f.write("Nombre: " + diabetes_imss_archivo + "\n")



4. Abrimos el archivo excel y filtramos los archivos con la información correspondiente al Estado de Sonora.

In [6]:
# Utilizamos un comando de pandas para abrir el excel
df = pd.read_excel(subdir + diabetes_mexico_archivo, sheet_name='Enfermedades de riesgo (mun)', header=None)

# Quitamos las primeras columnas del archivo ya que no las necesitamos
# ademas utilizamos la tercer fila como los nombres de encabezado
# para nuestros datos
df1 = df.rename(columns=df.iloc[2]).drop(df.index[0:3])

# Filtramos los datos para obtener la informacion correspondiente al Estado de Sonora
df2 = df1.loc[df1['Clave de entidad federativa'] == '26'] 

df2

Unnamed: 0,Identificador único del municipio,Clave de entidad federativa,Entidad federativa,Clave de municipio o delegación,Municipio o delegación,Estimador,Porcentaje de población de 20 años y más con obesidad.,Porcentaje de población de 20 años y más con diagnóstico previo de hipertensión.,Porcentaje de población de 20 años y más con diagnóstico previo de diabetes.
9578,26000,26,Sonora,000,Total,Valor,43.852886,24.602877,11.22839
9579,26000,26,Sonora,000,Total,Error estándar,2.195831,1.477189,1.148737
9580,26000,26,Sonora,000,Total,Límite inferior de confianza,40.241066,22.173118,9.338886
9581,26000,26,Sonora,000,Total,Límite superior de confianza,47.464706,27.032637,13.117894
9582,26000,26,Sonora,000,Total,Coeficiente de variación,5.007266,6.004131,11.22839
...,...,...,...,...,...,...,...,...,...
9938,26072,26,Sonora,072,San Ignacio Río Muerto,Valor,51.230917,23.672451,12.051201
9939,26072,26,Sonora,072,San Ignacio Río Muerto,Error estándar,3.906293,2.578233,0.987476
9940,26072,26,Sonora,072,San Ignacio Río Muerto,Límite inferior de confianza,44.805637,19.431635,10.426948
9941,26072,26,Sonora,072,San Ignacio Río Muerto,Límite superior de confianza,57.656197,27.913267,13.675454


5. Abrimos el archivo csv y filtramos la información con los datos correspondientes al Estado de Sonora.

In [10]:
# Utilizamos un comando de pandas para abrir el csv
df = pd.read_csv(subdir + diabetes_imss_archivo)

# Filtramos los datos para obtener la informacion correspondiente al Estado de Sonora
df1 = df.loc[df['Entidad de Residencia'] == 'Sonora']

# Eliminamos la columna de Entidad de Residencia, ya que solo estaremos
# Utilizando la informacion del Estado de Sonora
df2 = df1.drop(['Entidad de Residencia'], axis=1)

df2

Unnamed: 0,Periodo,Defunciones por Diabetes Tipo II,Poblacion Total,Tasa de Mortalidad por Diabetes Tipo II
25,1998,356,2203557,16.155697
58,1999,410,2247827,18.239838
91,2000,382,2289991,16.681288
124,2001,399,2330502,17.120775
157,2002,438,2373321,18.455152
190,2003,492,2416527,20.359797
223,2004,532,2460302,21.623362
256,2005,548,2501653,21.905516
289,2006,611,2542078,24.035454
322,2007,621,2586060,24.013364


Comose puede observar en nuestro código, estamos realizando la descarga de dos archivos con diferente formato, excel y csv, ambos los estamos guardando como dataframes mediante la librería de pandas.