In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Objective: To find or not and visualize the relationship between the state origin and its symptoms
##### Objetivo: Encontrar o no y visualizar la relación entre el origen estatal y su sintomatología

## The data was obtained directly from the "Mexico Open Data" page, so its cleaning and transformation has already been done, only the following changes were made to facilitate what was desired
##### Los datos fueron obtenidos directamente de la página de "Datos abiertos México" por lo que su limpieza y transformación ya está hecha solo se hicieron los siguientes cambios para facilitar lo deseado

## Remove attributes: 'NACIONALIDAD','HABLA_LENGUA_INDIG','INDIGENA','TOMA_MUESTRA_LAB','RESULTADO_LAB', ‘ORIGEN','MIGRANTE','PAIS_NACIONALIDAD','PAIS_ORIGEN','UCI','ID_REGISTRO','CLASIFICACION_FINAL' considered unnecessary for the objective
##### Se eliminar los atributos: 'NACIONALIDAD','HABLA_LENGUA_INDIG','INDIGENA','TOMA_MUESTRA_LAB','RESULTADO_LAB',        ‘ORIGEN','MIGRANTE','PAIS_NACIONALIDAD','PAIS_ORIGEN','UCI','ID_REGISTRO','CLASIFICACION_FINAL' al considerarse innecesarios para el objetivo

## The data was reduced to a third of the original size randomly, only considering the data with a multiple index of 3 in each year to facilitate its management with less computational expense.
##### Se redujeron los datos a un tercio del tamaño original de maner aleatoria sólo considerando los datos con un índice múltiplo de 3 en cada año para facilitar su manejo con un menor gasto computacional 

In [None]:
n_necessary = ['NACIONALIDAD','HABLA_LENGUA_INDIG','INDIGENA','TOMA_MUESTRA_LAB','RESULTADO_LAB',
               'ORIGEN','MIGRANTE','PAIS_NACIONALIDAD','PAIS_ORIGEN','UCI','ID_REGISTRO','CLASIFICACION_FINAL']
def new_csv(i):
    name = 'COVID19MEXICO202'+str(i)+'.csv'
    newName = 'COVID19MEXICO202'+str(i)+'_PART'+'.csv'
    dfo = pd.read_csv(name,low_memory=False)
    df = dfo[dfo.index % 3 == 0]
    df.drop(n_necessary,axis=1,inplace=True)
    df['FECHA_DEF'] = df['FECHA_DEF'].replace('9999-99-99','9999-12-27')
    df.to_csv(newName)
    print('INFO OF '+name)
    df.info()
    print('DESCRIBE OF '+name)
    print(df.describe())

## On a machine with little computational power, the function must be applied to each file individually, never in a single run.
##### En una máquina con poca potencia computacional se debe de hacer aplicar la función en cada archivo de manera individual nunca en una sola corrida

In [None]:
#new_csv(0)
#new_csv(1)
#new_csv(2)
new_csv(3)

## After analyzing the remaining data and objectifying the objectives that should be achieved so that they were more coherent together, it was decided to eliminate the following unnecessary attributes
##### Después de analizar los datos restantes y objetivar los objetivos que se debían lograr de manera fueran más coherentes todos en conjunto se decidió eliminar los siguientes atributos innecesarios

## In addition, a binary attribute dependent on DATE_DEF is added which will only indicate whether the date is valid or not, which will indicate whether or not the patient is dysfunctional.
##### Además se agrega un atributo binario dependiente de FECHA_DEF el cual solo indicará si la fecha es válida o no por lo que indicará la defunción o no del paciente

In [None]:
n_necessary = ['ENTIDAD_UM','ENTIDAD_NAC','MUNICIPIO_RES','FECHA_SINTOMAS','EMBARAZO',
               'DIABETES','INMUSUPR','OBESIDAD','RENAL_CRONICA','TABAQUISMO','OTRO_CASO',]
entidades = pd.read_csv('Entidades.csv')
def change_fields(i_n):
    name = 'COVID19MEXICO202'+str(i_n)+'_PART.csv'
    #name = 'COVID19MEXICO_TEST.csv'
    dft = pd.read_csv(name,low_memory=False)
    #dft.drop(n_necessary,axis=1,inplace=True)
    dft = dft.assign(DEF = 0)
    dft['ENTIDAD_RES_N'] = dft['ENTIDAD_RES'].copy()
    for i in range(0,len(dft)):
        if dft['FECHA_DEF'][i] != '12/27/9999':
            dft.at[i,'DEF'] = 1
        if dft['ENTIDAD_RES_N'][i] == 36 or dft['ENTIDAD_RES_N'][i] == 97 or dft['ENTIDAD_RES_N'][i] == 98 or dft['ENTIDAD_RES_N'][i] == 99:
            dft['ENTIDAD_RES_N'][i] = 'NO ESPECIFICADO'
            dft['ENTIDAD_RES'][i] = '99'
        else:
            dft['ENTIDAD_RES_N'][i] = entidades['Entidad'][dft['ENTIDAD_RES'][i]-1]
    dft.to_csv(name, encoding='latin-1')
    print('INFO OF '+name)
    dft.info()
    print('DESCRIBE OF '+name)
    print(dft.describe())

In [None]:
change_fields(0)
change_fields(1)
change_fields(2)
change_fields(3)
#change_fields(99)