# Preprocesamiento de datos

## Librerías

In [127]:
import pandas as pd
import numpy as np
import random
import copy
from sklearn.preprocessing import LabelEncoder
from sklearn import preprocessing

## Funciones

In [128]:
def CargarPandasDataset(ruta):
    """
    Carga un dataset de pandas a partir de un archivo csv con espacios vacios representados por un \r
    Recibe:
        ruta_parcial: string con la ruta parcial o absoluta al archivo csv.
    Devuelve:
        pandas dataset
    """
    return pd.read_csv(ruta, na_values=['\r'])

def GuardarDataset(df, name):
    """
    Guarda el dataset de pandas en la carpeta datsets
    Recibe:
          df: dataset de pandas
        name: nombre con el que será guardado
    Devuelve:
        nada
    """
    df.to_csv(f"datasets/{name}")
    return

def ModificarColumnasValor(df, cols, valorR, valorN):
    """
    Modifica las columnas indicadas del dataframe de pandas donde un valor deba ser reemplazado por un valor nuevo
    Recibe:
            df: dataset de pandas
          cols: columnas a remplazar valores
        valorR: valor a remplazar
        valorN: valor nuevo
    Devuelve:
        nada
    """
    for c in cols:
        df.loc[df[c]==valorR, c] = valorN
    return

def BorrarColumnas(df, cols, inplace=True):
    """
    Borras columnas de un pandas dataframe
    Recibe:
             df: dataset de pandas
           cols: columnas a remplazar valores
        inplace: si el borrado de columnas será inplace
    Devuelve:
        si inplace es True : nada
        si inplace es False: pandas dataframe
    """
    df.drop(labels=cols, axis=1, inplace=inplace)
    if not inplace:
        return df

def InsertarColumnaNueva(df, nombreCol, numeroCol, funcion):
    """
    Inserta una columna nueva nombreCol, en la posicion numero col, en el dataset de pandas df, en base a la funcion 
    Recibe:
               df: dataset de pandas
        nombreCol: nombre de la columna nueva
        numeroCol: numero de columna donde se insertará
          funcion: funcion de Python
    Devuelve:
        pandas dataset
    """
    df_copy = copy.copy(df)
    df_copy.insert(numeroCol, nombreCol, df.apply(funcion, axis=1))
    return df_copy

def transformColumn(col):
    """
    Encodea la columna de 0 a n-1, siendo n el numero de clases en la columna usando un LabelEncoder de sklearn llamado lb
    Recibe:
        col: columna de pandas
    Devuelve:
        la columna transformada
    """
    return lb.fit_transform(col)

In [129]:
def RegionesDeMexico(row):
    if   row['NOM_ENT'] in ['Baja California\r', 'Baja California Sur\r', 'Sonora\r', 'Sinaloa\r', 'Nayarit\r']:
        val = 0
    elif row['NOM_ENT'] in ['Chihuahua\r', 'Coahuila de Zaragoza\r', 'Durango\r', 'Zacatecas\r', 'San Luis Potosi\r']:
        val = 1
    elif row['NOM_ENT'] in ['Nuevo Leon\r', 'Tamaulipas\r']:
        val = 2
    elif row['NOM_ENT'] in ['Jalisco\r', 'Aguascalientes\r', 'Guanajuato\r', 'Colima\r', 'Michoacan de Ocampo\r']:
        val = 3
    elif row['NOM_ENT'] in ['Queretaro\r', 'Hidalgo\r', 'Estado de Mexico\r',  'Ciudad de Mexico\r','Morelos\r', 'Puebla\r', 'Tlaxcala\r']:
        val = 4
    elif row['NOM_ENT'] in ['Veracruz de Ignacio de la Llave\r', 'Tabasco\r']:
        val = 5
    elif row['NOM_ENT'] in ['Guerrero\r', 'Oaxaca\r', 'Chiapas\r']:
        val = 6
    elif row['NOM_ENT'] in ['Campeche\r', 'Yucatan\r', 'Quintana Roo\r']:
        val = 7
    return val

def Clasificacion(row):
    # va de menor a mayor gravedad
    val = 0 #ninguno
    
    #abuso y violencia
    if row['P9_8_1'] == 1.0 or row['P9_8_2'] == 1.0 or row['P9_8_3'] == 1.0 or row['P9_8_4'] == 1.0 or row['P9_8_5'] == 1.0 or row['P9_8_6'] == 1.0:
        val = 1
    
    #atencion no autorizada
    if row['P9_8_7'] == 1.0 or row['P9_8_8'] == 1.0 or row['P9_8_9'] == 1.0 or row['P9_8_10'] == 1.0 or row['P9_8_14'] == 4.0:
        val = 2
    
    return val

## Seccion I

### Cargar datos

In [130]:
ruta_parcial = "../../conjunto_de_datos_endireh_2016_csv/conjunto_de_datos_tviv_endireh_2016/conjunto_de_datos/conjunto_de_datos_tviv_endireh_2016.csv"

seccionI = CargarPandasDataset(ruta_parcial)

#seccionI.iloc[random.choices(range(seccionI.shape[0]), k=5)]
seccionI.iloc[[83867, 107779, 25309, 64234, 81171]]

Unnamed: 0,ID_VIV,UPM,PROG,VIV_SEL,CVE_ENT,NOM_ENT,CVE_MUN,NOM_MUN,COD_RES,P1_1,...,P1_9,P1_10_1,P1_10_2,P1_10_3,P1_10_4,FAC_VIV,DOMINIO,EST_DIS,UPM_DIS,ESTRATO
83867,2260379.02,2260379,154,2,22,Queretaro\r,6,Corregidora\r,1,2,...,2.0,0.0,1.0,0.0,0.0,132,R\r,4080,12538,2
107779,2900558.02,2900558,124,2,29,Tlaxcala\r,25,San Pablo del Monte\r,1,2,...,,,,,,91,U\r,5340,16156,2
25309,760617.01,760617,51,1,7,Chiapas\r,18,Coapilla\r,1,2,...,,,,,,341,R\r,1290,4017,1
64234,1800193.01,1800193,48,1,18,Nayarit\r,17,Tepic\r,1,2,...,,,,,,99,U\r,3220,9834,3
81171,2200733.01,2200733,82,1,22,Queretaro\r,14,Querétaro\r,1,2,...,,,,,,132,U\r,3930,12132,3


### Hacer columnas One Hot Encoding

In [131]:
columnasOHE = [f'P1_4_{i}' for i in range(1,10)]
columnasOHE.append('P1_8')

ModificarColumnasValor(df=seccionI, cols=columnasOHE, valorR=2, valorN=0)

### Borrar columnas

In [132]:
labels = ['CVE_ENT', 'NOM_ENT', 'CVE_MUN', 'NOM_MUN', 'COD_RES', 'UPM', 'PROG','FAC_VIV', 'EST_DIS', 'UPM_DIS', 'ESTRATO', 'DOMINIO']

BorrarColumnas(df=seccionI, cols=labels, inplace=True)

### Guardar dataset

In [133]:
GuardarDataset(df=seccionI, name='sec_i.csv')

## Seccion II

### Cargar los datos

In [134]:
ruta_parcial = "../../conjunto_de_datos_endireh_2016_csv/conjunto_de_datos_tsdem_endireh_2016/conjunto_de_datos/conjunto_de_datos_tsdem_endireh_2016.csv"

seccionII = CargarPandasDataset(ruta_parcial)

seccionII.iloc[random.choices(range(seccionII.shape[0]), k=5)]

Unnamed: 0,ID_VIV,ID_MUJ,UPM,PROG,VIV_SEL,CVE_ENT,NOM_ENT,CVE_MUN,NOM_MUN,HOGAR,...,REN_INF_AD,FN_DIA,FN_MES,FAC_VIV,FAC_MUJ,DOMINIO,ESTRATO,EST_DIS,UPM_DIS,COD_M15
344569,2500042.03,2500042.03.01.03\r,2500042,133,3,25,Sinaloa\r,1,Ahome\r,1,...,,,,240,0,U\r,4,4520,13793,1.0
325358,2302612.03,2302612.03.01.04\r,2302612,65,3,23,Quintana Roo\r,8,Solidaridad\r,1,...,,,,151,0,U\r,2,4190,13132,
262927,1907549.04,1907549.04.01.05\r,1907549,67,4,19,Nuevo Leon\r,39,Monterrey\r,1,...,,,,329,0,U\r,2,3330,10733,
446219,3201482.02,3201482.02.01.03\r,3201482,164,2,32,Zacatecas\r,36,Ojocaliente\r,1,...,,,,112,0,C\r,2,6140,17851,
138376,1060160.06,1060160.06.01.04\r,1060160,118,6,10,Durango\r,4,Cuencamé\r,1,...,,,,159,0,R\r,1,1730,6191,


### Modificar columnas a OHE

In [135]:
columnasOHE = ['P2_8', 'P2_9', 'P2_11', 'P2_12', 'P2_13']

ModificarColumnasValor(df=seccionII, cols=columnasOHE, valorR=2, valorN=0)

### 3.2 Dividir por regiones de méxico.

Para no dividir entre 32 entidades federativas, dividiré el país en principales regiones de México.
Según la regionalización económica de la [CONABIO](http://www.conabio.gob.mx/informacion/metadata/gis/recomgw.xml?_xsl=/db/metadata/xsl/fgdc_html.xsl&_indent=no) existen un total de 8 regiones.
   
<img src="conabio.gob.mx/informacion/gis/layouts/recomgw.png"
     alt="Regiones económicas de Mexico"
     style="float: left; margin-right: 10px;" />
     
Cada código representa a una región como se muestra en la siguiente tabla:

|  Código  | Región              |
|:--------:|:-------------------:|
| 0        | Noroeste            |
| 1        | Norte               |
| 2        | Noreste             |
| 3        | Centro Occidente    |
| 4        | Centro Sur          |
| 5        | Golfo de México     |
| 6        | Pacífico Sur        |
| 7        | Península de Yucatán|


In [136]:
seccionII_reg = InsertarColumnaNueva(df=seccionII, nombreCol='REGION', numeroCol=12, funcion=RegionesDeMexico)

### Borrar columnas

In [137]:
labels = ['NOM_ENT', 'NOM_MUN', 'COD_RES', 'COD_RES_E', 'FN_DIA', 'FN_MES', 'NOMBRE', 'HOGAR', 
          'UPM', 'VIV_SEL', 'N_REN', 'REN_MUJ_EL', 'REN_INF_AD', 'FAC_VIV', 'FAC_MUJ',
          'ESTRATO', 'EST_DIS', 'UPM_DIS', 'CODIGO', 'COD_M15', 'PROG', 'P2_16']

BorrarColumnas(df=seccionII_reg, cols=labels, inplace=True)

### Pasar columnas categóricas a numéricas

In [138]:
lb = LabelEncoder()

In [139]:
seccionII_reg[['DOMINIO']] = seccionII_reg[['DOMINIO']].apply(transformColumn)
lb.classes_ 

array(['C\r', 'R\r', 'U\r'], dtype=object)

### Guardar dataset

In [140]:
GuardarDataset(df=seccionII_reg, name='sec_ii.csv')

## Seccion III

### Cargar datos

In [141]:
ruta_parcial = "../../conjunto_de_datos_endireh_2016_csv/conjunto_de_datos_tb_sec_iii_endireh_2016/conjunto_de_datos/conjunto_de_datos_tb_sec_iii_endireh_2016.csv"

seccionIII = CargarPandasDataset(ruta_parcial)

seccionIII.iloc[random.choices(range(seccionIII.shape[0]), k=5)]

Unnamed: 0,ID_VIV,ID_MUJ,UPM,PROG,VIV_SEL,CVE_ENT,NOM_ENT,CVE_MUN,NOM_MUN,HOGAR,...,P3_5,P3_6,P3_7,P3_8,FAC_VIV,FAC_MUJ,DOMINIO,ESTRATO,EST_DIS,UPM_DIS
68782,2062853.08,2062853.08.01.03\r,2062853,125,8,20,Oaxaca\r,549,"Heroica Villa Tezoatlán de Segura y Luna, Cuna...",1,...,,1.0,,C1\r,187,374,R\r,2,3670,11306
60306,1801606.07,1801606.07.01.02\r,1801606,150,7,18,Nayarit\r,15,Santiago Ixcuintla\r,1,...,,,,A1\r,105,105,C\r,2,3290,10139
77866,2301283.01,2301283.01.01.02\r,2301283,99,1,23,Quintana Roo\r,5,Benito Juárez\r,1,...,,,,A1\r,123,123,U\r,2,4100,12835
92685,2760137.03,2760137.03.01.02\r,2760137,38,3,27,Tabasco\r,5,Comalcalco\r,1,...,,,,A1\r,231,693,R\r,1,5020,15226
49054,1511352.03,1511352.03.01.02\r,1511352,33,3,15,Estado de Mexico\r,58,Nezahualcóyotl\r,1,...,,,,B2\r,1078,2157,U\r,3,2580,8419


### Hacer columnas One Hot Encoding

In [142]:
columnasOHE = ['P3_2', 'P3_4','P3_7']

ModificarColumnasValor(df=seccionIII, cols=columnasOHE, valorR=2, valorN=0)

### Borrar columnas

In [143]:
labels = ['CVE_ENT', 'NOM_ENT', 'CVE_MUN', 'NOM_MUN', 'COD_RES', 'DOMINIO', 'UPM', 'VIV_SEL', 'PROG',
          'N_REN', 'FAC_VIV', 'FAC_MUJ', 'ESTRATO', 'EST_DIS', 'UPM_DIS', 'P3_8']

BorrarColumnas(df=seccionIII, cols=labels, inplace=True)

### Pasar columnas categóricas a numéricas

In [144]:
lb = LabelEncoder()

In [145]:
seccionIII[['T_INSTRUM']] = seccionIII[['T_INSTRUM']].apply(transformColumn)
lb.classes_ 

array(['A1\r', 'A2\r', 'B1\r', 'B2\r', 'C1\r', 'C2\r'], dtype=object)

### Guardar dataset

In [146]:
GuardarDataset(df=seccionIII, name='sec_iii.csv')

## Seccion IX

### Cargar datos

In [147]:
ruta_parcial = "../../conjunto_de_datos_endireh_2016_csv/conjunto_de_datos_tb_sec_ix_endireh_2016/conjunto_de_datos/conjunto_de_datos_tb_sec_ix_endireh_2016.csv"

seccionIX = CargarPandasDataset(ruta_parcial)

seccionIX.iloc[random.choices(range(seccionIX.shape[0]), k=5)]

Unnamed: 0,ID_VIV,ID_MUJ,UPM,REN_M_ELE,VIV_SEL,PROG,HOGAR,DOMINIO,CVE_ENT,NOM_ENT,...,P9_8_10,P9_8_11,P9_8_12,P9_8_13,P9_8_14,FAC_VIV,FAC_MUJ,ESTRATO,UPM_DIS,EST_DIS
100255,2606294.02,2606294.02.01.02\r,2606294,2,2,31,1,C\r,26,Sonora\r,...,,,,,,222,667,2,14918,4860
57471,3160328.08,3160328.08.01.02\r,3160328,2,8,58,1,R\r,31,Yucatan\r,...,,,,,,140,140,1,17592,6070
74842,1960036.09,1960036.09.01.02\r,1960036,2,9,238,1,R\r,19,Nuevo Leon\r,...,2.0,2.0,,,,570,1140,2,10964,3480
189,100277.02,0100277.02.01.04\r,100277,4,2,27,1,U\r,1,Aguascalientes\r,...,,,,,,84,168,3,80,20
103501,2701437.14,2701437.14.02.05\r,2701437,5,14,21,2,C\r,27,Tabasco\r,...,,,,,,149,299,2,15147,4990


### 2. Preservar los datos de las embarazadas

Borrar los registros de todas aquellas que repondieron que no estuvieron embarazadas entre Octubre 2011 hasta finales 2016 o que no se tenga resgistro de su respuesta. La manera fácil es solo preservar los registros de las que respondieron que sí estuvieron embaraadas en ese periodo de tiempo.

In [148]:
seccionIX = seccionIX[seccionIX.P9_2 == 1]

In [149]:
seccionIX.reset_index(drop=True, inplace=True) #reajustar el índice

### 3. Agregar columnas

En la pregunta 1 y 5, si todos los registros tienen valor 9 significa que no hay registro de la respuesta a esa pregunta, por ello se grega una columna que refleje esa información y todos los demás valores se hacen 0, así se preserva el _One Hot Encoding_.

#### Pregunta 1

In [150]:
seccionIX.insert(24, "P9_1_10", 0.0) #agregar columna con ceros

In [151]:
seccionIX.loc[seccionIX['P9_1_1']==9, 'P9_1_10'] = 1.0 #asignar los valores de columnas con 9

In [152]:
seccionIX.loc[seccionIX['P9_1_1']==9, [F'P9_1_{i}' for i in range(1,10)]] = 0.0 #los valores con 9 se hacen 0

#### Pregunta 5

In [153]:
seccionIX.insert(41, "P9_5_12", 0.0) #agregar columna con ceros

In [154]:
seccionIX.loc[seccionIX['P9_5_1']==9, 'P9_5_12']=1.0 #asignar los valores de columnas con 9

In [155]:
seccionIX.loc[seccionIX['P9_5_1']==9, [F'P9_5_{i}' for i in range(1,12)]]=0.0 #los valores con 9 se hacen 0

### 3.2 Crear clasificación

A partir de las respuestas de la pregunta 8, crear columna que va a servir de clasificación para los niveles de violencia obstétrica.

In [156]:
seccionIX_cls = InsertarColumnaNueva(df=seccionIX, nombreCol='P9_8', numeroCol=58, funcion=Clasificacion)

### Balancear clasificación

Que estén en mismo procentaje cada clasificación. Ya que el 73% de las mujeres no sufrieron violencia y las otras dos clasificaciones tiene 13% y 14%, obtendré una porción similar (15% porciento del total) para las no embarazadas. Para ello, debo obtener el 20% de las no violentadas.

Obtener el 20% de las que no sufrieron violencia

In [157]:
df_percent = seccionIX_cls.loc[seccionIX_cls['P9_8']==0].sample(frac=0.2)

Concatenar con las clasificaciones restantes.

In [158]:
seccionIX_cls = pd.concat([df_percent, seccionIX_cls.loc[seccionIX_cls['P9_8']!=0]])

In [159]:
seccionIX_cls.sort_index()
seccionIX_cls.reset_index(drop=True, inplace=True) #reajustar el índice

### Borrar columnas

In [160]:
labels = ['NOM_ENT', 'NOM_MUN', 'COD_RES_MU', 'COD_RES', 'DOMINIO', 'P9_2', 'T_INSTRUM']
labels.extend( [f'P9_8_{i}' for i in range(1,11)] )
labels.append('P9_8_12')

BorrarColumnas(df=seccionIX_cls, cols=labels, inplace=True)

### Guardar dataset

In [161]:
GuardarDataset(df=seccionIX_cls, name='sec_ix.csv')

## Unir datasets

In [162]:
seccionI.columns #características de la vivienda

Index(['ID_VIV', 'VIV_SEL', 'P1_1', 'P1_2', 'P1_2_A', 'P1_3', 'P1_4_1',
       'P1_4_2', 'P1_4_3', 'P1_4_4', 'P1_4_5', 'P1_4_6', 'P1_4_7', 'P1_4_8',
       'P1_4_9', 'P1_5', 'P1_6', 'P1_7', 'P1_8', 'P1_9', 'P1_10_1', 'P1_10_2',
       'P1_10_3', 'P1_10_4'],
      dtype='object')

In [163]:
seccionII_reg.columns #características sociodemográficas

Index(['ID_VIV', 'ID_MUJ', 'CVE_ENT', 'CVE_MUN', 'REGION', 'PAREN', 'SEXO',
       'EDAD', 'P2_5', 'P2_6', 'NIV', 'GRA', 'P2_8', 'P2_9', 'P2_10', 'P2_11',
       'P2_12', 'P2_13', 'P2_14', 'P2_15', 'DOMINIO'],
      dtype='object')

In [164]:
seccionIII.columns #estado conyugal

Index(['ID_VIV', 'ID_MUJ', 'HOGAR', 'T_INSTRUM', 'P3_1', 'P3_2', 'P3_3',
       'P3_4', 'P3_5', 'P3_6', 'P3_7'],
      dtype='object')

In [165]:
seccionIX_cls.columns #atención obstétrica

Index(['ID_VIV', 'ID_MUJ', 'UPM', 'REN_M_ELE', 'VIV_SEL', 'PROG', 'HOGAR',
       'CVE_ENT', 'CVE_MUN', 'P9_1_1', 'P9_1_2', 'P9_1_3', 'P9_1_4', 'P9_1_5',
       'P9_1_6', 'P9_1_7', 'P9_1_8', 'P9_1_9', 'P9_1_10', 'P9_3', 'P9_4_1',
       'P9_4_2', 'P9_4_3', 'P9_5_1', 'P9_5_2', 'P9_5_3', 'P9_5_4', 'P9_5_5',
       'P9_5_6', 'P9_5_7', 'P9_5_8', 'P9_5_9', 'P9_5_10', 'P9_5_11', 'P9_5_12',
       'P9_6', 'P9_7', 'P9_8_11', 'P9_8_13', 'P9_8_14', 'P9_8', 'FAC_VIV',
       'FAC_MUJ', 'ESTRATO', 'UPM_DIS', 'EST_DIS'],
      dtype='object')

In [166]:
result = pd.merge(seccionI, seccionII_reg, how="inner")
result = pd.merge(result, seccionIII, how="inner")
result = pd.merge(result, seccionIX_cls, how="inner")

In [167]:
result.shape

(10682, 93)

In [168]:
result.columns

Index(['ID_VIV', 'VIV_SEL', 'P1_1', 'P1_2', 'P1_2_A', 'P1_3', 'P1_4_1',
       'P1_4_2', 'P1_4_3', 'P1_4_4', 'P1_4_5', 'P1_4_6', 'P1_4_7', 'P1_4_8',
       'P1_4_9', 'P1_5', 'P1_6', 'P1_7', 'P1_8', 'P1_9', 'P1_10_1', 'P1_10_2',
       'P1_10_3', 'P1_10_4', 'ID_MUJ', 'CVE_ENT', 'CVE_MUN', 'REGION', 'PAREN',
       'SEXO', 'EDAD', 'P2_5', 'P2_6', 'NIV', 'GRA', 'P2_8', 'P2_9', 'P2_10',
       'P2_11', 'P2_12', 'P2_13', 'P2_14', 'P2_15', 'DOMINIO', 'HOGAR',
       'T_INSTRUM', 'P3_1', 'P3_2', 'P3_3', 'P3_4', 'P3_5', 'P3_6', 'P3_7',
       'UPM', 'REN_M_ELE', 'PROG', 'P9_1_1', 'P9_1_2', 'P9_1_3', 'P9_1_4',
       'P9_1_5', 'P9_1_6', 'P9_1_7', 'P9_1_8', 'P9_1_9', 'P9_1_10', 'P9_3',
       'P9_4_1', 'P9_4_2', 'P9_4_3', 'P9_5_1', 'P9_5_2', 'P9_5_3', 'P9_5_4',
       'P9_5_5', 'P9_5_6', 'P9_5_7', 'P9_5_8', 'P9_5_9', 'P9_5_10', 'P9_5_11',
       'P9_5_12', 'P9_6', 'P9_7', 'P9_8_11', 'P9_8_13', 'P9_8_14', 'P9_8',
       'FAC_VIV', 'FAC_MUJ', 'ESTRATO', 'UPM_DIS', 'EST_DIS'],
      dtype='object')

### Borrar columnas

Borrar las columnas de entidad y municipio para solo tener la región.

In [169]:
labels = ['CVE_ENT', 'CVE_MUN']

BorrarColumnas(df=result, cols=labels, inplace=True)

### Guardar dataset

In [170]:
GuardarDataset(df=result, name='endireh.csv')

# Modificaciones faltantes

1. Crear clasificación en seccion IX. **maso**
    
    1. Decidir entre los dos tipos de preprocesamiento (con tres o cuatro categorías).

2. Limpiar columnas en todos los datasets que lo necesiten. **ya**

3. Pasar columnas categóricas a numéricas. **ya**

4. Juntar los datasets. **ya**

5. Quedarnos con una muestra del 73% para quedarnos con un 15% o más o menos para que esté balanceado. Esto sería una muestra del 20% de los que tengan catetoría 0. **ya**

----

6. Crear baseline.

----

7. Reescribir los apartados de cada preprocesamiento de secciones justificando las acciones.

8. Buscar el significado de las columnas que no se entiende el significado.

9. Responder preguntas de todas las secciones.
    1. ¿Habrá los mismos ID_MUJER en todos los dataset con ese valor y por qué? Diferente número de registros y por qué?
    2. ¿se borrarán registros de los que no presentan ningún tipo de violencia?