In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [4]:
# Permite imprimir plots directamente en el notebook
%matplotlib inline

In [5]:
# Opciones de visualizacion

pd.options.display.max_rows = 10
pd.options.display.float_format = '{:,.2f}'.format
pd.set_option('display.max_rows', 30)
plt.rcParams['figure.figsize'] = (10, 10)

In [6]:
# Lectura de datasets
salud_cols = ['DIRECTORIO', 'NPCFP1', 'NPCFP2', 'NPCFP7',
              'NPCFP13A', 'NPCFP13B', 'NPCFP13D', 'NPCFP13E', 'NPCFP14B']
vivienda_cols = ['DIRECTORIO', 'NVCBP8A', 'NVCBP8B',
                'NVCBP8D', 'NVCBP8G', 'NVCBP8H', 'NVCBP10', 'NVCBP11AA',
                'NVCBP11B', 'NVCBP11C', 'NVCBP11D', 'NVCBP12', 'NVCBP13',
                'NVCBP14A', 'NVCBP14B', 'NVCBP14I', 'NVCBP15D', 'NVCBP15E',
                'NVCBP15F']

salud = pd.read_csv('data/f_salud.csv', sep=';', low_memory=False)[salud_cols]
vivienda = pd.read_csv('data/b_vivienda_y_entorno.csv', sep=';', low_memory=False)[vivienda_cols]

In [7]:
salud.shape

(319952, 9)

In [109]:
salud.head()

Unnamed: 0,DIRECTORIO,NPCFP1,NPCFP2,NPCFP7,NPCFP13A,NPCFP13B,NPCFP13D,NPCFP13E,NPCFP14B
0,101000,1,1,2,1.0,,,,2
1,101000,1,1,2,1.0,1.0,1.0,,2
2,101000,1,1,2,1.0,,,,2
3,101001,1,2,1,,,,1.0,2
4,101001,1,2,2,1.0,,,,2


In [8]:
vivienda.shape

(107218, 19)

In [110]:
vivienda.head()

Unnamed: 0,DIRECTORIO,NVCBP8A,NVCBP8B,NVCBP8D,NVCBP8G,NVCBP8H,NVCBP10,NVCBP11AA,NVCBP11B,NVCBP11C,NVCBP11D,NVCBP12,NVCBP13,NVCBP14A,NVCBP14B,NVCBP14I,NVCBP15D,NVCBP15E,NVCBP15F
0,101000,2,2,2,2,2,2,2,1,1,1,1,4,2,2,2,2,1,2
1,101001,1,1,2,2,1,2,3,1,1,1,1,2,2,2,2,2,2,2
2,101002,2,2,2,2,2,1,3,1,1,1,1,4,2,2,2,2,2,2
3,101003,1,2,2,1,1,1,3,1,1,1,1,4,2,2,1,1,2,2
4,101004,2,2,2,2,2,2,6,1,1,1,1,1,2,2,1,2,2,2


# PREPARACION DE LOS DATOS

1. Los nombres de las columnas para cada data set están codificados por lo que se dificulta su interpretación.
2. Datos nulos o vacíos.

In [111]:
salud_col_rename={
    "NPCFP1" : "SEGURIDAD_SOCIAL_SI",
    "NPCFP2" : "SEGURIDAD_SOCIAL_REGIMEN",
    "NPCFP7" : "PARTICIPA_PROMO_PREVE",
    "NPCFP13A" : "CONSULTA_MEDICINA_GENERAL",
    "NPCFP13B" : "CONSULTA_MEDICINA_ESPECIALIZADA",
    "NPCFP13D" : "CONSULTA_MEDICINA_ALTERNATIVA",
    "NPCFP13E" : "CONSULTA",
    "NPCFP14B" : "TARGET_ENFERMEDAD_RESPIRATORIA"
}

salud_encoded = salud.rename(columns=salud_col_rename, errors="raise")
salud_encoded.head()

Unnamed: 0,DIRECTORIO,SEGURIDAD_SOCIAL_SI,SEGURIDAD_SOCIAL_REGIMEN,PARTICIPA_PROMO_PREVE,CONSULTA_MEDICINA_GENERAL,CONSULTA_MEDICINA_ESPECIALIZADA,CONSULTA_MEDICINA_ALTERNATIVA,CONSULTA,TARGET_ENFERMEDAD_RESPIRATORIA
0,101000,1,1,2,1.0,,,,2
1,101000,1,1,2,1.0,1.0,1.0,,2
2,101000,1,1,2,1.0,,,,2
3,101001,1,2,1,,,,1.0,2
4,101001,1,2,2,1.0,,,,2


In [112]:
vivienda_col_rename={
    "NVCBP8A" : "VIV_HUMEDAD",
    "NVCBP8B" : "VIV_GOTERAS",
    "NVCBP8D" : "VIV_FALLO_TUBERIAS",
    "NVCBP8G" : "VIV_POCA_VENTILACION",
    "NVCBP8H" : "VIV_INUNDACION",
    "NVCBP10" : "VIV_TIPO",
    "NVCBP11AA" : "VIV_ESTRATO",
    "NVCBP11B" : "VIV_ACUEDUCTO",
    "NVCBP11C" : "VIV_ALCANTARILLADO",
    "NVCBP11D" : "VIV_RECOLECCION_BASURA",
    "NVCBP12" : "VIV_MATERIAL_PARED",
    "NVCBP13" : "VIV_MATERIAL_PISO",
    "NVCBP14A" : "VIV_CERCANIA_FABRICAS",
    "NVCBP14B" : "VIV_CERCANIA_BOTADEROS",
    "NVCBP14I" : "VIV_CERCANIA_CANO_AGUAS",
    "NVCBP15D" : "SECTOR_CONTAMINACION_AIRE",
    "NVCBP15E" : "SECTOR_MAL_OLOR",
    "NVCBP15F" : "SECTOR_MAL_MANEJO_BASURAS"
}

vivienda_encoded = vivienda.rename(columns=vivienda_col_rename, errors="raise")
vivienda_encoded.head()

Unnamed: 0,DIRECTORIO,VIV_HUMEDAD,VIV_GOTERAS,VIV_FALLO_TUBERIAS,VIV_POCA_VENTILACION,VIV_INUNDACION,VIV_TIPO,VIV_ESTRATO,VIV_ACUEDUCTO,VIV_ALCANTARILLADO,VIV_RECOLECCION_BASURA,VIV_MATERIAL_PARED,VIV_MATERIAL_PISO,VIV_CERCANIA_FABRICAS,VIV_CERCANIA_BOTADEROS,VIV_CERCANIA_CANO_AGUAS,SECTOR_CONTAMINACION_AIRE,SECTOR_MAL_OLOR,SECTOR_MAL_MANEJO_BASURAS
0,101000,2,2,2,2,2,2,2,1,1,1,1,4,2,2,2,2,1,2
1,101001,1,1,2,2,1,2,3,1,1,1,1,2,2,2,2,2,2,2
2,101002,2,2,2,2,2,1,3,1,1,1,1,4,2,2,2,2,2,2
3,101003,1,2,2,1,1,1,3,1,1,1,1,4,2,2,1,1,2,2
4,101004,2,2,2,2,2,2,6,1,1,1,1,1,2,2,1,2,2,2


## JOIN

Se unen los datos con base a la llave DIRECTORIO

In [3]:
pd.merge?

In [113]:
df = pd.merge(salud_encoded, vivienda_encoded, on='DIRECTORIO', how='inner').drop(columns=['DIRECTORIO'])

In [114]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 319952 entries, 0 to 319951
Data columns (total 26 columns):
SEGURIDAD_SOCIAL_SI                319952 non-null int64
SEGURIDAD_SOCIAL_REGIMEN           319952 non-null object
PARTICIPA_PROMO_PREVE              319952 non-null object
CONSULTA_MEDICINA_GENERAL          319952 non-null object
CONSULTA_MEDICINA_ESPECIALIZADA    319952 non-null object
CONSULTA_MEDICINA_ALTERNATIVA      319952 non-null object
CONSULTA                           319952 non-null object
TARGET_ENFERMEDAD_RESPIRATORIA     319952 non-null int64
VIV_HUMEDAD                        319952 non-null int64
VIV_GOTERAS                        319952 non-null int64
VIV_FALLO_TUBERIAS                 319952 non-null int64
VIV_POCA_VENTILACION               319952 non-null int64
VIV_INUNDACION                     319952 non-null int64
VIV_TIPO                           319952 non-null int64
VIV_ESTRATO                        319952 non-null object
VIV_ACUEDUCTO              

## Ocurrencias de Valores por Característica

In [115]:
def ver_ocurrencias():
    ocurrences_series = []
    
    for col in df:
        ocurrences_series.append(pd.Series(df[col].value_counts().values, index=df[col].value_counts().index.values, name=col))
    return pd.concat(ocurrences_series, axis=1)

df_ocurrencias = ver_ocurrencias()
df_ocurrencias

Unnamed: 0,SEGURIDAD_SOCIAL_SI,SEGURIDAD_SOCIAL_REGIMEN,PARTICIPA_PROMO_PREVE,CONSULTA_MEDICINA_GENERAL,CONSULTA_MEDICINA_ESPECIALIZADA,CONSULTA_MEDICINA_ALTERNATIVA,CONSULTA,TARGET_ENFERMEDAD_RESPIRATORIA,VIV_HUMEDAD,VIV_GOTERAS,...,VIV_ALCANTARILLADO,VIV_RECOLECCION_BASURA,VIV_MATERIAL_PARED,VIV_MATERIAL_PISO,VIV_CERCANIA_FABRICAS,VIV_CERCANIA_BOTADEROS,VIV_CERCANIA_CANO_AGUAS,SECTOR_CONTAMINACION_AIRE,SECTOR_MAL_OLOR,SECTOR_MAL_MANEJO_BASURAS
1.0,300326.0,,,,,,,10388.0,78817.0,50551.0,...,311012.0,314718.0,313420.0,3749.0,42521.0,26112.0,39213.0,94855.0,97451.0,53611.0
2.0,17066.0,,,,,,,309564.0,237030.0,265025.0,...,8940.0,5234.0,2005.0,13754.0,277431.0,293840.0,280739.0,225097.0,222501.0,266341.0
3.0,,,,,,,,,,,...,,,746.0,2616.0,,,,,,
4.0,,,,,,,,,,,...,,,432.0,263968.0,,,,,,
5.0,,,,,,,,,,,...,,,1288.0,6009.0,,,,,,
6.0,,,,,,,,,,,...,,,1948.0,29067.0,,,,,,
7.0,,,,,,,,,,,...,,,20.0,789.0,,,,,,
8.0,,,,,,,,,,,...,,,73.0,,,,,,,
9.0,2560.0,,,,,,,,4105.0,4376.0,...,,,20.0,,,,,,,
,,19626.0,21769.0,104479.0,234742.0,313700.0,227633.0,,,,...,,,,,,,,,,


In [116]:
df_ocurrencias.index

Index([1, 2, 3, 4, 5, 6, 7, 8, 9, ' ', '0', '1', '2', '3', '4', '5', '6', '8',
       '9'],
      dtype='object')

## Estandarización de tipo de dato

Se observa de la tabla de ocurrencias, que existen valores tanto numéricos como string. Para visualizar correctamente los valores, se aplicó una tranformación en el tipo de dato a cada columna del DataFrame.

In [117]:
for col in df:
    df[col] = df[col].apply(str)
    
df_ocurrencias_t = ver_ocurrencias().T.sort_index()

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


In [118]:
df_ocurrencias_t

Unnamed: 0,Unnamed: 1,0,1,2,3,4,5,6,7,8,9
CONSULTA,227633.0,,92319.0,,,,,,,,
CONSULTA_MEDICINA_ALTERNATIVA,313700.0,,6252.0,,,,,,,,
CONSULTA_MEDICINA_ESPECIALIZADA,234742.0,,85210.0,,,,,,,,
CONSULTA_MEDICINA_GENERAL,104479.0,,215473.0,,,,,,,,
PARTICIPA_PROMO_PREVE,21769.0,,30057.0,268126.0,,,,,,,
SECTOR_CONTAMINACION_AIRE,,,94855.0,225097.0,,,,,,,
SECTOR_MAL_MANEJO_BASURAS,,,53611.0,266341.0,,,,,,,
SECTOR_MAL_OLOR,,,97451.0,222501.0,,,,,,,
SEGURIDAD_SOCIAL_REGIMEN,19626.0,,215468.0,7908.0,74807.0,,,,,,2143.0
SEGURIDAD_SOCIAL_SI,,,300326.0,17066.0,,,,,,,2560.0


Se comprueba que la suma de las categorías para cada feature, es igual al número de observaciones y no se cometió ningún error por ejemplo duplicando alguna columna.

In [119]:
df_ocurrencias_t.sum(axis=1)

CONSULTA                          319,952.00
CONSULTA_MEDICINA_ALTERNATIVA     319,952.00
CONSULTA_MEDICINA_ESPECIALIZADA   319,952.00
CONSULTA_MEDICINA_GENERAL         319,952.00
PARTICIPA_PROMO_PREVE             319,952.00
SECTOR_CONTAMINACION_AIRE         319,952.00
SECTOR_MAL_MANEJO_BASURAS         319,952.00
SECTOR_MAL_OLOR                   319,952.00
SEGURIDAD_SOCIAL_REGIMEN          319,952.00
SEGURIDAD_SOCIAL_SI               319,952.00
TARGET_ENFERMEDAD_RESPIRATORIA    319,952.00
VIV_ACUEDUCTO                     319,952.00
VIV_ALCANTARILLADO                319,952.00
VIV_CERCANIA_BOTADEROS            319,952.00
VIV_CERCANIA_CANO_AGUAS           319,952.00
VIV_CERCANIA_FABRICAS             319,952.00
VIV_ESTRATO                       319,952.00
VIV_FALLO_TUBERIAS                319,952.00
VIV_GOTERAS                       319,952.00
VIV_HUMEDAD                       319,952.00
VIV_INUNDACION                    319,952.00
VIV_MATERIAL_PARED                319,952.00
VIV_MATERI

## Valores no numéricos

Se observa del conjunto de datos que algunas columnas tienen el valor ' ', en particular las columnas:

In [120]:
df_ocurrencias_t[df_ocurrencias_t[' '].notna()]

Unnamed: 0,Unnamed: 1,0,1,2,3,4,5,6,7,8,9
CONSULTA,227633.0,,92319.0,,,,,,,,
CONSULTA_MEDICINA_ALTERNATIVA,313700.0,,6252.0,,,,,,,,
CONSULTA_MEDICINA_ESPECIALIZADA,234742.0,,85210.0,,,,,,,,
CONSULTA_MEDICINA_GENERAL,104479.0,,215473.0,,,,,,,,
PARTICIPA_PROMO_PREVE,21769.0,,30057.0,268126.0,,,,,,,
SEGURIDAD_SOCIAL_REGIMEN,19626.0,,215468.0,7908.0,74807.0,,,,,,2143.0
VIV_ESTRATO,475.0,398.0,33094.0,142540.0,103471.0,30846.0,6221.0,2852.0,,19.0,36.0


### Consultas

De acuerdo a la descripción de los datos, el valor 1 significa 'SI'. Se codificará este valor como 1 y ' ' como 0

In [121]:
df['CONSULTA'] = df['CONSULTA'].replace({
    ' ' : 'NO',
    '1' : 'SI'
})
df['CONSULTA_MEDICINA_GENERAL'] = df['CONSULTA_MEDICINA_GENERAL'].replace({
    ' ' : 'NO',
    '1' : 'SI'
})
df['CONSULTA_MEDICINA_ESPECIALIZADA'] = df['CONSULTA_MEDICINA_ESPECIALIZADA'].replace({
    ' ' : 'NO',
    '1' : 'SI'
})
df['CONSULTA_MEDICINA_ALTERNATIVA'] = df['CONSULTA_MEDICINA_ALTERNATIVA'].replace({
    ' ' : 'NO',
    '1' : 'SI'
})

### NPCFP7 (PARTICIPA_PROMO_PREVE)

De acuerdo a la descripción de datos: '1' significa SI y '2' significa NO. Sin embargo, en los datos se encuentran 21769 instancias con el valor vacío ' '.

In [122]:
df = df[df['PARTICIPA_PROMO_PREVE'] != ' ']
df['PARTICIPA_PROMO_PREVE'] = df['PARTICIPA_PROMO_PREVE'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

### NVCBP15D (SECTOR_CONTAMINACION_AIRE), NVCBP15E (SECTOR_MAL_MANEJO_BASURAS) y NVCBP15F (SECTOR_MAL_OLOR)

Para estas variables, '1' significa 'SI' y '2' 'NO'.

In [123]:
df['SECTOR_CONTAMINACION_AIRE'] = df['SECTOR_CONTAMINACION_AIRE'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

df['SECTOR_MAL_MANEJO_BASURAS'] = df['SECTOR_MAL_MANEJO_BASURAS'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

df['SECTOR_MAL_OLOR'] = df['SECTOR_MAL_OLOR'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

### NPCFP1 (SEGURIDAD_SOCIAL_SI)

Vemos que todas las observaciones tienen el mismo valor, por lo que no aporta información

In [124]:
del df['SEGURIDAD_SOCIAL_SI']

### VIV_ACUEDUCTO, VIV_ALCANTARILLADO, VIV_RECOLECCION_BASURA, VIV_CERCANIA_FABRICAS, VIV_CERCANIA_BOTADEROS, VIV_CERCANIA_CANO_AGUAS

'1' significa 'SI', '2' significa 'NO'

In [125]:
df['VIV_ACUEDUCTO'] = df['VIV_ACUEDUCTO'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

df['VIV_ALCANTARILLADO'] = df['VIV_ALCANTARILLADO'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

df['VIV_RECOLECCION_BASURA'] = df['VIV_RECOLECCION_BASURA'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

df['VIV_CERCANIA_FABRICAS'] = df['VIV_CERCANIA_FABRICAS'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

df['VIV_CERCANIA_BOTADEROS'] = df['VIV_CERCANIA_BOTADEROS'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

df['VIV_CERCANIA_CANO_AGUAS'] = df['VIV_CERCANIA_CANO_AGUAS'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

### VIV_FALLO_TUBERIAS, VIV_GOTERAS, VIV_HUMEDAD, VIV_INUNDACION, VIV_POCA_VENTILACION

'1' significa 'SI', '2' significa 'NO' y '9' No sabe no responde.

In [126]:
df['VIV_FALLO_TUBERIAS'] = df['VIV_FALLO_TUBERIAS'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

df['VIV_GOTERAS'] = df['VIV_GOTERAS'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

df['VIV_HUMEDAD'] = df['VIV_HUMEDAD'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

df['VIV_INUNDACION'] = df['VIV_INUNDACION'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

df['VIV_POCA_VENTILACION'] = df['VIV_POCA_VENTILACION'].replace({
    '2' : 'NO',
    '1' : 'SI'
})

df = df[df['VIV_FALLO_TUBERIAS'] != '9']
df = df[df['VIV_GOTERAS'] != '9']
df = df[df['VIV_HUMEDAD'] != '9']
df = df[df['VIV_INUNDACION'] != '9']
df = df[df['VIV_POCA_VENTILACION'] != '9']

df_ocurrencias_t = ver_ocurrencias().T.sort_index()
df_ocurrencias_t

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


Unnamed: 0,Unnamed: 1,0,1,2,3,4,5,6,7,8,9,NO,SI
CONSULTA,,,,,,,,,,,,214108.0,78102.0
CONSULTA_MEDICINA_ALTERNATIVA,,,,,,,,,,,,286328.0,5882.0
CONSULTA_MEDICINA_ESPECIALIZADA,,,,,,,,,,,,210497.0,81713.0
CONSULTA_MEDICINA_GENERAL,,,,,,,,,,,,89269.0,202941.0
PARTICIPA_PROMO_PREVE,,,,,,,,,,,,262786.0,29424.0
SECTOR_CONTAMINACION_AIRE,,,,,,,,,,,,205656.0,86554.0
SECTOR_MAL_MANEJO_BASURAS,,,,,,,,,,,,243519.0,48691.0
SECTOR_MAL_OLOR,,,,,,,,,,,,203146.0,89064.0
SEGURIDAD_SOCIAL_REGIMEN,,,211700.0,7762.0,72748.0,,,,,,,,
TARGET_ENFERMEDAD_RESPIRATORIA,,,9694.0,282516.0,,,,,,,,,


### SEGURIDAD_SOCIAL_REGIMEN

1 contributivo
2 especial
3 subsidiado

In [127]:
df['SEGURIDAD_SOCIAL_REGIMEN'] = df['SEGURIDAD_SOCIAL_REGIMEN'].replace({
    '1' : 'contributivo',
    '2' : 'especial',
    '3' : 'subsidiado'
})

### Target (Enfermedad respiratoria)

1 SI, 2 NO

In [128]:
df['TARGET_ENFERMEDAD_RESPIRATORIA'] = df['TARGET_ENFERMEDAD_RESPIRATORIA'].replace({
    '1' : 'SI',
    '2' : 'NO',
})

### VIV_ESTRATO

0 Recibos sin estrato o el servicio es pirata, 1 Estrato 1, 2 Estrato 2, 3 Estrato 3, 4 Estrato 4, 5 Estrato 5, 6 Estrato
6, 8 Planta eléctrica, 9 No conoce el estrato o no cuenta con recibo de pago.

Esta es una variable ordinal categórica. Se codificará con un número entero (de acuerdo al estrato excepto que plantas eléctricas tomará el valor 7), y se descartará el valor 9.

In [129]:
df['VIV_ESTRATO'] = df['VIV_ESTRATO'].replace({
    '0' : 0,
    '1' : 1,
    '2' : 2,
    '3' : 3,
    '4' : 4,
    '5' : 5,
    '6' : 6,
    '8' : 7
})

df = df[df['VIV_ESTRATO'] != '9']

### VIV_MATERIAL_PARED

1 'rustico', 2 'tapia', 3 'bahareque_revocado', 4 'bahareque_sin_revocar', 5 'madera', 6 'prefabricado', 7 'natural', 8 'industrial', 9 'sin_paredes'

In [130]:
df['VIV_MATERIAL_PARED'] = df['VIV_MATERIAL_PARED'].replace({
    '1' : 'rustico',
    '2' : 'tapia',
    '3' : 'bahareque_revocado',
    '4' : 'bahareque_sin_revocar',
    '5' : 'madera',
    '6' : 'prefabricado',
    '7' : 'natural',
    '8' : 'industrial',
    '9' : 'sin_paredes'
})

### VIV_MATERIAL_PISO

1 'tapete', 2 'madera_pulida_laca', 3 'marmol', 4 'baldosa', 5 'madera_burda', 6 'cemento', 7 'tierra'

In [131]:
df['VIV_MATERIAL_PISO'] = df['VIV_MATERIAL_PISO'].replace({
    '1' : 'tapete',
    '2' : 'madera_pulida_laca',
    '3' : 'marmol',
    '4' : 'baldosa',
    '5' : 'madera_burda',
    '6' : 'cemento',
    '7' : 'tierra'
})

### VIV_TIPO

1 'casa', 2 'apartamento', 3 'cuarto', 4 'otro'

In [132]:
df['VIV_TIPO'] = df['VIV_TIPO'].replace({
    '1' : 'casa',
    '2' : 'apartamento',
    '3' : 'cuarto',
    '4' : 'otro'
})

In [133]:
df

Unnamed: 0,SEGURIDAD_SOCIAL_REGIMEN,PARTICIPA_PROMO_PREVE,CONSULTA_MEDICINA_GENERAL,CONSULTA_MEDICINA_ESPECIALIZADA,CONSULTA_MEDICINA_ALTERNATIVA,CONSULTA,TARGET_ENFERMEDAD_RESPIRATORIA,VIV_HUMEDAD,VIV_GOTERAS,VIV_FALLO_TUBERIAS,...,VIV_ALCANTARILLADO,VIV_RECOLECCION_BASURA,VIV_MATERIAL_PARED,VIV_MATERIAL_PISO,VIV_CERCANIA_FABRICAS,VIV_CERCANIA_BOTADEROS,VIV_CERCANIA_CANO_AGUAS,SECTOR_CONTAMINACION_AIRE,SECTOR_MAL_OLOR,SECTOR_MAL_MANEJO_BASURAS
0,contributivo,NO,SI,NO,NO,NO,NO,NO,NO,NO,...,SI,SI,rustico,baldosa,NO,NO,NO,NO,SI,NO
1,contributivo,NO,SI,SI,SI,NO,NO,NO,NO,NO,...,SI,SI,rustico,baldosa,NO,NO,NO,NO,SI,NO
2,contributivo,NO,SI,NO,NO,NO,NO,NO,NO,NO,...,SI,SI,rustico,baldosa,NO,NO,NO,NO,SI,NO
3,especial,SI,NO,NO,NO,SI,NO,SI,SI,NO,...,SI,SI,rustico,madera_pulida_laca,NO,NO,NO,NO,NO,NO
4,especial,NO,SI,NO,NO,NO,NO,SI,SI,NO,...,SI,SI,rustico,madera_pulida_laca,NO,NO,NO,NO,NO,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
319947,contributivo,NO,SI,NO,NO,NO,NO,NO,NO,NO,...,NO,SI,rustico,baldosa,NO,NO,NO,NO,SI,NO
319948,subsidiado,NO,NO,NO,NO,SI,NO,NO,NO,NO,...,NO,NO,rustico,baldosa,NO,NO,NO,NO,NO,NO
319949,subsidiado,NO,NO,NO,NO,SI,NO,NO,NO,NO,...,NO,NO,rustico,baldosa,NO,NO,NO,NO,NO,NO
319950,subsidiado,NO,NO,NO,NO,SI,NO,NO,NO,NO,...,NO,NO,rustico,baldosa,NO,NO,NO,NO,NO,NO


In [134]:
ver_ocurrencias().T

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


Unnamed: 0,NO,SI,apartamento,casa,contributivo,cuarto,especial,otro,subsidiado,2,...,industrial,natural,sin_paredes,baldosa,cemento,madera_pulida_laca,madera_burda,tapete,marmol,tierra
SEGURIDAD_SOCIAL_REGIMEN,,,,,211682.0,,7762.0,,72733.0,,...,,,,,,,,,,
PARTICIPA_PROMO_PREVE,262755.0,29422.0,,,,,,,,,...,,,,,,,,,,
CONSULTA_MEDICINA_GENERAL,89252.0,202925.0,,,,,,,,,...,,,,,,,,,,
CONSULTA_MEDICINA_ESPECIALIZADA,210472.0,81705.0,,,,,,,,,...,,,,,,,,,,
CONSULTA_MEDICINA_ALTERNATIVA,286295.0,5882.0,,,,,,,,,...,,,,,,,,,,
CONSULTA,214090.0,78087.0,,,,,,,,,...,,,,,,,,,,
TARGET_ENFERMEDAD_RESPIRATORIA,282483.0,9694.0,,,,,,,,,...,,,,,,,,,,
VIV_HUMEDAD,220379.0,71798.0,,,,,,,,,...,,,,,,,,,,
VIV_GOTERAS,246301.0,45876.0,,,,,,,,,...,,,,,,,,,,
VIV_FALLO_TUBERIAS,275879.0,16298.0,,,,,,,,,...,,,,,,,,,,


In [135]:
df.to_csv('data/data.limpia.csv', index=False)

In [137]:
df.VIV_ESTRATO.value_counts()

2    129547
3     94806
1     29483
4     29039
5      5929
6      2643
        370
0       347
7        13
Name: VIV_ESTRATO, dtype: int64