# Proyecto 1 - Introducción a Data Science

### Cargaremos las librerías requiridas

In [58]:
import pandas as pd
import pandasql
import datetime
import numpy as np
import load_data
import clean_data
import transform_data
import eda

## Importación de datos

Importaremos los datos con la función leedatos.

In [2]:
datos = load_data.leedatos("interrupcion-legal-del-embarazo.csv")

In [3]:
datos.head()

Unnamed: 0,AÑO,MES,CVE_HOSPITAL,FINGRESO,AUTOREF,EDOCIVIL_DESCRIPCION,EDAD,DESC_DERECHOHAB,NIVEL_EDU,OCUPACION,...,C_NUM,MOTILES,H_FINGRESO,DESC_SERVICIO,P_SEMGEST,P_DIASGESTA,P_CONSENT,PROCILE,S_COMPLICA,PANTICONCEP
0,2016,Enero,10,12/01/16,AUTORREFERIDA,soltera,34,ninguna,primaria completa,Desempleada,...,2.0,interrupción voluntaria,NE,Salud Reproductiva,0.0,,Si,Misoprostol,Si,
1,2016,Abril,1,25/04/16,no,unión libre,27,ninguna,licenciatura completa,Mesera,...,,interrupción voluntaria,25/04/16,ILE,11.0,2.0,Si,Aspiración,No,condón
2,2018,Julio,4,11/07/18,,soltera,29,ninguna,secundaria completa,Trabajadora del Sector Público,...,2.0,interrupción voluntaria,NE,ILE,7.0,6.0,,Mifepristona 200 mg + Misoprostol 800 mcg,,Anticonceptivo Oral
3,2016,Enero,10,07/01/16,AUTORREFERIDA,casada,33,ninguna,preparatoria completa,Ama de Casa,...,2.0,interrupción voluntaria,NE,Salud Reproductiva,4.0,,Si,Misoprostol,Si,
4,2018,Agosto,7,,no,unión libre,23,N/E,preparatoria completa,,...,2.0,interrupción voluntaria,24/08/18,Gineco Obstetrícia,7.0,3.0,,Misoprostol,,implante subdermico


## Limpieza de datos

Formatearemos los encabezados de las columnas de nuestro DataFrame con la función clean_column_headers.

+ Cambiaremos espacios por guion bajo
+ Quitaremos acentos, puntos y comas
+ Cambiaremos la letra ñ por ni

In [4]:
datos_format = clean_data.clean_column_headers(datos)
datos_format.head()

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,c_num,motiles,h_fingreso,desc_servicio,p_semgest,p_diasgesta,p_consent,procile,s_complica,panticoncep
0,2016,Enero,10,12/01/16,AUTORREFERIDA,soltera,34,ninguna,primaria completa,Desempleada,...,2.0,interrupción voluntaria,NE,Salud Reproductiva,0.0,,Si,Misoprostol,Si,
1,2016,Abril,1,25/04/16,no,unión libre,27,ninguna,licenciatura completa,Mesera,...,,interrupción voluntaria,25/04/16,ILE,11.0,2.0,Si,Aspiración,No,condón
2,2018,Julio,4,11/07/18,,soltera,29,ninguna,secundaria completa,Trabajadora del Sector Público,...,2.0,interrupción voluntaria,NE,ILE,7.0,6.0,,Mifepristona 200 mg + Misoprostol 800 mcg,,Anticonceptivo Oral
3,2016,Enero,10,07/01/16,AUTORREFERIDA,casada,33,ninguna,preparatoria completa,Ama de Casa,...,2.0,interrupción voluntaria,NE,Salud Reproductiva,4.0,,Si,Misoprostol,Si,
4,2018,Agosto,7,,no,unión libre,23,N/E,preparatoria completa,,...,2.0,interrupción voluntaria,24/08/18,Gineco Obstetrícia,7.0,3.0,,Misoprostol,,implante subdermico


## Transformación de datos

Garantizaremos que los valores en blanco sean considerados como nulos.

In [5]:
datos_format = transform_data.nulos(datos_format)

Verificaremos que cada columna tenga el tipo correcto.

In [6]:
datos_format.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 62003 entries, 0 to 62002
Data columns (total 36 columns):
anio                    62003 non-null int64
mes                     62003 non-null object
cve_hospital            62003 non-null int64
fingreso                60420 non-null object
autoref                 16874 non-null object
edocivil_descripcion    61887 non-null object
edad                    62003 non-null int64
desc_derechohab         54962 non-null object
nivel_edu               60719 non-null object
ocupacion               54282 non-null object
religion                60183 non-null object
parentesco              20163 non-null object
entidad                 61983 non-null object
alc_o_municipio         57910 non-null object
menarca                 59114 non-null float64
fsexual                 57750 non-null float64
fmenstrua               55299 non-null object
sememb                  58403 non-null float64
nhijos                  58794 non-null float64
gesta           

Despues de analizar el tipo de cada una de las variables contra su descripción, haremos los siguientes cambios:

+ fingreso - *object* a *date*
+ fmenstrua - *object* a *date*
+ h_fingreso - *object* a *date*

Empezaremos por la variable fingreso.

Haremos una consulta de los primeros registros unicos de la variable fingreso para ver que formato de fecha tiene.

In [7]:
sql = "SELECT DISTINCT fingreso FROM datos_format \
        LIMIT 5"
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,fingreso
0,12/01/16
1,25/04/16
2,11/07/18
3,07/01/16
4,


El formato de la fecha es %d/%m%/%y, utilizaremos la función de pandas para especificar el formato y cambiar la fecha.

In [8]:
datos_format['fingreso'] = pd.to_datetime(datos_format['fingreso'], format='%d/%m/%y')

ValueError: time data '17/0719' does not match format '%d/%m/%y' (match)

Nos marco un error al tratar de convertir la variable fingreso a fecha. Al parecer, el problema tiene que ver con que hay un registro con una fecha inconsistente. 

Filtraremos por la variable fingreso = 17/0719.

In [9]:
sql = "SELECT * FROM datos_format \
        WHERE fingreso = '17/0719'"
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,c_num,motiles,h_fingreso,desc_servicio,p_semgest,p_diasgesta,p_consent,procile,s_complica,panticoncep
0,2019,Julio,12,17/0719,autoreferida,unión libre,29,Gratuidad,preparatoria completa,Ama de Casa,...,2.0,interrupción voluntaria,,Gineco Obstetrícia,8.0,59.0,Si,Mifepristona,No,DIU


Podemos ver que la variable fingreso es la unica con incosistencias para este registro. Procederemos a corregirlo. 

Empezaremos por obtener el indice del registro con la iconsistencia.

In [10]:
idx = datos_format.index[datos_format['fingreso'] == '17/0719']
idx = idx.values
idx = idx[0]
idx

55608

Ahora corregiremos la observación. Cambiaremos 17/0719 por 17/07/19.

In [11]:
datos_format.at[idx, 'fingreso'] = '17/07/19'
datos_format.at[idx, 'fingreso']

'17/07/19'

Despues de corregir el error intentaremos cambiar el tipo a fecha de la variable fingreso.

In [12]:
datos_format['fingreso'] = pd.to_datetime(datos_format['fingreso'], format='%d/%m/%y')
datos_format['fingreso'].head()

0   2016-01-12
1   2016-04-25
2   2018-07-11
3   2016-01-07
4          NaT
Name: fingreso, dtype: datetime64[ns]

La variable fingreso ahora tiene el tipo correcto.

Seguiremos con la variable fmenstrua. Cambiaremos su tipo a fecha.

Haremos una consulta de los primeros registros unicos de la variable fmenstrua para ver que formato de fecha tiene.

In [13]:
sql = "SELECT DISTINCT fmenstrua FROM datos_format \
        LIMIT 5"
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,fmenstrua
0,16/11/15
1,25/02/16
2,18/05/18
3,
4,26/11/15


El formato de la fecha tambien es %d/%m%/%y, utilizaremos la función de pandas para especificar el formato y cambiar la fecha.

In [14]:
datos_format['fmenstrua'] = pd.to_datetime(datos_format['fmenstrua'], format='%d/%m/%y')
datos_format['fmenstrua'].head()

0   2015-11-16
1   2016-02-25
2   2018-05-18
3   2015-11-16
4          NaT
Name: fmenstrua, dtype: datetime64[ns]

La variable fmenstrua ahora tiene el tipo correcto.

Por último, cambiaremos el tipo de la variable h_fingreso.

Haremos un conteo de los valores únicos de la variable h_fingreso para darnos una idea de que tipo de valores tenemos. Solo nos traeremos los 5 valores que tienen mayor frecuencia.

In [15]:
sql = "SELECT DISTINCT h_fingreso, count(*) FROM datos_format \
        GROUP BY h_fingreso \
        ORDER BY count(*) DESC\
        LIMIT 5"
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,h_fingreso,count(*)
0,NE,49140
1,,7537
2,16/01/19,27
3,01/10/18,26
4,22/08/18,26


En el top tenemos el valor "NE", considerando que la variable debería de tener un formato de fecha, actualizaremos con el valor nulo para estos casos.

Encontraremos los indices de todos los registros con el valor "NE" y actualizaremos.

In [16]:
idx = datos_format.index[datos_format['h_fingreso'] == 'NE']
for i in idx:
    datos_format.at[i, 'h_fingreso'] = pd.NaT

Haremos el mismo conteo de la vez pasada.

In [17]:
sql = "SELECT DISTINCT h_fingreso, count(*) FROM datos_format \
        GROUP BY h_fingreso \
        ORDER BY count(*) DESC\
        LIMIT 5"
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,h_fingreso,count(*)
0,,56677
1,16/01/19,27
2,01/10/18,26
3,22/08/18,26
4,15/05/19,25


Con la tabla de arriba validamos que ya no existen los valores "NE". Ahora intentaremos cambiar el tipo de la variable h_fingreso.

In [18]:
datos_format['h_fingreso'] = pd.to_datetime(datos_format['h_fingreso'], format='%d/%m/%y')
datos_format['h_fingreso'].head()

ValueError: time data '43521' does not match format '%d/%m/%y' (match)

La función nos marca un error, tenemos valores númericos para fechas (formato de Excel).

Cambiaremos el formato de estos valores con las funciones xldate_to_datetime() y to_datetime().

In [19]:
for i in range(0, len(datos_format)):
    try:
        datos_format.at[i, 'h_fingreso'] = pd.to_datetime(datos_format.at[i, 'h_fingreso'])
    except:
        if  datos_format.at[i, 'h_fingreso'] == None:
            continue
        else:
            datos_format.at[i, 'h_fingreso'] = pd.to_datetime(transform_data.xldate_to_datetime(int(datos_format.at[i, 'h_fingreso'])))

datos_format['h_fingreso'].head()

0                    NaT
1    2016-04-25 00:00:00
2                    NaT
3                    NaT
4    2018-08-24 00:00:00
Name: h_fingreso, dtype: object

Intentaremos una vez mas cambiar el tipo de la variable a fecha.

In [20]:
datos_format['h_fingreso'] = pd.to_datetime(datos_format['h_fingreso'], format='%d/%m/%y')
datos_format['h_fingreso'].head()

0          NaT
1   2016-04-25
2          NaT
3          NaT
4   2018-08-24
Name: h_fingreso, dtype: datetime64[ns]

Podemos ver que el tipo de la variable h_fingreso es de fecha.

Con esto terminamos de cambiar el tipo de las variables que presentaban incosistencias hasta ahora.

In [21]:
datos_format.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 62003 entries, 0 to 62002
Data columns (total 36 columns):
anio                    62003 non-null int64
mes                     62003 non-null object
cve_hospital            62003 non-null int64
fingreso                60420 non-null datetime64[ns]
autoref                 16874 non-null object
edocivil_descripcion    61887 non-null object
edad                    62003 non-null int64
desc_derechohab         54962 non-null object
nivel_edu               60719 non-null object
ocupacion               54282 non-null object
religion                60183 non-null object
parentesco              20163 non-null object
entidad                 61983 non-null object
alc_o_municipio         57910 non-null object
menarca                 59114 non-null float64
fsexual                 57750 non-null float64
fmenstrua               55299 non-null datetime64[ns]
sememb                  58403 non-null float64
nhijos                  58794 non-null float64


Cambiaremos las letras mayusculas a minúsculas para cada obervación de las variables de tipo caracter.

In [22]:
datos_lower = transform_data.data_to_lowercase(datos_format)
datos_lower.head()

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,c_num,motiles,h_fingreso,desc_servicio,p_semgest,p_diasgesta,p_consent,procile,s_complica,panticoncep
0,2016,enero,10,2016-01-12,autorreferida,soltera,34,ninguna,primaria completa,desempleada,...,2.0,interrupción voluntaria,NaT,salud reproductiva,0.0,,si,misoprostol,si,
1,2016,abril,1,2016-04-25,no,unión libre,27,ninguna,licenciatura completa,mesera,...,,interrupción voluntaria,2016-04-25,ile,11.0,2.0,si,aspiración,no,condón
2,2018,julio,4,2018-07-11,,soltera,29,ninguna,secundaria completa,trabajadora del sector público,...,2.0,interrupción voluntaria,NaT,ile,7.0,6.0,,mifepristona 200 mg + misoprostol 800 mcg,,anticonceptivo oral
3,2016,enero,10,2016-01-07,autorreferida,casada,33,ninguna,preparatoria completa,ama de casa,...,2.0,interrupción voluntaria,NaT,salud reproductiva,4.0,,si,misoprostol,si,
4,2018,agosto,7,NaT,no,unión libre,23,n/e,preparatoria completa,,...,2.0,interrupción voluntaria,2018-08-24,gineco obstetrícia,7.0,3.0,,misoprostol,,implante subdermico


Ahora nos aseguraremos de quitar los acentos de todas las columnas no numericas para cada observación.

In [23]:
datos_sin_acentos = transform_data.data_sin_acentos(datos_lower)
datos_sin_acentos.head()

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,c_num,motiles,h_fingreso,desc_servicio,p_semgest,p_diasgesta,p_consent,procile,s_complica,panticoncep
0,2016,enero,10,2016-01-12,autorreferida,soltera,34,ninguna,primaria completa,desempleada,...,2.0,interrupcion voluntaria,NaT,salud reproductiva,0.0,,si,misoprostol,si,
1,2016,abril,1,2016-04-25,no,union libre,27,ninguna,licenciatura completa,mesera,...,,interrupcion voluntaria,2016-04-25,ile,11.0,2.0,si,aspiracion,no,condon
2,2018,julio,4,2018-07-11,,soltera,29,ninguna,secundaria completa,trabajadora del sector publico,...,2.0,interrupcion voluntaria,NaT,ile,7.0,6.0,,mifepristona 200 mg + misoprostol 800 mcg,,anticonceptivo oral
3,2016,enero,10,2016-01-07,autorreferida,casada,33,ninguna,preparatoria completa,ama de casa,...,2.0,interrupcion voluntaria,NaT,salud reproductiva,4.0,,si,misoprostol,si,
4,2018,agosto,7,NaT,no,union libre,23,n/e,preparatoria completa,,...,2.0,interrupcion voluntaria,2018-08-24,gineco obstetricia,7.0,3.0,,misoprostol,,implante subdermico


## EDA y Data Profiling

In [24]:
datos_eda = datos_sin_acentos

In [25]:
datos_eda.shape

(62003, 36)

In [26]:
datos_eda.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
anio,62003.0,2017.279519,1.038147,2016.0,2016.0,2017.0,2018.0,2019.0
cve_hospital,62003.0,4.957179,3.445688,1.0,2.0,4.0,7.0,14.0
edad,62003.0,25.69545,6.280193,11.0,21.0,24.0,30.0,53.0
menarca,59114.0,12.640018,1.753795,1.0,12.0,12.0,14.0,30.0
fsexual,57750.0,16.978632,2.460949,0.0,15.0,17.0,18.0,54.0
sememb,58403.0,7.439771,2.368694,0.0,6.0,7.0,9.0,50.0
nhijos,58794.0,1.033966,1.141758,0.0,0.0,1.0,2.0,10.0
gesta,59341.0,2.344922,1.455347,0.0,1.0,2.0,3.0,47.0
naborto,57888.0,0.176306,0.471237,0.0,0.0,0.0,0.0,10.0
npartos,58240.0,0.711624,1.066238,0.0,0.0,0.0,1.0,12.0


In [27]:
datos_eda.describe(include=['object']).transpose()

Unnamed: 0,count,unique,top,freq
mes,62003,12,enero,6201
autoref,16874,33,autorreferida,10887
edocivil_descripcion,61887,7,soltera,34423
desc_derechohab,54962,34,ninguna,31771
nivel_edu,60719,17,preparatoria completa,27078
ocupacion,54282,53,estudiante,15689
religion,60183,13,catolica,40295
parentesco,20163,40,madre,4463
entidad,61983,32,ciudad de mexico,39349
alc_o_municipio,57910,499,iztapalapa,7776


In [28]:
datos_eda.describe(include=['datetime64[ns]']).transpose()

Unnamed: 0,count,unique,top,freq,first,last
fingreso,60420,935,2016-09-28 00:00:00,128,2000-01-21 00:00:00,2048-04-30 00:00:00
fmenstrua,55299,1508,2017-11-15 00:00:00,118,1989-01-25 00:00:00,2046-04-02 00:00:00
h_fingreso,5326,574,2019-01-16 00:00:00,27,2006-07-21 00:00:00,2019-12-07 00:00:00


In [29]:
datos_eda.head()

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,c_num,motiles,h_fingreso,desc_servicio,p_semgest,p_diasgesta,p_consent,procile,s_complica,panticoncep
0,2016,enero,10,2016-01-12,autorreferida,soltera,34,ninguna,primaria completa,desempleada,...,2.0,interrupcion voluntaria,NaT,salud reproductiva,0.0,,si,misoprostol,si,
1,2016,abril,1,2016-04-25,no,union libre,27,ninguna,licenciatura completa,mesera,...,,interrupcion voluntaria,2016-04-25,ile,11.0,2.0,si,aspiracion,no,condon
2,2018,julio,4,2018-07-11,,soltera,29,ninguna,secundaria completa,trabajadora del sector publico,...,2.0,interrupcion voluntaria,NaT,ile,7.0,6.0,,mifepristona 200 mg + misoprostol 800 mcg,,anticonceptivo oral
3,2016,enero,10,2016-01-07,autorreferida,casada,33,ninguna,preparatoria completa,ama de casa,...,2.0,interrupcion voluntaria,NaT,salud reproductiva,4.0,,si,misoprostol,si,
4,2018,agosto,7,NaT,no,union libre,23,n/e,preparatoria completa,,...,2.0,interrupcion voluntaria,2018-08-24,gineco obstetricia,7.0,3.0,,misoprostol,,implante subdermico


In [30]:
datos_eda['anio_fingreso'] = pd.DatetimeIndex(datos_eda['fingreso']).year
datos_eda.head()

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,motiles,h_fingreso,desc_servicio,p_semgest,p_diasgesta,p_consent,procile,s_complica,panticoncep,anio_fingreso
0,2016,enero,10,2016-01-12,autorreferida,soltera,34,ninguna,primaria completa,desempleada,...,interrupcion voluntaria,NaT,salud reproductiva,0.0,,si,misoprostol,si,,2016.0
1,2016,abril,1,2016-04-25,no,union libre,27,ninguna,licenciatura completa,mesera,...,interrupcion voluntaria,2016-04-25,ile,11.0,2.0,si,aspiracion,no,condon,2016.0
2,2018,julio,4,2018-07-11,,soltera,29,ninguna,secundaria completa,trabajadora del sector publico,...,interrupcion voluntaria,NaT,ile,7.0,6.0,,mifepristona 200 mg + misoprostol 800 mcg,,anticonceptivo oral,2018.0
3,2016,enero,10,2016-01-07,autorreferida,casada,33,ninguna,preparatoria completa,ama de casa,...,interrupcion voluntaria,NaT,salud reproductiva,4.0,,si,misoprostol,si,,2016.0
4,2018,agosto,7,NaT,no,union libre,23,n/e,preparatoria completa,,...,interrupcion voluntaria,2018-08-24,gineco obstetricia,7.0,3.0,,misoprostol,,implante subdermico,


In [31]:
datos_eda['mes_fingreso'] = pd.DatetimeIndex(datos_eda['fingreso']).month
datos_eda.head()

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,h_fingreso,desc_servicio,p_semgest,p_diasgesta,p_consent,procile,s_complica,panticoncep,anio_fingreso,mes_fingreso
0,2016,enero,10,2016-01-12,autorreferida,soltera,34,ninguna,primaria completa,desempleada,...,NaT,salud reproductiva,0.0,,si,misoprostol,si,,2016.0,1.0
1,2016,abril,1,2016-04-25,no,union libre,27,ninguna,licenciatura completa,mesera,...,2016-04-25,ile,11.0,2.0,si,aspiracion,no,condon,2016.0,4.0
2,2018,julio,4,2018-07-11,,soltera,29,ninguna,secundaria completa,trabajadora del sector publico,...,NaT,ile,7.0,6.0,,mifepristona 200 mg + misoprostol 800 mcg,,anticonceptivo oral,2018.0,7.0
3,2016,enero,10,2016-01-07,autorreferida,casada,33,ninguna,preparatoria completa,ama de casa,...,NaT,salud reproductiva,4.0,,si,misoprostol,si,,2016.0,1.0
4,2018,agosto,7,NaT,no,union libre,23,n/e,preparatoria completa,,...,2018-08-24,gineco obstetricia,7.0,3.0,,misoprostol,,implante subdermico,,


In [32]:
datos_eda['mes'].unique()

array(['enero', 'abril', 'julio', 'agosto', 'mayo', 'febrero', 'junio',
       'septiembre', 'marzo', 'octubre', 'noviembre', 'diciembre'],
      dtype=object)

In [33]:
idx = datos_eda.columns.get_loc('mes_fingreso')

In [34]:
l = []
for i in range(0, len(datos_eda)):
    if datos_eda.iloc[i, idx] == 1:
        l.append('enero')
    elif datos_eda.iloc[i, idx] == 2:
        l.append('febrero')
    elif datos_eda.iloc[i, idx] == 3:
        l.append('marzo')
    elif datos_eda.iloc[i, idx] == 4:
        l.append('abril')
    elif datos_eda.iloc[i, idx] == 5:
        l.append('mayo')
    elif datos_eda.iloc[i, idx] == 6:
        l.append('junio')
    elif datos_eda.iloc[i, idx] == 7:
        l.append('julio')
    elif datos_eda.iloc[i, idx] == 8:
        l.append('agosto')
    elif datos_eda.iloc[i, idx] == 9:
        l.append('septiembre')
    elif datos_eda.iloc[i, idx] == 10:
        l.append('octubre')
    elif datos_eda.iloc[i, idx] == 11:
        l.append('noviembre')
    elif datos_eda.iloc[i, idx] == 12:
        l.append('diciembre')
    else:
        l.append(None)
        
new_var = np.array(l)   

In [35]:
new_var

array(['enero', 'abril', 'julio', ..., 'julio', 'julio', 'julio'],
      dtype=object)

In [36]:
datos_eda['mes_fingreso_ch'] = new_var

In [37]:
datos_eda.head()

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,desc_servicio,p_semgest,p_diasgesta,p_consent,procile,s_complica,panticoncep,anio_fingreso,mes_fingreso,mes_fingreso_ch
0,2016,enero,10,2016-01-12,autorreferida,soltera,34,ninguna,primaria completa,desempleada,...,salud reproductiva,0.0,,si,misoprostol,si,,2016.0,1.0,enero
1,2016,abril,1,2016-04-25,no,union libre,27,ninguna,licenciatura completa,mesera,...,ile,11.0,2.0,si,aspiracion,no,condon,2016.0,4.0,abril
2,2018,julio,4,2018-07-11,,soltera,29,ninguna,secundaria completa,trabajadora del sector publico,...,ile,7.0,6.0,,mifepristona 200 mg + misoprostol 800 mcg,,anticonceptivo oral,2018.0,7.0,julio
3,2016,enero,10,2016-01-07,autorreferida,casada,33,ninguna,preparatoria completa,ama de casa,...,salud reproductiva,4.0,,si,misoprostol,si,,2016.0,1.0,enero
4,2018,agosto,7,NaT,no,union libre,23,n/e,preparatoria completa,,...,gineco obstetricia,7.0,3.0,,misoprostol,,implante subdermico,,,


In [38]:
datos_eda['val_mes'] = datos_eda['mes'] == datos_eda['mes_fingreso_ch']

In [39]:
datos_eda['val_anio'] = datos_eda['anio'] == datos_eda['anio_fingreso']

In [40]:
datos_eda.head()

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,p_diasgesta,p_consent,procile,s_complica,panticoncep,anio_fingreso,mes_fingreso,mes_fingreso_ch,val_mes,val_anio
0,2016,enero,10,2016-01-12,autorreferida,soltera,34,ninguna,primaria completa,desempleada,...,,si,misoprostol,si,,2016.0,1.0,enero,True,True
1,2016,abril,1,2016-04-25,no,union libre,27,ninguna,licenciatura completa,mesera,...,2.0,si,aspiracion,no,condon,2016.0,4.0,abril,True,True
2,2018,julio,4,2018-07-11,,soltera,29,ninguna,secundaria completa,trabajadora del sector publico,...,6.0,,mifepristona 200 mg + misoprostol 800 mcg,,anticonceptivo oral,2018.0,7.0,julio,True,True
3,2016,enero,10,2016-01-07,autorreferida,casada,33,ninguna,preparatoria completa,ama de casa,...,,si,misoprostol,si,,2016.0,1.0,enero,True,True
4,2018,agosto,7,NaT,no,union libre,23,n/e,preparatoria completa,,...,3.0,,misoprostol,,implante subdermico,,,,False,False


In [41]:
datos_eda.describe(include=['bool']).transpose()

Unnamed: 0,count,unique,top,freq
val_mes,62003,2,True,60405
val_anio,62003,2,True,60321


In [42]:
sql = "SELECT fingreso, count(*) FROM datos_eda \
        WHERE val_mes = 0 \
        GROUP BY fingreso \
        ORDER BY count(*) DESC \
        "
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,fingreso,count(*)
0,,1583
1,2019-06-29 00:00:00.000000,3
2,2016-08-28 00:00:00.000000,2
3,2018-08-26 00:00:00.000000,2
4,2000-01-21 00:00:00.000000,1
5,2016-03-29 00:00:00.000000,1
6,2017-08-18 00:00:00.000000,1
7,2018-02-07 00:00:00.000000,1
8,2018-05-25 00:00:00.000000,1
9,2018-06-30 00:00:00.000000,1


In [43]:
q = datos_eda['fingreso'] == '2019-06-29'
datos_eda[q]

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,p_diasgesta,p_consent,procile,s_complica,panticoncep,anio_fingreso,mes_fingreso,mes_fingreso_ch,val_mes,val_anio
55625,2019,julio,12,2019-06-29,autoreferida,separada,20,imss,licenciatura completa,estudiante,...,34.0,si,misoprostol,no,,2019.0,6.0,junio,False,True
55626,2019,julio,12,2019-06-29,autoreferida,union libre,37,imss,licenciatura completa,empleada,...,46.0,si,misoprostol,no,implante subdermico,2019.0,6.0,junio,False,True
58691,2019,julio,12,2019-06-29,autoreferida,soltera,27,gratuidad,preparatoria completa,comerciante,...,69.0,si,misoprostol,no,diu,2019.0,6.0,junio,False,True


In [44]:
q = datos_eda['fingreso'] == '2016-08-28'
datos_eda[q]

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,p_diasgesta,p_consent,procile,s_complica,panticoncep,anio_fingreso,mes_fingreso,mes_fingreso_ch,val_mes,val_anio
1946,2016,octubre,12,2016-08-28,autorreferida,soltera,22,gratuidad,preparatoria completa,estudiante,...,,si,mifepristona + misoprostol,no,diu medicado,2016.0,8.0,agosto,False,True
36707,2016,octubre,12,2016-08-28,autorreferida,soltera,23,gratuidad,preparatoria completa,estudiante,...,,si,mifepristona + misoprostol,no,diu medicado,2016.0,8.0,agosto,False,True


In [45]:
q = datos_eda['fingreso'] == '2018-08-26'
datos_eda[q]

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,p_diasgesta,p_consent,procile,s_complica,panticoncep,anio_fingreso,mes_fingreso,mes_fingreso_ch,val_mes,val_anio
1544,2018,junio,12,2018-08-26,autorreferida,union libre,27,gratuidad,preparatoria completa,comerciante,...,38.0,si,mifepristona + misoprostol,,implante subdermico,2018.0,8.0,agosto,False,True
34802,2018,junio,12,2018-08-26,autorreferida,union libre,22,gratuidad,secundaria completa,ama de casa,...,41.0,si,mifepristona + misoprostol,,,2018.0,8.0,agosto,False,True


In [46]:
q = datos_eda['fingreso'] == '2000-01-21'
datos_eda[q]

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,p_diasgesta,p_consent,procile,s_complica,panticoncep,anio_fingreso,mes_fingreso,mes_fingreso_ch,val_mes,val_anio
36394,2017,marzo,3,2000-01-21,,soltera,23,ninguna,preparatoria completa,mesera,...,,,mifepristona + misoprostol,no,condon + implante subdermico,2000.0,1.0,enero,False,False


In [47]:
q = datos_eda['fingreso'] == '2016-03-29'
v = datos_eda['val_mes'] == 0
col = ['anio', 'mes', 'fingreso', 'fmenstrua', 'h_fingreso']
t = datos_eda[q & v]
t[col]

Unnamed: 0,anio,mes,fingreso,fmenstrua,h_fingreso
34042,2016,junio,2016-03-29,2016-04-25,NaT


In [48]:
sql = "SELECT fingreso, count(*) FROM datos_eda \
        WHERE val_anio = 0 \
        GROUP BY fingreso \
        ORDER BY count(*) DESC \
        "
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,fingreso,count(*)
0,,1583
1,2018-03-22 00:00:00.000000,26
2,2018-03-23 00:00:00.000000,20
3,2018-01-09 00:00:00.000000,6
4,2018-01-14 00:00:00.000000,6
5,2018-02-11 00:00:00.000000,6
6,2018-01-07 00:00:00.000000,5
7,2018-01-03 00:00:00.000000,4
8,2018-02-15 00:00:00.000000,4
9,2018-02-18 00:00:00.000000,4


In [49]:
q = datos_eda['fingreso'] == '2018-03-22'
v = datos_eda['val_anio'] == 0
col = ['anio', 'mes', 'fingreso', 'fmenstrua', 'h_fingreso']
t = datos_eda[q & v]
t[col]

Unnamed: 0,anio,mes,fingreso,fmenstrua,h_fingreso
5456,2016,marzo,2018-03-22,2016-01-23,NaT
9069,2016,marzo,2018-03-22,2016-01-29,NaT
13286,2016,marzo,2018-03-22,2016-02-10,NaT
17819,2016,marzo,2018-03-22,2016-02-02,NaT
19671,2016,marzo,2018-03-22,2016-01-03,NaT
19672,2016,marzo,2018-03-22,2016-02-03,NaT
21219,2016,marzo,2018-03-22,2016-01-12,NaT
24899,2016,marzo,2018-03-22,2016-02-14,NaT
24900,2016,marzo,2018-03-22,2016-01-15,NaT
28732,2016,marzo,2018-03-22,2016-02-05,NaT


In [50]:
datos_eda.isna().sum()/datos_eda.shape[0] #Proporción de datos faltantes

anio                    0.000000
mes                     0.000000
cve_hospital            0.000000
fingreso                0.025531
autoref                 0.727852
edocivil_descripcion    0.001871
edad                    0.000000
desc_derechohab         0.113559
nivel_edu               0.020709
ocupacion               0.124526
religion                0.029353
parentesco              0.674806
entidad                 0.000323
alc_o_municipio         0.066013
menarca                 0.046595
fsexual                 0.068593
fmenstrua               0.108124
sememb                  0.058062
nhijos                  0.051756
gesta                   0.042933
naborto                 0.066368
npartos                 0.060691
ncesarea                0.066110
nile                    0.200071
consejeria              0.031547
anticonceptivo          0.108156
c_num                   0.327049
motiles                 0.017548
h_fingreso              0.914101
desc_servicio           0.067981
p_semgest 

Ya podemos observar que solo las variables año, mes, cve_hospital y edad no tienen observaciones faltantes.


In [51]:
datos_eda.dtypes

anio                             int64
mes                             object
cve_hospital                     int64
fingreso                datetime64[ns]
autoref                         object
edocivil_descripcion            object
edad                             int64
desc_derechohab                 object
nivel_edu                       object
ocupacion                       object
religion                        object
parentesco                      object
entidad                         object
alc_o_municipio                 object
menarca                        float64
fsexual                        float64
fmenstrua               datetime64[ns]
sememb                         float64
nhijos                         float64
gesta                          float64
naborto                        float64
npartos                        float64
ncesarea                       float64
nile                           float64
consejeria                      object
anticonceptivo           

Vemos que todas ellas, salvo *anio* y *cve_hospital*, ya son de tipo object. Convirtamos éstas:

In [74]:
categoricas =  ["anio","cve_hospital"]
data_eda = transform_data.change_type(datos_eda,categoricas)
data_eda.dtypes

anio                            object
mes                             object
cve_hospital                    object
fingreso                datetime64[ns]
autoref                         object
edocivil_descripcion            object
edad                             int64
desc_derechohab                 object
nivel_edu                       object
ocupacion                       object
religion                        object
parentesco                      object
entidad                         object
alc_o_municipio                 object
menarca                        float64
fsexual                        float64
fmenstrua               datetime64[ns]
sememb                         float64
nhijos                         float64
gesta                          float64
naborto                        float64
npartos                        float64
ncesarea                       float64
nile                           float64
consejeria                      object
anticonceptivo           

### Variables categóricas

Nos centraremos ahora en las variables categóricas del data frame, mismas que seleccionamos con:

In [53]:
data_eda_cat = data_eda.select_dtypes(include=object)

Se trata de las siguientes columnas

In [54]:
data_eda_cat_columns = data_eda_cat.columns.values
data_eda_cat_columns

array(['anio', 'mes', 'cve_hospital', 'autoref', 'edocivil_descripcion',
       'desc_derechohab', 'nivel_edu', 'ocupacion', 'religion',
       'parentesco', 'entidad', 'alc_o_municipio', 'consejeria',
       'anticonceptivo', 'motiles', 'desc_servicio', 'p_consent',
       'procile', 's_complica', 'panticoncep', 'mes_fingreso_ch'],
      dtype=object)

Para estas columnas queremos analizar lo siguiente:
* Número de categorías
* Valor de las categorías
* Moda
* Histograma
* Valores faltantes
* Número de observaciones con valores faltantes
* Proporción de observaciones por categoría
* ¿Hay faltas de ortografía?

**Número de categorías**

Veamos ahora cuántos valores distintos contiene cada columna.

In [55]:
data_eda_cat.nunique()

anio                      4
mes                      12
cve_hospital             14
autoref                  33
edocivil_descripcion      7
desc_derechohab          34
nivel_edu                17
ocupacion                53
religion                 13
parentesco               40
entidad                  32
alc_o_municipio         499
consejeria                2
anticonceptivo           20
motiles                  13
desc_servicio             8
p_consent                 2
procile                  20
s_complica                2
panticoncep              44
mes_fingreso_ch          12
dtype: int64

Vemos que algunas variables tienen un número bastante limitado de valores posibles, y que por su naturaleza bien pueden ser categóricas. Es el caso de *año, mes,cve_hospital,edocivil_descripcion, nivel_edu, religion, entidad, alc_o_municipio (?) , consejeria, anticonceptivo, desc_servicio, procile(?), s_complica* y *panticoncep(?)*.

Veamos de qué tipo son actualmente:

**Valor de las categorías**

In [59]:
eda.categorias(data_eda)

Categorías para anio :  [2016 2018 2017 2019] 

Categorías para mes :  ['enero' 'abril' 'julio' 'agosto' 'mayo' 'febrero' 'junio' 'septiembre'
 'marzo' 'octubre' 'noviembre' 'diciembre'] 

Categorías para cve_hospital :  [10 1 4 7 9 11 2 13 12 5 6 3 14 8] 

Categorías para autoref :  ['autorreferida' 'no' nan 'no especificado' 'cst ii cultura maya'
 'cst iii dr. david fragoso lizalde' 'chimalpa' 'cst mixcoac'
 'cs san pedro jalpa' 'cst iii pedregal de las aguilas' 'palo alto'
 'cst iii dr angel de la garza brito' 'cst iii cruz acalpixca' 'cst i dif'
 'cst iii ampliacion hidalgo' 'cst iii lomas de la era' 'ticoman'
 'cst iii jose castro villagrana' 'cs ajusco' 'cs tezozomoc'
 'cs martinez baez' 'cst ii san bartolo ameyalco' 'cst iii el oasis'
 'tlahuac' 'cst iii dr. gerardo varela mariscal' 'cst ii nayaritas'
 'delegacion de tlalpan' 'cst i bekal' 'centro de salud' 'umm topilejo'
 'cs mexico espania' 'cs santiago ahuizotla' 'cuajimalpa' 'autoreferida'] 

Categorías para edocivil_descrip

Notamos que hay una falta de ortografía en "testigos de jeohva", dentro de la columna "religion". Podemos corregirla en nuestro dataframe datos_eda.

In [76]:
data_eda.replace('testigos de jeohva', 'testigos de jehova',True)

 Verificamos que los valores se hayan actualizado

In [77]:
data_eda["religion"].unique()

array(['ninguna', 'catolica', 'cristiana', nan, 'creyente', 'mormon',
       'otra', 'testigos de jehova', 'evangelica',
       'adventista del septimo dia', 'agnostica', 'budista', 'judia',
       'protestante'], dtype=object)

Además, podemos observar que hay varios valores capturados en lugar de nan, tal es el caso de:
    
    * 'no especificado' en las columnas 'autoref', 'motiles'
    * 'n/e' en las columnas 'edocivil_descripcion', 'desc_derechohab'
    * 'no especifica' en la columna 'nivel_edu'

Reemplacemos estos valores en 

In [79]:
data_eda.replace(['no especificado','n/e','no especifica'], np.nan,True)

Volvemos a obtener las categorías:

In [80]:
eda.categorias(data_eda)

Categorías para mes :  ['enero' 'abril' 'julio' 'agosto' 'mayo' 'febrero' 'junio' 'septiembre'
 'marzo' 'octubre' 'noviembre' 'diciembre'] 

Categorías para autoref :  ['autorreferida' 'no' nan 'cst ii cultura maya'
 'cst iii dr. david fragoso lizalde' 'chimalpa' 'cst mixcoac'
 'cs san pedro jalpa' 'cst iii pedregal de las aguilas' 'palo alto'
 'cst iii dr angel de la garza brito' 'cst iii cruz acalpixca' 'cst i dif'
 'cst iii ampliacion hidalgo' 'cst iii lomas de la era' 'ticoman'
 'cst iii jose castro villagrana' 'cs ajusco' 'cs tezozomoc'
 'cs martinez baez' 'cst ii san bartolo ameyalco' 'cst iii el oasis'
 'tlahuac' 'cst iii dr. gerardo varela mariscal' 'cst ii nayaritas'
 'delegacion de tlalpan' 'cst i bekal' 'centro de salud' 'umm topilejo'
 'cs mexico espania' 'cs santiago ahuizotla' 'cuajimalpa' 'autoreferida'] 

Categorías para edocivil_descripcion :  ['soltera' 'union libre' 'casada' 'separada' nan 'divorciada' 'viuda'] 

Categorías para desc_derechohab :  ['ninguna' nan 'gra

**Moda**


In [81]:
data_eda_cat.mode().transpose()

Unnamed: 0,0
anio,2016
mes,enero
cve_hospital,2
autoref,autorreferida
edocivil_descripcion,soltera
desc_derechohab,ninguna
nivel_edu,preparatoria completa
ocupacion,estudiante
religion,catolica
parentesco,madre


**Histograma**


**Valores faltantes**


**Número de observaciones con valores faltantes**


In [82]:
data_eda_cat.isna().sum()

anio                        0
mes                         0
cve_hospital                0
autoref                 45129
edocivil_descripcion      116
desc_derechohab          7041
nivel_edu                1284
ocupacion                7721
religion                 1820
parentesco              41840
entidad                    20
alc_o_municipio          4093
consejeria               1956
anticonceptivo           6706
motiles                  1088
desc_servicio            4215
p_consent               44147
procile                  1713
s_complica              29235
panticoncep             16804
mes_fingreso_ch          1583
dtype: int64

**Proporción de observaciones por categoría**

Veamos la proporción de datos faltantes en cada categoría

In [83]:
eda.proporcion_nas(data_eda_cat)

anio                    0.000000
mes                     0.000000
cve_hospital            0.000000
autoref                 0.727852
edocivil_descripcion    0.001871
desc_derechohab         0.113559
nivel_edu               0.020709
ocupacion               0.124526
religion                0.029353
parentesco              0.674806
entidad                 0.000323
alc_o_municipio         0.066013
consejeria              0.031547
anticonceptivo          0.108156
motiles                 0.017548
desc_servicio           0.067981
p_consent               0.712014
procile                 0.027628
s_complica              0.471509
panticoncep             0.271019
mes_fingreso_ch         0.025531
dtype: float64

Podemos observar que la proporción de datos faltantes es notablemente elevada en las columnas *autoref* y *p_consent*

### Variables numéricas

Nos centraremos ahora en las variables numéricas del data frame, mismas que seleccionamos con:

In [None]:
data_eda_num_columns = data_eda.select_dtypes(include=np.number).columns.values
data_eda_num_columns

Podemos observar que de acuerdo al diccionario de datos, todas estas columnas deben tomar únicamente valores enteros. Intentemos transformarlas a tipo *int*.

In [None]:
df = transform_data.change_type(data_eda,data_eda_num_columns, tipo ="int")

Vemos que obtenemos un error, ya que no podemos transformar a *int* las columnas que contienen NAs

In [None]:
#(~data_eda['edad'].astype(str).str.isdigit()).sum()

In [None]:
#(~(data_eda['menarca']).float.is_integer()).sum()

Queremos analizar lo siguiente:
* Tipo de dato: float, integer
* Número de observaciones
* Mean
* Desviación estándar
* Cuartiles: 25%, 50%, 75%
* Valor máximo
* Valor mínimo
* Número de observaciones únicos
* Top 5 observaciones repetidas
* Número de observaciones con valores faltantes
* ¿Hay redondeos?

### Feature selection & engineering

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer

Revisamos los datos faltantes:

In [None]:
datos_eda.isna().sum()

Haremos la imputaciones a los datos faltantes, usando la mediana:

In [None]:
datos_eda.dtypes

transformers = [('impute_consumo_total_mixto', SimpleImputer(strategy="median"), ['consumo_total_mixto']),
                ('impute_consumo_prom_dom', SimpleImputer(strategy="median"), ['consumo_prom_dom']),
                ('impute_consumo_total_dom', SimpleImputer(strategy="median"), ['consumo_total_dom']),
                ('impute_consumo_prom_mixto', SimpleImputer(strategy="median"), ['consumo_prom_mixto'])       
               ]

col_trans = ColumnTransformer(transformers, remainder="drop", n_jobs=-1)
col_trans.fit(datos_eda)

In [None]:
transformers = [('impute_consumo_total_mixto', SimpleImputer(strategy="median"), ['consumo_total_mixto']),
                ('impute_consumo_prom_dom', SimpleImputer(strategy="median"), ['consumo_prom_dom']),
               ('impute_consumo_total_dom', SimpleImputer(strategy="median"), ['consumo_total_dom']),
               ('impute_consumo_prom_mixto', SimpleImputer(strategy="median"), ['consumo_prom_mixto'])]

col_trans = ColumnTransformer(transformers, remainder="passthrough", n_jobs=-1, verbose=True)
col_trans.fit(df3)

u = col_trans.transform(df3)
u[0:5,]
#print(u[0:5,])
df4 = pd.DataFrame(u, 
             columns=['consumo_total_mixto','consumo_prom_dom', 'consumo_total_dom','consumo_prom_mixto','latitud','longitud','anio',  
       'alcaldia','consumo_total', 'consumo_prom','consumo_prom_no_dom', 'bimestre', 'consumo_total_no_dom', 'indice_des'])
df4.head()

In [None]:
X = datos_eda.consumo_total_mixto.values.reshape(datos_eda.shape[0],1)