# Proyecto 1 - Introducción a Data Science

### Cargaremos las librerías requiridas

In [1]:
import pandas as pd
import pandasql 
import numpy as np
import load_data
import clean_data
import transform_data

## Importación de datos

Importaremos los datos con la función leedatos.

In [2]:
datos = load_data.leedatos("interrupcion-legal-del-embarazo.csv")

In [3]:
datos.head()

Unnamed: 0,AÑO,MES,CVE_HOSPITAL,FINGRESO,AUTOREF,EDOCIVIL_DESCRIPCION,EDAD,DESC_DERECHOHAB,NIVEL_EDU,OCUPACION,...,C_NUM,MOTILES,H_FINGRESO,DESC_SERVICIO,P_SEMGEST,P_DIASGESTA,P_CONSENT,PROCILE,S_COMPLICA,PANTICONCEP
0,2016,Enero,10,12/01/16,AUTORREFERIDA,soltera,34,ninguna,primaria completa,Desempleada,...,2.0,interrupción voluntaria,NE,Salud Reproductiva,0.0,,Si,Misoprostol,Si,
1,2016,Abril,1,25/04/16,no,unión libre,27,ninguna,licenciatura completa,Mesera,...,,interrupción voluntaria,25/04/16,ILE,11.0,2.0,Si,Aspiración,No,condón
2,2018,Julio,4,11/07/18,,soltera,29,ninguna,secundaria completa,Trabajadora del Sector Público,...,2.0,interrupción voluntaria,NE,ILE,7.0,6.0,,Mifepristona 200 mg + Misoprostol 800 mcg,,Anticonceptivo Oral
3,2016,Enero,10,07/01/16,AUTORREFERIDA,casada,33,ninguna,preparatoria completa,Ama de Casa,...,2.0,interrupción voluntaria,NE,Salud Reproductiva,4.0,,Si,Misoprostol,Si,
4,2018,Agosto,7,,no,unión libre,23,N/E,preparatoria completa,,...,2.0,interrupción voluntaria,24/08/18,Gineco Obstetrícia,7.0,3.0,,Misoprostol,,implante subdermico


## Limpieza de datos

Formatearemos los encabezados de las columnas de nuestro DataFrame con la función clean_column_headers.

+ Cambiaremos espacios por guion bajo
+ Quitaremos acentos, puntos y comas
+ Cambiaremos la letra ñ por ni

In [4]:
datos_format = clean_data.clean_column_headers(datos)
datos_format.head()

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,c_num,motiles,h_fingreso,desc_servicio,p_semgest,p_diasgesta,p_consent,procile,s_complica,panticoncep
0,2016,Enero,10,12/01/16,AUTORREFERIDA,soltera,34,ninguna,primaria completa,Desempleada,...,2.0,interrupción voluntaria,NE,Salud Reproductiva,0.0,,Si,Misoprostol,Si,
1,2016,Abril,1,25/04/16,no,unión libre,27,ninguna,licenciatura completa,Mesera,...,,interrupción voluntaria,25/04/16,ILE,11.0,2.0,Si,Aspiración,No,condón
2,2018,Julio,4,11/07/18,,soltera,29,ninguna,secundaria completa,Trabajadora del Sector Público,...,2.0,interrupción voluntaria,NE,ILE,7.0,6.0,,Mifepristona 200 mg + Misoprostol 800 mcg,,Anticonceptivo Oral
3,2016,Enero,10,07/01/16,AUTORREFERIDA,casada,33,ninguna,preparatoria completa,Ama de Casa,...,2.0,interrupción voluntaria,NE,Salud Reproductiva,4.0,,Si,Misoprostol,Si,
4,2018,Agosto,7,,no,unión libre,23,N/E,preparatoria completa,,...,2.0,interrupción voluntaria,24/08/18,Gineco Obstetrícia,7.0,3.0,,Misoprostol,,implante subdermico


## Transformación de datos

Garantizaremos que los valores en blanco sean considerados como nulos.

In [5]:
datos_format = transform_data.nulos(datos_format)

Verificaremos que cada columna tenga el tipo correcto.

In [6]:
datos_format.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 62003 entries, 0 to 62002
Data columns (total 36 columns):
anio                    62003 non-null int64
mes                     62003 non-null object
cve_hospital            62003 non-null int64
fingreso                60420 non-null object
autoref                 16874 non-null object
edocivil_descripcion    61887 non-null object
edad                    62003 non-null int64
desc_derechohab         54962 non-null object
nivel_edu               60719 non-null object
ocupacion               54282 non-null object
religion                60183 non-null object
parentesco              20163 non-null object
entidad                 61983 non-null object
alc_o_municipio         57910 non-null object
menarca                 59114 non-null float64
fsexual                 57750 non-null float64
fmenstrua               55299 non-null object
sememb                  58403 non-null float64
nhijos                  58794 non-null float64
gesta           

Despues de analizar el tipo de cada una de las variables contra su descripción, haremos los siguientes cambios:

+ fingreso - *object* a *date*
+ fmenstrua - *object* a *date*
+ h_fingreso - *object* a *date*

Cambios de object a date.

In [7]:
col = ['fingreso']
datos_format = transform_data.change_type(datos_format, col, 'datetime64[ns]')

IllegalMonthError: bad month number 17; must be 1-12

In [8]:
datos_format['fingreso'] = pd.to_datetime(datos_format['fingreso'], format='%d/%m/%y')

ValueError: time data '17/0719' does not match format '%d/%m/%y' (match)

In [9]:
sql = "SELECT DISTINCT fingreso, count(*) FROM datos_format \
        GROUP BY fingreso"
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,fingreso,count(*)
0,,1583
1,01/02/17,69
2,01/02/18,63
3,01/02/19,66
4,01/03/16,75
...,...,...
932,31/10/16,59
933,31/10/17,83
934,31/10/18,51
935,31/12/18,15


In [10]:
sql = "SELECT * FROM datos_format \
        WHERE fingreso = '17/0719'"
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,c_num,motiles,h_fingreso,desc_servicio,p_semgest,p_diasgesta,p_consent,procile,s_complica,panticoncep
0,2019,Julio,12,17/0719,autoreferida,unión libre,29,Gratuidad,preparatoria completa,Ama de Casa,...,2.0,interrupción voluntaria,,Gineco Obstetrícia,8.0,59.0,Si,Mifepristona,No,DIU


In [11]:
idx = datos_format.index[datos_format['fingreso'] == '17/0719']
print(idx)

Int64Index([55608], dtype='int64')


In [12]:
idx = idx.values
idx

array([55608])

In [13]:
idx = idx[0]

In [14]:
datos_format.at[idx, 'fingreso']

'17/0719'

In [15]:
datos_format.at[idx, 'fingreso'] = '17/07/19'

In [16]:
datos_format.at[idx, 'fingreso']

'17/07/19'

In [17]:
datos_format = transform_data.change_type(datos_format, col, 'datetime64[ns]')

In [18]:
datos_format.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 62003 entries, 0 to 62002
Data columns (total 36 columns):
anio                    62003 non-null int64
mes                     62003 non-null object
cve_hospital            62003 non-null int64
fingreso                60420 non-null datetime64[ns]
autoref                 16874 non-null object
edocivil_descripcion    61887 non-null object
edad                    62003 non-null int64
desc_derechohab         54962 non-null object
nivel_edu               60719 non-null object
ocupacion               54282 non-null object
religion                60183 non-null object
parentesco              20163 non-null object
entidad                 61983 non-null object
alc_o_municipio         57910 non-null object
menarca                 59114 non-null float64
fsexual                 57750 non-null float64
fmenstrua               55299 non-null object
sememb                  58403 non-null float64
nhijos                  58794 non-null float64
gesta   

In [19]:
datos_format['fingreso']

0       2016-12-01
1       2016-04-25
2       2018-11-07
3       2016-07-01
4              NaT
           ...    
61998   2019-07-24
61999   2019-07-26
62000   2019-07-26
62001   2019-07-26
62002   2019-07-26
Name: fingreso, Length: 62003, dtype: datetime64[ns]

In [20]:
col = ['fmenstrua']
datos_format = transform_data.change_type(datos_format, col, 'datetime64[ns]')

In [21]:
datos_format['fmenstrua']

0       2015-11-16
1       2016-02-25
2       2018-05-18
3       2015-11-16
4              NaT
           ...    
61998   2019-06-15
61999   2019-05-16
62000   2019-05-31
62001   2019-05-27
62002   2019-05-22
Name: fmenstrua, Length: 62003, dtype: datetime64[ns]

In [22]:
col = ['h_fingreso']
datos_format = transform_data.change_type(datos_format, col, 'datetime64[ns]')

ValueError: ('Unknown string format:', 'NE')

In [23]:
sql = "SELECT DISTINCT h_fingreso, count(*) FROM datos_format \
        GROUP BY h_fingreso"
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,h_fingreso,count(*)
0,,7537
1,01/02/19,17
2,01/03/16,11
3,01/03/18,1
4,01/03/19,10
...,...,...
578,43532,4
579,43535,2
580,43537,2
581,43538,1


In [24]:
sql = "SELECT DISTINCT h_fingreso, s_complica, count(*) FROM datos_format \
        GROUP BY h_fingreso, s_complica"
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,h_fingreso,s_complica,count(*)
0,,,3274
1,,No,4263
2,01/02/19,No,17
3,01/03/16,,3
4,01/03/16,No,1
...,...,...,...
769,43537,No,2
770,43538,No,1
771,NE,,24567
772,NE,No,22920


In [25]:
idx = datos_format.index[datos_format['h_fingreso'] == 'NE']
print(idx)

Int64Index([    0,     2,     3,     5,     6,     7,     8,     9,    10,
               11,
            ...
            59091, 59554, 59555, 59556, 59557, 59953, 59954, 59955, 59956,
            59957],
           dtype='int64', length=49140)


In [26]:
for i in idx:
    print(datos_format.at[i, 'h_fingreso'])

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
NE
N

In [27]:
for i in idx:
    datos_format.at[i, 'h_fingreso'] = pd.NaT

In [28]:
sql = "SELECT DISTINCT h_fingreso, count(*) FROM datos_format \
        GROUP BY h_fingreso"
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,h_fingreso,count(*)
0,,56677
1,01/02/19,17
2,01/03/16,11
3,01/03/18,1
4,01/03/19,10
...,...,...
577,43531,1
578,43532,4
579,43535,2
580,43537,2


In [29]:
sql = "SELECT count(h_fingreso) FROM datos_format \
        WHERE h_fingreso != ' ' \
        "
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,count(h_fingreso)
0,5326


In [30]:
col = ['h_fingreso']
datos_format = transform_data.change_type(datos_format, col, 'datetime64[ns]')

ValueError: year 43521 is out of range

In [31]:
sql = "SELECT DISTINCT h_fingreso, count(*) FROM datos_format \
        GROUP BY h_fingreso"
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,h_fingreso,count(*)
0,,56677
1,01/02/19,17
2,01/03/16,11
3,01/03/18,1
4,01/03/19,10
...,...,...
577,43531,1
578,43532,4
579,43535,2
580,43537,2


In [32]:
def xldate_to_datetime(xldate):
    import datetime
    
    temp = datetime.datetime(1899, 12, 30)
    delta = datetime.timedelta(days=xldate)
    return temp + delta

In [33]:
o = xldate_to_datetime(43531)
o

datetime.datetime(2019, 3, 7, 0, 0)

In [34]:
o.date()

datetime.date(2019, 3, 7)

In [35]:
len(datos_format)

62003

In [36]:
for i in range(0, len(datos_format)):
    try:
        datos_format.at[i, 'h_fingreso'] = pd.to_datetime(datos_format.at[i, 'h_fingreso'])
    except:
        if  datos_format.at[i, 'h_fingreso'] == None:
            continue
        else:
            datos_format.at[i, 'h_fingreso'] = pd.to_datetime(xldate_to_datetime(int(datos_format.at[i, 'h_fingreso'])))
    

In [37]:
sql = "SELECT DISTINCT h_fingreso, count(*) FROM datos_format \
        GROUP BY h_fingreso"
query = pandasql.sqldf(sql, globals())
query

Unnamed: 0,h_fingreso,count(*)
0,,56677
1,2006-07-21 00:00:00.000000,1
2,2010-05-24 00:00:00.000000,1
3,2011-05-25 00:00:00.000000,1
4,2012-11-30 00:00:00.000000,1
...,...,...
570,2019-11-07 00:00:00.000000,13
571,2019-12-02 00:00:00.000000,15
572,2019-12-04 00:00:00.000000,8
573,2019-12-06 00:00:00.000000,7


In [38]:
col = ['h_fingreso'] 
datos_format = transform_data.change_type(datos_format, col, 'datetime64[ns]')

In [39]:
datos_format.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 62003 entries, 0 to 62002
Data columns (total 36 columns):
anio                    62003 non-null int64
mes                     62003 non-null object
cve_hospital            62003 non-null int64
fingreso                60420 non-null datetime64[ns]
autoref                 16874 non-null object
edocivil_descripcion    61887 non-null object
edad                    62003 non-null int64
desc_derechohab         54962 non-null object
nivel_edu               60719 non-null object
ocupacion               54282 non-null object
religion                60183 non-null object
parentesco              20163 non-null object
entidad                 61983 non-null object
alc_o_municipio         57910 non-null object
menarca                 59114 non-null float64
fsexual                 57750 non-null float64
fmenstrua               55299 non-null datetime64[ns]
sememb                  58403 non-null float64
nhijos                  58794 non-null float64


Cambiaremos las letras mayusculas a minúsculas para cada obervación.

In [40]:
datos_lower = transform_data.data_to_lowercase(datos_format)
datos_lower.head()

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,c_num,motiles,h_fingreso,desc_servicio,p_semgest,p_diasgesta,p_consent,procile,s_complica,panticoncep
0,2016,enero,10,2016-12-01,autorreferida,soltera,34,ninguna,primaria completa,desempleada,...,2.0,interrupción voluntaria,NaT,salud reproductiva,0.0,,si,misoprostol,si,
1,2016,abril,1,2016-04-25,no,unión libre,27,ninguna,licenciatura completa,mesera,...,,interrupción voluntaria,2016-04-25,ile,11.0,2.0,si,aspiración,no,condón
2,2018,julio,4,2018-11-07,,soltera,29,ninguna,secundaria completa,trabajadora del sector público,...,2.0,interrupción voluntaria,NaT,ile,7.0,6.0,,mifepristona 200 mg + misoprostol 800 mcg,,anticonceptivo oral
3,2016,enero,10,2016-07-01,autorreferida,casada,33,ninguna,preparatoria completa,ama de casa,...,2.0,interrupción voluntaria,NaT,salud reproductiva,4.0,,si,misoprostol,si,
4,2018,agosto,7,NaT,no,unión libre,23,n/e,preparatoria completa,,...,2.0,interrupción voluntaria,2018-08-24,gineco obstetrícia,7.0,3.0,,misoprostol,,implante subdermico


Ahora nos aseguraremos de quitar los acentos de todas las columnas no numericas para cada observación.

In [41]:
datos_sin_acentos = transform_data.data_sin_acentos(datos_lower)
datos_sin_acentos.head()

Unnamed: 0,anio,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,c_num,motiles,h_fingreso,desc_servicio,p_semgest,p_diasgesta,p_consent,procile,s_complica,panticoncep
0,2016,enero,10,2016-12-01,autorreferida,soltera,34,ninguna,primaria completa,desempleada,...,2.0,interrupcion voluntaria,NaT,salud reproductiva,0.0,,si,misoprostol,si,
1,2016,abril,1,2016-04-25,no,union libre,27,ninguna,licenciatura completa,mesera,...,,interrupcion voluntaria,2016-04-25,ile,11.0,2.0,si,aspiracion,no,condon
2,2018,julio,4,2018-11-07,,soltera,29,ninguna,secundaria completa,trabajadora del sector publico,...,2.0,interrupcion voluntaria,NaT,ile,7.0,6.0,,mifepristona 200 mg + misoprostol 800 mcg,,anticonceptivo oral
3,2016,enero,10,2016-07-01,autorreferida,casada,33,ninguna,preparatoria completa,ama de casa,...,2.0,interrupcion voluntaria,NaT,salud reproductiva,4.0,,si,misoprostol,si,
4,2018,agosto,7,NaT,no,union libre,23,n/e,preparatoria completa,,...,2.0,interrupcion voluntaria,2018-08-24,gineco obstetricia,7.0,3.0,,misoprostol,,implante subdermico


In [43]:
datos_sin_acentos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 62003 entries, 0 to 62002
Data columns (total 36 columns):
anio                    62003 non-null int64
mes                     62003 non-null object
cve_hospital            62003 non-null int64
fingreso                60420 non-null datetime64[ns]
autoref                 16874 non-null object
edocivil_descripcion    61887 non-null object
edad                    62003 non-null int64
desc_derechohab         54962 non-null object
nivel_edu               60719 non-null object
ocupacion               54282 non-null object
religion                60183 non-null object
parentesco              20163 non-null object
entidad                 61983 non-null object
alc_o_municipio         57910 non-null object
menarca                 59114 non-null float64
fsexual                 57750 non-null float64
fmenstrua               55299 non-null datetime64[ns]
sememb                  58403 non-null float64
nhijos                  58794 non-null float64


## EDA y Data Profiling

In [32]:
datos_eda = datos_sin_acentos
datos_eda.head()

Unnamed: 0,año,mes,cve_hospital,fingreso,autoref,edocivil_descripcion,edad,desc_derechohab,nivel_edu,ocupacion,...,c_num,motiles,h_fingreso,desc_servicio,p_semgest,p_diasgesta,p_consent,procile,s_complica,panticoncep
0,2016,enero,10,12/01/16,autorreferida,soltera,34,ninguna,primaria completa,desempleada,...,2.0,interrupcion voluntaria,ne,salud reproductiva,0.0,,si,misoprostol,si,
1,2016,abril,1,25/04/16,no,union libre,27,ninguna,licenciatura completa,mesera,...,,interrupcion voluntaria,25/04/16,ile,11.0,2.0,si,aspiracion,no,condon
2,2018,julio,4,11/07/18,,soltera,29,ninguna,secundaria completa,trabajadora del sector publico,...,2.0,interrupcion voluntaria,ne,ile,7.0,6.0,,mifepristona 200 mg + misoprostol 800 mcg,,anticonceptivo oral
3,2016,enero,10,07/01/16,autorreferida,casada,33,ninguna,preparatoria completa,ama de casa,...,2.0,interrupcion voluntaria,ne,salud reproductiva,4.0,,si,misoprostol,si,
4,2018,agosto,7,,no,union libre,23,n/e,preparatoria completa,,...,2.0,interrupcion voluntaria,24/08/18,gineco obstetricia,7.0,3.0,,misoprostol,,implante subdermico


In [46]:
datos_eda.shape


(62003, 36)

In [34]:
datos_eda.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
año,62003.0,2017.279519,1.038147,2016.0,2016.0,2017.0,2018.0,2019.0
cve_hospital,62003.0,4.957179,3.445688,1.0,2.0,4.0,7.0,14.0
edad,62003.0,25.69545,6.280193,11.0,21.0,24.0,30.0,53.0
menarca,59114.0,12.640018,1.753795,1.0,12.0,12.0,14.0,30.0
fsexual,57750.0,16.978632,2.460949,0.0,15.0,17.0,18.0,54.0
sememb,58403.0,7.439771,2.368694,0.0,6.0,7.0,9.0,50.0
nhijos,58794.0,1.033966,1.141758,0.0,0.0,1.0,2.0,10.0
gesta,59341.0,2.344922,1.455347,0.0,1.0,2.0,3.0,47.0
naborto,57888.0,0.176306,0.471237,0.0,0.0,0.0,0.0,10.0
npartos,58240.0,0.711624,1.066238,0.0,0.0,0.0,1.0,12.0


In [47]:
datos_eda.isna().sum()/datos_eda.shape[0] #Proporción de datos faltantes

año                     0.000000
mes                     0.000000
cve_hospital            0.000000
fingreso                0.025531
autoref                 0.727852
edocivil_descripcion    0.001871
edad                    0.000000
desc_derechohab         0.113559
nivel_edu               0.020709
ocupacion               0.124526
religion                0.029353
parentesco              0.674806
entidad                 0.000323
alc_o_municipio         0.066013
menarca                 0.046595
fsexual                 0.068593
fmenstrua               0.108124
sememb                  0.058062
nhijos                  0.051756
gesta                   0.042933
naborto                 0.066368
npartos                 0.060691
ncesarea                0.066110
nile                    0.200071
consejeria              0.031547
anticonceptivo          0.108156
c_num                   0.327049
motiles                 0.017548
h_fingreso              0.121559
desc_servicio           0.067981
p_semgest 

Ya podemos observar que solo las variables año, mes, cve_hospital y edad no tienen observaciones faltantes.


Veamos ahora cuántos valores distintos contiene cada columna

In [36]:
datos_eda.nunique()

año                        4
mes                       12
cve_hospital              14
fingreso                 936
autoref                   33
edocivil_descripcion       7
edad                      43
desc_derechohab           34
nivel_edu                 17
ocupacion                 53
religion                  13
parentesco                40
entidad                   32
alc_o_municipio          499
menarca                   27
fsexual                   44
fmenstrua               1508
sememb                   140
nhijos                    11
gesta                     26
naborto                   10
npartos                   11
ncesarea                   7
nile                       8
consejeria                 2
anticonceptivo            20
c_num                     10
motiles                   13
h_fingreso               582
desc_servicio              8
p_semgest                 13
p_diasgesta               82
p_consent                  2
procile                   20
s_complica    

Vemos que algunas variables tienen un número bastante limitado de valores posibles, y que por su naturaleza bien pueden ser categóricas. Es el caso de *año, mes,cve_hospital,edocivil_descripcion, nivel_edu, religion, entidad, alc_o_municipio (?) , consejeria, anticonceptivo, desc_servicio, procile(?), s_complica* y *panticoncep(?)*.

Veamos de qué tipo son actualmente:

In [37]:
datos_eda["religion"].unique()

array(['ninguna', 'catolica', 'cristiana', nan, 'creyente', 'mormon',
       'otra', 'testigos de jeohva', 'evangelica',
       'adventista del septimo dia', 'agnostica', 'budista', 'judia',
       'protestante'], dtype=object)

In [38]:
datos_eda["motiles"].unique()

array(['interrupcion voluntaria', nan, 'falta de recursos economicos',
       'no lo desea en este momento',
       'no quiere interrumpir sus estudios/trabajo',
       'falla de metodo anticonceptivo', 'ya tiene muchos hijos',
       'no especificado', 'motivos de salud', 'otro',
       'problemas con la pareja', 'malformaciones', 'violacion',
       'no tiene apoyo familiar'], dtype=object)

In [39]:
datos_eda["desc_servicio"].unique()

array(['salud reproductiva', 'ile', 'gineco obstetricia', nan,
       'consulta externa', 'enfermeria', 'cirugia ambulatoria',
       'tococirugia', 'administracion'], dtype=object)

In [48]:
datos_eda["anticonceptivo"].unique()

array(['anticoncepcion de emergencia', 'condon', 'diu', 'ninguno', nan,
       'inyeccion', 'implante subdermico', 'barrera', 'hormonal oral',
       'parche dermico', 'hormonal inyectable',
       'pastillas anticonceptivas', 'anticoncepcion de emergencia y otro',
       'vasectomia', 'condon y otro', 'coito interrumpido', 'calendario',
       'anillo vaginal', 'medicamento', 'salpingoclacia', 'ritmo'],
      dtype=object)

In [42]:
datos_eda["panticoncep"].unique()

array([nan, 'condon', 'anticonceptivo oral', 'implante subdermico', 'ne',
       'diu medicado',
       'anticoncepcion de emergencia + condon + implante subdermico',
       'condon + implante subdermico', 'condon + parches', 'parche',
       'condon + diu medicado', 'ninguno', 'diu t de cobre',
       'condon + diu t de cobre', 'diu', 'condon + otb', 'condon + diu',
       'otro', 'condon + anticonceptivo oral', 'condon + inyeccion',
       'condon + anticoncepcion de emergencia + parches',
       'anticoncepcion de emergencia + condon', 'hormonal inyectable',
       'anticoncepcion de emergencia', 'otb',
       'anticoncepcion de emergencia + condon + diu medicado',
       'diu medicado + implante subdermico',
       'condon + implante subdermico + parches',
       'condon + diu medicado + parches', 'implante subdermico + parches',
       'anticoncepcion de emergencia + condon + diu t de cobre',
       'anticoncepcion de emergencia + condon + inyeccion',
       'condon + anticoncepti

In [49]:
datos_eda["procile"].unique()

array(['misoprostol', 'aspiracion',
       'mifepristona 200 mg + misoprostol 800 mcg', nan,
       'mifepristona + misoprostol', 'aeeu', 'ameu', 'medicamento', 'lui',
       'aeeu + misoprostol', 'ameu + misoprostol',
       'aeeu + 200 mcg mifepristona + 800 mcg misoprostol',
       'aeeu + 400 mcg misoprostol', 'mifepristona',
       'ameu + 800 mcg misoprostol',
       'mifepristona 200 mg + misoprostol 800 mcg + misoprostol 400 mcg',
       'medicamento + ameu',
       'ameu + 200 mcg mifepristona + 800 mcg misoprostol',
       'lui + 200 mcg misoprostol', 'ameu + 400 mcg misoprostol',
       'aeeu + 800 mcg misoprostol'], dtype=object)

In [50]:
datos_eda.dtypes

año                       int64
mes                      object
cve_hospital              int64
fingreso                 object
autoref                  object
edocivil_descripcion     object
edad                      int64
desc_derechohab          object
nivel_edu                object
ocupacion                object
religion                 object
parentesco               object
entidad                  object
alc_o_municipio          object
menarca                 float64
fsexual                 float64
fmenstrua                object
sememb                  float64
nhijos                  float64
gesta                   float64
naborto                 float64
npartos                 float64
ncesarea                float64
nile                    float64
consejeria               object
anticonceptivo           object
c_num                   float64
motiles                  object
h_fingreso               object
desc_servicio            object
p_semgest               float64
p_diasge

Vemos que todas ellas, salvo *anio* y *bimestre*, ya son de tipo object. Convirtamos éstas:

In [11]:
#categoricas =  ["anio","bimestre"]
#data_eda = transform_data.change_type(datos_eda,categoricas)
#data_eda.dtypes

consumo_total_mixto     float64
anio                     object
consumo_prom_dom        float64
consumo_total_dom       float64
alcaldia                 object
colonia                  object
consumo_prom_mixto      float64
consumo_total           float64
consumo_prom            float64
consumo_prom_no_dom     float64
bimestre                 object
consumo_total_no_dom    float64
indice_des               object
latitud                 float64
longitud                float64
dtype: object

### Variables categóricas

Nos centraremos ahora en las variables categóricas del data frame, mismas que seleccionamos con:

In [16]:
data_eda_cat = data_eda.select_dtypes(exclude=np.number)

NameError: name 'data_eda' is not defined

Queremos analizar lo siguiente:
* Número de categorías
* Valor de las categorías
* Moda
* Histograma
* Valores faltantes
* Número de observaciones con valores faltantes
* Proporción de observaciones por categoría
* ¿Hay faltas de ortografía?

### Variables numéricas

Nos centraremos ahora en las variables numéricas del data frame, mismas que seleccionamos con:

In [13]:
data_eda_num = data_eda.select_dtypes(include=np.number)

Queremos analizar lo siguiente:
* Tipo de dato: float, integer
* Número de observaciones
* Mean
* Desviación estándar
* Cuartiles: 25%, 50%, 75%
* Valor máximo
* Valor mínimo
* Número de observaciones únicos
* Top 5 observaciones repetidas
* Número de observaciones con valores faltantes
* ¿Hay redondeos?

### Feature selection & engineering

In [14]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer

Revisamos los datos faltantes:

In [15]:
datos_eda.isna().sum()

consumo_total_mixto     8327
anio                       0
consumo_prom_dom        4820
consumo_total_dom       4820
alcaldia                   0
colonia                    0
consumo_prom_mixto      8327
consumo_total              0
consumo_prom               0
consumo_prom_no_dom        0
bimestre                   0
consumo_total_no_dom       0
indice_des                 0
latitud                    0
longitud                   0
dtype: int64

Haremos la imputaciones a los datos faltantes, usando la mediana:

In [24]:
datos_eda.dtypes

consumo_total_mixto     float64
anio                      int64
consumo_prom_dom        float64
consumo_total_dom       float64
alcaldia                 object
colonia                  object
consumo_prom_mixto      float64
consumo_total           float64
consumo_prom            float64
consumo_prom_no_dom     float64
bimestre                  int64
consumo_total_no_dom    float64
indice_des               object
latitud                 float64
longitud                float64
dtype: object

transformers = [('impute_consumo_total_mixto', SimpleImputer(strategy="median"), ['consumo_total_mixto']),
                ('impute_consumo_prom_dom', SimpleImputer(strategy="median"), ['consumo_prom_dom']),
                ('impute_consumo_total_dom', SimpleImputer(strategy="median"), ['consumo_total_dom']),
                ('impute_consumo_prom_mixto', SimpleImputer(strategy="median"), ['consumo_prom_mixto'])       
               ]

col_trans = ColumnTransformer(transformers, remainder="drop", n_jobs=-1)
col_trans.fit(datos_eda)

In [None]:
transformers = [('impute_consumo_total_mixto', SimpleImputer(strategy="median"), ['consumo_total_mixto']),
                ('impute_consumo_prom_dom', SimpleImputer(strategy="median"), ['consumo_prom_dom']),
               ('impute_consumo_total_dom', SimpleImputer(strategy="median"), ['consumo_total_dom']),
               ('impute_consumo_prom_mixto', SimpleImputer(strategy="median"), ['consumo_prom_mixto'])]

col_trans = ColumnTransformer(transformers, remainder="passthrough", n_jobs=-1, verbose=True)
col_trans.fit(df3)

u = col_trans.transform(df3)
u[0:5,]
#print(u[0:5,])
df4 = pd.DataFrame(u, 
             columns=['consumo_total_mixto','consumo_prom_dom', 'consumo_total_dom','consumo_prom_mixto','latitud','longitud','anio',  
       'alcaldia','consumo_total', 'consumo_prom','consumo_prom_no_dom', 'bimestre', 'consumo_total_no_dom', 'indice_des'])
df4.head()

In [21]:
X = datos_eda.consumo_total_mixto.values.reshape(datos_eda.shape[0],1)