In [2]:
import pandas as pd
pd.set_option("display.max_columns", 500)
pd.set_option("display.max_rows", 500)

## Checking columns/rows to clean from every table

- TB_COTIZACIONES.tsv
- TB_INTERACCIONES.tsv
- TB_PAGOS.tsv
- TB_PROSPECT.tsv

***
### Cotizaciones

In [2]:
df = pd.read_csv("../Datasets/TB_COTIZACIONES.tsv", sep="\t",encoding='latin1', low_memory = False)

In [9]:
(df.isna().mean()).sort_values(ascending=False)

BANCO                  1.000000
SOLICITA_MISMO_AUTO    1.000000
FECHA_COTIZ_ANT        1.000000
AGRUPADOR_DIRECTO      0.999933
COD_AGENCIA_GES        0.959498
COMPRO_PACK            0.943536
COMPRO_PLAN            0.943536
NUM_SECU_POL           0.924637
FECHA_SOLIC            0.892720
COD_AGENCIA_SOLIC      0.892113
COD_PLAN               0.879181
ESTADO_CIVIL           0.812151
EDAD                   0.803289
SEXO                   0.801122
FOR_COBRO              0.758509
REGION                 0.667619
COD_INICIADOR          0.332311
NEGOCIO                0.320274
MCA_0KM                0.211678
PUERTAS                0.049359
TRACCION               0.014738
REC_TR_REAL            0.014720
REC2_1                 0.014720
REC_TC_REAL            0.014720
REC_TC_VIGENTE         0.014720
REC_RC_REAL            0.014442
GRUPO_COMBUSTIBLE      0.012510
TIPO_COMBUSTIBLE       0.012491
VERSION                0.001629
LOCALIDAD              0.000398
ORIGEN_DESC            0.000353
PROVINCI

**Removing cols with >99% NaN**

In [12]:
df = df.loc[:, df.isna().mean() < .95]

In [14]:
df[[col for col in df.columns if "FECHA" in col]]

Unnamed: 0,FECHA_EQUIPO,FECHA_SOLIC
0,02/01/2019,
1,02/01/2019,
2,02/01/2019,
3,02/01/2019,
4,02/01/2019,
5,02/01/2019,
6,02/01/2019,
7,02/01/2019,
8,02/01/2019,
9,02/01/2019,


#### Correcting dtypes to save in feather format

In [17]:
df.dtypes

NRO_PRESUP                    int64
CIF_ID                        int64
COD_CIA                       int64
COD_SECC                      int64
COD_RAMO                      int64
FECHA_EQUIPO         datetime64[ns]
FECHA_SOLIC          datetime64[ns]
COD_AGENCIA_PRESU             int64
COD_AGENCIA_SOLIC           float64
COD_INICIADOR               float64
ESTADO                       object
COD_MARCA                     int64
COD_MOD                       int64
COD_PLAN                    float64
SUMA_ASEG                    object
TIPO_COMBUSTIBLE             object
GRUPO_COMBUSTIBLE           float64
ORIGEN                       object
FOR_COBRO                    object
NEGOCIO                      object
COD_PROD                      int64
COD_POSTAL                    int64
CANAL_ORIGEN                 object
ORIGEN_DESC                  object
REGION                       object
NOM_ORIGEN_PRESU             object
NUM_SECU_POL                float64
EDAD                        

In [16]:
df['FECHA_EQUIPO'] =  pd.to_datetime(df['FECHA_EQUIPO'], format="%d/%m/%Y")
df['FECHA_SOLIC'] =  pd.to_datetime(df['FECHA_SOLIC'], format="%d/%m/%Y")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


In [18]:
df.to_feather("../Datasets/cotizaciones.feather")

***
### Interacciones

In [52]:
del df

In [4]:
chunks = pd.read_csv(f"../Datasets/TB_INTERACCIONES.tsv", sep="\t",encoding='latin1',
                    iterator=True, chunksize=1000000)
df = pd.concat(chunks)

  exec(code_obj, self.user_global_ns, self.user_ns)
  exec(code_obj, self.user_global_ns, self.user_ns)


**Clean this based on *1 - First look.ipynb* **

In [4]:
df[pd.to_numeric(df['ID'], errors='coerce').isnull()]

Unnamed: 0,ID,CIF_ID,IN_OUT,CANAL_COMUNICACION,FECHA,OBSERVACIONES,GESTION,DESCRIPCION,AGRUPACION
8087,,,,,,,,,
59763,,,,,,,,,
59765,,,,,,,,,
59767,,,,,,,,,
59769,,,,,,,,,
98478,PLAN 954,,,,,,,,
98479,COD AGRUPADOR 73640,,,,,,,,
98480,VIGENCIA 01/02/2019,,,,,,,,
98481,PATENTE AA730BN,,,,,,,,
98482,PRECIO $ 2817,,,,,,,,


In [5]:
df = df[~pd.to_numeric(df['ID'], errors='coerce').isnull()]

In [6]:
strange_vals = []
for val in df["ID"].unique():
    try:
        int(val)
    except Exception as e:
        strange_vals.append(val)

In [7]:
strange_vals

['-692.00',
 '932.00',
 '15558594489.',
 '5233.00',
 '216.00',
 '1966.00',
 ' -1174.00',
 '-1229.00',
 '3278.00',
 '-1337.00',
 '-235.00',
 '3280.00',
 '423.00',
 '2529.00',
 '-1321.00',
 '-898.00',
 '-1279.00',
 '-884.00',
 '-3219.00',
 '-1726.00',
 '-322.00',
 '2042.00',
 '-812.00',
 '-1134.00',
 '-3315.00',
 '-2729.00',
 '-1736.00',
 '-1796.00',
 '-993.00',
 '-5988.00',
 '-1676.00',
 '-5228.00',
 '-377.00',
 '1512.90 ',
 '3942.35',
 '9380.00',
 '-1464.00',
 '241.60',
 '-261.00         ',
 '2345.00',
 ' 5531.7',
 ' -164.7',
 ' -449.5',
 ' -269.81',
 ' -119.9',
 ' -104.9',
 ' 80117.3',
 ' -374.7',
 ' -134.9',
 ' -149.7',
 '-862.00',
 '-1399.00',
 '-283.00',
 '-2190.00',
 '-232.00',
 '-2178.00 ',
 '-1250.00',
 '-1816.00',
 '-2209.00',
 '-1929.00',
 '-5024.00',
 '-8607.00',
 '-1945.00',
 '-3946.00',
 '-2762.00',
 '-1701.00',
 '  1269.00',
 '-1025.00',
 '-469.00',
 '-1244.00',
 '-1092.00',
 '-1925.00',
 '-2025.00',
 '-2022.00',
 '2154.00',
 '-418.00',
 '-503.00',
 ' 310.000',
 ' 326.000'

In [8]:
df[df["ID"].isin(strange_vals)]

Unnamed: 0,ID,CIF_ID,IN_OUT,CANAL_COMUNICACION,FECHA,OBSERVACIONES,GESTION,DESCRIPCION,AGRUPACION
270798,-692.0,,,,,,,,
847282,932.0,,,,,,,,
1272934,15558594489.0,,,,,,,,
3263026,5233.0,,,,,,,,
3263027,216.0,,,,,,,,
3317352,1966.0,ACDP,Devolución Primas,CONSULTAR TEMAS DE PAGO,,,,,
3429767,-1174.0,,,,,,,,
3699845,-1229.0,,,,,,,,
3705504,3278.0,,,,,,,,
3922999,-1337.0,,,,,,,,


** Seems to be more corrupted data. Cleaning it **

In [7]:
df = df[~df["ID"].isin(strange_vals)]

** Checking the same for CIF_ID **

In [8]:
strange_vals = []
for val in df["CIF_ID"].unique():
    try:
        int(val)
    except Exception as e:
        strange_vals.append(val)

In [15]:
strange_vals

['SCLM',
 'H049',
 'ACDP',
 'OCCR',
 'PY01',
 'ATBA',
 'AQSR',
 'AAO',
 'PRRN',
 'RE15',
 'ACAD',
 'OCOT',
 'EM04',
 'ACCP',
 'VV02',
 'ACIP',
 'ACCU',
 'OCLL',
 'NRE0',
 'PY05',
 'CONS',
 'PY04',
 'VV03',
 'EM10',
 'EM09',
 'SCLT',
 'NR12']

Removing nan from first position

In [9]:
strange_vals = strange_vals[1:]

In [10]:
df[df["CIF_ID"].isin(strange_vals)]

Unnamed: 0,ID,CIF_ID,IN_OUT,CANAL_COMUNICACION,FECHA,OBSERVACIONES,GESTION,DESCRIPCION,AGRUPACION
168500,53309316472,SCLM,SC-Información Accidentes con Lesiones,,,,,,
378878,2871,H049,Encuesta - Llamado al Cliente por NPS,,,,,,
717903,994,ACDP,Devolución Primas,CONSULTAR TEMAS DE PAGO,,,,,
856800,1533743372,OCCR,Consulta Representante/Asesor,,,,,,
1076501,1541648125,PY01,E-Mail Pymes - Gestión Transferencia,,,,,,
1365767,5270017600001,ATBA,Atención a Bancos,,,,,,
1388851,1264,AQSR,AQ-Seguimiento de Reclamo,,,,,,
1402619,1264,ACDP,Devolución Primas,CONSULTAR TEMAS DE PAGO,,,,,
1552576,20045435017,ACDP,Devolución Primas,CONSULTAR TEMAS DE PAGO,,,,,
2009398,3136,ACDP,Devolución Primas,CONSULTAR TEMAS DE PAGO,,,,,


**This is weird. Cleaning too **

In [11]:
df = df[~df["CIF_ID"].isin(strange_vals)]

In [12]:
(df.isna().sum() / len(df) * 100).sort_values(ascending=False)

AGRUPACION            72.827119
CANAL_COMUNICACION    26.595005
OBSERVACIONES         14.647189
CIF_ID                 0.628249
GESTION                0.164766
DESCRIPCION            0.142225
FECHA                  0.005817
IN_OUT                 0.005817
ID                     0.000000
dtype: float64

#### Correcting dtypes to save in feather format

In [13]:
df.dtypes

ID                    object
CIF_ID                object
IN_OUT                object
CANAL_COMUNICACION    object
FECHA                 object
OBSERVACIONES         object
GESTION               object
DESCRIPCION           object
AGRUPACION            object
dtype: object

In [19]:
df = df.astype({"ID":"Float64", "CIF_ID":"Float64"})

In [25]:
df['FECHA'].value_counts()

26/04/2019                  4010
25/04/2019                  3733
10/04/2019                  3628
02/05/2019                  3489
03/05/2019                  3302
01/03/2019                  3116
15/05/2019                  3107
20/05/2019                  2929
11/01/2019                  2891
17/04/2019                  2823
01/04/2019                  2814
30/05/2019                  2734
07/01/2019                  2702
08/02/2019                  2701
09/01/2019                  2698
12/04/2019                  2678
11/03/2019                  2635
05/02/2019                  2627
18/03/2019                  2620
10/01/2019                  2618
29/03/2019                  2602
28/03/2019                  2599
04/01/2019                  2598
06/05/2019                  2597
29/04/2019                  2596
16/05/2019                  2587
03/01/2019                  2586
15/01/2019                  2584
11/02/2019                  2580
18/01/2019                  2565
27/03/2019

** Removing timestamp **

In [46]:
df["FECHA"].str.extract('(../../....)', expand=False).value_counts()

05/02/2019    265189
02/03/2019    251703
01/03/2019    247791
12/04/2019    246610
13/04/2019    241497
27/04/2019    232349
18/01/2019    204649
28/02/2019    180163
26/04/2019    171263
11/04/2019    165663
28/04/2019    157579
11/03/2019    155219
17/01/2019    154447
09/01/2019    142425
01/02/2019    134519
03/05/2019    133673
07/01/2019    131118
02/01/2019    129272
09/04/2019    129012
02/02/2019    121075
27/02/2019    120860
08/03/2019    120818
23/04/2019    117787
08/05/2019    117575
22/04/2019    116649
02/05/2019    116635
08/01/2019    115925
11/01/2019    115009
10/04/2019    113940
24/01/2019    113459
25/01/2019    112959
29/04/2019    111802
07/03/2019    111526
10/01/2019    111407
15/01/2019    110640
06/02/2019    110318
22/02/2019    109622
07/02/2019    108520
17/04/2019    108353
04/01/2019    107516
08/02/2019    107089
31/05/2019    106968
10/05/2019    106206
12/03/2019    105641
24/04/2019    105184
07/05/2019    104722
13/02/2019    104631
27/03/2019   

In [47]:
df["FECHA"] = df["FECHA"].str.extract('(../../....)', expand=False)

In [48]:
df['FECHA'] =  pd.to_datetime(df['FECHA'], format="%d/%m/%Y")

In [49]:
df.dtypes

ID                           float64
CIF_ID                       float64
IN_OUT                        object
CANAL_COMUNICACION            object
FECHA                 datetime64[ns]
OBSERVACIONES                 object
GESTION                       object
DESCRIPCION                   object
AGRUPACION                    object
dtype: object

In [51]:
df.reset_index().to_feather("interacciones.feather")

***
### Pagos

In [3]:
df = pd.read_csv("../Datasets/TB_PAGOS.tsv", sep="\t",encoding='latin1')

In [9]:
df.head()

Unnamed: 0,COD_CIA,COD_SECC,FECHA_EQUIPO,NUM_POL1,NUM_SECU_POL,NUM_END,FECHA_VTO,FEC_PAGO,MONTO_PAGO,COD_COBRO,COD_SITUACION
0,2,90,19/03/2019,5010000625601,9609992,,2019-03,2019-03,102648,CC,CT
1,2,90,11/03/2019,5000000104101,1799992,,2018-06,2019-04,3384,CC,CT
2,2,90,13/03/2019,5170826702201,11116689999,,2019-03,2019-04,2256,CC,CT
3,2,90,08/03/2019,5130005681801,91449992,,2019-03,2019-03,3384,CC,CT
4,2,11,01/03/2019,5000612704001,360559968,,2019-03,2019-03,130,TA,CT


In [5]:
len(df)

5896849

In [6]:
(df.isna().mean()).sort_values(ascending=False)

FEC_PAGO         0.607401
NUM_END          0.149819
COD_COBRO        0.000003
COD_SITUACION    0.000000
MONTO_PAGO       0.000000
FECHA_VTO        0.000000
NUM_SECU_POL     0.000000
NUM_POL1         0.000000
FECHA_EQUIPO     0.000000
COD_SECC         0.000000
COD_CIA          0.000000
dtype: float64

In [10]:
df.nunique()

COD_CIA                4
COD_SECC              19
FECHA_EQUIPO         102
NUM_POL1         3270793
NUM_SECU_POL     3272921
NUM_END              855
FECHA_VTO            134
FEC_PAGO              41
MONTO_PAGO        181767
COD_COBRO              8
COD_SITUACION          5
dtype: int64

In [12]:
df.dtypes

COD_CIA            int64
COD_SECC           int64
FECHA_EQUIPO      object
NUM_POL1           int64
NUM_SECU_POL       int64
NUM_END          float64
FECHA_VTO         object
FEC_PAGO          object
MONTO_PAGO        object
COD_COBRO         object
COD_SITUACION     object
dtype: object

In [13]:
df['FECHA_EQUIPO'] =  pd.to_datetime(df['FECHA_EQUIPO'], format="%d/%m/%Y")

In [15]:
df['FECHA_VTO'] =  pd.to_datetime(df['FECHA_VTO'], format="%Y-%m")

In [16]:
df['FEC_PAGO'] =  pd.to_datetime(df['FEC_PAGO'], format="%Y-%m")

In [29]:
df["MONTO_PAGO"] = df['MONTO_PAGO'].str.replace(',','.',regex=False).astype(float)

In [31]:
df.dtypes

COD_CIA                   int64
COD_SECC                  int64
FECHA_EQUIPO     datetime64[ns]
NUM_POL1                  int64
NUM_SECU_POL              int64
NUM_END                 float64
FECHA_VTO        datetime64[ns]
FEC_PAGO         datetime64[ns]
MONTO_PAGO              float64
COD_COBRO                object
COD_SITUACION            object
dtype: object

In [32]:
df.to_feather("../Datasets/pagos.feather")

***
### Prospect

In [3]:
df = pd.read_csv("../Datasets/TB_PROSPECT.tsv", sep="\t",encoding='latin1')

  interactivity=interactivity, compiler=compiler, result=result)


In [4]:
df.head()

Unnamed: 0,ID,TIPO_DOCUMENTO,NUMERO_DOCUMENTO,APELLIDO,NOMBRES,ORIGEN,SEXO,CLIENTE,CUIT_CUIL,FECHA_NACIMIENTO,FECHA_DEFUNCION,ACT_U_DOMICILIOS,ACT_U_EDAD,ACT_U_TELEFONOS,PADRON,ESTADO_CIVIL,DOMICILIO_NUMERO,ACT_F_SEXO,DOMICILIO_CODIGO_POSTAL,DOMICILIO_DEPTO,DOMICILIO_PISO,CARACTERISTICA_TELEFONO,NUMERO_TELEFONO,TIPO_PERSONA,FECHA_ALTA,FECHA_ACTUALIZACION,NACIONALIDAD,HABILITADO,DATECO_TRABAJA,ACT_F_TELEFONOS,ACT_F_APELLIDO_NOMBRES,ACT_F_ESTADO_CIVIL,ACT_F_HABILITADO,DOMICILIO_OBSERVACIONES,DOMICILIO_BARRIO,DOMICILIO_CALLE,DOMICILIO_EDIFICIO,DOMICILIO_CALLE_ENTRE1,DOMICILIO_CALLE_ENTRE2,DATART_CLAVE_CLIENTE,DATECO_CUIT_EMPLEADOR,DATECO_INGRESO_FAMILIAR,DATECO_INGRESO_PERSONAL,DATECO_AUTONOMO,DATECO_RAZON_SOCIAL_EMPLEADOR,DATECO_ACT_F_AUTONOMO,DATECO_ACT_F_INGRESO_FAMILIAR,DATECO_ACT_F_INGRESO_PERSONAL,DATECO_ACT_F_TRABAJA,DATECO_OBSERVACIONES,DATECO_TELEFONO_EMPLEADOR,DATECO_DOMICILIO_EMPLEADOR,DATMAR_CANTIDAD_HIJOS,DATMAR_CLUB,DATMAR_COMPLETO_ESTUDIOS,DATMAR_NIVEL_EDUCACION,DATMAR_PUNTAJE,DATMAR_VIAJES_ANUALES,DATMAR_ACT_F_CANTIDAD_HIJOS,DATMAR_ACT_F_CLUB,DATMAR_ACT_F_COMPLETO_ESTUDIOS,DATMAR_ACT_F_NIVEL_EDUCACION,DATMAR_ACT_F_PUNTAJE,DATMAR_ACT_F_VIAJES_ANUALES,OPERADOR,DATECO_TIPO_ACTIVIDAD,DATMAR_VACACIONES,DATMAR_HOBBIE,DOMICILIO_TRAMO_ID,DOMICILIO_ID_ENTRE_1,DOMICILIO_ID_ENTRE_2,ACT_F,ACT_U,DOMICILIO_SEMAFORO,TELEFONO_SEMAFORO,ESTADO_CIVIL_SEMAFORO,FECHA_NACIMIENTO_SEMAFORO,TIPO_DOMICILIO,PREFIJO_INTERNACIONAL,PREFIJO_INTERURBANO,TIPO_TELEFONO,CODIGO_NACION,ACT_F_APELLIDO,ACT_F_NOMBRES,ANO_DE_NACIMIENTO,TELEFONO_ID,DOMICILIO_ID,DOMICILIO_LATITUD,DOMICILIO_LONGITUD,POSICION_IVA,POSICION_IB,NUMERO_IB,DATECO_ACT_U_TIPO_ACTIVIDAD,DATECO_ACT_F_TIPO_ACTIVIDAD,ACT_F_TIPO_DOCUMENTO,ACT_F_NUMERO_DOCUMENTO,VALIDO,NEWSLETTER,SEGMENTABLE,ESTADO_CLIENTE,PADRE,TIPO_ORGANIZACION,ACTIVIDAD_SEGURO,MCA_LAVADO,PKUNIVAL,FORMA_JURIDICA,TELEFONO_CEL_ID,MAIL_ID,LUGAR_NACIMIENTO,POLITICAMENTE_EXPUESTA,F_INSC_REGISTRAL,NRO_INSC_REGISTRAL,F_CONTRATO_SOCIAL,MCA_SUSP_COBERTURA,MOTIVO_MCA_LAVADO,POLITICAMENTE_EXPUESTA_DDJJ,DATECO_FECHA_TIPO_ACT,CONFIRMADO_FNAC,USUARIO_RED_SOCIAL_ID,OBSERVACION_LAVADO
0,781234,DOC,11111111,LOPEZ,JUAN,83,F,,20111111110,05/05/1929,,,,,,Soltero,,02/07/1998 03:55:01 p.m.,,,,,,F,20/11/1997 07:02:35 p.m.,12/09/1999 11:51:37 a.m.,,S,,,19/01/2000 06:33:33 p.m.,02/07/1998 03:55:01 p.m.,02/07/1998 03:55:01 p.m.,,,,,,,,,,,,AMES JOSE FERNANDO .,,,,,,,LIBERTAD 365,,,S,SECUNDARIO,,,22/12/1998 06:53:16 p.m.,,07/10/1998 01:54:52 p.m.,07/10/1998 01:54:52 p.m.,,,OPERADOR,COME,,,,,,02/05/2006 08:57:59 p.m.,PATALLO,,,,,PART,,,,,19/01/2000 06:33:33 p.m.,19/01/2000 06:33:33 p.m.,1929.0,3911577.0,9158965.0,,,5.0,3.0,,CEJASPARDO,07/10/1998 01:54:52 p.m.,,,,,,,,,,,,,,,,,,,,,,,,,,
1,9089921,DOC,11111111,LOPEZ,JUAN,83,F,,20111111110,20/11/1990,,,,,,Soltero,,12/10/2001 10:02:25 a.m.,,,,,,F,12/10/2001 10:02:25 a.m.,19/12/2001 10:32:53 a.m.,,S,,,12/10/2001 10:02:25 a.m.,12/10/2001 10:02:25 a.m.,12/10/2001 10:02:25 a.m.,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,02/05/2006 08:57:59 p.m.,PATALLO,,,,,,,,,ARGE,12/10/2001 10:02:25 a.m.,12/10/2001 10:02:25 a.m.,1990.0,,13841283.0,,,5.0,3.0,,,,,,S,,,,,,,,,,,,,,,,,,,,,,,
2,781235,DOC,11111111,LOPEZ,JUAN,83,M,,20111111110,13/03/1953,,VILLANUEVA,,,,Casado,,03/04/1998 05:01:32 a.m.,,,,,,F,20/11/1997 07:02:35 p.m.,28/01/2000 01:25:42 a.m.,,S,,,28/01/2000 01:25:42 a.m.,03/04/1998 05:01:32 a.m.,03/04/1998 05:01:32 a.m.,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,OPS$CONSOLA,,,,,,,02/05/2006 08:57:59 p.m.,PATALLO,,,,,PART,,,,,28/01/2000 01:25:42 a.m.,28/01/2000 01:25:42 a.m.,1953.0,240565.0,5036.0,,,5.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,9089922,DOC,11111111,LOPEZ,JUAN,83,M,,20111111110,06/05/1957,,OPS$QUIROZJM,,,,Casado,5121.0,12/10/2001 10:02:25 a.m.,3400001.0,,,,,F,12/10/2001 10:02:25 a.m.,03/08/2012 06:28:17 p.m.,,S,,,12/10/2001 10:02:25 a.m.,12/10/2001 10:02:25 a.m.,12/10/2001 10:02:25 a.m.,B° APIPE,,SICILIA,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,03/08/2012 06:31:01 p.m.,OPS$QUIROZJM,,,,,,,,,ARGE,12/10/2001 10:02:25 a.m.,12/10/2001 10:02:25 a.m.,1957.0,9904204.0,12087155.0,-5878541970.0,-2745824260.0,5.0,3.0,,,,,,S,,,,,,,,S,,,,,,,,,,,,,,,
4,9089923,DOC,11111111,LOPEZ,JUAN,83,M,,20111111110,09/06/1984,,OPS$VAZQUEZF,,,,Soltero,,12/10/2001 10:02:26 a.m.,1635000.0,,,,,F,12/10/2001 10:02:26 a.m.,,,S,,,12/10/2001 10:02:26 a.m.,12/10/2001 10:02:26 a.m.,12/10/2001 10:02:26 a.m.,,,TORO Y SARMIENTO,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,02/11/2012 12:38:52 p.m.,OPS$VAZQUEZF,A,,,,,,,,ARGE,12/10/2001 10:02:26 a.m.,12/10/2001 10:02:26 a.m.,1984.0,,18714683.0,,,5.0,,,,,,,S,,,,,,,,,,,,,,,,,,,,,,,


In [5]:
(df.isna().mean()).sort_values(ascending=False)

OBSERVACION_LAVADO                1.000000
DATMAR_ACT_F_PUNTAJE              1.000000
FECHA_NACIMIENTO_SEMAFORO         1.000000
ESTADO_CIVIL_SEMAFORO             1.000000
DOMICILIO_TRAMO_ID                1.000000
NEWSLETTER                        1.000000
SEGMENTABLE                       1.000000
PADRE                             1.000000
DATMAR_PUNTAJE                    1.000000
NRO_INSC_REGISTRAL                1.000000
ACT_U_EDAD                        1.000000
CARACTERISTICA_TELEFONO           1.000000
F_INSC_REGISTRAL                  0.999990
F_CONTRATO_SOCIAL                 0.999990
DATECO_INGRESO_FAMILIAR           0.999990
PREFIJO_INTERNACIONAL             0.999990
DATECO_ACT_F_INGRESO_FAMILIAR     0.999980
DATMAR_HOBBIE                     0.999970
PREFIJO_INTERURBANO               0.999960
MOTIVO_MCA_LAVADO                 0.999960
FORMA_JURIDICA                    0.999930
NUMERO_TELEFONO                   0.999920
NACIONALIDAD                      0.999720
USUARIO_RED

In [10]:
df = df.loc[:, df.nunique() > 2]

In [14]:
(df.isna().mean()).sort_values(ascending=False)

PREFIJO_INTERURBANO               0.999960
FORMA_JURIDICA                    0.999930
NUMERO_TELEFONO                   0.999920
USUARIO_RED_SOCIAL_ID             0.999640
DATMAR_VIAJES_ANUALES             0.999110
DATMAR_ACT_F_VIAJES_ANUALES       0.999100
DATMAR_ACT_F_CLUB                 0.998900
DATMAR_CLUB                       0.998900
DOMICILIO_EDIFICIO                0.997960
DATECO_OBSERVACIONES              0.997750
ACTIVIDAD_SEGURO                  0.997270
LUGAR_NACIMIENTO                  0.996760
FECHA_DEFUNCION                   0.996600
DOMICILIO_ID_ENTRE_2              0.996350
DOMICILIO_ID_ENTRE_1              0.995600
NUMERO_IB                         0.994180
TELEFONO_SEMAFORO                 0.991290
DOMICILIO_CALLE_ENTRE2            0.991210
DOMICILIO_CALLE_ENTRE1            0.989470
DATMAR_VACACIONES                 0.988120
DATECO_INGRESO_PERSONAL           0.986840
DATECO_ACT_F_INGRESO_PERSONAL     0.986540
TIPO_ORGANIZACION                 0.982630
DATART_CLAV

In [13]:
df.loc[:, df.isna().mean() < .95]

Unnamed: 0,ID,ORIGEN,FECHA_NACIMIENTO,ACT_U_DOMICILIOS,ACT_U_TELEFONOS,PADRON,ESTADO_CIVIL,DOMICILIO_NUMERO,ACT_F_SEXO,DOMICILIO_CODIGO_POSTAL,FECHA_ALTA,FECHA_ACTUALIZACION,ACT_F_TELEFONOS,ACT_F_APELLIDO_NOMBRES,ACT_F_ESTADO_CIVIL,ACT_F_HABILITADO,DOMICILIO_OBSERVACIONES,DOMICILIO_CALLE,DATECO_CUIT_EMPLEADOR,DATECO_RAZON_SOCIAL_EMPLEADOR,DATECO_ACT_F_AUTONOMO,DATECO_ACT_F_TRABAJA,DATMAR_CANTIDAD_HIJOS,DATMAR_NIVEL_EDUCACION,DATMAR_ACT_F_CANTIDAD_HIJOS,DATMAR_ACT_F_COMPLETO_ESTUDIOS,DATMAR_ACT_F_NIVEL_EDUCACION,OPERADOR,DATECO_TIPO_ACTIVIDAD,ACT_F,ACT_U,TIPO_DOMICILIO,CODIGO_NACION,ACT_F_APELLIDO,ACT_F_NOMBRES,ANO_DE_NACIMIENTO,TELEFONO_ID,DOMICILIO_ID,DOMICILIO_LATITUD,DOMICILIO_LONGITUD,POSICION_IVA,POSICION_IB,DATECO_ACT_U_TIPO_ACTIVIDAD,DATECO_ACT_F_TIPO_ACTIVIDAD,ACT_F_TIPO_DOCUMENTO,ACT_F_NUMERO_DOCUMENTO,TELEFONO_CEL_ID,MAIL_ID,CONFIRMADO_FNAC
0,781234,083,05/05/1929,,,,Soltero,,02/07/1998 03:55:01 p.m.,,20/11/1997 07:02:35 p.m.,12/09/1999 11:51:37 a.m.,,19/01/2000 06:33:33 p.m.,02/07/1998 03:55:01 p.m.,02/07/1998 03:55:01 p.m.,,,,AMES JOSE FERNANDO .,,,,SECUNDARIO,22/12/1998 06:53:16 p.m.,07/10/1998 01:54:52 p.m.,07/10/1998 01:54:52 p.m.,OPERADOR,COME,02/05/2006 08:57:59 p.m.,PATALLO,PART,,19/01/2000 06:33:33 p.m.,19/01/2000 06:33:33 p.m.,1929.0,3911577.0,9158965.0,,,5.0,3.0,CEJASPARDO,07/10/1998 01:54:52 p.m.,,,,,
1,9089921,083,20/11/1990,,,,Soltero,,12/10/2001 10:02:25 a.m.,,12/10/2001 10:02:25 a.m.,19/12/2001 10:32:53 a.m.,,12/10/2001 10:02:25 a.m.,12/10/2001 10:02:25 a.m.,12/10/2001 10:02:25 a.m.,,,,,,,,,,,,,,02/05/2006 08:57:59 p.m.,PATALLO,,ARGE,12/10/2001 10:02:25 a.m.,12/10/2001 10:02:25 a.m.,1990.0,,13841283.0,,,5.0,3.0,,,,,,,
2,781235,083,13/03/1953,VILLANUEVA,,,Casado,,03/04/1998 05:01:32 a.m.,,20/11/1997 07:02:35 p.m.,28/01/2000 01:25:42 a.m.,,28/01/2000 01:25:42 a.m.,03/04/1998 05:01:32 a.m.,03/04/1998 05:01:32 a.m.,,,,,,,,,,,,OPS$CONSOLA,,02/05/2006 08:57:59 p.m.,PATALLO,PART,,28/01/2000 01:25:42 a.m.,28/01/2000 01:25:42 a.m.,1953.0,240565.0,5036.0,,,5.0,,,,,,,,
3,9089922,083,06/05/1957,OPS$QUIROZJM,,,Casado,5121,12/10/2001 10:02:25 a.m.,3400001.0,12/10/2001 10:02:25 a.m.,03/08/2012 06:28:17 p.m.,,12/10/2001 10:02:25 a.m.,12/10/2001 10:02:25 a.m.,12/10/2001 10:02:25 a.m.,B° APIPE,SICILIA,,,,,,,,,,,,03/08/2012 06:31:01 p.m.,OPS$QUIROZJM,,ARGE,12/10/2001 10:02:25 a.m.,12/10/2001 10:02:25 a.m.,1957.0,9904204.0,12087155.0,-5878541970,-2745824260,5.0,3.0,,,,,,,
4,9089923,083,09/06/1984,OPS$VAZQUEZF,,,Soltero,,12/10/2001 10:02:26 a.m.,1635000.0,12/10/2001 10:02:26 a.m.,,,12/10/2001 10:02:26 a.m.,12/10/2001 10:02:26 a.m.,12/10/2001 10:02:26 a.m.,,TORO Y SARMIENTO,,,,,,,,,,,,02/11/2012 12:38:52 p.m.,OPS$VAZQUEZF,,ARGE,12/10/2001 10:02:26 a.m.,12/10/2001 10:02:26 a.m.,1984.0,,18714683.0,,,5.0,,,,,,,,
5,10453622,043,08/03/1965,OPS$MITLON,,,Casado,39,19/11/2002 12:37:31 p.m.,1870011.0,,31/10/2005 02:12:44 p.m.,,31/10/2005 02:12:44 p.m.,04/08/2005 08:01:38 p.m.,,,GRAL GUEMES,3.062698e+10,MINISTERIO DE SALUD PROV BA,,,,,,,,,,06/12/2017 05:35:35 p.m.,OPS$ROMEU,,ARGE,19/11/2002 12:37:31 p.m.,31/10/2005 02:12:44 p.m.,1965.0,7255675.0,15002107.0,-5835539800,-3466926880,5.0,3.0,,,19/11/2002 12:37:31 p.m.,19/11/2002 12:37:31 p.m.,9340676.0,2608244.0,06/12/2017 05:35:35 p.m.
6,10453623,043,29/07/1969,OPS$LOPEZAL,,,Casado,13,19/11/2002 12:37:31 p.m.,5700005.0,,02/10/2014 12:21:29 p.m.,,02/10/2014 12:21:29 p.m.,02/10/2014 12:21:29 p.m.,,,BARRIO TESERA DE CALCUTA MZA A CASA 13,3.062698e+10,MINISTERIO DE SALUD PROV BA,,,,,,,,,,02/10/2014 12:22:48 p.m.,OPS$LOPEZAL,,ARGE,19/11/2002 12:37:31 p.m.,02/10/2014 12:21:29 p.m.,1969.0,,19716420.0,,,5.0,,,,19/11/2002 12:37:31 p.m.,19/11/2002 12:37:31 p.m.,,,
7,8,082,19/12/1974,,,,Soltero,,09/12/1999 11:14:06 a.m.,,13/02/1996,27/01/2005 04:39:53 p.m.,,09/12/1999 11:14:06 a.m.,27/01/2005 04:39:54 p.m.,31/08/1999 06:29:57 a.m.,,,3.064884e+10,POLICIA PROV BUENOS AIRES,,,,,,,,OPERADOR,,02/05/2006 08:43:59 p.m.,PATALLO,LABO,ARGE,09/12/1999 11:14:06 a.m.,09/12/1999 11:14:06 a.m.,1974.0,2432040.0,5718928.0,,,5.0,,,,,04/05/2000 10:58:27 a.m.,,,
8,10453624,043,05/04/1969,OPS$PASSAREL,,,Casado,471,19/11/2002 12:37:32 p.m.,1722006.0,,07/01/2014 12:00:15 p.m.,,17/04/2006 03:52:13 p.m.,06/10/2006 10:00:41 a.m.,,,MAIPU,3.062698e+10,MINISTERIO DE SALUD PROV BA,,,,,,,,,MEDI,15/01/2015 01:57:42 p.m.,OPS$AIRALA,,ARGE,19/11/2002 12:37:32 p.m.,17/04/2006 03:52:13 p.m.,1969.0,6667930.0,14598967.0,-5872442844,-3466835576,5.0,3.0,OPS$CIAPRIAN,07/01/2014 12:00:15 p.m.,19/11/2002 12:37:32 p.m.,19/11/2002 12:37:32 p.m.,11324400.0,1740320.0,
9,10453627,043,06/05/1955,,,,Casado,,19/11/2002 12:38:44 p.m.,,,24/08/2017 10:13:14 a.m.,,24/08/2017 10:13:15 a.m.,24/08/2017 10:13:15 a.m.,,,,3.062698e+10,MINISTERIO DE SALUD PROV BA,,,,,,,,,,24/08/2017 10:13:15 a.m.,OPS$ESTIRIGO,,ARGE,19/11/2002 12:38:44 p.m.,24/08/2017 10:13:15 a.m.,1955.0,,15789359.0,,,5.0,,,,19/11/2002 12:38:44 p.m.,19/11/2002 12:38:44 p.m.,,,


** NOT SAVING TO FEATHER. CHECK LATER IF ANY OF THESE FIELDS IS USEFUL **