# Médicos: Género, Edad y Localización

#### Autor: Carlos Santillán
#### Fecha de creación: 1 de Marzo 2021


## Librerías a importar

In [1]:
import pandas as pd                      ### manejo de dataframes
import numpy as np                       ### manejo de vectores
import io                                ### operador local de máquina
from sqlalchemy import create_engine     ### conexión a sql
import pyodbc                            ### conexión a sql
import time                              ### manejo de tiempo
import datetime                          ### manejo de tiempo
from datetime import date                ### fecha de hoy


In [2]:
hoy = date.today()

## Conexión a SQL Server

In [3]:
engine = create_engine("mssql+pyodbc://read_data:readdata@Xsnw12b091a:1433/DATA_REPOSITORY?driver=ODBC+Driver+17+for+SQL+Server",
                       fast_executemany=True)

## Queries de data

Función para conocer las tablas que hay dentro de la base de datos:

In [3]:
def imprime_tablas(cr):
    '''
    DESC.: Imprime nombre de las tablas en la base de datos
    INPUT: cr (pyodbc cursor)
    OUTPUT: lista con los nombres de las tablas
    '''
    for row in cr.tables():
        print(row.table_name)

In [7]:
#imprime_tablas(engine)

In [4]:
sql_query_VISITAS = "SELECT * FROM [DATA_REPOSITORY].[DATAM].[CRM_VISITAS] where [PERIODO] LIKE '2021%'"
sql_query_SELECCION = "SELECT * FROM [DATA_REPOSITORY].[DATAM].[CRM_SELECCION]"
sql_query_ADDRESS_TOTAL = "SELECT * FROM [DATA_REPOSITORY].[DATAM].[CRM_ADDRESS_TOTAL]"
sql_query_CRM_ECONSENT = "SELECT * FROM [DATA_REPOSITORY].[DATAM].[CRM_ECONSENT]"

Transformamos los queries a dataframes de pandas:

In [6]:
dfVisitas = pd.read_sql(sql_query_VISITAS, engine)
dfSeleleccion = pd.read_sql(sql_query_SELECCION, engine)
dfAddressTotal = pd.read_sql(sql_query_ADDRESS_TOTAL, engine)

In [5]:
dfEconsent = pd.read_sql(sql_query_CRM_ECONSENT, engine)

In [6]:
dfSeleccion = pd.read_sql(sql_query_SELECCION, engine)

In [7]:
dfSeleccion.head()

Unnamed: 0,TEAM_ID,TEAM_EXTERNAL,V_BU,GRUPO,REGION,FUERZA,DTO_ALIGNMENT_ID,DISTRITO,DTO_CVE,DTO,...,FANASA,NADRO,DECIL,FRECUENCIA_NEGOCIO,CATEGORIA_CHC,FRECUENCIA_CHC,SECTOR,TOMADOR_DECISION,CATEGORIA_CALCULADA,CADENA_DE_FARMACIAS
0,5888000000100978,MSL - DIABETES,MEDICAL,MEDICAL,0,MSL - DIABETES,36914004488615,MSD004,MSD001,MSD001,...,,,,,,,,,HCP,
1,5888000000100978,MSL - DIABETES,MEDICAL,MEDICAL,0,MSL - DIABETES,36914004488615,MSD004,MSD001,MSD001,...,,,,,,,,,HCP,
2,5888000000100978,MSL - DIABETES,MEDICAL,MEDICAL,0,MSL - DIABETES,36914004488615,MSD004,MSD001,MSD001,...,,,,,,,,,HCP,
3,5888000000100978,MSL - DIABETES,MEDICAL,MEDICAL,0,MSL - DIABETES,36914004488615,MSD004,MSD001,MSD001,...,,,,,,,,,HCP,
4,5888000000100978,MSL - DIABETES,MEDICAL,MEDICAL,0,MSL - DIABETES,36914004488615,MSD004,MSD001,MSD001,...,,,,,,,,,HCP,


In [8]:
dfSeleccion.columns

Index(['TEAM_ID', 'TEAM_EXTERNAL', 'V_BU', 'GRUPO', 'REGION', 'FUERZA',
       'DTO_ALIGNMENT_ID', 'DISTRITO', 'DTO_CVE', 'DTO', 'GERENTE',
       'ALIGNMENT_ID', 'RUTA', 'REP', 'EMP_NUM', 'CUSTOMER_ID', 'CEDULA',
       'ACTIVACION', 'PATERNO', 'MATERNO', 'NOMBRE', 'APELLIDOS', 'MAIL',
       'ESPECIALIDAD', 'AUDIENCIA', 'SELECCION', 'BIRTH_DATE', 'MEDICOSEXO',
       'TELEFONO', 'TIPOTELEFONO', 'FRECUENCIA', 'FRECUENCIA_KADRIGE', 'CALLE',
       'NUMERO', 'COLONIA', 'DELEGACION', 'CP', 'BRICK', 'CIUDAD', 'ESTADO',
       'LATITUDE', 'LONGITUDE', 'AFFILIATION_ID', 'ADDRESS_ID',
       'EXTERNAL_ID_1', 'CPA', 'CATEGORIA', 'TERRITORIO', 'CLIENTE',
       'CUSTOMER_TYPE', 'KOL', 'TIPO_MEDICO', 'DATA_CLEASING',
       'VALIDACION_DBQ', 'SEL_OUT', 'CUFA', 'ID_ESTRUCTURA', 'ID_SAP', 'TIPO',
       'SUBTIPO', 'NOMBRE_COMERCIAL', 'ESTRUCTURA_COMERCIAL', 'GRUPO_NEGOCIO',
       'MAYORISTA', 'CANAL', 'SEGMENTO', 'INDUSTRY', 'PRECIOS', 'CAMPANA',
       'AUDIENCIA_PHAR', 'FACEBOOK', 'TWITTER', '

In [142]:
#dfSeleccion['DATA_CLEASING'].unique()

In [9]:
len(dfSeleccion)

101997

In [10]:
dfSeleccion['V_BU'].unique()

array(['MEDICAL', 'COMERCIAL', 'CHC', 'PRIMARY CARE', 'GENZYME', 'LEGACY'],
      dtype=object)

Exportamos data de SELECCION integra a carpeta con firma de fecha:

In [50]:
dfSeleccion.to_csv("C:/Users/I0473941/OneDrive - Sanofi/archivos_compartidos/SELECCION/Seleccion_Integra_"+
                       str(hoy)+
                       ".csv",
                       index=False)

Para poder explorar los datos de os médicos, nos quedamos sólo con las columnas necesarias:

In [15]:
seleccionLista = ['RUTA',
                  'CUSTOMER_ID',
                  'FRECUENCIA',
                  'FRECUENCIA_KADRIGE',
                  'BRICK', 
                  'LATITUDE',
                  'LONGITUDE',
                  'BIRTH_DATE',
                  'MEDICOSEXO',
                  'CATEGORIA',
                  'KOL',
                  'ESPECIALIDAD',
                  'CEDULA']

In [16]:
dfSelFilter1 = dfSeleccion[seleccionLista]

La columna de 'BIRTH_DATE' cuenta con valores '' y 'N/A', debemos primero removerlos.

Primero quitamos a los 'null':

In [17]:
dfSelFilter2 = dfSelFilter1[dfSelFilter1['BIRTH_DATE'] != '']

Tras remover los '', nos quedamos con los siguientes renglones:

In [18]:
print("SELECCIÓN tras remover vacíos: " + str(len(dfSelFilter2)))

SELECCIÓN tras remover vacíos: 90888


Ahora quitamos los 'N/A':

In [19]:
dfSelFilter3 = dfSelFilter2[dfSelFilter2['BIRTH_DATE'] != 'N/A']

Tras quitar los 'N/A', quedan los siguientes registros:

In [20]:
print('SELECCION tras quitar N/A y vacíos: ' + str(len(dfSelFilter3)))

SELECCION tras quitar N/A y vacíos: 56374


Transformamos fechas a formato adecuado:

In [21]:
dfSelFilter3['BIRTH_DATE'].unique()

array(['25-01-1953', '26-08-1986', '12-08-1956', ..., '18-08-1967',
       '02-01-2014', '17-06-2020'], dtype=object)

In [22]:
dfSelFilter3['BIRTH_DATE'] = pd.to_datetime(dfSelFilter3['BIRTH_DATE'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfSelFilter3['BIRTH_DATE'] = pd.to_datetime(dfSelFilter3['BIRTH_DATE'])


Verificamos que no existan duplicados:

In [23]:
dfSelFilter3.drop_duplicates(subset ="CUSTOMER_ID", 
                             keep = "first",
                             inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfSelFilter3.drop_duplicates(subset ="CUSTOMER_ID",


In [24]:
len(dfSelFilter3)

34473

Para analizar las edades, tomaremos el año de nacimiento del médico y lo restaremos al año 2021:

In [25]:
hoy = date.today()
dfSelFilter3['TODAY'] = hoy
dfSelFilter3['TODAY'] = pd.to_datetime(dfSelFilter3['TODAY'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfSelFilter3['TODAY'] = hoy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfSelFilter3['TODAY'] = pd.to_datetime(dfSelFilter3['TODAY'])


In [26]:
dfSelFilter3.head()

Unnamed: 0,RUTA,CUSTOMER_ID,FRECUENCIA,FRECUENCIA_KADRIGE,BRICK,LATITUDE,LONGITUDE,BIRTH_DATE,MEDICOSEXO,CATEGORIA,KOL,ESPECIALIDAD,CEDULA,TODAY
0,MSD00407,1007185829,S/F,,12001187,21.102225,-101.646031,1953-01-25,M,S/C,,MEDICO GENERAL,508704,2021-03-17
1,MSD00407,849577000005630,S/F,,12005001,,,1986-08-26,M,S/C,,MEDICO GENERAL,9048238,2021-03-17
2,MSD00407,1007191979,1,,12001128,21.118807,-101.670746,1956-12-08,M,S/C,,MEDICO GENERAL,683287,2021-03-17
3,MSD00407,1007188724,S/F,,15010001,20.635687,-103.297419,1958-05-17,M,S/C,,MEDICO GENERAL,1382440,2021-03-17
4,MSD00407,725634000069430,S/F,,15002019,,,1960-10-28,F,S/C,,MEDICO GENERAL,1339223,2021-03-17


In [29]:
dfSelFilter3['TEST_AGE'] = (dfSelFilter3['TODAY'] - dfSelFilter3['BIRTH_DATE'])
dfSelFilter3['TEST_AGE'] = dfSelFilter3['TEST_AGE'] / np.timedelta64(1, 'Y')
dfSelFilter3['TEST_AGE'] = dfSelFilter3['TEST_AGE'].apply(np.floor)
dfSelFilter3.head()
#dfSelFilter3['TEST_AGE'].apply(np.floor)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfSelFilter3['TEST_AGE'] = (dfSelFilter3['TODAY'] - dfSelFilter3['BIRTH_DATE'])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfSelFilter3['TEST_AGE'] = dfSelFilter3['TEST_AGE'] / np.timedelta64(1, 'Y')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfSelFilter3['TEST_AGE'] = dfSelFilter3['TEST_AG

Unnamed: 0,RUTA,CUSTOMER_ID,FRECUENCIA,FRECUENCIA_KADRIGE,BRICK,LATITUDE,LONGITUDE,BIRTH_DATE,MEDICOSEXO,CATEGORIA,KOL,ESPECIALIDAD,CEDULA,TODAY,TEST_AGE
0,MSD00407,1007185829,S/F,,12001187,21.102225,-101.646031,1953-01-25,M,S/C,,MEDICO GENERAL,508704,2021-03-17,68.0
1,MSD00407,849577000005630,S/F,,12005001,,,1986-08-26,M,S/C,,MEDICO GENERAL,9048238,2021-03-17,34.0
2,MSD00407,1007191979,1,,12001128,21.118807,-101.670746,1956-12-08,M,S/C,,MEDICO GENERAL,683287,2021-03-17,64.0
3,MSD00407,1007188724,S/F,,15010001,20.635687,-103.297419,1958-05-17,M,S/C,,MEDICO GENERAL,1382440,2021-03-17,62.0
4,MSD00407,725634000069430,S/F,,15002019,,,1960-10-28,F,S/C,,MEDICO GENERAL,1339223,2021-03-17,60.0


Generamos columna para grupo de edad:

In [63]:
edades = [0, 18, 25, 35, 45, 55, 65]
etiquetasEdades = ['Graduado', '25 a 35', '36 a 45', '46 a 55', '55 a 65', 'Adulto Mayor']

dfSelFilter3['GRUPO_EDAD'] = pd.cut(dfSelFilter3['EDAD'],
                                    bins=edades,
                                    labels=etiquetasEdades,
                                    right=False)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfSelFilter3['GRUPO_EDAD'] = pd.cut(dfSelFilter3['EDAD'],


In [64]:
dfSelFilter3.head()

Unnamed: 0,RUTA,CUSTOMER_ID,FRECUENCIA,FRECUENCIA_KADRIGE,BRICK,LATITUDE,LONGITUDE,BIRTH_DATE,MEDICOSEXO,CATEGORIA,KOL,ESPECIALIDAD,CEDULA,BIRTH_YEAR,CURRENT_YEAR,EDAD,GRUPO_EDAD
0,MSD00407,1007174153,1,,15004062,20.630083,-103.39175,1964-05-30,M,S/C,,MEDICO GENERAL,4160463,1964,2021,57,Adulto Mayor
1,MSD00407,1007166869,1,,15001061,20.687654,-103.392908,1956-08-28,F,S/C,,ENDOCRINOLOGO,691022,1956,2021,65,
2,MSD00407,496002000000087,1,,15001039,20.685573,-103.378619,1981-11-19,F,S/C,,ENDOCRINOLOGO,6442469,1981,2021,40,46 a 55
3,MSD00407,1007184801,1,,16001094,19.693453,-101.163226,1960-08-04,M,S/C,,INTERNISTA,921649,1960,2021,61,Adulto Mayor
4,MSD00407,1007201132,1,,15001039,20.678856,-103.379431,1969-12-27,F,S/C,,ENDOCRINOLOGO,2178764,1969,2021,52,55 a 65


Exportamos el dataframe modificado:

In [65]:
dfSelFilter3.to_csv("C:/Users/I0473941/OneDrive - Sanofi/archivos_compartidos/SELECCION/Seleccion_Unicos_"+
                       str(hoy)+
                       ".csv",
                       index=False)

Agrupamos nuestra data:

In [71]:
groupGrupoEdad = dfSelFilter3.groupby(['GRUPO_EDAD'])[['ESPECIALIDAD']].count()

In [72]:
groupGrupoEdad

Unnamed: 0_level_0,ESPECIALIDAD
GRUPO_EDAD,Unnamed: 1_level_1
Graduado,87
25 a 35,8
36 a 45,1254
46 a 55,5179
55 a 65,4785
Adulto Mayor,5578


In [73]:
groupEspecialidad = dfSelFilter3.groupby(['ESPECIALIDAD'])[['BRICK']].count() 

In [74]:
groupEspecialidad

Unnamed: 0_level_0,BRICK
ESPECIALIDAD,Unnamed: 1_level_1
,2
ADMINISTRATIVO,613
ALERGOLOGO,148
ALGOLOGO,3
ANESTESIOLOGO,45
ANGIOLOGO,86
AUDIOLOGO,1
CARDIOLOGO,831
CIR. TRANSPLANTÓLOGO,14
CIRUJANO,231


Visualizamos por género:

In [75]:
groupGenero = dfSelFilter3.groupby(['MEDICOSEXO'])[['BRICK']].count()

In [76]:
groupGenero

Unnamed: 0_level_0,BRICK
MEDICOSEXO,Unnamed: 1_level_1
,10
F,6086
M,15170


Podemos hacer un agrupamiento que considere las 3 variables:

In [77]:
groupMedicos = dfSelFilter3.groupby(['GRUPO_EDAD', 'ESPECIALIDAD', 'MEDICOSEXO'])[['BRICK']].count()

In [79]:
flatMedicos = pd.DataFrame(groupMedicos.to_records())

Notamos que existen algunas combinaciones que resultan en 'NaN', por lo que omitiremos esos resultados:

In [82]:
flatMedicos = flatMedicos.dropna()

In [83]:
flatMedicos

Unnamed: 0,GRUPO_EDAD,ESPECIALIDAD,MEDICOSEXO,BRICK
4,Graduado,ADMINISTRATIVO,F,6.0
5,Graduado,ADMINISTRATIVO,M,5.0
22,Graduado,CARDIOLOGO,F,1.0
23,Graduado,CARDIOLOGO,M,1.0
26,Graduado,CIR. TRANSPLANTÓLOGO,M,1.0
...,...,...,...,...
1054,Adulto Mayor,URGENCIOLOGO,F,3.0
1055,Adulto Mayor,URGENCIOLOGO,M,9.0
1058,Adulto Mayor,UROLOGO,M,6.0
1060,Adulto Mayor,VIAS RESPIRATORIAS,F,1.0


In [85]:
dfVisitas.columns

Index(['BU', 'FUERZA', 'ESTATUS_RUTA', 'DTO', 'RUTA', 'REPRESENTANTE',
       'ID_VISITA', 'DATE_PLANNED', 'EVT_STAT_CD', 'PERIODO', 'CATEGORIA',
       'ESPECIALIDAD', 'HCP', 'BRICK', 'ESTADO', 'CIUDAD', 'DELEGACION',
       'VISITA_EFECTUADA', 'ACOMPAÑADO_POR', 'DATE_EFFECTED', 'FRECUENCIA',
       'CUSTOMER_ID', 'CUSTOMER_TYPE', 'HOST_PROCESS_DATE',
       'INTERACTION_CHANNEL'],
      dtype='object')

In [86]:
dfVisitas.head()

Unnamed: 0,BU,FUERZA,ESTATUS_RUTA,DTO,RUTA,REPRESENTANTE,ID_VISITA,DATE_PLANNED,EVT_STAT_CD,PERIODO,...,CIUDAD,DELEGACION,VISITA_EFECTUADA,ACOMPAÑADO_POR,DATE_EFFECTED,FRECUENCIA,CUSTOMER_ID,CUSTOMER_TYPE,HOST_PROCESS_DATE,INTERACTION_CHANNEL
0,CHC,REPRESENTANTES CHC,ACTV,CFC002,CFR00230,"RICO VAZQUEZ, ERICK",1111538000001867,29-JAN-21,Terminada,202101,...,MATAMOROS [TAMPS.],MATAMOROS,1.0,GTE. DISTRITO,29-JAN-21,1,60000546238789,PHAR,30-JAN-21,PHON
1,CHC,REPRESENTANTES CHC,ACTV,CFC002,CFR00230,"RICO VAZQUEZ, ERICK",1111538000001585,27-JAN-21,Terminada,202101,...,SINGUILUCAN [HGO.],SINGUILUCAN [HGO.],1.0,GTE. DISTRITO,27-JAN-21,0,60000540305315,PHAR,28-JAN-21,PHON
2,CHC,REPRESENTANTES CHC,ACTV,CFC002,CFR00230,"RICO VAZQUEZ, ERICK",1111538000001605,27-JAN-21,Terminada,202101,...,ATIZAPAN DE ZARAGOZA [MEX.],ATIZAPAN DE ZARAGOZA [MEX.],1.0,GTE. DISTRITO,27-JAN-21,0,60000540299394,PHAR,28-JAN-21,PHON
3,CHC,REPRESENTANTES CHC,ACTV,CFC002,CFR00230,"RICO VAZQUEZ, ERICK",1111538000001735,28-JAN-21,Terminada,202101,...,QUERETARO [QRO.],QUERETARO [QRO.],1.0,GTE. DISTRITO,28-JAN-21,0,60000540301624,PHAR,29-JAN-21,PHON
4,CHC,REPRESENTANTES CHC,ACTV,CFC002,CFR00230,"RICO VAZQUEZ, ERICK",1111538000001856,29-JAN-21,Terminada,202101,...,TEQUIXQUIAC [MEX.],TEQUIXQUIAC [MEX.],1.0,GTE. DISTRITO,29-JAN-21,0,60000540305326,PHAR,29-JAN-21,PHON


In [87]:
dfVisitas['DTO'].unique()

array(['CFC002', 'CFC005', 'CFC003', 'CFC004', 'CFC001', 'CFC006',
       'CFC008', 'CFC007', 'HEM001', 'PHG002', 'PHG001', 'PCL001',
       'PHG003', 'MSD002', 'ONC001', 'PCD006', 'COD001', 'COW001',
       'COW002', 'PCA001', 'PCA002', 'PCA003', 'PCA004', 'PCA005',
       'PCD001', 'PCD002', 'PCD003', 'PCD004', 'PCD005', 'PPP001',
       'PPP002', 'PPP003', 'PPP005', 'PPP004', 'PPP006', 'PCW001',
       'PCW002', 'PCW003', 'POS001', 'POS002', 'POS003', 'COC001',
       'LVP001', 'IAS001', 'MZC001', 'FZA001', 'MSD001', 'EMU001'],
      dtype=object)

## Data de ONE KEY

De momento, tomamos la extracción de Excel:

In [18]:
dfMexHCP = pd.read_excel("C:/Users/I0473941/OneDrive - Sanofi/archivos_compartidos/ONE_KEY/ONE_KEY - MX_HCP_Extraction.xlsx", 
                         sheet_name="MX_HCP_Single_Row")

dfMexHCPMultiple = pd.read_excel("C:/Users/I0473941/OneDrive - Sanofi/archivos_compartidos/ONE_KEY/ONE_KEY - MX_HCP_Extraction.xlsx", 
                         sheet_name="MX_HCP_With_Multiple Address")

dfMexHCPNoAddress = pd.read_excel("C:/Users/I0473941/OneDrive - Sanofi/archivos_compartidos/ONE_KEY/ONE_KEY - MX_HCP_Extraction.xlsx", 
                         sheet_name="MX_HCP_Without Address")


Hacemos control del número de registros en los 3 dataframes:

In [19]:
print("Renglones en HCP: " + str(len(dfMexHCP)))
print("Renglones en HCP Múltiples direcciones: " + str(len(dfMexHCPMultiple)))
print("Renglones en HCP sin dirección: " + str(len(dfMexHCPNoAddress)))

Renglones en HCP: 184872
Renglones en HCP Múltiples direcciones: 500
Renglones en HCP sin dirección: 2230


Tras observar la mayoría de los médicos en las múltiples direcciones, nos damos cuenta de que la mayoría de los casos implican un ligero cambio de caractéres en la dirección, por lo cual podemos sólo quedarnos con los registros sin duplicados:

In [21]:
dfMexHCPMultiple.drop_duplicates(subset ="CEDULA ID", 
                             keep = 'first',
                             inplace = True)

Corroboramos nuevamente registros:

In [26]:
print("Renglones en HCP: " + str(len(dfMexHCP)))
print("Renglones en HCP Múltiples direcciones: " + str(len(dfMexHCPMultiple)))
print("Renglones en HCP sin dirección: " + str(len(dfMexHCPNoAddress)))

Renglones en HCP: 184872
Renglones en HCP Múltiples direcciones: 242
Renglones en HCP sin dirección: 2035


Verificamos que los registros de 'No Address' no cuenten con duplicados:

In [27]:
dfMexHCPNoAddress.drop_duplicates(subset ="CEDULA ID", 
                             keep = 'first',
                             inplace = True)

In [28]:
print("Renglones en HCP: " + str(len(dfMexHCP)))
print("Renglones en HCP Múltiples direcciones: " + str(len(dfMexHCPMultiple)))
print("Renglones en HCP sin dirección: " + str(len(dfMexHCPNoAddress)))

Renglones en HCP: 184872
Renglones en HCP Múltiples direcciones: 242
Renglones en HCP sin dirección: 2035


Corroboramos que los médicos en el dataframe de Múltiples Direcciones no se encuentren ya en el dataframe de Médicos Únicos:

In [34]:
listaCedulasMultiple = dfMexHCPMultiple['CEDULA ID'].astype(str).tolist()
lista = set(listaCedulasMultiple)

dfValidacion = dfMexHCP[dfMexHCP['CEDULA ID'].astype(str).map(lista.issubset)]

In [35]:
dfValidacion

Unnamed: 0,MDM_ID,ONEKEY_ID,CEDULA ID,ACTIVE_STATUS,LAST_NAME,FIRST_NAME,Gender,TITLE,PROFESSION,SPECIALTY,ADDRESS,CITY,COUNTY,POSTAL_ZIP_CODE


Esto comprueba que no hay cédulas de médicos con registros múltiples en el set de médicos únicos, por lo que es pertinente hacer un concatenado de los dataframes:

## ECONSENT (On Hold 9-Mar-2021)

(11-MAR-2021) De momento, usaremos la extracción compartida por Mar:

In [120]:
dfEconsent = pd.read_csv("C:/Users/I0473941/OneDrive - Sanofi/archivos_compartidos/ECONSENT/econsent_20210310.csv",
                         encoding='latin-1')

In [11]:
dfEconsent.columns

Index(['CHANNEL_CODE', 'CONSENT_OPT', 'CUSTOMER_ID', 'CREATE_DATE',
       'LAST_UPDATE_DATE', 'EFFECTIVE_START_DATE', 'CHANNEL_VALUE', 'NAME',
       'FIRST_NAME', 'MIDDLE_NAME'],
      dtype='object')

In [12]:
len(dfEconsent)

342

In [13]:
dfEconsent.head()

Unnamed: 0,CHANNEL_CODE,CONSENT_OPT,CUSTOMER_ID,CREATE_DATE,LAST_UPDATE_DATE,EFFECTIVE_START_DATE,CHANNEL_VALUE,NAME,FIRST_NAME,MIDDLE_NAME
0,E-mail,Acepta Suscribirse,1007195606,03/02/21,03/02/21,03/02/21,drramonbautista@gmail.com,BAUTISTA GARCIA,RAMON,BAUTISTA
1,E-mail,Acepta Suscribirse,993078000013129,09/12/20,09/12/20,09/12/20,dr.mariovr@gmail.com,VAZQUEZ ROSALES,MARIO,VAZQUEZ
2,E-mail,Acepta Suscribirse,879436000006123,21/01/21,21/01/21,21/01/21,jahv0126@hotmail.com,HERNANDEZ VAZQUEZ,JOSE ANTONIO,HERNANDEZ
3,eDetailing,Acepta Suscribirse,858148000016449,07/01/21,08/01/21,08/01/21,,ALAMILLA LOPEZ,KAREM,ALAMILLA
4,E-mail,Acepta Suscribirse,1007137307,11/01/21,11/01/21,11/01/21,fhernandtorres@yahoo.com.mx,TORRES SANCHEZ,JOSE FERNANDO,TORRES


**CONEXIÓN CON SQL SERVER**

Notamos que las columnas de este dataframe contienen "" en los nombres de las columnas, primero habrá que removerlos:

In [24]:
dfEconsent.columns = dfEconsent.columns.str.replace('[""]', '')

In [25]:
len(dfEconsent)

285

Nos quedamos sólo con columnas que sí necesitamos:

In [129]:
listaEconsent = ['CUSTOMER_ID', 'CONSENT_OPT', 'EFFECTIVE_START_DATE']

dfEconsent2 = dfEconsent[listaEconsent]

Leemos la data de VISITAS para experimentar el cruce:

In [124]:
dfVisitasActual = pd.read_csv("C:/Users/I0473941/OneDrive - Sanofi/archivos_compartidos/Visitas_Full_YTD_2021.csv")

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


In [125]:
len(dfVisitasActual)

187257

In [126]:
dfVisitasActual.columns

Index(['Unnamed: 0', 'V_BU', 'V_FUERZA', 'V_DTO', 'V_RUTA', 'PERIODO',
       'ESPECIALIDAD', 'BRICK', 'V_EDONAME', 'V_CIUDAD', 'V_DELEGACION',
       'V_EFFECTED', 'DATE_EFFECTED', 'FRECUENCIA', 'CUSTOMER_ID',
       'INTERACTION_CHANNEL', 'MONTH', 'YEAR', 'WEEK', 'CHANNEL_H2',
       'X_AVENTIS_MARK_03'],
      dtype='object')

Hacemos merge:

In [127]:
dfVisitasActual.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 187257 entries, 0 to 187256
Data columns (total 21 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   Unnamed: 0           187257 non-null  int64  
 1   V_BU                 187257 non-null  object 
 2   V_FUERZA             187257 non-null  object 
 3   V_DTO                187257 non-null  object 
 4   V_RUTA               187257 non-null  object 
 5   PERIODO              187257 non-null  int64  
 6   ESPECIALIDAD         187257 non-null  object 
 7   BRICK                186409 non-null  object 
 8   V_EDONAME            187257 non-null  object 
 9   V_CIUDAD             187257 non-null  object 
 10  V_DELEGACION         187239 non-null  object 
 11  V_EFFECTED           187257 non-null  float64
 12  DATE_EFFECTED        187257 non-null  object 
 13  FRECUENCIA           183757 non-null  float64
 14  CUSTOMER_ID          187257 non-null  int64  
 15  INTERACTION_CHANN

In [130]:
dfEconsent2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128844 entries, 0 to 128843
Data columns (total 3 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   CUSTOMER_ID           128844 non-null  float64
 1   CONSENT_OPT           128844 non-null  object 
 2   EFFECTIVE_START_DATE  128844 non-null  object 
dtypes: float64(1), object(2)
memory usage: 2.9+ MB


In [131]:
dfTest1 = dfVisitasActual.merge(dfEconsent2, on="CUSTOMER_ID", how="left")

In [133]:
dfTest1.to_csv("C:/Users/I0473941/OneDrive - Sanofi/Primary Care/1. Visitas/prueba.csv")

## CRM_RTE

El objetivo será tener la tabla integra, pero añadiendo 'CUSTOMER_ID', Edad y Género.

In [37]:
sql_query_CRM_RTE= "SELECT * FROM [DATA_REPOSITORY].[DATAM].[CRM_RTE]"

In [38]:
dfCRMRTE = pd.read_sql(sql_query_CRM_RTE, engine)

In [39]:
dfCRMRTE.columns

Index(['FUERZA', 'RUTA', 'REPRESENTANTE', 'PLAN', 'PRODUCTO', 'CUSTOMER_ID',
       'NAME', 'FIRST_NAME', 'EMAIL_ADDRESS', 'MES', 'STATUS', 'OPEN'],
      dtype='object')

In [40]:
len(dfCRMRTE)

11214

In [41]:
dfCRMRTE.head()

Unnamed: 0,FUERZA,RUTA,REPRESENTANTE,PLAN,PRODUCTO,CUSTOMER_ID,NAME,FIRST_NAME,EMAIL_ADDRESS,MES,STATUS,OPEN
0,CARDIO,PCA001,"CARDOZA CALDERON, JANET",CAMPAÑA_APROVASC/COAPROVEL,APROVASC.,1007170159,MONTES DE OCA BENITEZ,NANCY,zeltyn760717@gmail.com,202010,SENT,
1,CARDIO,PCA001,"CARDOZA CALDERON, JANET",CARDIO ¿ DESESCALADA TEMPRANA DEL TRATAMIENTO ...,PLAVIX FAM,329040000006265,ALVAREZ CONTRERAS,LUIS ROBERTO,lalvalez@gmail.com,202011,SENT,
2,CARDIO,PCA00101,"MELO PACHECO, RAFAEL",TRIGGERED EMAIL FAM. PLAVIX,PLAVIX FAM,946026000004937,CORTES DE LA TORRE,JUAN MANUEL DE JESUS,drcortesdelatorre@gmail.com,202010,SENT,1.0
3,CARDIO,PCA00101,"MELO PACHECO, RAFAEL",TRIGGERED EMAIL FAM. PLAVIX,PLAVIX FAM,36914001074809,REYES PASCUAL,JESUS,Doctorpascual79@gmauil.com,202010,SENT,
4,CARDIO,PCA00101,"MELO PACHECO, RAFAEL",CAMPAÑA_APROVASC/COAPROVEL,APROVASC.,519206000003555,LOPEZ VIRAMONTES,BEATRIZ,beatrizlopez_1@yahoo.com.mx,202010,SENT,


Crearemos un dataframe de SELECCION que contenga unicamente 'CUSTOMER_ID', Edad y Género:

In [67]:
listaSeleccionMerge = ['CUSTOMER_ID', 'BIRTH_DATE', 'MEDICOSEXO', 'EDAD']

In [68]:
dfSelMerge = dfSelFilter3[listaSeleccionMerge]

Hacemos merge entre RTE y SELECCION:

In [71]:
dfMergeSeleccionRTE = dfCRMRTE.merge(dfSelMerge, on="CUSTOMER_ID", how="left")

In [72]:
len(dfMergeSeleccionRTE)

11214

In [73]:
dfMergeSeleccionRTE.head()

Unnamed: 0,FUERZA,RUTA,REPRESENTANTE,PLAN,PRODUCTO,CUSTOMER_ID,NAME,FIRST_NAME,EMAIL_ADDRESS,MES,STATUS,OPEN,BIRTH_DATE,MEDICOSEXO,EDAD
0,CARDIO,PCA001,"CARDOZA CALDERON, JANET",CAMPAÑA_APROVASC/COAPROVEL,APROVASC.,1007170159,MONTES DE OCA BENITEZ,NANCY,zeltyn760717@gmail.com,202010,SENT,,1976-07-17,F,45.0
1,CARDIO,PCA001,"CARDOZA CALDERON, JANET",CARDIO ¿ DESESCALADA TEMPRANA DEL TRATAMIENTO ...,PLAVIX FAM,329040000006265,ALVAREZ CONTRERAS,LUIS ROBERTO,lalvalez@gmail.com,202011,SENT,,1983-08-22,M,38.0
2,CARDIO,PCA00101,"MELO PACHECO, RAFAEL",TRIGGERED EMAIL FAM. PLAVIX,PLAVIX FAM,946026000004937,CORTES DE LA TORRE,JUAN MANUEL DE JESUS,drcortesdelatorre@gmail.com,202010,SENT,1.0,1985-05-08,M,36.0
3,CARDIO,PCA00101,"MELO PACHECO, RAFAEL",TRIGGERED EMAIL FAM. PLAVIX,PLAVIX FAM,36914001074809,REYES PASCUAL,JESUS,Doctorpascual79@gmauil.com,202010,SENT,,1979-08-22,M,42.0
4,CARDIO,PCA00101,"MELO PACHECO, RAFAEL",CAMPAÑA_APROVASC/COAPROVEL,APROVASC.,519206000003555,LOPEZ VIRAMONTES,BEATRIZ,beatrizlopez_1@yahoo.com.mx,202010,SENT,,1982-01-06,F,39.0


Exportamos nuestro Merge:

In [74]:
dfMergeSeleccionRTE.to_csv("C:/Users/I0473941/OneDrive - Sanofi/archivos_compartidos/RTE/RTE_Seleccion_"+
                       str(hoy)+
                       ".csv",
                       index=False)

## Data de VISITAS por Ruta

In [79]:
dfPrimaryCareConcat2 = pd.read_csv("C:/Users/I0473941/OneDrive - Sanofi/DATA_CSV_PC/Template_Dashboard_Visitas_PC.csv")
dfCHCConcat2 = pd.read_csv("C:/Users/I0473941/OneDrive - Sanofi/DATA_CSV_CHC/Template_Dashboard_Visitas_CHC.csv")
dfGenzymeConcat2 = pd.read_csv("C:/Users/I0473941/OneDrive - Sanofi/DATA_CSV_SC/Template_Dashboard_Visitas_G.csv")

In [104]:
dfPrimaryCareConcat2['V_DTO'].unique()

array(['PHG002', 'PHG001', 'PCL001', 'PHG003', 'PCD006', 'COD001',
       'COW001', 'COW002', 'PCA001', 'PCA002', 'PCA003', 'PCA004',
       'PCA005', 'PCD001', 'PCD002', 'PCD003', 'PCD004', 'PCD005',
       'PCW001', 'PCW002', 'PCW003', 'POS001', 'POS002', 'POS003',
       'COC001', 'PCD008', 'PCW004'], dtype=object)

Creamos sub-dataframes a partir de los distritos únicos, serán los siguientes:

- Primary Care tiene 27 Distritos

- Genzyme tiene 10 Distritos

- CHC tiene 15 Distritos

In [96]:
arrayDTOPrimaryCare = dfPrimaryCareConcat2['V_DTO'].unique()
arrayDTOGenzyme = dfGenzymeConcat2['V_DTO'].unique()
arrayDTOCHC = dfCHCConcat2['V_DTO'].unique()

In [98]:
len(arrayDTOCHC)

15

Datasets por distrito para Primary Care:

Data por distrito para Genyzme:

Data por distrito para CHC:

Guardamos dataframes en carpetas, comenzamos con Primary Care:

In [None]:
for unidad in dfPrimaryCareConcat2["V_BU"].drop_duplicates(keep = "first"):
    dfTest = dfPrimaryCareConcat2[dfPrimaryCareConcat2['V_BU'] == unidad]
    for distrito in dfTest['V_DTO'].drop_duplicates(keep = "first"):
        dfTest.to_csv("C:/Users/I0473941/OneDrive - Sanofi/DATA_CSV_PC/DISTRITOS_CSV/TEST/Visitas_"+ str(distrito) + "_" + str(hoy) + ".csv", index=False)

Genzyme:

In [None]:
for unidad in dfGenzymeConcat2["V_BU"].drop_duplicates(keep = "first"):
    dfGenzymeFilterBU = dfGenzymeConcat2[dfGenzymeConcat2['V_BU'] == unidad]
    for distrito in dfGenzymeFilterBU['V_DTO'].drop_duplicates(keep = "first"):
        dfGenzymeFilterBU.to_csv("C:/Users/I0473941/OneDrive - Sanofi/DATA_CSV_SC/DISTRITOS_CSV/TEST/Visitas_"+ str(distrito) + "_" + str(hoy) + ".csv", index=False)

CHC:

In [136]:
for unidad in dfCHCConcat2["V_BU"].drop_duplicates(keep = "first"):
    dfCHCFilterBU = dfCHCConcat2[dfCHCConcat2['V_BU'] == unidad]
    for distrito in dfCHCFilterBU['V_DTO'].drop_duplicates(keep = "first"):
        dfCHCFilterBU.to_csv("C:/Users/I0473941/OneDrive - Sanofi/DATA_CSV_CHC/DISTRITOS_CSV/TEST/Visitas_"+ str(distrito) + "_" + str(hoy) + ".csv", index=False)

## Notas 5-Mar-2021

1. Tener la Selección Diaria en Excel con temporalidad (fecha en el nombre)
    - Queremos todas las columnas?
    - Queremos eliminar los duplicados?



2. Cuotas: automatización de cálculo de objetivos


3. Explorar 'DDD Natural'


4. **(DONE)** Determinar qué datasets tienen datos y cuáles no


5. **(DONE)** Data de RTE con merge de SELECCION