In [6]:
%matplotlib inline
import pandas as pd

In [9]:
compras_df = pd.read_csv('data/clean_compras.csv')

In [10]:
compras_df.dtypes #Observamos el formato de la fecha para poder modificarla si es el caso
#Recorda que convertiste la data a csv para trabajar, es ahi que las fechas perdieron formato

NUM BEN           int64
BENEFICIARIO     object
RFC              object
FACTURA          object
CONTRATO         object
CONCEPTO         object
TIPO             object
# OP            float64
FECHA            object
IMPORTE         float64
SHEET            object
dtype: object

## Empezamos con una expansion de datos que tenemos, fecha por ejemplo

In [12]:
compras_df['FECHA'] = pd.to_datetime(compras_df['FECHA'])

In [13]:
compras_df['DIA'] = compras_df['FECHA'].apply(lambda x : x.day)

In [14]:
compras_df['MES'] = compras_df['FECHA'].apply(lambda x : x.month)

In [15]:
compras_df['ANO'] = compras_df['FECHA'].apply(lambda x : x.year)

## Proyectemos unas variables contra otras

In [17]:
beneficiario_sales = compras_df['BENEFICIARIO'].value_counts().to_dict()

In [18]:
list(beneficiario_sales.keys())[0:5]

['CAMARA MEXICANA DE LA INDUSTRIA DE LA CONSTRUCCION',
 'AUTOKAM REGIOMONTANA,S.A.DE C.V.',
 'CAR ONE MONTERREY, S.A. DE C.V.',
 'PEREZ RIOS RAMIRO',
 'S.I.M.E.P.R.O.D.E.']

In [19]:
compras_df['BENEFICIARIO_SALES'] = compras_df['BENEFICIARIO'].apply(lambda x:beneficiario_sales[x])

In [20]:
sheet_mean_compras = compras_df.groupby('SHEET')['IMPORTE'].mean()

In [21]:
sheet_mean_compras

SHEET
COMUNICACION              109705.343662
CONTRATISTAS Y FDO FED    474566.765787
GASTOS VARIOS             881659.731797
SERV PPROF                229592.166667
SERV. PERS                 59623.405217
Name: IMPORTE, dtype: float64

In [22]:
sheet_mean_compras.to_dict()

{'COMUNICACION': 109705.34366197183,
 'CONTRATISTAS Y FDO FED': 474566.76578729285,
 'GASTOS VARIOS': 881659.7317971016,
 'SERV PPROF': 229592.16666666666,
 'SERV. PERS': 59623.40521739131}

In [24]:
compras_df['IMPORTE_GASTO_PROMEDIO'] = compras_df['SHEET'].apply(lambda x: sheet_mean_compras[x])

## Traernos informacion externa, enriquecer los datos usando una tool de paginas de linkedin

In [25]:
pd.DataFrame(compras_df['BENEFICIARIO'].unique()).to_csv('data/unique_beneficiarios.csv', index=None) 
#creamos un archivo que nos extrae todos los nombres para poder realizar un search en linkedin

In [26]:
#cargar los datos
linkedin_mty = pd.read_csv('data/linkedin_mty.csv')

In [27]:
has_site = {}
for i, ele in linkedin_mty.fillna(True).iterrows():
    has_site[ele['query']] = True if ele['error'] == True else False
    #nos traemos quienes tienen y quienes no linkedin con true y false

In [28]:
has_site

{'Rosa Lorena Valdez Miranda': True,
 'Roque Yañez Ramos': True,
 'Laura Perla Cordova Rodriguez': True,
 'Rosa Ofelia Coronado Flores': True,
 'Alvaro Flores Palomo': True,
 'Liliana Tijerina Cantu': True,
 'Ruben Basaldua Moyeda': True,
 'Maria Cristina Muñoz Rios': True,
 'Gerardo Guerrero Adame': True,
 'Mayela Maria De Lourdes Quiroga Tamez': True,
 'Humberto Arturo Garza De Hoyos': True,
 'Irma Montero Solis': True,
 'Jorge Alejandro Alvarado Martinez': True,
 'Ana Lilia Coronado Araiza': True,
 'Francisco Salazar Guadiana': True,
 'Maria Thalina Almaraz Gonzalez': True,
 'Diego Armando Arellano Aguilar': True,
 'Jorge Adrian Ayala Cantu': True,
 'Adriana Paola Coronado Ramirez': True,
 'LLANTAS Y SERVICIOS SERNA ANAHUAC,S.A. DE C.V.': True,
 'GH MAQUINARIA Y EQUIPO, S.A.DE C.V.': True,
 'PLOMIFERRETERA EL TORNILLO, S.A. DE C.V.': False,
 'EQUIPOS Y ACCESORIOS CANTU, S.A. DE C.V.': True,
 'PRAXAIR MEXICO S. DE R.L. DE C.V.': True,
 'COMERCIALIZADORA HNOS.ALVAREZ FLORES,S.A.DE C.V

In [29]:
compras_df['HAS_LINKED_SITE'] = compras_df['BENEFICIARIO'].apply(lambda x: has_site[x.replace('  ', ' ')])
#creamos la variable/columna que contenga los valores si tienen o no pagine de linkedin

In [30]:
compras_df['HAS_LINKED_SITE']

0       True
1       True
2       True
3       True
4       True
        ... 
1535    True
1536    True
1537    True
1538    True
1539    True
Name: HAS_LINKED_SITE, Length: 1540, dtype: bool

In [32]:
compras_df['HAS_LINKED_SITE'].value_counts()

True     1392
False     148
Name: HAS_LINKED_SITE, dtype: int64

In [33]:
compras_df.to_csv('data/compras_df_enriched.csv', index=None)