In [None]:
%matplotlib inline
import pandas as pd

In [None]:
compras_df = pd.read_csv('/work/clean_compras.csv')

In [None]:
compras_df.dtypes

CVE BEN           int64
BENEFICIARIO     object
RFC              object
FACTURAS         object
CONTRATO         object
CONCEPTO         object
TIPO             object
FDO-#OP         float64
FECHA            object
IMPORTE         float64
SHEET            object
dtype: object

## Empezamos con una expansion de datos que tenemos, fecha por ejemplo

In [None]:
compras_df['FECHA'] = pd.to_datetime(compras_df['FECHA'])

In [None]:
compras_df['DIA'] = compras_df['FECHA'].apply(lambda x: x.day)

In [None]:
compras_df['MES'] = compras_df['FECHA'].apply(lambda x: x.month)

In [None]:
compras_df['ANO'] = compras_df['FECHA'].apply(lambda x: x.year)

## Proyectamos unas variables contra otras

In [None]:
beneficiario_sales = compras_df['BENEFICIARIO'].value_counts().to_dict()

In [None]:
list(beneficiario_sales.keys())[0:5]

['CAR ONE MONTERREY, S.A. DE C.V.',
 'INTERASFALTOS, S.A. DE C.V.',
 'CAMARA MEXICANA DE LA INDUSTRIA DE LA CONSTRUCCION',
 'HISA FARMACEUTICA, S.A. DE C.V.',
 'GRUPO COYOTE MONTERREY, S.A. DE C.V.']

In [None]:
compras_df['BENEFICIARIO_SALES'] = compras_df['BENEFICIARIO'].apply(lambda x: beneficiario_sales[x])

In [None]:
sheet_mean_compras = compras_df.groupby('SHEET')['IMPORTE'].mean()
sheet_mean_compras

SHEET
COMUNIC                         67248.102051
GASTOS VARIOS                  583159.370513
OBRA PUBLICA Y GV FDOS. ESP    484493.743558
SERV PERS                       33521.136634
SERV PROV                      210406.068793
Name: IMPORTE, dtype: float64

In [None]:
sheet_mean_compras.to_dict()

{'COMUNIC': 67248.10205128205,
 'GASTOS VARIOS': 583159.3705128209,
 'OBRA PUBLICA Y GV FDOS. ESP': 484493.74355785875,
 'SERV PERS': 33521.136633663366,
 'SERV PROV': 210406.06879310342}

In [None]:
compras_df['IMPORTE_GASTOS_PROMEDIO'] = compras_df['SHEET'].apply(lambda x: sheet_mean_compras[x])

## Traernos información externa, enriquecer los datos usando un tool de páginas de linkedin

In [None]:
pd.DataFrame(compras_df['BENEFICIARIO'].unique()).to_csv('/work/unique_beneficiarios.csv', index=None)

In [None]:
linkedin_mty = pd.read_csv('/work/linkedin_mty.csv')

In [None]:
has_site = {}
for i, ele in linkedin_mty.fillna(True).iterrows():
    has_site[ele['query']] = True if ele['error'] == True else False

In [None]:
has_site

{'Rosa Lorena Valdez Miranda': True,
 'Roque Yañez Ramos': True,
 'Laura Perla Cordova Rodriguez': True,
 'Rosa Ofelia Coronado Flores': True,
 'Alvaro Flores Palomo': True,
 'Liliana Tijerina Cantu': True,
 'Ruben Basaldua Moyeda': True,
 'Maria Cristina Muñoz Rios': True,
 'Gerardo Guerrero Adame': True,
 'Mayela Maria De Lourdes Quiroga Tamez': True,
 'Humberto Arturo Garza De Hoyos': True,
 'Irma Montero Solis': True,
 'Jorge Alejandro Alvarado Martinez': True,
 'Ana Lilia Coronado Araiza': True,
 'Francisco Salazar Guadiana': True,
 'Maria Thalina Almaraz Gonzalez': True,
 'Diego Armando Arellano Aguilar': True,
 'Jorge Adrian Ayala Cantu': True,
 'Adriana Paola Coronado Ramirez': True,
 'LLANTAS Y SERVICIOS SERNA ANAHUAC,S.A. DE C.V.': True,
 'GH MAQUINARIA Y EQUIPO, S.A.DE C.V.': True,
 'PLOMIFERRETERA EL TORNILLO, S.A. DE C.V.': False,
 'EQUIPOS Y ACCESORIOS CANTU, S.A. DE C.V.': True,
 'PRAXAIR MEXICO S. DE R.L. DE C.V.': True,
 'COMERCIALIZADORA HNOS.ALVAREZ FLORES,S.A.DE C.V

In [None]:
compras_df['HAS_LINKEDIN_SITE'] = compras_df['BENEFICIARIO'].apply(lambda x: has_site)

In [None]:
compras_df['HAS_LINKEDIN_SITE']

0       {'Rosa Lorena Valdez Miranda': True, 'Roque Ya...
1       {'Rosa Lorena Valdez Miranda': True, 'Roque Ya...
2       {'Rosa Lorena Valdez Miranda': True, 'Roque Ya...
3       {'Rosa Lorena Valdez Miranda': True, 'Roque Ya...
4       {'Rosa Lorena Valdez Miranda': True, 'Roque Ya...
                              ...                        
1559    {'Rosa Lorena Valdez Miranda': True, 'Roque Ya...
1560    {'Rosa Lorena Valdez Miranda': True, 'Roque Ya...
1561    {'Rosa Lorena Valdez Miranda': True, 'Roque Ya...
1562    {'Rosa Lorena Valdez Miranda': True, 'Roque Ya...
1563    {'Rosa Lorena Valdez Miranda': True, 'Roque Ya...
Name: HAS_LINKEDIN_SITE, Length: 1564, dtype: object

In [None]:
compras_df.to_csv('/work/compras_df_enriched.csv', index=None)

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=6853f152-0228-4c63-98bd-f29aa5103223' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>