# SL Fidelidad - 01_Load Data

Fuentes disponibles:
- caracteristicas
- abonos
- eventos

In [18]:
# !pip install openpyxl
# !pip install xlrd

In [1]:
import pandas as pd
import numpy as np
from pathlib import Path
import pickle

import xlrd
from openpyxl import load_workbook

In [2]:
# seteo carpetas
BASE = Path().absolute().parent
RAW = Path(BASE/'raw')
DATA = Path(BASE/'data')

## Carga de datos y preparacion de tablas

#### Tablon de socios

In [45]:
# caracteristicas
df_soc = pd.read_excel(RAW/'socios_20200101.xlsx', engine='openpyxl')
# df_soc.head()

In [47]:
# df_soc.columns

In [4]:
# df_soc['Tipo de socio'].value_counts()

In [48]:
# tipo de socio
df_soc['tipo_socio'] = 'SIMPLE'
df_soc.loc[(df_soc['Tipo de socio'] == '3 - INTERIOR'), 'tipo_socio'] = 'INTERIOR'
df_soc.loc[(df_soc['Tipo de socio'] == '4 - EXTERIOR'), 'tipo_socio'] = 'EXTERIOR'
df_soc.loc[(df_soc['Tipo de socio'] == '5 - PATRIMONIAL'), 'tipo_socio'] = 'PATRIMONIAL'
df_soc.loc[(df_soc['Tipo de socio'] == '2 - PLENO'), 'tipo_socio'] = 'PLENO'
df_soc.loc[(df_soc['Tipo de socio'] == 'VITALICIO'), 'tipo_socio'] = 'VITALICIO'
# df_soc['tipo_socio'].value_counts()

In [49]:
# forma de pago
# print(df_soc['Forma de pago'].value_counts())
df_soc.loc[(df_soc['Forma de pago'] == 'Débito Automático'), 'forma_pago'] = 'DEBITO'
df_soc.loc[(df_soc['Forma de pago'] == 'Efectivo'), 'forma_pago'] = 'EFECTIVO'

In [52]:
# renombro
df_soc = df_soc.rename(columns={'F. Ingreso': 'fecha_ingreso'})

In [53]:
df_socios = df_soc[['Socio', 'Sexo', 'tipo_socio', 'forma_pago', 'fecha_ingreso']]
df_socios.columns = [x.lower() for x in df_socios.columns]

In [54]:
# index a string
df_socios = df_socios.set_index('socio')
# df_socios.head()
df_socios.index = df_socios.index.map(str)

#### Abonados

In [32]:
# abonos
df_abo = pd.read_csv(RAW/'abonos_historico.csv', sep=';', encoding = "ISO-8859-1")
# df_abo.head()

In [33]:
# filtro abonos que no importan para el analisis
df_abo = df_abo[df_abo['Sector']!='ESTACIONAMIENTO']
# df_abo['Sector'].value_counts()

In [34]:
# año del abono
df_abo['abo_year'] = df_abo['Vencimiento'].str.slice(start = -4)
# df_abo['abo_year'].value_counts()

In [35]:
# elimino nulls
df_abo = df_abo.rename(columns={'Socio': 'socio'})
df_abo = df_abo.loc[-df_abo['socio'].isna()]
df_abo['socio'] = df_abo['socio'].astype(int).astype(str)

In [12]:
# df_abo.shape

In [28]:
# len(df_abo['socio'].unique())

In [36]:
# genero dataframe con variables por abono
df_abonos = pd.concat([
    # bideg 2020
    pd.DataFrame(
        {'socio':df_abo.loc[(df_abo['abo_year'] == '2020') & (df_abo['Sector'].isin(['PLATEA SUR', 'PLATEA NORTE']))\
                              , 'socio']
         ,'abo_bid_2020':1}
    ).set_index('socio'),
    # bideg 2021
    pd.DataFrame(
        {'socio':df_abo.loc[(df_abo['abo_year'] == '2021') & (df_abo['Sector'].isin(['PLATEA SUR', 'PLATEA NORTE']))\
                              , 'socio']
         ,'abo_bid_2021':1}
    ).set_index('socio'),
    # poli 2020
    pd.DataFrame(
        {'socio':df_abo.loc[(df_abo['abo_year'] == '2020') & (df_abo['Sector']=='POLIDEPORTIVO'), 'socio']
         ,'abo_pol_2020':1}
    ).set_index('socio'),
    # poli 2021
    pd.DataFrame(
        {'socio':df_abo.loc[(df_abo['abo_year'] == '2021') & (df_abo['Sector']=='POLIDEPORTIVO'), 'socio']
         ,'abo_pol_2021':1}
    ).set_index('socio')
    ], axis=1)

In [38]:
# df_abonos.shape
# df_abonos.head()

In [41]:
# df_abonos.sum(axis=1).value_counts()

In [42]:
df_abonos.columns

Index(['abo_bid_2020', 'abo_bid_2021', 'abo_pol_2020', 'abo_pol_2021'], dtype='object')

#### Eventos

In [17]:
# eventos
eve = load_workbook(filename = RAW/'eventos.xlsx')
eve_sheets = eve.sheetnames

In [26]:
print(eve_sheets)
eve_sheets.remove('Abonado')
eve_sheets.remove('UNOxSOCIO')

['154', '155', '156', '157', '158', '159', '160', '162', '166', '167', '170', '171', '172', '173', '174', '175', '176', '179', '187', '188', '189', '190', '192', '193', '194', '195', '199', '200', '201']


In [27]:
def info_evento(sheetname):
    '''Esta funcion levanta la informacion de las solapas que se pasan como input del excel de eventos'''
    df_eve = pd.read_excel(RAW/'eventos.xlsx', engine='openpyxl', sheet_name=sheetname)
    dic_eve = {
        "evento": df_eve['Evento'][0], 
        "fecha": df_eve['Fecha'][0],
        "socios": df_eve.loc[df_eve['Tipo'] == 'Socio']['Numero'].unique(),
        "publico": len(set([str(x) for x in df_eve[['Tipo', 'Numero']].values]))
        }
    return dic_eve

In [32]:
# ejemplo
# info_evento(eve_sheets[0])

In [30]:
# corro la funcion para todas las solapas y almaceno los resultados en un diccionario
eventos = {}
for eve in range(len(eve_sheets)):
    eventos[eve] = info_evento(eve_sheets[eve])

In [34]:
print(len(eventos))
print(type(eventos[0]))
print(eventos[0].keys())

29
<class 'dict'>
dict_keys(['evento', 'fecha', 'socios', 'publico'])


In [143]:
# publico promedio
np.mean(np.array([int(eventos[x]['publico']) for x in eventos]))

In [35]:
# socios totales que asistieron a algun evento
socios_eve = []
for eve in eventos:
    socios_eve.extend(list(eventos[eve]['socios']))
# print(len(socios_eve))
socios_eve = list(set(socios_eve))
# print(len(socios_eve))

In [36]:
# genero un data frame con la # de eventos por socio por año
socios_eventos = pd.DataFrame({'socio': socios_eve
                              ,'eve_2018': np.zeros(len(socios_eve))
                              ,'eve_2019': np.zeros(len(socios_eve))
                              ,'eve_2020': np.zeros(len(socios_eve))})

In [40]:
# cantidad de partidos asistidos por socio por año
for socio in range(len(socios_eventos['socio'])):
    for evento in eventos:
        if eventos[evento]['fecha'].year == 2018:
            socios_eventos['eve_2018'][socio] += (socios_eventos['socio'][socio] in eventos[evento]['socios'])
        if eventos[evento]['fecha'].year == 2019:
            socios_eventos['eve_2019'][socio] += (socios_eventos['socio'][socio] in eventos[evento]['socios'])  
        if eventos[evento]['fecha'].year == 2020:
            socios_eventos['eve_2020'][socio] += (socios_eventos['socio'][socio] in eventos[evento]['socios'])

In [41]:
df_eventos['socio'] = df_eventos['socio'].astype(int).astype(str)
df_eventos = socios_eventos.set_index('socio')
# df_eventos.head()

## Salvo las bases

In [55]:
# socios
pickle.dump( df_socios, open( DATA/"df_socios.p", "wb" ) )
# abonos
pickle.dump( df_abonos, open( DATA/"df_abonos.p", "wb" ) )
# eventos
pickle.dump( df_eventos, open( DATA/"df_eventos.p", "wb" ) )