# Survival Analysis Handball Athletes

Handball has evolved alongside with consolidation of sport’s culture. The present study aims to explore the retention and dropout of handball federated athletes in Portugal. Results from the survival analyses indicate a median length of stay of the athletes is two years, with an associated probability of 41% to continue more than that period. It is also evident that there is an average of 3 years of being registered as an active player.

The sample consisted of 133,717 handball players who were registered at least for one year (female n = 47653, mean age = 23.76, SD=6.79 years; and males n = 86064, mean age = 24.70, SD=7.89 years); data corresponded to the time period between August 1, 1997 and July 31, 2018, mainly with Portuguese nationality (99,96%). The main categories were Seniors (68,6%), U-18 (8,2%), Masters (8,1%), U-16 (4,8%), U-14 (4,2%) and other (6,1%) like: U-12, U-10, U-8 and U-6.

The variables were extracted from the management software of the federation correspond to the time interval of the athlete inscription until the end of observation (censoring on July 31, 2018) or the end of the athlete relationship (dropout). All athletes without an inscription before 2018 were considered that dropout. The survival time in the dataset is represented by the number of years an athlete remains registered. The data provided was been purged from element registered before 1997.

Descriptive statistics were conducted to summarize the variables under analysis.  The survival curve was measured to simplify the interpretation of the survival analysis.  Data processing was conducted using Python (Continuum Analytics, 2016) and Pandas (McKinney & others, 2010).  The Kaplan-Meier estimator was used to gather information about the dropout event and to estimate the survival (Efron, 1988), the log-rank was applied in the scale variables transformed to categorical using the quartiles to provide a statistical comparison of groups and the categorical variable associations was analyzed considering the bigger associations and lower dimension where grouped to simplify the analysis. The survival analysis was conducted using the package Lifelines (Cameron Davidson-Pilon et al., 2017).

Using the logrank test, we identified significant differences between the groups in each variable: age (χ2= 4185.70, p<0.01), gender (χ2=903.87 p<0.01), category (χ2= 10024.28, p<0.01), and associations (χ2= 1395.92, p<0.01). There weren’t significant differences in the variable country (χ2=0.6, p>0.05),

According to our results, the probability of the individuals continue sports participation for more than 12 months is 53%.

# Data Analysis

In [None]:
from IPython.display import HTML
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import datetime
import seaborn as sns
from ipywidgets import interact, interactive, fixed, interact_manual
import plotly.offline as py


dt = pd.read_csv('https://raw.githubusercontent.com/pesobreiro/jupyternotebooks/master/dados/dadosAtletasAndebol.csv',
                 index_col=0)

plt.rcParams['figure.figsize'] = [10, 15]
datetime.datetime.now()

In [None]:
def curvaSobrevivencia(dados,coluna,T,C,eixoX=None,eixoY=None,titulo=None):
    ax = plt.subplot(111)
    ax.set_xlabel(eixoX)
    ax.set_ylabel(eixoY)
    ax.set_title(titulo)

    plt.rcParams['figure.figsize'] = [15, 5]
    for item in dados[coluna].unique():
        ix = dados[coluna] == item
        kmf.fit(T.loc[ix], C.loc[ix], label=str(item))
        ax = kmf.plot(ax=ax)
        print('probabilidade de sobreviver:',item,' ',kmf.survival_function_.head())
        print('median:',item,kmf.median_)
    return kmf

In [None]:
def barras(x,dados,titulo,hue=None,orientacao=None,tamanho=[10,5]):
    plt.rcParams['figure.figsize'] = tamanho
    ax = sns.countplot(x=x,data=dados,hue=hue,palette='Blues',orient=orientacao);
    ax.set_title(titulo)
    for p in ax.patches:
        height = p.get_height()
        ax.text(p.get_x()+p.get_width()/2.,height + 3,'{:1}'.format(height),ha="left")    
    plt.show()

## Survival Analysis

In [None]:
dados=dt.dropna()
dt = dados.copy()

## Vamos considerar os atletas federados entre desde 2008 até 2012 e de 2012 até 2018

In [None]:
# Vamos considerar um escalao com todos os géneros
dt['escFedTodos'] = dt['escFederacao'].str.split().str.get(0)
#Converter data inscrição para data e hora
dt['dtIns']=pd.to_datetime(dt['dtIns'])

dt2008=dt.loc[(dt.dtIns >= "2008-08-01")&(dt.dtIns < "2011-12-31")]
dt2012=dt.loc[(dt.dtIns >= "2012-01-01")&(dt.dtIns < "2018-07-31")]

In [None]:
dt.escFedTodos.unique()

### Atletas por ano desde 2008

In [None]:
plt.rcParams['figure.figsize'] = [12, 4]
dt2008.anos.hist()

fig = plt.gcf() # "Get current figure"
#plt.show()
py.iplot_mpl(fig)

### Atletas por ano desde 2012

In [None]:
plt.rcParams['figure.figsize'] = [12, 4]
dt2012.anos.hist()

fig = plt.gcf() # "Get current figure"
#plt.show()
py.iplot_mpl(fig)

### Atletas por escalão

In [None]:
dt.escaloesIdade.unique()

In [None]:
dt.associacao.unique()

In [None]:
barras(dados=dt2008,titulo='Anos atleta desde 2008',x='escFedTodos',tamanho=[12,5])

In [None]:
barras(dados=dt2012,titulo='Anos atleta desde 2012',x='escFedTodos',tamanho=[12,5])

### Atletas por anos inscritos

In [None]:
barras(dados=dt2008,titulo='Anos atleta desde 2008',x=dt.dtIns.apply(lambda x: x.date().year),tamanho=[12,5])

In [None]:
barras(dados=dt2012,titulo='Anos atleta',x=dt.dtIns.apply(lambda x: x.date().year),tamanho=[12,5])

In [None]:
barras(dados=dt2008,titulo='Anos atleta desde 2008',x='anos',tamanho=[12,5])

In [None]:
barras(dados=dt2012,titulo='Anos atleta desde 2012',x='anos',tamanho=[12,5])

### Tabela sobrevivência desde 2008

In [None]:
from lifelines import KaplanMeierFitter
kmf2008 = KaplanMeierFitter()
T2008 = dt2008['anos']
C2008 = dt2008['abandonou']
kmf2008.fit(T2008,C2008,label="Abandono dos atletas");

kmf2012 = KaplanMeierFitter()
T2012 = dt2012['anos']
C2012 = dt2012['abandonou']
kmf2012.fit(T2012,C2012,label="Abandono dos atletas");

In [None]:
survivalTable = pd.concat([kmf2008.event_table.reset_index(), kmf2008.conditional_time_to_event_,kmf2008.survival_function_.round(decimals=2)], axis=1)
survivalTable.columns = ['event_at', 'removed', 'observed', 'censored', 'entrance', 'at_risk',
       'time to event', 'prob']
survivalTable.head(18)

#kmf.event_table.head()

### Tabela de sobrevivência desde 2012

In [None]:
survivalTable = pd.concat([kmf2012.event_table.reset_index(), kmf2012.conditional_time_to_event_,kmf2012.survival_function_.round(decimals=2)], axis=1)
survivalTable.columns = ['event_at', 'removed', 'observed', 'censored', 'entrance', 'at_risk',
       'time to event', 'prob']
survivalTable.head(18)

#kmf.event_table.head()

### A mediana de anos tempo permanência

A mediana de sobrevivência aumentou 1 ano. Se considerarmos os dados todos é de 2 anos.

In [None]:
print('Mediana sobrevivência desde 2008:',kmf2008.median_)
print('Mediana anos:',dt2008['anos'].median())

print('Mediana sobrevivência desde 2012:',kmf2012.median_)
print('Mediana anos:',dt2012['anos'].median())

### S(t) == P(T>t) probabilidade de viver mais do que 3 anos desde 2008

In [None]:
kmf2008.predict(3.0)

### S(t) == P(T>t) probabilidade de viver mais do que 3 anos desde 2012

In [None]:
kmf2012.predict(3.0)

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = [15, 5]
kmf2008.plot();
plt.title('Probabilidade de permanência por ano desde 2008')
plt.xlabel('Anos')
plt.ylabel('Probabilidade');

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = [15, 5]
kmf2012.plot();
plt.title('Probabilidade de permanência por ano desde 2012')
plt.xlabel('Anos')
plt.ylabel('Probabilidade');

A grande maioria dos atletas federados só fica um ano. 

In [None]:
abandono=kmf2008.event_table.reset_index()

plt.rcParams['figure.figsize'] = [15, 5]
plt.plot(abandono.event_at, abandono.at_risk);
plt.title('Número de atletas por ano de antiguidade desde 2008') 
plt.xlabel('anos')
plt.ylabel('atletas');
#plt.xlabel()

In [None]:
abandono['percentagemClientes']= 0.0
anterior = abandono.at_risk[0:1]
anterior = anterior[0]
print(anterior)

for index, row in abandono.iterrows():
    abandono.at[index, 'percentagemClientes'] = row.at_risk/anterior    

plt.title('Percentagem de atletas retidos por ano desde 2008')
plt.rcParams['figure.figsize'] = [15, 5]
plt.xlabel('meses')
plt.ylabel('clientes')
plt.plot(abandono.event_at, abandono.percentagemClientes)
plt.show()

In [None]:
abandono=kmf2012.event_table.reset_index()

plt.rcParams['figure.figsize'] = [15, 5]
plt.plot(abandono.event_at, abandono.at_risk);
plt.title('Número de atletas por ano de antiguidade desde 2012') 
plt.xlabel('anos')
plt.ylabel('atletas');
#plt.xlabel()

In [None]:
abandono['percentagemClientes']= 0.0
anterior = abandono.at_risk[0:1]
anterior = anterior[0]
print(anterior)

for index, row in abandono.iterrows():
    abandono.at[index, 'percentagemClientes'] = row.at_risk/anterior    

plt.title('Percentagem de atletas retidos por ano desde 2012')
plt.rcParams['figure.figsize'] = [15, 5]
plt.xlabel('meses')
plt.ylabel('clientes')
plt.plot(abandono.event_at, abandono.percentagemClientes)
plt.show()

### Curvas de sobrevivencia

In [None]:
# Importar bibliotecas
from lifelines.statistics import pairwise_logrank_test
from lifelines.statistics import multivariate_logrank_test

#### Por género

In [None]:
print(dt.sexo.value_counts())
curvaSobrevivencia(dt2008,'sexo',T=T2008,C=C2008,eixoX='anos',titulo='Probabilidade sobrevivência por género desde 2008');plt.xlabel('anos');

In [None]:
results=multivariate_logrank_test(event_durations=T2008,groups=dt2008['sexo'],event_observed=C2008)
results.print_summary()

In [None]:
print(dt.sexo.value_counts())
curvaSobrevivencia(dt2012,'sexo',eixoX='anos',T=T2012,C=C2012,titulo='Probabilidade sobrevivência por género desde 2012');plt.xlabel('anos');

In [None]:
results=multivariate_logrank_test(event_durations=T2012,groups=dt2012['sexo'],event_observed=C2012)
results.print_summary()

**Existem diferenças entre as curvas de sobrevivência. Vamos ver onde. Isto é como se fosse um teste post-hoc**

In [None]:
results=pairwise_logrank_test(event_durations=T2012,groups=dt2012.sexo,event_observed=C2012)
results.print_summary()

#### Por país

In [None]:
print(dt.pais.value_counts())
curvaSobrevivencia(dt2008,'pais',T=T2008,C=C2008,eixoX='anos',titulo='Probabilidade sobrevivência por país desde 2008');plt.xlabel('anos');

In [None]:
from lifelines.statistics import multivariate_logrank_test

results=multivariate_logrank_test(event_durations=T2008,groups=dt2008['pais'],event_observed=C2008)
results.print_summary()

**Existem diferenças entre as curvas de sobrevivência.**

In [None]:
results=pairwise_logrank_test(event_durations=T,groups=dt.pais,event_observed=C)
results.print_summary()

In [None]:
print(dt.pais.value_counts())
curvaSobrevivencia(dt2012,'pais',T=T2012,C=C2012,eixoX='anos',titulo='Probabilidade sobrevivência por país desde 2012');plt.xlabel('anos');

In [None]:
from lifelines.statistics import multivariate_logrank_test

results=multivariate_logrank_test(event_durations=T2012,groups=dt2012['pais'],event_observed=C2012)
results.print_summary()

#### Por nacionalidade

In [None]:
print(dt.pais.value_counts())
curvaSobrevivencia(dt2008,'nacionalidade',eixoX='anos',C=C2008,T=T2008,titulo='Probabilidade sobrevivência por nacionalidade');plt.xlabel('anos');

In [None]:
from lifelines.statistics import multivariate_logrank_test

results=multivariate_logrank_test(event_durations=T2008,groups=dt2008['nacionalidade'],event_observed=C2008)
results.print_summary()

In [None]:
print(dt.pais.value_counts())
curvaSobrevivencia(dt2012,'nacionalidade',T=T2012,C=C2012,eixoX='anos',titulo='Probabilidade sobrevivência por nacionalidade');plt.xlabel('anos');

In [None]:
from lifelines.statistics import multivariate_logrank_test

results=multivariate_logrank_test(event_durations=T2012,groups=dt2012['nacionalidade'],event_observed=C2012)
results.print_summary()

**Existem diferenças entre as curvas de sobrevivência. Vamos ver onde. Isto é como se fosse um teste post-hoc**

In [None]:
results=pairwise_logrank_test(event_durations=T2012,groups=dt2012.nacionalidade,event_observed=C2012)
results.print_summary()

**Correr novamente os testes sem os NDs**

## Por associacoes 2008

Vamos considerar só associações com mais de 2000 federados

In [None]:
associacoes=['Porto','Lisboa','Aveiro','Braga','Madeira','Viseu','Leiria']
dtAssociacoes2008=dt2008.loc[dt2008['associacao'].isin(associacoes)]

In [None]:
dtAssociacoes2008.associacao.value_counts()

In [None]:
T2008 = dtAssociacoes2008['anos']
C2008 = dtAssociacoes2008['abandonou']
kmf.fit(T2008,C2008,label="Abandono dos atletas")
curvaSobrevivencia(dtAssociacoes2008,'associacao',T=T2008,C=C2008,eixoX='anos',
                   titulo='Probabilidade sobrevivência por associacao 2008');
plt.xlabel('anos');

In [None]:
dt2008.associacao.value_counts()

Algarve              1720
Setubal              1716
Santarem             1643
Guarda                526
Vila Real             510
Beja                  490
Ilha S. Miguel        431
Ilha Terceira         420
Portalegre            398
Ilha Faial            360
Evora                 337
Coimbra               327
Castelo Branco        230
Ilha S. Maria         214
V. Castelo            109
Ilha Graciosa         108
Leiria A Praia         90
Braganca               71

In [None]:
associacoes=['Algarve','Setubal','Santarem','Guarda','Vila Real','Beja','Ilha S. Miguel','Ilha Terceira','Portalegre',
             'Ilha Faial','Evora','Coimbra','Castelo Branco','Ilha S. Maria','V. Castelo','Ilha Graciosa','Braganca']
dtAssociacoes2008=dt2008.loc[dt2008['associacao'].isin(associacoes)]

In [None]:
dtAssociacoes2008.associacao.value_counts()

In [None]:
T2008 = dtAssociacoes2008['anos']
C2008 = dtAssociacoes2008['abandonou']
kmf.fit(T2008,C2008,label="Abandono dos atletas")
curvaSobrevivencia(dtAssociacoes2008,'associacao',T=T2008,C=C2008,eixoX='anos',titulo='Probabilidade sobrevivência por associacao');
plt.xlabel('anos');

In [None]:
from lifelines.statistics import multivariate_logrank_test

results=multivariate_logrank_test(event_durations=T2008,groups=dtAssociacoes2008['associacao'],event_observed=C2008)
results.print_summary()

É maios ou menos igual. Porto e Braga aparentemente com melhores retenções

**Existem diferenças entre as curvas de sobrevivência. Vamos ver onde. Isto é como se fosse um teste post-hoc**

In [None]:
results=pairwise_logrank_test(event_durations=T2008,groups=dtAssociacoes2008['associacao'],event_observed=C2008)
results.print_summary()

## Por associacoes 2012

Vamos considerar só associações com mais de 2000 federados

In [None]:
associacoes=['Porto','Lisboa','Aveiro','Braga','Madeira','Viseu','Leiria']
dtAssociacoes2012=dt2012.loc[dt2012['associacao'].isin(associacoes)]

In [None]:
dtAssociacoes2012.associacao.value_counts()

In [None]:
T2012 = dtAssociacoes2012['anos']
C2012 = dtAssociacoes2012['abandonou']
kmf.fit(T2012,C2012,label="Abandono dos atletas")
curvaSobrevivencia(dtAssociacoes2012,'associacao',T=T2012,C=C2012,eixoX='anos',
                   titulo='Probabilidade sobrevivência por associacao 2012');
plt.xlabel('anos');

In [None]:
dt2012.associacao.value_counts()

Algarve              1720
Setubal              1716
Santarem             1643
Guarda                526
Vila Real             510
Beja                  490
Ilha S. Miguel        431
Ilha Terceira         420
Portalegre            398
Ilha Faial            360
Evora                 337
Coimbra               327
Castelo Branco        230
Ilha S. Maria         214
V. Castelo            109
Ilha Graciosa         108
Leiria A Praia         90
Braganca               71

In [None]:
associacoes=['Algarve','Setubal','Santarem','Guarda','Vila Real','Beja','Ilha S. Miguel','Ilha Terceira','Portalegre',
             'Ilha Faial','Evora','Coimbra','Castelo Branco','Ilha S. Maria','V. Castelo','Ilha Graciosa','Braganca']
dtAssociacoes2012=dt2012.loc[dt2012['associacao'].isin(associacoes)]

In [None]:
dtAssociacoes2012.associacao.value_counts()

In [None]:
T2012 = dtAssociacoes2012['anos']
C2012 = dtAssociacoes2012['abandonou']
kmf.fit(T2012,C2012,label="Abandono dos atletas")
curvaSobrevivencia(dtAssociacoes2012,'associacao',T=T2012,C=C2012,eixoX='anos',titulo='Probabilidade sobrevivência por associacao desde 2012');
plt.xlabel('anos');

In [None]:
from lifelines.statistics import multivariate_logrank_test

results=multivariate_logrank_test(event_durations=T2012,groups=dtAssociacoes2012['associacao'],event_observed=C2012)
results.print_summary()

É maios ou menos igual. Porto e Braga aparentemente com melhores retenções

**Existem diferenças entre as curvas de sobrevivência. Vamos ver onde. Isto é como se fosse um teste post-hoc**

In [None]:
results=pairwise_logrank_test(event_durations=T2012,groups=dtAssociacoes2012['associacao'],event_observed=C2012)
results.print_summary()

## Escalões Federação Femininos e Masc

In [None]:
dtFem2008 = dt2008.loc[dt.sexo=='F']
dtMasc2008 = dt2008.loc[dt.sexo=='M']

dtFem2012 = dt2012.loc[dt.sexo=='F']
dtMasc2012 = dt2012.loc[dt.sexo=='M']

In [None]:
T2008 = dtFem2008['anos']
C2008 = dtFem2008['abandonou']
kmf.fit(T2008,C2008,label="Abandono dos atletas")
curvaSobrevivencia(dtFem2008,'escFederacao',eixoX='anos',C=C2008,T=T2008,titulo='Probabilidade de sobrevivência por escalão desde 2008');plt.xlabel('anos');

In [None]:
from lifelines.statistics import multivariate_logrank_test

results=multivariate_logrank_test(event_durations=T2008,groups=dtFem2008['escFederacao'],event_observed=C2008)
results.print_summary()

**Existem diferenças entre as curvas de sobrevivência. Vamos ver onde. Isto é como se fosse um teste post-hoc**

In [None]:
results=pairwise_logrank_test(event_durations=T2008,groups=dtFem2008.escFederacao,event_observed=C2008)
results.print_summary()

In [None]:
T2008 = dtMasc2008['anos']
C2008 = dtMasc2008['abandonou']
kmf.fit(T2008,C2008,label="Abandono dos atletas desde 2008")
curvaSobrevivencia(dtMasc2008,'escFederacao',T=T2008,C=C2008,eixoX='anos',titulo='Probabilidade sobrevivência por escalão desde 2008');plt.xlabel('anos');

In [None]:
from lifelines.statistics import multivariate_logrank_test

results=multivariate_logrank_test(event_durations=T2008,groups=dtMasc2008['escFederacao'],event_observed=C2008)
results.print_summary()

**Existem diferenças entre as curvas de sobrevivência. Vamos ver onde. Isto é como se fosse um teste post-hoc**

In [None]:
results=pairwise_logrank_test(event_durations=T2008,groups=dtMasc2008.escFederacao,event_observed=C2008)
results.print_summary()

## Ambos os escalões

In [None]:
T = dt['anos']
C = dt['abandonou']
kmf.fit(T,C,label="Abandono dos atletas")
curvaSobrevivencia(dt,'escFedTodos',eixoX='anos',titulo='Probabilidade sobrevivência por escalão');plt.xlabel('anos');

## Por tipo de inscrição

In [None]:
T = dt['anos']
C = dt['abandonou']
curvaSobrevivencia(dt,'tipoInscricao',eixoX='anos',titulo='Probabilidade sobrevivência por tipo de inscrição');plt.xlabel('anos');

In [None]:
from lifelines.statistics import multivariate_logrank_test

results=multivariate_logrank_test(event_durations=T,groups=dt['tipoInscricao'],event_observed=C)
results.print_summary()

**Existem diferenças entre as curvas de sobrevivência. Vamos ver onde. Isto é como se fosse um teste post-hoc**

In [None]:
results=pairwise_logrank_test(event_durations=T,groups=dt.tipoInscricao,event_observed=C)
results.print_summary()

# Vamos ver este mandato em relação aos anteriores

In [None]:
dt.loc[:,'esteMandato']=0

In [None]:
dt.dtIns=pd.to_datetime(dt.dtIns)
dt.loc[:,'anoInsc']=0
dt['anoInsc']=dt['dtIns'].apply(lambda x: x.year)

In [None]:
dt.columns

In [None]:
dt.loc[dt.anoInsc >= 2012,'esteMandato'] = 1

In [None]:
dt.esteMandato.value_counts()

In [None]:
T = dt['anos']
C = dt['abandonou']
curvaSobrevivencia(dt,'esteMandato',C=C,T=T,eixoX='anos',titulo='Probabilidade sobrevivência por mandato');plt.xlabel('anos');

In [None]:
from lifelines.statistics import multivariate_logrank_test

results=multivariate_logrank_test(event_durations=T,groups=dt['esteMandato'],event_observed=C)
results.print_summary()

**Existem diferenças entre as curvas de sobrevivência. Vamos ver onde. Isto é como se fosse um teste post-hoc**

In [None]:
results=pairwise_logrank_test(event_durations=T,groups=dt.esteMandato,event_observed=C)
results.print_summary()