# Analisis de supervivencia 

Este cuaderno cuenta con un análisis rudimentario de la supervivencia de 5 años y está subdivido de la siguiente manera:

1. Importación de las librerías necesarias para el análisis
2. Inspección de la data
3. Limpieza general de data (Valores nulos)
3. Análisis Explorativo
4. Histogramas de interés
5. Análisis multivarial (correlacional)
6. Pruebas estadísticas
7. Discusiones

The purpose of this notebook is to provide a thorough statistical analysis of the data obtained by Drs. Valeria and Ninsoka Alvarenga Arriaga. 

### 1. Importación de librerías pertinentes

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt



In [2]:
# setting the path:
path = r"C:\Repositories\Survivor_Analysis\data\data.xlsx"

# reading the data:
data = pd.read_excel(path, engine='openpyxl')

In [3]:
# Inspect the data:
data.head(10)

Unnamed: 0,Timestamp,Año del Caso,Escolaridad,Estado Civil,Edad,Departamento de procedencia,Factores de Riesgo,Tipo Histológico,Her2,Receptor Progesterona,...,Tumor Primario,Linfonodos,Metástasis,Sitio de Metástasis,Estapa del Cáncer al ingreso,Procedimiento Quirurgico,Radioterapia,Quimioterapia,Homonoterpia,Sobrevida a los 60 meses (5 años)
0,2023-01-23 13:19:36.979,2012,Secundaia Completa,Soltera,igual o mayor de 66 años,Santa Bárbara,"Nuliparidad, Mayor de 40",Carcinoma Ductal Invasor,Positivo,Negativo,...,4,1,0,,IIIB,Mastectomia Total,Adyuvante,Si,No,Si
1,2023-01-23 15:24:10.753,2012,Secundaia Completa,Soltera,46-55 años,Francisco Morazán,"Mayor de 40, Menarquia antes de los 12 años, ACOs",Carcinoma Ductal In situ,Negativo,Positivo,...,Sin datos,Sin Datos,Sin datos,Hueso( húmero izquierdo e isquion derecho),IV,Mastectomia Total,Adyuvante,Si,Si,Si
2,2023-01-26 11:15:50.251,2012,,Casada,56-65 años,Valle,Mayor de 40,Carcinoma Ductal Invasor,Negativo,Negativo,...,3,1,0,,IIIA,Mastectomia Total,No,Si,No,Si
3,2023-01-26 13:42:23.474,2012,,Soltera,igual o mayor de 66 años,Choluteca,Mayor de 40,Carcinoma Ductal Invasor,Positivo,Negativo,...,Sin datos,Sin Datos,Sin datos,,IV,Mastectomia Total,No,Si,No,Si
4,2023-01-26 13:46:48.577,2012,Univeridad,Soltera,36-45 años,Comayagua,"Mayor de 40, DIU",Carcinoma Ductal Invasor,Negativo,Positivo,...,Sin datos,Sin Datos,Sin datos,,IV,Mastectomia Total,Adyuvante,No,No,Si
5,2023-01-26 13:47:48.991,2012,Secundaia Completa,Casada,36-45 años,Francisco Morazán,"Antecedentes Familiares, Mayor de 40, ACOs",Carcinoma Ductal Invasor,Negativo,Negativo,...,2,2,0,,IIIA,Mastectomia parcial,Adyuvante,Si,No,Si
6,2023-01-26 14:06:35.569,2012,,Soltera,igual o mayor de 66 años,Colón,Ninguno,Carcinoma Ductal Invasor,Negativo,Positivo,...,3,0,0,,IIB,Mastectomia Total,No,Si,Si,Si
7,2023-01-31 11:18:21.990,2012,,Unión Consensual,56-65 años,Francisco Morazán,Mayor de 40,Mixto,Positivo,Positivo,...,Sin datos,Sin Datos,Sin datos,,IV,no,No,Si,No,No
8,2023-01-31 12:00:30.081,2012,,Soltera,46-55 años,Lempira,Mayor de 40,Carcinoma Ductal Invasor,Positivo,Negativo,...,4,2,0,,IIIB,Mastectomia Total,Adyuvante,Si,No,No
9,2023-01-31 12:06:09.012,2012,,Soltera,36-45 años,Atlántida,Mayor de 40,Carcinoma Ductal Invasor,Negativo,Negativo,...,3,1,0,,IIB,no,Adyuvante,Si,No,No


### 2. Inspección de la data:

In [4]:
# Creating a copy of the data:
df = data.copy()
df.columns

Index(['Timestamp', 'Año del Caso', 'Escolaridad', 'Estado Civil', 'Edad',
       'Departamento de procedencia', 'Factores de Riesgo', 'Tipo Histológico',
       'Her2', 'Receptor Progesterona', 'Estrogeno Recepetor',
       'Tumor Primario', 'Linfonodos', 'Metástasis', 'Sitio de Metástasis',
       'Estapa del Cáncer al ingreso', 'Procedimiento Quirurgico',
       'Radioterapia', 'Quimioterapia', 'Homonoterpia',
       'Sobrevida a los 60 meses (5 años)'],
      dtype='object')

In [5]:
# Handling Spanish Null:
df.replace("Sin Datos", pd.NA, inplace=True)
# Inspecting the data after the nulls have been standardized:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 662 entries, 0 to 661
Data columns (total 21 columns):
 #   Column                             Non-Null Count  Dtype         
---  ------                             --------------  -----         
 0   Timestamp                          662 non-null    datetime64[ns]
 1   Año del Caso                       662 non-null    int64         
 2   Escolaridad                        390 non-null    object        
 3   Estado Civil                       662 non-null    object        
 4   Edad                               662 non-null    object        
 5   Departamento de procedencia        662 non-null    object        
 6   Factores de Riesgo                 662 non-null    object        
 7   Tipo Histológico                   662 non-null    object        
 8   Her2                               662 non-null    object        
 9   Receptor Progesterona              662 non-null    object        
 10  Estrogeno Recepetor                662

Upon first inspection, there are 662 entries, of which the majority are text-based. We'll have to inspect all the fields to ensure that there are no typos or other potential sources of error such as leading/trailing whitespaces that could affect the exploratory data analysis down the line.

In [6]:
df.isnull().sum()

Timestamp                              0
Año del Caso                           0
Escolaridad                          272
Estado Civil                           0
Edad                                   0
Departamento de procedencia            0
Factores de Riesgo                     0
Tipo Histológico                       0
Her2                                   0
Receptor Progesterona                  0
Estrogeno Recepetor                    0
Tumor Primario                         0
Linfonodos                            75
Metástasis                             0
Sitio de Metástasis                  593
Estapa del Cáncer al ingreso           0
Procedimiento Quirurgico               4
Radioterapia                           0
Quimioterapia                          0
Homonoterpia                           1
Sobrevida a los 60 meses (5 años)      0
dtype: int64

In [7]:
df.Escolaridad.value_counts()

Secundaia Completa       184
Univeridad               157
Primaria incompleta       11
Universidad completa      11
Secundaria Incompleta     10
Secundaria completa       10
Analfabeta                 2
Univeridad IncomplEta      2
Secundaria incompleta      2
Primaria Incompleta        1
Name: Escolaridad, dtype: int64

There are some corrections needed to be made as evidenced in the data above. 

In [8]:
# defining values to replace:
escolaridad_replacement_dict = {
    "Secundaia Completa": "Secundaria Completa",
    "Primaria incompleta": "Primaria Incompleta",
    "Secundaria completa": "Secundaria Completa",
    "Secundaria incompleta":"Secundaria Incompleta",
    "Univeridad IncomplEta": "Universidad Incompleta",
    "Univeridad": "Universidad",
    "Universidad completa":"Universidad"
}

df['Escolaridad'].replace(escolaridad_replacement_dict, inplace=True)

#sanity check:
df.Escolaridad.value_counts()

Secundaria Completa       194
Universidad               168
Secundaria Incompleta      12
Primaria Incompleta        12
Analfabeta                  2
Universidad Incompleta      2
Name: Escolaridad, dtype: int64

#### Estado Civil:

In [9]:
df["Estado Civil"].value_counts()

Soltera             281
Casada              281
Unión Consensual     62
Viuda                34
Unión consensual      3
Divorciada            1
Name: Estado Civil, dtype: int64

In [10]:
df["Estado Civil"].replace("Unión consensual", "Unión Consensual", inplace=True)
df["Estado Civil"].value_counts()

Soltera             281
Casada              281
Unión Consensual     65
Viuda                34
Divorciada            1
Name: Estado Civil, dtype: int64

#### Edad

In [11]:
df['Edad'].value_counts()

46-55 años                  198
56-65 años                  173
36-45 años                  124
igual o mayor de 66 años    115
26-35 años                   49
19-25 años                    3
Name: Edad, dtype: int64

If we do proceed with modelling, then we'll have to OHE this for it to have any meaning? That or supplant the categories for an integer/float.

#### Departamentos

In [12]:
df["Departamento de procedencia"].value_counts()

Francisco Morazán    366
Comayagua             58
Choluteca             50
Olancho               45
El Paraíso            33
Valle                 24
Cortés                13
Santa Bárbara         12
Atlántida             12
Yoro                  11
Copán                  9
Lempira                7
La Paz                 7
Colón                  5
Ocotepeque             3
Islas de la Bahía      3
Intibucá               3
Gracias a Dios         1
Name: Departamento de procedencia, dtype: int64

All looks good for this one.

In [13]:
df["Factores de Riesgo"].value_counts()

Mayor de 40                                          154
Mayor de 40, ACOs                                     79
Antecedentes Familiares, Mayor de 40                  27
Mayor de 40, Menarquia antes de los 12 años           25
Nuliparidad, Mayor de 40                              21
                                                    ... 
Nuliparidad, ACOs                                      1
Primer gesta despues de los 30, Mayor de 40, ACOs      1
ACOs, DIU                                              1
Mayor de 40, ACOs, DIU                                 1
Primera gesta después de los 30, Mayor de 40           1
Name: Factores de Riesgo, Length: 122, dtype: int64

These are comma separated values, we'll have to create n columns for each risk factor as there is no weight to them. 
These could also be encoded/vectorised and kept in an np array -- will look into this later.

#### Tipo Histológico:

In [19]:
df["Tipo Histológico"].value_counts()

Carcinoma Ductal Invasor                                                                475
Carcinoma Lobulillar Invasor                                                             68
Mixto                                                                                    58
Carcinoma Ductal In situ                                                                 14
Medular                                                                                   7
Papilar                                                                                   6
Carcinoma Lobulillar In situ                                                              4
Metaplasico                                                                               2
Mucinoso                                                                                  2
Carcinoma apocrino                                                                        2
Coloide                                                                         

In [15]:
# There is an additional one that is giving issue: Metaplasico may have a trailing white space.
histological_replacement = {
    "Carcinoma Lobulillar Incasor":"Carcinoma Lobulillar Invasor",
    "Carcinoma coloide":"Carcinoma Coloide",
}

# Dealing with leading and trailing whitespaces:
df["Tipo Histológico"] = df["Tipo Histológico"].str.strip()

# Applying the replacements for the typos:
df["Tipo Histológico"].replace(histological_replacement, inplace=True)


#### Her2

In [16]:
df["Her2"].value_counts()

Negativo    492
Positivo    170
Name: Her2, dtype: int64

#### Receptor Progesterona

In [22]:
df["Receptor Progesterona"].value_counts()

Negativo    345
Positivo    311
Name: Receptor Progesterona, dtype: int64

In [21]:
# Setting "Sin datos" as Null:
df["Receptor Progesterona"].replace("Sin datos", pd.NA, inplace=True)

#### Estrogeno Receptor

In [23]:
df["Estrogeno Recepetor"].value_counts()

Negativo     279
Luminal A    246
Luminal B    137
Name: Estrogeno Recepetor, dtype: int64

Dado el número de categorías, este podría ser otra opción para el One-Hot Encoding.