In [151]:
import pandas as pd
import plotly.express as px
import scipy.stats as stats

df = pd.read_csv("eye_cancer_patients.csv")

df.head()

Unnamed: 0,Patient_ID,Age,Gender,Cancer_Type,Laterality,Date_of_Diagnosis,Stage_at_Diagnosis,Treatment_Type,Surgery_Status,Radiation_Therapy,Chemotherapy,Outcome_Status,Survival_Time_Months,Genetic_Markers,Family_History,Country
0,PID00001,58,F,Retinoblastoma,Left,2019-01-25,Stage IV,Radiation,False,15,3,Deceased,85,,True,UK
1,PID00002,15,Other,Retinoblastoma,Right,2021-10-21,Stage III,Chemotherapy,True,69,6,In Remission,10,,True,Japan
2,PID00003,64,M,Retinoblastoma,Bilateral,2021-03-12,Stage IV,Surgery,False,47,6,In Remission,3,BRAF Mutation,False,UK
3,PID00004,33,M,Melanoma,Right,2021-05-10,Stage II,Radiation,True,36,6,Active,40,,False,Canada
4,PID00005,8,Other,Lymphoma,Left,2019-11-24,Stage I,Chemotherapy,False,14,14,In Remission,26,BRAF Mutation,True,USA


In [152]:
df.rename({"Age": "Edad", "Gender": "Género", "Cancer_Type": "Tipo de Cáncer",
          "Laterality": "Lateralidad", "Date_of_Diagnosis": "Fecha de diagnóstico",
            "Stage_at_Diagnosis": "Etapa en el diagnóstico", "Treatment_Type": "Tipo de Tratamiento",
            "Surgery_Status": "Estado de Cirugía", "Radiation_Therapy": "Terapia de Radiación",
            "Chemotherapy": "Quimioterapia", "Outcome_Status": "Estado del Resultado",
            "Survival_Time_Months": "Tiempo de Supervivencia Meses", "Genetic_Markers": "Marcadores genéticos", 
            "Family_History": "Historia Familiar", "Country": "País"}, axis=1, inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   Patient_ID                     5000 non-null   object
 1   Edad                           5000 non-null   int64 
 2   Género                         5000 non-null   object
 3   Tipo de Cáncer                 5000 non-null   object
 4   Lateralidad                    5000 non-null   object
 5   Fecha de diagnóstico           5000 non-null   object
 6   Etapa en el diagnóstico        5000 non-null   object
 7   Tipo de Tratamiento            5000 non-null   object
 8   Estado de Cirugía              5000 non-null   bool  
 9   Terapia de Radiación           5000 non-null   int64 
 10  Quimioterapia                  5000 non-null   int64 
 11  Estado del Resultado           5000 non-null   object
 12  Tiempo de Supervivencia Meses  5000 non-null   int64 
 13  Mar

In [153]:
df = df.drop_duplicates()
df.isnull().sum()

Patient_ID                          0
Edad                                0
Género                              0
Tipo de Cáncer                      0
Lateralidad                         0
Fecha de diagnóstico                0
Etapa en el diagnóstico             0
Tipo de Tratamiento                 0
Estado de Cirugía                   0
Terapia de Radiación                0
Quimioterapia                       0
Estado del Resultado                0
Tiempo de Supervivencia Meses       0
Marcadores genéticos             2497
Historia Familiar                   0
País                                0
dtype: int64

In [154]:
df.fillna({"Marcadores genéticos": "Ninguno" }, inplace=True)
df.head()
#df.isnull().sum()

Unnamed: 0,Patient_ID,Edad,Género,Tipo de Cáncer,Lateralidad,Fecha de diagnóstico,Etapa en el diagnóstico,Tipo de Tratamiento,Estado de Cirugía,Terapia de Radiación,Quimioterapia,Estado del Resultado,Tiempo de Supervivencia Meses,Marcadores genéticos,Historia Familiar,País
0,PID00001,58,F,Retinoblastoma,Left,2019-01-25,Stage IV,Radiation,False,15,3,Deceased,85,Ninguno,True,UK
1,PID00002,15,Other,Retinoblastoma,Right,2021-10-21,Stage III,Chemotherapy,True,69,6,In Remission,10,Ninguno,True,Japan
2,PID00003,64,M,Retinoblastoma,Bilateral,2021-03-12,Stage IV,Surgery,False,47,6,In Remission,3,BRAF Mutation,False,UK
3,PID00004,33,M,Melanoma,Right,2021-05-10,Stage II,Radiation,True,36,6,Active,40,Ninguno,False,Canada
4,PID00005,8,Other,Lymphoma,Left,2019-11-24,Stage I,Chemotherapy,False,14,14,In Remission,26,BRAF Mutation,True,USA


In [155]:
#ver todos los tipos de cáncer
cancer_types = df["Tipo de Cáncer"].unique()
print("Tipos de cáncer:", cancer_types)
#ver todos los laterales
laterality_types = df["Lateralidad"].unique()
print("Tipos de laterales:", laterality_types)
#ver todos los estados de etapa
stages = df["Etapa en el diagnóstico"].unique()
print("Tipos de etapas:", stages)
#ver todos los tipos de tratamiento
treatment_types = df["Tipo de Tratamiento"].unique()
print("Tipos de tratamientos:", treatment_types)
#ver todos los estados de estado de resultado
result_status = df["Estado del Resultado"].unique()
print("Estados del resultado:", result_status)
#ver todos marcadores genéticos
genetic_markers = df["Marcadores genéticos"].unique()
print("Marcadores genéticos:", genetic_markers)
#ver todos los países
countries = df["País"].unique()
print("Países:", countries)

Tipos de cáncer: ['Retinoblastoma' 'Melanoma' 'Lymphoma']
Tipos de laterales: ['Left' 'Right' 'Bilateral']
Tipos de etapas: ['Stage IV' 'Stage III' 'Stage II' 'Stage I']
Tipos de tratamientos: ['Radiation' 'Chemotherapy' 'Surgery']
Estados del resultado: ['Deceased' 'In Remission' 'Active']
Marcadores genéticos: ['Ninguno' 'BRAF Mutation']
Países: ['UK' 'Japan' 'Canada' 'USA' 'Australia' 'Germany' 'South Africa' 'Brazil'
 'France' 'India']


In [156]:
#Reemplazar los valores de la columna "Tipo de cancer"
df["Tipo de Cáncer"] = df["Tipo de Cáncer"].replace({
    "Retinoblastoma": "Retinoblastoma",
    "Melanoma": "Melanoma",
    "Lymphoma": "Linfoma"
})
#Reemplazar los valores de la columna "Lateralidad"
df["Lateralidad"] = df["Lateralidad"].replace({
    "Left": "Izquierda",
    "Right": "Derecha",
    "Bilateral": "Bilateral"
})
#Reemplazar los valores de la columna "Etapa en el diagnóstico"
df["Etapa en el diagnóstico"] = df["Etapa en el diagnóstico"].replace({
    "Stage I": "Etapa I",
    "Stage II": "Etapa II",
    "Stage III": "Etapa III",
    "Stage IV": "Etapa IV"
})
#Reemplazar los valores de la columna "Tipo de Tratamiento"
df["Tipo de Tratamiento"] = df["Tipo de Tratamiento"].replace({
    "Radiation": "Radiación",
    "Chemotherapy": "Quimioterapia",
    "Surgery": "Cirugía"
})

#Reemplazar los valores de la columna "Estado del Resultado"
df["Estado del Resultado"] = df["Estado del Resultado"].replace({
    "Deceased" : "Fallecido",
    "In Remission": "En Remisión",
    "Active": "Activo"
})
#Reemplazar los valores de la columna "Marcadores genéticos"
df["Marcadores genéticos"] = df["Marcadores genéticos"].replace({
    "Nnguno": "Ninguno",
    "BRAF Mutation": "Mutación BRAF"
})
#Reemplazar los valores de la columna "País"
df["País"] = df["País"].replace({
    "UK": "Reino Unido",
    "Japan": "Japón",
    "Canada": "Canadá",
    "USA": "Estados Unidos",
    "Australia" : "Australia",
    "Germany": "Alemania",
    "South Africa": "Sudáfrica",
    "Brazil": "Brasil",
    "France": "Francia",
    "India": "India"
})
#Verificar los cambios
print(df["Tipo de Cáncer"].unique())
print(df["Lateralidad"].unique())
print(df["Etapa en el diagnóstico"].unique())
print(df["Tipo de Tratamiento"].unique())
print(df["Estado del Resultado"].unique())
print(df["Marcadores genéticos"].unique())
print(df["País"].unique())


['Retinoblastoma' 'Melanoma' 'Linfoma']
['Izquierda' 'Derecha' 'Bilateral']
['Etapa IV' 'Etapa III' 'Etapa II' 'Etapa I']
['Radiación' 'Quimioterapia' 'Cirugía']
['Fallecido' 'En Remisión' 'Activo']
['Ninguno' 'Mutación BRAF']
['Reino Unido' 'Japón' 'Canadá' 'Estados Unidos' 'Australia' 'Alemania'
 'Sudáfrica' 'Brasil' 'Francia' 'India']


In [166]:
#Guaradar el DataFrame modificado en un nuevo archivo CSV
df.to_csv("eye_cancer_filtrado.csv", index=False)

In [157]:
#Hacer grupos de edad de 0 a 20, de 21 a 40, de 41 a 60, de 61 a 80 y de 81 a 100
def age_group(age):
    if age <= 20:
        return "0-20"
    elif age <= 40:
        return "21-40"
    elif age <= 60:
        return "41-60"
    elif age <= 80:
        return "61-80"
    else:
        return "81-100"
df["Grupo de Edad"] = df["Edad"].apply(age_group)
#Verificar los grupos de edad
print(df["Grupo de Edad"].unique())

['41-60' '0-20' '61-80' '21-40' '81-100']


In [None]:
# Análisis exploratorio para comprender relaciones entre factores: edad, tipo de cáncer, estado del resultado y otros factores.

# 1. Distribución de la edad según el tipo de cáncer
fig = px.box(df, x="Tipo de Cáncer", y="Edad", color="Tipo de Cáncer",
             title="Distribución de la edad según el tipo de cáncer",
             color_discrete_sequence=px.colors.qualitative.Plotly)
fig.show()

# 2. Estados del resultado según el tipo de cáncer
fig = px.histogram(df, x="Tipo de Cáncer", color="Estados del Resultado", barmode="group",
                   title="Estados del resultado según el tipo de cáncer",
                   color_discrete_sequence=px.colors.qualitative.Plotly)
fig.show()

# 3. Edad vs. Estados del resultado
fig = px.box(df, x="Estados del Resultado", y="Edad", color="Estados del Resultado",
             title="Distribución de la edad según el estado del resultado",
             color_discrete_sequence=px.colors.qualitative.Plotly)
fig.show()

# 4. Asociación entre tipo de cáncer y estado del resultado (Chi-cuadrado)
contingency_cancer_outcome = pd.crosstab(df["Tipo de Cáncer"], df["Estados del Resultado"])
chi2_cancer_outcome, p_cancer_outcome, dof_cancer_outcome, expected_cancer_outcome = stats.chi2_contingency(contingency_cancer_outcome)
print("Chi-cuadrado tipo de cáncer vs. estado del resultado:", chi2_cancer_outcome)
print("p-valor:", p_cancer_outcome)
if p_cancer_outcome < 0.05:
    print("Existe asociación significativa entre el tipo de cáncer y el estado del resultado.")
else:
    print("No existe asociación significativa entre el tipo de cáncer y el estado del resultado.")

# 5. Asociación entre edad y estado del resultado (ANOVA)
anova_age_outcome = stats.f_oneway(
    df[df["Estados del Resultado"] == "Fallecido"]["Edad"],
    df[df["Estados del Resultado"] == "En Remisión"]["Edad"],
    df[df["Estados del Resultado"] == "Activo"]["Edad"]
)
print("ANOVA edad vs. estado del resultado:", anova_age_outcome)
if anova_age_outcome.pvalue < 0.05:
    print("Hay diferencias significativas en la edad según el estado del resultado.")
else:
    print("No hay diferencias significativas en la edad según el estado del resultado.")

# 6. Asociación entre tipo de tratamiento y estado del resultado (Chi-cuadrado)
contingency_treatment_outcome = pd.crosstab(df["Tipo de Tratamiento"], df["Estados del Resultado"])
chi2_treatment_outcome, p_treatment_outcome, dof_treatment_outcome, expected_treatment_outcome = stats.chi2_contingency(contingency_treatment_outcome)
print("Chi-cuadrado tipo de tratamiento vs. estado del resultado:", chi2_treatment_outcome)
print("p-valor:", p_treatment_outcome)
if p_treatment_outcome < 0.05:
    print("Existe asociación significativa entre el tipo de tratamiento y el estado del resultado.")
else:
    print("No existe asociación significativa entre el tipo de tratamiento y el estado del resultado.")

# 7. Asociación entre etapa en el diagnóstico y estado del resultado (Chi-cuadrado)
contingency_stage_outcome = pd.crosstab(df["Etapa en el diagnóstico"], df["Estados del Resultado"])
chi2_stage_outcome, p_stage_outcome, dof_stage_outcome, expected_stage_outcome = stats.chi2_contingency(contingency_stage_outcome)
print("Chi-cuadrado etapa en el diagnóstico vs. estado del resultado:", chi2_stage_outcome)
print("p-valor:", p_stage_outcome)
if p_stage_outcome < 0.05:
    print("Existe asociación significativa entre la etapa en el diagnóstico y el estado del resultado.")
else:
    print("No existe asociación significativa entre la etapa en el diagnóstico y el estado del resultado.")

# 8. Asociación entre marcadores genéticos y tipo de cáncer (Chi-cuadrado)
contingency_genetic_cancer = pd.crosstab(df["Marcadores genéticos"], df["Tipo de Cáncer"])
chi2_genetic_cancer, p_genetic_cancer, dof_genetic_cancer, expected_genetic_cancer = stats.chi2_contingency(contingency_genetic_cancer)
print("Chi-cuadrado marcadores genéticos vs. tipo de cáncer:", chi2_genetic_cancer)
print("p-valor:", p_genetic_cancer)
if p_genetic_cancer < 0.05:
    print("Existe asociación significativa entre los marcadores genéticos y el tipo de cáncer.")
else:
    print("No existe asociación significativa entre los marcadores genéticos y el tipo de cáncer.")

# 9. Asociación entre historia familiar y estado del resultado (Chi-cuadrado)
contingency_family_outcome = pd.crosstab(df["Historia Familiar"], df["Estados del Resultado"])
chi2_family_outcome, p_family_outcome, dof_family_outcome, expected_family_outcome = stats.chi2_contingency(contingency_family_outcome)
print("Chi-cuadrado historia familiar vs. estado del resultado:", chi2_family_outcome)
print("p-valor:", p_family_outcome)
if p_family_outcome < 0.05:
    print("Existe asociación significativa entre la historia familiar y el estado del resultado.")
else:
    print("No existe asociación significativa entre la historia familiar y el estado del resultado.")

In [158]:
#Analizar la distribución de los tipos de cáncer ocular según variables demográficas.
#Se utilizará la función de regresión logística para predecir el tipo de cá
fig = px.histogram(df, x="Edad", color="Tipo de Cáncer", barmode="group",
                     labels={"Edad": "Edad", "Tipo de Cáncer": "Tipo de Cáncer"},
                        category_orders={"Tipo de Cáncer": ["Retinoblastoma", "Melanoma", "Linfoma"]},
                        color_discrete_sequence=px.colors.qualitative.Plotly,
                   title="Distribución de tipos de cáncer ocular según la edad")
fig.show()

#Pruebas de Anova para comparar la edad de los pacientes con diferentes tipos de cáncer ocular.
anova_results = stats.f_oneway(
    df[df["Tipo de Cáncer"] == "Retinoblastoma"]["Edad"],
    df[df["Tipo de Cáncer"] == "Melanoma"]["Edad"],
    df[df["Tipo de Cáncer"] == "Linfoma"]["Edad"]
)
print(anova_results)
#Interpretación de los resultados de Anova
#Si el p-valor es menor que 0.05, se rechaza la hipótesis nula de que no hay diferencias significativas entre los grupos.
if anova_results.pvalue < 0.05:
    print("Hay diferencias significativas en la edad de los pacientes con diferentes tipos de cáncer ocular.")
else:
    print("No hay diferencias significativas en la edad de los pacientes con diferentes tipos de cáncer ocular.")


F_onewayResult(statistic=np.float64(0.05083649625348088), pvalue=np.float64(0.9504345488973018))
No hay diferencias significativas en la edad de los pacientes con diferentes tipos de cáncer ocular.


In [159]:
fig = px.histogram(df, x="Género", color="Tipo de Cáncer", barmode="group",
                   labels={"Edad": "Edad", "Tipo de Cáncer": "Tipo de Cáncer"},
                    category_orders={"Tipo de Cáncer": ["Retinoblastoma", "Melanoma", "Linfoma"]},
                    color_discrete_sequence=px.colors.qualitative.Plotly,
                   title="Distribución de tipos de cáncer ocular según la edad")
fig.show()
#Pruebas estadisicas Chi-cuadrado para evaluar la asociación entre el tipo de cáncer ocular y las variables categóricas.
#Prueba de Chi-cuadrado para evaluar la asociación entre el tipo de cá
contingency_table = pd.crosstab(df["Tipo de Cáncer"], df["Género"])
print("Tabla de contingencia:")
print(contingency_table)
chi2, p, dof, expected = stats.chi2_contingency(contingency_table)
print("Chi-cuadrado:", chi2)
print("Valor p:", p)
#Interpretación de los resultados
if p < 0.05:
    print("Hay una asociación significativa entre el tipo de cáncer ocular y el género.")
else:
      print("No hay una asociación significativa entre el tipo de cáncer ocular y el género.")


Tabla de contingencia:
Género            F    M  Other
Tipo de Cáncer                 
Linfoma         544  517    576
Melanoma        548  552    591
Retinoblastoma  536  583    553
Chi-cuadrado: 4.491078779426312
Valor p: 0.34360661686960053
No hay una asociación significativa entre el tipo de cáncer ocular y el género.


In [160]:
fig = px.histogram(df, x="País", color="Tipo de Cáncer", barmode="group",
                   labels={"Edad": "Edad", "Tipo de Cáncer": "Tipo de Cáncer"},
                    category_orders={"Tipo de Cáncer": ["Retinoblastoma", "Melanoma", "Linfoma"]},
                    color_discrete_sequence=px.colors.qualitative.Plotly,
                   title="Distribución de tipos de cáncer ocular según la edad")
fig.show()
#Pruebas estadísticas Anova para evaluar la asociación entre el tipo de cáncer ocular y las variables categóricas.
#Prueba de Anova para evaluar la asociación entre el tipo de cáncer ocular y el país.
country_groups = [group["Edad"].values for name, group in df.groupby("País")]   
anova_results_country = stats.f_oneway(*country_groups)
print("Resultados de la prueba de Anova para el país:")
print(anova_results_country)
#Interpretación de los resultados
if anova_results_country.pvalue < 0.05:
    print("Hay diferencias significativas en la edad de los pacientes con diferentes tipos de cáncer ocular según el país.")
else:
    print("No hay diferencias significativas en la edad de los pacientes con diferentes tipos de cáncer ocular según el país.")

Resultados de la prueba de Anova para el país:
F_onewayResult(statistic=np.float64(1.1328433858492075), pvalue=np.float64(0.3351406626956336))
No hay diferencias significativas en la edad de los pacientes con diferentes tipos de cáncer ocular según el país.


In [161]:
#Estudiar la relación entre los tipos de tratamiento y los resultados (estado final y supervivencia)

#grafica de violín para visualizar la distribución de los tipos de tratamiento según el estado del resultado.
fig = px.violin(df, x="Tipo de Tratamiento", y="Tiempo de Supervivencia Meses",
                   labels={"Tipo de Tratamiento": "Tipo de Tratamiento", "Tiempo de Supervivencia Meses": "Tiempo de Supervivencia (Meses)"},
                   category_orders={"Tipo de Tratamiento": ["Radiación", "Quimioterapia", "Cirugía"]},
                   color_discrete_sequence=px.colors.qualitative.Plotly,
                   title="Distribución del tiempo de supervivencia según el tipo de tratamiento")
fig.show()
fig = px.violin(df, x="Tipo de Tratamiento", color="Estado del Resultado",
                   labels={"Tipo de Tratamiento": "Tipo de Tratamiento", "Estado del Resultado": "Estado del Resultado"},
                   category_orders={"Estado del Resultado": ["Fallecido", "En Remisión", "Activo"]},
                   color_discrete_sequence=px.colors.qualitative.Plotly,
                   title="Distribución de tipos de tratamiento según el estado del resultado")
fig.show()
#Pruebas estadísticas Chi-cuadrado para evaluar la asociación entre el tipo de tratamiento y el estado del resultado.
contingency_table_treatment = pd.crosstab(df["Tipo de Tratamiento"], df["Estado del Resultado"])
print("Tabla de contingencia para el tratamiento y el estado del resultado:")
print(contingency_table_treatment)
chi2_treatment, p_treatment, dof_treatment, expected_treatment = stats.chi2_contingency(contingency_table_treatment)
print("Chi-cuadrado para el tratamiento:", chi2_treatment)
print("Valor p para el tratamiento:", p_treatment)
#Interpretación de los resultados
if p_treatment < 0.05:
    print("Hay una asociación significativa entre el tipo de tratamiento y el estado del resultado.")
else:
    print("No hay una asociación significativa entre el tipo de tratamiento y el estado del resultado.")


Tabla de contingencia para el tratamiento y el estado del resultado:
Estado del Resultado  Activo  En Remisión  Fallecido
Tipo de Tratamiento                                 
Cirugía                  537          575        567
Quimioterapia            545          527        593
Radiación                533          573        550
Chi-cuadrado para el tratamiento: 4.2708559294444415
Valor p para el tratamiento: 0.3705887624850189
No hay una asociación significativa entre el tipo de tratamiento y el estado del resultado.


In [162]:
#Evaluar la influencia del estadio en el diagnóstico sobre la supervivencia y el estado del paciente.

#grafica de lineas para visualizar la relación entre la etapa en el diagnóstico y el tiempo de supervivencia.
fig = px.line(df, x="Etapa en el diagnóstico", y="Tiempo de Supervivencia Meses", color="Tipo de Cáncer",
              labels={"Etapa en el diagnóstico": "Etapa en el diagnóstico", "Tiempo de Supervivencia Meses": "Tiempo de Supervivencia (Meses)"},
              category_orders={"Etapa en el diagnóstico": ["Etapa I", "Etapa II", "Etapa III", "Etapa IV"]},
              color_discrete_sequence=px.colors.qualitative.Plotly,
              title="Relación entre la etapa en el diagnóstico y el tiempo de supervivencia")
fig.show()

 2. Estudiar la relación entre los tipos de tratamiento y los resultados (estado final y supervivencia).

In [163]:
#Comparar:Tipo de tratamiento (quimio, radio, cirugía) vs. Estado final y tiempo de supervivencia.
#grafica de barras para comparar el tipo de tratamiento y el estado del resultado.
fig = px.bar(df, x="Tipo de Tratamiento", color="Estado del Resultado",
             labels={"Tipo de Tratamiento": "Tipo de Tratamiento", "Estado del Resultado": "Estado del Resultado"},
             category_orders={"Estado del Resultado": ["Fallecido", "En Remisión", "Activo"]},
             color_discrete_sequence=px.colors.qualitative.Plotly,
             title="Comparación del tipo de tratamiento y el estado del resultado")
fig.show()
#Pruebas estadísticas Chi-cuadrado para evaluar la asociación entre el tipo de tratamiento y el estado del resultado.
contingency_table_treatment_outcome = pd.crosstab(df["Tipo de Tratamiento"], df["Estado del Resultado"])
print("Tabla de contingencia para el tratamiento y el estado del resultado:")
print(contingency_table_treatment_outcome)
chi2_treatment_outcome, p_treatment_outcome, dof_treatment_outcome, expected_treatment_outcome = stats.chi2_contingency(contingency_table_treatment_outcome)    
print("Chi-cuadrado para el tratamiento y el estado del resultado:", chi2_treatment_outcome)
print("Valor p para el tratamiento y el estado del resultado:", p_treatment_outcome)
#Interpretación de los resultados
#Si el valor p es menor que 0.05, se rechaza la hipótesis nula de que no hay asociación entre el tipo de tratamiento y el estado del resultado.
if p_treatment_outcome < 0.05:
    print("Hay una asociación significativa entre el tipo de tratamiento y el estado del resultado.")
else:
    print("No hay una asociación significativa entre el tipo de tratamiento y el estado del resultado.")


Tabla de contingencia para el tratamiento y el estado del resultado:
Estado del Resultado  Activo  En Remisión  Fallecido
Tipo de Tratamiento                                 
Cirugía                  537          575        567
Quimioterapia            545          527        593
Radiación                533          573        550
Chi-cuadrado para el tratamiento y el estado del resultado: 4.2708559294444415
Valor p para el tratamiento y el estado del resultado: 0.3705887624850189
No hay una asociación significativa entre el tipo de tratamiento y el estado del resultado.


Evaluar la influencia del estadio en el diagnóstico sobre la supervivencia y el estado del paciente.

In [164]:
#Comparar:Etapa del cáncer vs. Meses de supervivencia y Estado final.
#grafica de barras para comparar la etapa del cáncer y el tiempo de supervivencia.
fig = px.bar(df, x="Etapa en el diagnóstico", y="Tiempo de Supervivencia Meses", color="Tipo de Cáncer",
             labels={"Etapa en el diagnóstico": "Etapa en el diagnóstico", "Tiempo de Supervivencia Meses": "Tiempo de Supervivencia (Meses)"},
             category_orders={"Etapa en el diagnóstico": ["Etapa I", "Etapa II", "Etapa III", "Etapa IV"]},
             color_discrete_sequence=px.colors.qualitative.Plotly,
             title="Comparación de la etapa del cáncer y el tiempo de supervivencia")
fig.show()
#Pruebas estadísticas Anova para evaluar la asociación entre la etapa del cáncer y el tiempo de supervivencia.
anova_results_stage = stats.f_oneway(
    df[df["Etapa en el diagnóstico"] == "Etapa I"]["Tiempo de Supervivencia Meses"],
    df[df["Etapa en el diagnóstico"] == "Etapa II"]["Tiempo de Supervivencia Meses"],
    df[df["Etapa en el diagnóstico"] == "Etapa III"]["Tiempo de Supervivencia Meses"],
    df[df["Etapa en el diagnóstico"] == "Etapa IV"]["Tiempo de Supervivencia Meses"]
)
print(anova_results_stage)
#Interpretación de los resultados
if anova_results_stage.pvalue < 0.05:
    print("Hay diferencias significativas en el tiempo de supervivencia según la etapa del cáncer.")
else:
    print("No hay diferencias significativas en el tiempo de supervivencia según la etapa del cáncer.")
#Pruebas estadísticas Chi-cuadrado para evaluar la asociación entre la etapa del cáncer y el estado del resultado.
contingency_table_stage_outcome = pd.crosstab(df["Etapa en el diagnóstico"], df["Estado del Resultado"])
print("Tabla de contingencia para la etapa del cáncer y el estado del resultado:")
print(contingency_table_stage_outcome)
chi2_stage_outcome, p_stage_outcome, dof_stage_outcome, expected_stage_outcome = stats.chi2_contingency(contingency_table_stage_outcome)
print("Chi-cuadrado para la etapa del cáncer y el estado del resultado:", chi2_stage_outcome)
print("P-valor para la etapa del cáncer y el estado del resultado:", p_stage_outcome)
#Interpretación de los resultados
if p_stage_outcome < 0.05:
    print("Hay una asociación significativa entre la etapa del cáncer y el estado del resultado.")
else:
    print("No hay una asociación significativa entre la etapa del cáncer y el estado del resultado.")





F_onewayResult(statistic=np.float64(0.4376920950435031), pvalue=np.float64(0.7260401047799594))
No hay diferencias significativas en el tiempo de supervivencia según la etapa del cáncer.
Tabla de contingencia para la etapa del cáncer y el estado del resultado:
Estado del Resultado     Activo  En Remisión  Fallecido
Etapa en el diagnóstico                                
Etapa I                     379          379        432
Etapa II                    429          432        426
Etapa III                   424          441        416
Etapa IV                    383          423        436
Chi-cuadrado para la etapa del cáncer y el estado del resultado: 6.395676933601509
P-valor para la etapa del cáncer y el estado del resultado: 0.38035504124004743
No hay una asociación significativa entre la etapa del cáncer y el estado del resultado.


 Investigar si hay diferencias en resultados clínicos entre pacientes con y sin antecedentes familiares.


In [165]:
# Investigar si hay diferencias en resultados clínicos entre pacientes con y sin antecedentes familiares.
# Gráfico de barras para comparar el estado del resultado según la historia familiar.
fig = px.bar(df, x="Historia Familiar", color="Estados del Resultados",
             labels={"Historia Familiar": "Historia Familiar", "Estado del Resultado": "Estado del Resultado"},
             category_orders={"Estado del Resultado": ["Fallecido", "En Remisión", "Activo"]},
             color_discrete_sequence=px.colors.qualitative.Plotly,
             title="Comparación del estado del resultado según la historia familiar")
fig.show()
# Pruebas estadísticas Chi-cuadrado para evaluar la asociación entre la historia familiar y el estado del resultado.
contingency_table_family_history = pd.crosstab(df["Historia Familiar"], df["Estado del Resultado"])
print("Tabla de contingencia para la historia familiar y el estado del resultado:")
print(contingency_table_family_history)
# Investigar si hay diferencias en resultados clínicos entre pacientes con y sin antecedentes
# familiares.
# Gráfico de barras para comparar el estado del resultado según la historia familiar.
# Pruebas estadísticas Chi-cuadrado para evaluar la asociación entre la historia familiar
chi2_family_history, p_family_history, dof_family_history, expected_family_history = stats.chi2_contingency(contingency_table_family_history)
print("Prueba de Chi-cuadrado para la historia familiar y el estado del resultado:")
print("Chi-cuadrado:", chi2_family_history)
print("Valor p:", p_family_history)
# Interpretación de los resultados
if p_family_history < 0.05:
    print("Hay una asociación significativa entre la historia familiar y el estado del resultado.")
else:
    print("No hay una asociación significativa entre la historia familiar y el estado del resultado.")


ValueError: Value of 'color' is not the name of a column in 'data_frame'. Expected one of ['Patient_ID', 'Edad', 'Género', 'Tipo de Cáncer', 'Lateralidad', 'Fecha de diagnóstico', 'Etapa en el diagnóstico', 'Tipo de Tratamiento', 'Estado de Cirugía', 'Terapia de Radiación', 'Quimioterapia', 'Estado del Resultado', 'Tiempo de Supervivencia Meses', 'Marcadores genéticos', 'Historia Familiar', 'País', 'Grupo de Edad'] but received: Estados del Resultados

Determinar si los marcadores genéticos influyen en el tipo de cáncer o en los resultados clínicos.

In [None]:
#Comparar:Presencia de mutación genética (como BRAF) vs. Tipo de cáncer y estado final.
# Gráfico de barras para comparar la presencia de mutación genética y el tipo de cáncer.
fig = px.bar(df, x="Marcadores genéticos", color="Tipo de Cáncer",
             labels={"Marcadores genéticos": "Marcadores genéticos", "Tipo de Cáncer": "Tipo de Cáncer"},
             category_orders={"Tipo de Cáncer": ["Retinoblastoma", "Melanoma", "Linfoma"]},
             color_discrete_sequence=px.colors.qualitative.Plotly,
             title="Comparación de la presencia de mutación genética y el tipo de cáncer")
fig.show()
# Pruebas estadísticas Chi-cuadrado para evaluar la asociación entre la presencia de mutación genética y el tipo de cáncer.
contingency_table_genetic_markers = pd.crosstab(df["Marcadores genéticos"], df["Tipo de Cáncer"])
print("Tabla de contingencia para los marcadores genéticos y el tipo de cáncer:")
print(contingency_table_genetic_markers)
chi2_genetic_markers, p_genetic_markers, dof_genetic_markers, expected_genetic_markers = stats.chi2_contingency(contingency_table_genetic_markers)
print("Prueba de Chi-cuadrado para los marcadores genéticos y el tipo de cáncer:")
print("Chi-cuadrado:", chi2_genetic_markers)
print("Valor p:", p_genetic_markers)
# Interpretación de los resultados
if p_genetic_markers < 0.05:
    print("Hay una asociación significativa entre la presencia de mutación genética y el tipo de cáncer.")
else:
    print("No hay una asociación significativa entre la presencia de mutación genética y el tipo de cáncer.")

Analizar si hay una edad crítica de diagnóstico asociada con peor pronóstico.

In [None]:
#Comparar:Edad vs. Estado final y supervivencia.
# Gráfico de dispersión para comparar la edad y el tiempo de supervivencia.
fig = px.scatter(df, x="Edad", y="Tiempo de Supervivencia Meses", color="Estado del Resultado",
                 labels={"Edad": "Edad", "Tiempo de Supervivencia Meses": "Tiempo de Supervivencia (Meses)"},
                 category_orders={"Estado del Resultado": ["Fallecido", "En Remisión", "Activo"]},
                 color_discrete_sequence=px.colors.qualitative.Plotly,
                 title="Comparación de la edad y el tiempo de supervivencia")
fig.show()
# Pruebas estadísticas Anova para evaluar la asociación entre la edad y el estado del resultado.
anova_results_age_outcome = stats.f_oneway(
    df[df["Estado del Resultado"] == "Fallecido"]["Edad"],
    df[df["Estado del Resultado"] == "En Remisión"]["Edad"],
    df[df["Estado del Resultado"] == "Activo"]["Edad"]
)
print("F-statistic:", anova_results_age_outcome.statistic)
print("P-value:", anova_results_age_outcome.pvalue)
# Interpretación de los resultados
if anova_results_age_outcome.pvalue < 0.05:
    print("Hay diferencias significativas en la edad de los pacientes según el estado del resultado.")
else:
    print("No hay diferencias significativas en la edad de los pacientes según el estado del resultado.")
    

F-statistic: 1.0987601516110133
P-value: 0.3333645567901843
No hay diferencias significativas en la edad de los pacientes según el estado del resultado.
