In [2]:
import pandas as pd

# Cargar el dataset
file_path = "survey lung cancer.csv"
df = pd.read_csv(file_path)

# Mostrar las primeras filas
df.head()


Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,ANXIETY,PEER_PRESSURE,CHRONIC DISEASE,FATIGUE,ALLERGY,WHEEZING,ALCOHOL CONSUMING,COUGHING,SHORTNESS OF BREATH,SWALLOWING DIFFICULTY,CHEST PAIN,LUNG_CANCER
0,M,69,1,2,2,1,1,2,1,2,2,2,2,2,2,YES
1,M,74,2,1,1,1,2,2,2,1,1,1,2,2,2,YES
2,F,59,1,1,1,2,1,2,1,2,1,2,2,1,2,NO
3,M,63,2,2,2,1,1,1,1,1,2,1,1,2,2,NO
4,F,63,1,2,1,1,1,1,1,2,1,2,2,1,1,NO


Nota: Revisamos la información general y valores nulos:

In [None]:
# Información general del dataset
df.info()

# Verificar valores nulos
df.isnull().sum()


Distribución de edades y proporciones de cancer de pulmón:


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Distribución de edades
plt.figure(figsize=(8,5))
sns.histplot(df['AGE'], bins=20, kde=True)
plt.title('Distribución de Edad')
plt.show()

# Proporción de diagnóstico de cáncer de pulmón
plt.figure(figsize=(5,5))
sns.countplot(x=df['LUNG_CANCER'])
plt.title('Proporción de Casos de Cáncer de Pulmón')
plt.show()


Probabilidad de tener cáncer de pulmón:

In [None]:
p_lung_cancer = df['LUNG_CANCER'].value_counts(normalize=True)['YES']
print(f"Probabilidad de cáncer de pulmón: {p_lung_cancer:.2f}")


Probabilidad de tener cancer de pulmón siendo una persona que fuma:  
Probabilidad condicional: P(Cáncer | Fumador)

In [None]:
smokers = df[df['SMOKING'] == 1]
p_lung_given_smoker = (smokers['LUNG_CANCER'] == 'YES').mean()

print(f"Probabilidad de cáncer dado que fuma: {p_lung_given_smoker:.2f}")


Probabilidad conjunta: P(Fumador ∩ Cáncer)

In [None]:
p_smoker = (df['SMOKING'] == 1).mean()
p_smoker_and_lung = p_lung_given_smoker * p_smoker

print(f"Probabilidad de ser fumador y tener cáncer: {p_smoker_and_lung:.2f}")


Independencia entre fumar y cáncer de pulmón:


In [None]:
p_lung_cancer * p_smoker  # P(A) * P(B)

 Análisis de Correlaciones:  
 Esto nos permite identificar qué factores tienen mayor relación con el cáncer de pulmón.

In [None]:
plt.figure(figsize=(10,8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de Correlación')
plt.show()


Usaremos pruebas estadísticas para determinar si hay una relación significativa entre ciertos factores de riesgo y el cáncer de pulmón.

Hipótesis a Evaluar: Fumar está asociado significativamente con el cáncer de pulmón.
Prueba: Chi-cuadrado para independencia entre fumar y cáncer de pulmón.

In [None]:
import pandas as pd
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report

# Cargar datos
df = pd.read_csv("survey lung cancer.csv")

# Convertir variables categóricas a numéricas
df['LUNG_CANCER'] = df['LUNG_CANCER'].map({'YES': 1, 'NO': 0})

# Prueba 1: Chi-cuadrado entre fumar y cáncer
tab = pd.crosstab(df['SMOKING'], df['LUNG_CANCER'])
chi2, p, dof, expected = stats.chi2_contingency(tab)
print(f"Prueba de Chi-cuadrado (Fumar vs Cáncer): chi2={chi2:.2f}, p-valor={p:.4f}")

Hipótesis a Evaluar: La edad promedio de pacientes con cáncer de pulmón es mayor que la de los que no tienen.
Prueba: t de Student para comparar medias de dos grupos.

In [None]:
# Prueba 2: t de Student entre edades de pacientes con y sin cáncer
ages_cancer = df[df['LUNG_CANCER'] == 1]['AGE']
ages_no_cancer = df[df['LUNG_CANCER'] == 0]['AGE']
t_stat, p_value = stats.ttest_ind(ages_cancer, ages_no_cancer, equal_var=False)
print(f"Prueba t de Student (Edad vs Cáncer): t={t_stat:.2f}, p-valor={p_value:.4f}")

Hipótesis a Evaluar: La presencia de tos es un buen predictor del cáncer de pulmón.
Prueba: Chi-cuadrado para evaluar asociación entre tos y cáncer.

In [None]:
# Prueba 3: Chi-cuadrado entre tos y cáncer
tab_cough = pd.crosstab(df['COUGHING'], df['LUNG_CANCER'])
chi2_cough, p_cough, _, _ = stats.chi2_contingency(tab_cough)
print(f"Prueba de Chi-cuadrado (Tos vs Cáncer): chi2={chi2_cough:.2f}, p-valor={p_cough:.4f}")