# Lung Cancer Detection Dataset

## Descripción
[Lung Cancer Detection Dataset](https://www.kaggle.com/datasets/jillanisofttech/lung-cancer-detection) está diseñado para la predicción de cáncer de pulmón utilizando técnicas de Machine Learning. Proporciona datos para desarrollar un sistema de predicción temprana que permite evaluar el riesgo de cáncer de pulmón de manera económica y accesible.

## Objetivo
El principal objetivo de este conjunto de datos es facilitar el desarrollo de modelos predictivos que puedan:
- Ayudar en la detección temprana del cáncer de pulmón
- Proporcionar evaluaciones de riesgo preliminares
- Asistir en la toma de decisiones médicas iniciales

## Importancia
La detección temprana del cáncer de pulmón es crucial para mejorar las tasas de supervivencia. Este sistema de predicción ofrece:
- Evaluación de riesgo de bajo costo
- Accesibilidad para la población general
- Apoyo en la toma de decisiones médicas preventivas

## Origen de los Datos
Los datos fueron recopilados a través de un sistema online de predicción de cáncer de pulmón, incorporando diversos factores de riesgo y síntomas asociados con esta enfermedad.

## Aplicación
Este dataset puede ser utilizado para:
- Desarrollo de modelos de Machine Learning
- Investigación en detección temprana de cáncer
- Creación de sistemas de apoyo a decisiones médicas
- Estudios epidemiológicos

## Nota
Los resultados derivados de este dataset deben ser considerados como herramientas de screening preliminar y no sustituyen el diagnóstico médico profesional.

In [None]:
import pandas as pd

dataset_path = 'survey_lung_cancer.csv'
df = pd.read_csv(dataset_path)

df.head()

In [2]:
df['LUNG_CANCER'] = df['LUNG_CANCER'].apply(lambda x: 1 if x=='NO' else 2)
df['GENDER'] = df['GENDER'].apply(lambda x: 1 if x=='M' else 2)

df.head()

Unnamed: 0,GENDER,AGE,SMOKING,YELLOW_FINGERS,ANXIETY,PEER_PRESSURE,CHRONIC DISEASE,FATIGUE,ALLERGY,WHEEZING,ALCOHOL CONSUMING,COUGHING,SHORTNESS OF BREATH,SWALLOWING DIFFICULTY,CHEST PAIN,LUNG_CANCER
0,1,69,1,2,2,1,1,2,1,2,2,2,2,2,2,2
1,1,74,2,1,1,1,2,2,2,1,1,1,2,2,2,2
2,2,59,1,1,1,2,1,2,1,2,1,2,2,1,2,1
3,1,63,2,2,2,1,1,1,1,1,2,1,1,2,2,1
4,2,63,1,2,1,1,1,1,1,2,1,2,2,1,1,1


In [3]:
len(df)

309

In [10]:
from sklearn.model_selection import train_test_split

def train_val_test_split(df, rstate=42, shuffle=True, stratify=None):
    strat = df[stratify] if stratify else None
    train_set, test_set = train_test_split(
        df, test_size=0.4, random_state=rstate, shuffle=shuffle, stratify=strat)
    strat = test_set[stratify] if stratify else None
    val_set, test_set = train_test_split(
        test_set, test_size=0.5, random_state=rstate, shuffle=shuffle, stratify=strat)
    return (train_set, val_set, test_set)

def remove_labels(df, label_name):
    X = df.drop(label_name, axis=1)
    y = df[label_name].copy()
    return (X, y)

In [11]:
train_set, val_set, test_set = train_val_test_split(df)

In [14]:
X_train, y_train = remove_labels(train_set, 'LUNG_CANCER')
X_val, y_val = remove_labels(val_set, 'LUNG_CANCER')
X_test, y_test = remove_labels(test_set, 'LUNG_CANCER')

In [16]:
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)

In [22]:
y_pred = clf.predict(X_val)
y_pred

array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2], dtype=int64)

In [23]:
from sklearn.metrics import accuracy_score


print('Accuracy: {:.3f}'.format(accuracy_score(y_val, y_pred)))

Accuracy: 0.919


In [25]:
from sklearn.metrics import confusion_matrix

y_pred = clf.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
cm

array([[ 3,  1],
       [ 1, 57]], dtype=int64)