In [24]:
import numpy as np
import pandas as pd

# Configuración de parámetros
num_samples = 1000

# Definición de funciones para generar datos simulados para diferentes tipos de fumadores
def generar_datos_fumador_no():
    # Para un no fumador, devolvemos explícitamente 0 en frecuencia y cantidad
    frecuencia = 0
    cantidad = 0
    return frecuencia, cantidad

def generar_datos_fumador_ocasional_leve():
    frecuencia = np.random.choice([0, 1], p=[0.8, 0.2])  # Fuma ocasionalmente
    cantidad = np.random.choice([0, 1], p=[0.9, 0.1])    # Pocos cigarrillos si fuma
    return frecuencia, cantidad

def generar_datos_fumador_social():
    frecuencia = np.random.choice([0, 1], p=[0.5, 0.5])  # Fuma con frecuencia moderada
    cantidad = np.random.choice([1, 2, 3, 4, 5], p=[0.4, 0.2, 0.2, 0.1, 0.1])  # Varía la cantidad en eventos sociales
    return frecuencia, cantidad

def generar_datos_fumador_moderado():
    frecuencia = np.random.randint(1, 10)  # Frecuencia diaria de fumar
    cantidad = np.random.randint(5, 15)   # Número de cigarrillos por día
    return frecuencia, cantidad

def generar_datos_fumador_regular():
    frecuencia = np.random.randint(10, 20)  # Frecuencia diaria de fumar
    cantidad = np.random.randint(15, 25)    # Número de cigarrillos por día
    return frecuencia, cantidad

def generar_datos_fumador_pesado():
    frecuencia = np.random.randint(20, 40)  # Frecuencia diaria de fumar
    cantidad = np.random.randint(25, 40)    # Número de cigarrillos por día
    return frecuencia, cantidad

def generar_datos_fumador_muy_pesado():
    frecuencia = np.random.randint(40, 60)  # Frecuencia diaria de fumar
    cantidad = np.random.randint(40, 60)    # Número de cigarrillos por día
    return frecuencia, cantidad

# Listas para almacenar los datos generados
tipos_fumador = []
frecuencias = []
cantidades = []

# Generar datos para 1000 muestras
for _ in range(num_samples):
    tipo_fumador = np.random.choice(['No fumador', 'Ocasional leve', 'Social', 'Moderado', 'Regular', 'Pesado', 'Muy pesado'], 
                                    p=[0.2, 0.1, 0.1, 0.15, 0.15, 0.15, 0.15])
    
    if tipo_fumador == 'No fumador':
        frecuencia, cantidad = generar_datos_fumador_no()
    elif tipo_fumador == 'Ocasional leve':
        frecuencia, cantidad = generar_datos_fumador_ocasional_leve()
    elif tipo_fumador == 'Social':
        frecuencia, cantidad = generar_datos_fumador_social()
    elif tipo_fumador == 'Moderado':
        frecuencia, cantidad = generar_datos_fumador_moderado()
    elif tipo_fumador == 'Regular':
        frecuencia, cantidad = generar_datos_fumador_regular()
    elif tipo_fumador == 'Pesado':
        frecuencia, cantidad = generar_datos_fumador_pesado()
    elif tipo_fumador == 'Muy pesado':
        frecuencia, cantidad = generar_datos_fumador_muy_pesado()
    
    tipos_fumador.append(tipo_fumador)
    frecuencias.append(frecuencia)
    cantidades.append(cantidad)

# Crear DataFrame con los datos generados
data = {
    'Tipo Fumador': tipos_fumador,
    'Frecuencia': frecuencias,
    'Cantidad': cantidades
}

df = pd.DataFrame(data)

# Mostrar las primeras filas del DataFrame generado
df.head(300)

Unnamed: 0,Tipo Fumador,Frecuencia,Cantidad
0,Social,0,1
1,Regular,19,15
2,Muy pesado,58,56
3,Pesado,22,37
4,Moderado,8,6
...,...,...,...
295,Muy pesado,47,42
296,Ocasional leve,0,0
297,Moderado,5,14
298,Muy pesado,41,55


In [25]:


# Filtrar el DataFrame para No fumadores con 0 en frecuencia o cantidad
no_fumadores_con_cero = df[(df['Tipo Fumador'] == 'No fumador') & ((df['Frecuencia'] == 0) | (df['Cantidad'] == 0))]

# Contar cuántos no fumadores tienen 0 en frecuencia o cantidad
num_no_fumadores_cero = len(no_fumadores_con_cero)

# Mostrar resultados
print(f"Número total de individuos: {len(df)}")
print(f"Número de No fumadores: {len(df[df['Tipo Fumador'] == 'No fumador'])}")
print(f"Número de No fumadores con 0 en frecuencia o cantidad: {num_no_fumadores_cero}")

Número total de individuos: 1000
Número de No fumadores: 207
Número de No fumadores con 0 en frecuencia o cantidad: 207


In [26]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix


In [27]:
# Dividir características y etiquetas
X = df[['Frecuencia', 'Cantidad']]
y = df['Tipo Fumador']

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir el modelo de Random Forest con hiperparámetros ajustados
rf = RandomForestClassifier(n_estimators=300, 
                            max_depth=30, 
                            min_samples_split=5, 
                            min_samples_leaf=1, 
                            max_features='sqrt',
                            random_state=42)

# Entrenar el modelo
rf.fit(X_train, y_train)

# Hacer predicciones
y_pred = rf.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión del modelo: {accuracy:.2f}')

# Matriz de confusión
print('Matriz de Confusión:')
print(confusion_matrix(y_test, y_pred))

# Reporte de clasificación
print('Reporte de Clasificación:')
print(classification_report(y_test, y_pred))

Precisión del modelo: 0.94
Matriz de Confusión:
[[28  0  0  0  0  0  0]
 [ 0 35  0  0  0  0  0]
 [ 0  0 45  0  0  0  0]
 [ 0  0 11  4  0  0  2]
 [ 0  0  0  0 31  0  0]
 [ 0  0  0  0  0 30  0]
 [ 0  0  0  0  0  0 14]]
Reporte de Clasificación:
                precision    recall  f1-score   support

      Moderado       1.00      1.00      1.00        28
    Muy pesado       1.00      1.00      1.00        35
    No fumador       0.80      1.00      0.89        45
Ocasional leve       1.00      0.24      0.38        17
        Pesado       1.00      1.00      1.00        31
       Regular       1.00      1.00      1.00        30
        Social       0.88      1.00      0.93        14

      accuracy                           0.94       200
     macro avg       0.95      0.89      0.89       200
  weighted avg       0.95      0.94      0.92       200
