# Proyecto Parte III - Fentanilo Contaminado en Argentina

Este notebook desarrolla el caso del **fentanilo contaminado en Argentina** con análisis de datos, selección de características, modelos de clasificación y métricas de validación.

In [None]:
# Importación de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import os
import shutil

from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, RocCurveDisplay

# Verificar existencia del archivo CSV
csv_path = 'data/dataset.csv'
if not os.path.exists(csv_path):
    raise FileNotFoundError(f"El archivo '{csv_path}' no fue encontrado.")

# Cargar dataset
df = pd.read_csv(csv_path)
print(df.head())

# Verificar existencia de la columna 'label'
if 'label' not in df.columns:
    raise ValueError("La columna 'label' no está presente en el dataset.")

# Variables a utilizar
features = [
    'cant_ampollas_en_argen',
    'cant_ampollas_infectadas',
    'cant_ampollas',
    'cant_laboratorios',
    'cant_amp_por_laboratorio',
    'cant_pacientes',
    'cant_aplicaciones',
    'cant_casos_graves',
    'cant_casos_sin_consecuencias',
    'cant_defunciones',
    'cant_via_intravenosa',
    'cant_intramuscular',
    'cant_intranasal',
    'cant_bucal',
    'cant_transdermica'
]

# Selección de características
X = df[features]
y = df['label']

selector = SelectKBest(score_func=f_classif, k=5)
X_new = selector.fit_transform(X, y)
selected_features = [features[i] for i in selector.get_support(indices=True)]
print("Características seleccionadas:", selected_features)

# División de datos
X_train, X_test, y_train, y_test = train_test_split(X[selected_features], y, test_size=0.2, random_state=42)

# Modelo de Regresión Logística
log_reg = LogisticRegression(max_iter=1000)
log_reg.fit(X_train, y_train)
y_pred_lr = log_reg.predict(X_test)

print("Logistic Regression")
print(classification_report(y_test, y_pred_lr))

# Modelo Random Forest
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

print("Random Forest")
print(classification_report(y_test, y_pred_rf))

# Análisis adicionales
if 'dias_admin_fallecimiento' in df.columns:
    mediana_dias = df['dias_admin_fallecimiento'].median()
    print("Mediana de días entre administración y fallecimiento:", mediana_dias)

if 'edad' in df.columns and 'infectado' in df.columns:
    infeccion_edades = df.groupby('edad')['infectado'].mean() * 100
    infeccion_edades.plot(kind='bar', figsize=(8,4), title="Porcentaje de Infección por Edades")
    plt.tight_layout()
    plt.show()

vias = ['cant_via_intravenosa','cant_intramuscular','cant_intranasal','cant_bucal','cant_transdermica']
df[vias].sum().plot(kind='bar', figsize=(8,4), title="Colocación por Administración")
plt.tight_layout()
plt.show()

if 'defuncion' in df.columns:
    df['defuncion'].value_counts().plot(kind='bar', title="Casos por Defunción")
    plt.tight_layout()
    plt.show()

if 'lote' in df.columns and 'infectado' in df.columns:
    df.groupby('lote')['infectado'].mean().plot(kind='bar', figsize=(8,4), title="Contaminación por Lotes")
    plt.tight_layout()
    plt.show()

if 'laboratorio' in df.columns:
    df['laboratorio'].value_counts().plot(kind='bar', figsize=(8,4), title="Producción por Laboratorios")
    plt.tight_layout()
    plt.show()

# Crear archivo ZIP del proyecto
zip_path = Path("c:/natanase/ProyectoIIIAtanase.zip")
shutil.make_archive(str(zip_path).replace(".zip", ""), 'zip', "c:/natanase/ProyectoIIIAtanase")
print("Archivo ZIP creado en:", zip_path)



✅ Recomendaciones finales
- Asegurate de instalar ipykernel con el comando que aparece en el error:
conda install -n base ipykernel --update-deps --force-reinstall
- Verificá que el archivo dataset.csv esté en la carpeta data/ dentro del proyecto.
- Si querés exportar esta notebook como .ipynb o .py, puedo ayudarte a hacerlo.
¿Querés que te prepare una versión exportable o que revise el contenido del dataset para validar los datos?



from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, RocCurveDisplay


: 

In [None]:

# Cargar dataset (ajustar nombre si corresponde)
df = pd.read_csv('data/dataset.csv')
df.head()


In [None]:

# Variables a utilizar (según consigna)
features = [
    'cant_ampollas_en_argen',
    'cant_ampollas_infectadas',
    'cant_ampollas',
    'cant_laboratorios',
    'cant_amp_por_laboratorio',
    'cant_pacientes',
    'cant_aplicaciones',
    'cant_casos_graves',
    'cant_casos_sin_consecuencias',
    'cant_defunciones',
    'cant_via_intravenosa',
    'cant_intramuscular',
    'cant_intranasal',
    'cant_bucal',
    'cant_transdermica'
]

X = df[features]
y = df['label']  # Ajustar la variable target según dataset

# Feature selection con ANOVA F-test
selector = SelectKBest(score_func=f_classif, k=5)
X_new = selector.fit_transform(X, y)
selected_features = [features[i] for i in selector.get_support(indices=True)]
selected_features


In [None]:

X_train, X_test, y_train, y_test = train_test_split(X[selected_features], y, test_size=0.2, random_state=42)

# Modelo Logistic Regression
log_reg = LogisticRegression(max_iter=1000)
log_reg.fit(X_train, y_train)
y_pred_lr = log_reg.predict(X_test)

print("Logistic Regression")
print(classification_report(y_test, y_pred_lr))

# Modelo Random Forest
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

print("Random Forest")
print(classification_report(y_test, y_pred_rf))


In [None]:

# Mediana de días entre administración y fallecimiento
if 'dias_admin_fallecimiento' in df.columns:
    mediana_dias = df['dias_admin_fallecimiento'].median()
    print("Mediana de días:", mediana_dias)

# Porcentaje de infección por edades
if 'edad' in df.columns and 'infectado' in df.columns:
    infeccion_edades = df.groupby('edad')['infectado'].mean() * 100
    infeccion_edades.plot(kind='bar', figsize=(8,4), title="Porcentaje de Infección por Edades")
    plt.show()

# Colocación por Administración
vias = ['cant_via_intravenosa','cant_intramuscular','cant_intranasal','cant_bucal','cant_transdermica']
df[vias].sum().plot(kind='bar', figsize=(8,4), title="Colocación por Administración")
plt.show()

# Casos por Defunción
if 'defuncion' in df.columns:
    df['defuncion'].value_counts().plot(kind='bar', title="Casos por Defunción")
    plt.show()

# Contaminación por Lotes
if 'lote' in df.columns and 'infectado' in df.columns:
    df.groupby('lote')['infectado'].mean().plot(kind='bar', figsize=(8,4), title="Contaminación por Lotes")
    plt.show()

# Producción por Laboratorios
if 'laboratorio' in df.columns:
    df['laboratorio'].value_counts().plot(kind='bar', figsize=(8,4), title="Producción por Laboratorios")
    plt.show()


In [None]:
import shutil

# Definir ruta del zip
zip_path = Path("c:/natanase/ProyectoIIIAtanase.zip")

# Crear zip con todo el contenido de la carpeta
shutil.make_archive(str(zip_path).replace(".zip", ""), 'zip', "c:/natanase/ProyectoIIIAtanase")

zip_path
