# **Proyecto Final Inteligencia Artificial**

### Autores: **Angel David Piñeros Sierra**, **Camilo Andrés Roncancio Toca**, **Kelly Johana Solano Calderón**
### Presentado a: **Darwin Eduardo Martinez Riaño**


---

## **Modelo de segmentación de imágenes para la localización de lesiones asociadas al cáncer de piel**

### *Glosario*

### *(A) Descripción de la problemática*

### *(B) Objetivo*

### *(C) Descripción del dataset*

El dataset seleccionado para la evaluación del modelo fue el denominado “Skin cancer: HAM10000” de la plataforma de Kaggle, el cual ofrece un conjunto de imágenes especiales para realizar tareas de segmentación y clasificación. Para el propósito de segmentación, el dataset incluye para cada una de las imágenes, el conjunto de máscaras qué determinan la segmentación de las lesiones de cáncer de piel. 

> El acrónimo HAM10000 significa “Human Against Machine with 10000 training images”. 

Este dataset es una recopilación de imágenes demoscópicas de diferentes poblaciones. Estas fueron originalmente publicadas inicialmente en el repositorio de Harvard Dataverse,  con el propósito de abordar la dificultad de encontrar un dataset lo suficientemente grande y diverso para realizar diagnósticos automatizados de lesiones cutáneas pigmentadas. 

El dataset se conforma de dos carpetas: images y masks. Cada una con **10015** imágenes en formato **.JPEG**. Todas las imágenes tienen una dimensión de `600px X 450px`

<img src="https://res.cloudinary.com/dlsntlruu/image/upload/v1764556079/carpeta_images_pieoyu.png" width="600px"/>

<img src="https://res.cloudinary.com/dlsntlruu/image/upload/v1764556079/carpeta_masks_taifwn.png" width="600px"/>

Las imágenes incluyen diagnósticos de:
*  Queratosis actínicas
*  Carcinoma intraepitelial
*  Carcinoma basocelular
*  Lesiones de tipo queratosis
*  Dermatofibroma
*  Melanoma
*  Lesiones vasculares

Contar con una amplia gama de diagnósticos permite qué la tarea de segmentación semántica pueda realizarse de forma óptima. 

Para mayor información: 

*  Skin cancer: HAM10000: https://www.kaggle.com/datasets/surajghuwalewala/ham1000-segmentation-and-classification/
*  The HAM10000 dataset, a large collection of multi-source dermatoscopic images of common pigmented skin lesions: https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/DBW86T



### *(D) Importación y organización de datos*


In [3]:
%pip install kaggle pandas 

Collecting kaggle
  Downloading kaggle-1.8.2-py3-none-any.whl.metadata (16 kB)
Collecting pandas
  Using cached pandas-2.3.3-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.metadata (91 kB)
Collecting black>=24.10.0 (from kaggle)
  Downloading black-25.11.0-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl.metadata (85 kB)
Collecting bleach (from kaggle)
  Downloading bleach-6.3.0-py3-none-any.whl.metadata (31 kB)
Collecting kagglesdk (from kaggle)
  Downloading kagglesdk-0.1.13-py3-none-any.whl.metadata (13 kB)
Collecting mypy>=1.15.0 (from kaggle)
  Downloading mypy-1.19.0-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl.metadata (2.2 kB)
Collecting protobuf (from kaggle)
  Using cached protobuf-6.33.1-cp39-abi3-manylinux2014_x86_64.whl.metadata (593 bytes)
Collecting python-slugify (from kaggle)
  Using cached python_slugify-8.0.4-py2.py3-none-any.whl.metadata (8.5 kB)
Collecting requests (from kaggle)
  Usin

In [4]:
import os
import zipfile
import pandas as pd
import subprocess

dataset_url = "surajghuwalewala/ham1000-segmentation-and-classification"
ruta_descarga = "ham1000_data"

if os.path.exists(ruta_descarga):
    print(f"La carpeta '{ruta_descarga}' ya existe. No se descargará de nuevo.")
else:
    os.makedirs(ruta_descarga, exist_ok=True)
    subprocess.run([
        "kaggle", "datasets", "download",
        "-d", dataset_url,
        "-p", ruta_descarga,
        "--unzip"
    ], check=True)

print("Contenido de la carpeta:", os.listdir(ruta_descarga))

images_dir = os.path.join(ruta_descarga, "images")
masks_dir = os.path.join(ruta_descarga, "masks")

if os.path.isdir(images_dir):
    print("Número de imágenes:", len(os.listdir(images_dir)))
else:
    print("No encontré la carpeta 'images'.")

if os.path.isdir(masks_dir):
    print("Número de máscaras:", len(os.listdir(masks_dir)))
else:
    print("No encontré la carpeta 'masks'.")

Dataset URL: https://www.kaggle.com/datasets/surajghuwalewala/ham1000-segmentation-and-classification
License(s): Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
Downloading ham1000-segmentation-and-classification.zip to ham1000_data


100%|██████████| 2.59G/2.59G [05:41<00:00, 8.14MB/s]



Contenido de la carpeta: ['GroundTruth.csv', 'images', 'masks']
Número de imágenes: 10017
Número de máscaras: 10015
