<a href="https://colab.research.google.com/github/I-ULISES-I/Colabfiles/blob/main/ProyectoProgADAP_256056.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Proyecto de Programación para Analítica Descriptiva y Predictiva**
## Nombre del Proyecto: Análisis y Predicción del Riesgo de Cáncer de Tiroides
## Grupo: B
## Autor: Ulises Hernández Rodríguez
## Matrícula: 256056
## Fecha: 10/Mar/25

# **1. Introducción**

## - Descripción del problema: ¿Qué queremos analizar o predecir?

El cáncer de tiroides es un tumor que se origina en la glándula tiroides, una pequeña glándula con forma de mariposa ubicada en el cuello. Es el cáncer endocrinológico más frecuente. El principal síntoma de cáncer de tiroides es un bulto en el cuello. Una pronta detección puede ayudar a prevenir consecuencias irrevertibles, así como un tratamiento temprano.

## - Objetivo del análisis: ¿Qué impacto tendrá este análisis?

El objetivo de este proyecto es analizar las 13 características clínico-patológicas sobre los pacientes que el conjunto de datos proporciona, con la finalidad de intentar predecir el nivel del riesgo que existe de padecer cáncer de tiroides.

## - Fuente de datos: ¿De dónde provienen los datos?

Los datos fueron extraídos de Kaggle del siguiente enlace:
https://www.kaggle.com/datasets/bhargavchirumamilla/thyroid-cancer-risk-dataset, donde se encuentran publicados para que cualquier persona pueda hacer uso de ellos bajo una licencia del MIT.


# **2. Captura y Carga de Datos**

## - Explicación de la fuente de datos: ¿Cuáles son las fuentes de datos?, ¿Qué formato tienen los datos (CSV, SQL, API, etc.)?, ¿Cuántas observaciones y variables contiene el dataset?

El conjunto de datos viene en un archivo con extensión .csv, el cual es un tipo de archivo que contiene información delimitada por comas. A continuacion se presenta una primera vista del formato de la información:

In [None]:
#Importación de la librería pandas.
import pandas as pd

#Carga del archivo.
df = pd.read_csv('drive/MyDrive/ClassFiles/thyroid_cancer_risk_data.csv')

#Impresión de la información del archivo.
print('Información del archivo:')
print(df.info())

Información del archivo:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 212691 entries, 0 to 212690
Data columns (total 17 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   Patient_ID           212691 non-null  int64  
 1   Age                  212691 non-null  int64  
 2   Gender               212691 non-null  object 
 3   Country              212691 non-null  object 
 4   Ethnicity            212691 non-null  object 
 5   Family_History       212691 non-null  object 
 6   Radiation_Exposure   212691 non-null  object 
 7   Iodine_Deficiency    212691 non-null  object 
 8   Smoking              212691 non-null  object 
 9   Obesity              212691 non-null  object 
 10  Diabetes             212691 non-null  object 
 11  TSH_Level            212691 non-null  float64
 12  T3_Level             212691 non-null  float64
 13  T4_Level             212691 non-null  float64
 14  Nodule_Size          212691 non-null  float

Como se puede observar, el conjunto presenta un formato estable y formal, cuenta con 17 columnas, las cuales representan los atributos y/o variables, y un total de 212,691 filas sin contar encabezado, los cuales representan la información de cada uno de los pacientes.

## - Explicación sobre problemas en la carga de Datos y el Código para la carga de datos desde archivos (bibiotecas, etc.)

En el momento que se realizó la carga de los datos, no se detectó ni presentó problema alguno.

#**3.Transformación y Preprocesamiento - Data Wrangling**

## - Identificación de Tipos de Datos

In [None]:
#Impresión de los tipos de datos.
print('Tipos de datos:')
print(df.dtypes)

Tipos de datos:
Patient_ID               int64
Age                      int64
Gender                  object
Country                 object
Ethnicity               object
Family_History          object
Radiation_Exposure      object
Iodine_Deficiency       object
Smoking                 object
Obesity                 object
Diabetes                object
TSH_Level              float64
T3_Level               float64
T4_Level               float64
Nodule_Size            float64
Thyroid_Cancer_Risk     object
Diagnosis               object
dtype: object


## - Cantidad de Valores nulos

Inicialmente, el enlace de donde se obtuvo el conjunto de datos menciona específicamente que no contiene valores nulos, aún así, el siguiente código hace la comprobación de valores nulos.

In [None]:
#Impresión de la cantidad de los valores nulos.
print('Cantidad de valores nulos:')
print(df.isnull().sum())

Cantidad de valores nulos:
Patient_ID             0
Age                    0
Gender                 0
Country                0
Ethnicity              0
Family_History         0
Radiation_Exposure     0
Iodine_Deficiency      0
Smoking                0
Obesity                0
Diabetes               0
TSH_Level              0
T3_Level               0
T4_Level               0
Nodule_Size            0
Thyroid_Cancer_Risk    0
Diagnosis              0
dtype: int64


##- Explicación sobre cada una de las problemáticas encontradas, las soluciones y el código

En base a los puntos anteriores, el conjunto de datos presenta una estructura limpia en cuanto a su formato, por lo que no fue requerido implementar técnicas de limpieza de datos. Sin embargo, para reducir el consumo de memoria y tener un mejor manejo de la información, varias de las columnas que tienen tipo de dato "object" fuero cambiadas a "category", ya que muchas presentan valores similares.

In [None]:
#Impresión de los tipos de datos antes del cambio.
print('Tipos de datos y consumo de memoria antes del cambio:')
print(df.info())

#Modificación del tipo de dato.
columnas = ['Gender', 'Country', 'Ethnicity', 'Family_History', 'Radiation_Exposure', 'Iodine_Deficiency', 'Smoking', 'Obesity',
            'Diabetes', 'Thyroid_Cancer_Risk', 'Diagnosis']
df[columnas] = df[columnas].astype('category')

#Impresión de los tipos de datos después del cambio.
print('\nTipos de datos y consumo de memoria después del cambio:')
print(df.info())

Tipos de datos y consumo de memoria antes del cambio:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 212691 entries, 0 to 212690
Data columns (total 17 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   Patient_ID           212691 non-null  int64  
 1   Age                  212691 non-null  int64  
 2   Gender               212691 non-null  object 
 3   Country              212691 non-null  object 
 4   Ethnicity            212691 non-null  object 
 5   Family_History       212691 non-null  object 
 6   Radiation_Exposure   212691 non-null  object 
 7   Iodine_Deficiency    212691 non-null  object 
 8   Smoking              212691 non-null  object 
 9   Obesity              212691 non-null  object 
 10  Diabetes             212691 non-null  object 
 11  TSH_Level            212691 non-null  float64
 12  T3_Level             212691 non-null  float64
 13  T4_Level             212691 non-null  float64
 14  Nodule_Size   

# **4. Análisis Descriptivo de Datos**

## - Preguntas a responder con el AD
## - Explicación de Estadísticas Básicas Aplicadas, Visualización de Datos con Gráficos, y Resumen de las respuestas

# **5. Análisis Exploratorio de los Datos**

## - Preguntas a responder
## - Estadísticas Empleadas, visualización y Resumen de las respuestas encontradas.

# **6. Análisis Predictivo**

## - Preprocesamiento para Análisis Predictivo: Problemas, Técnicas y Código

## - Modelado Predictivo
### - Modelo elegido y parámetros
### - Entrenamiento y Evaluación
## - Resultados


# **7. Conclusiones y Trabajos Futuros**

## - Resumen del trabajo realizado, hallazgos y posibles mejoras