<a href="https://colab.research.google.com/github/Amleth7/Talleres-Fundamentos-Python/blob/main/ProyectoMLEjercicio15.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Análisis de Datos y Diagnóstico de Cáncer de Mama- Daniel Buelvas – Alejandro Marin.

Este código se centra en el diagnóstico del cáncer de mama mediante el análisis de datos y la aplicación de técnicas de Machine Learning. A continuación, se presenta una descripción pormenorizada de cada paso:

1. Importación de Bibliotecas:

En esta sección, se importan las bibliotecas necesarias para el análisis de datos y el Machine Learning. Pandas se utiliza para la manipulación de datos, NumPy para cálculos numéricos, y otras bibliotecas como Scikit-Learn y Seaborn para tareas específicas, como clasificación y visualización de datos.

2. Carga de Datos:

La primera fase de cualquier análisis de datos implica cargar los datos relevantes. En este caso, los datos se extraen de una fuente externa, específicamente una URL que almacena datos relacionados con el cáncer de mama. La lista column_names se emplea para nombrar las columnas del conjunto de datos, lo que facilita su posterior manipulación.

3. Selección de Columnas Relevantes:

Para el diagnóstico del cáncer de mama, es crucial elegir las columnas pertinentes en el conjunto de datos. Estas columnas incluyen características como el radio, textura, área y otras métricas relacionadas con las células mamarias. La selección se basa en el conocimiento médico y científico.

4. Normalización de Datos:

La normalización es una etapa fundamental en el preprocesamiento de datos. Su objetivo es escalar las características de los datos para que estén dentro del rango [0, 1]. Esta normalización facilita el entrenamiento de modelos de Machine Learning y asegura que todas las características tengan un impacto similar.

5. División en Conjuntos de Entrenamiento y Prueba:

Para evaluar la eficacia del modelo de Machine Learning, los datos se dividen en dos conjuntos: uno para entrenar el modelo y otro para probarlo. En este caso, el 75% de los datos se destina al conjunto de entrenamiento y el 25% al de prueba.

6. Creación de un Clasificador (Random Forest):

Se selecciona un algoritmo de clasificación conocido como Bosques Aleatorios (Random Forest) para construir un modelo predictivo. Los Bosques Aleatorios combinan múltiples árboles de decisión para tomar decisiones más precisas.

7. Entrenamiento del Modelo:

El modelo de Bosques Aleatorios se entrena utilizando el conjunto de entrenamiento. Durante este proceso, el modelo aprende a distinguir entre casos de cáncer benigno y maligno en función de las características de las células mamarias.

8. Predicciones:

Una vez que el modelo está entrenado, se utilizan los datos de prueba para hacer predicciones. El modelo clasifica cada caso como benigno o maligno según las características de las células mamarias.

9. Matriz de Confusión y Métricas de Evaluación:

Se calcula la matriz de confusión, que muestra la cantidad de verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos. A partir de la matriz de confusión, se calculan métricas de evaluación, como precisión (cuántos de los casos clasificados como positivos son realmente positivos), recall (la tasa de verdaderos positivos), F1-Score (una medida que combina precisión y recall) y precisión global.

10. Impresión de Resultados:

- Los resultados, que incluyen la matriz de confusión y las métricas de evaluación, se imprimen en la consola para su análisis y comprensión. Esto proporciona una evaluación de cuán efectivo es el modelo en la tarea de diagnóstico.

11. Visualización de Datos:
- Para obtener una comprensión visual de las características, se crea un gráfico de caja que muestra estadísticas descriptivas y cuartiles de las características. Esto permite identificar posibles diferencias entre las características de los casos benignos y malignos.

Este código constituye un ejemplo completo de análisis de datos y Machine Learning aplicado al diagnóstico del cáncer de mama. Puede copiarse y ejecutarse en un entorno colab como lo son los del curso, no pudimos lograr la parte de PyQT5
https://colab.research.google.com/drive/1jbIfSfxmFeW_P11l45uSLFlB0KIRSU8S?usp=sharing


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LinearRegression
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler, Normalizer, OrdinalEncoder
from sklearn import metrics
from sklearn.metrics import confusion_matrix, make_scorer
from sklearn.metrics import roc_auc_score, accuracy_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import f1_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split

In [None]:
data_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data"
column_names = ["ID", "Diagnosis", "Radius", "Texture", "Perimeter", "Area", "Smoothness", "Compactness", "Concavity",
                "ConcavePoints", "Symmetry", "FractalDimension", "RadiusSE", "TextureSE", "PerimeterSE", "AreaSE",
                "SmoothnessSE", "CompactnessSE", "ConcavitySE", "ConcavePointsSE", "SymmetrySE",
                "FractalDimensionSE", "RadiusWorst", "TextureWorst", "PerimeterWorst", "AreaWorst",
                "SmoothnessWorst", "CompactnessWorst", "ConcavityWorst", "ConcavePointsWorst", "SymmetryWorst",
                "FractalDimensionWorst"]

In [None]:
dataset = pd.read_csv(data_url, names=column_names)


In [None]:
dataset.head()

Unnamed: 0,ID,Diagnosis,Radius,Texture,Perimeter,Area,Smoothness,Compactness,Concavity,ConcavePoints,...,RadiusWorst,TextureWorst,PerimeterWorst,AreaWorst,SmoothnessWorst,CompactnessWorst,ConcavityWorst,ConcavePointsWorst,SymmetryWorst,FractalDimensionWorst
0,842302,M,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,84348301,M,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


In [None]:
selected_features = [ "Radius", "Texture", "Perimeter", "Area", "Smoothness", "Compactness", "Concavity",
                "ConcavePoints", "Symmetry", "FractalDimension", "RadiusSE", "TextureSE", "PerimeterSE", "AreaSE",
                "SmoothnessSE", "CompactnessSE", "ConcavitySE", "ConcavePointsSE", "SymmetrySE",
                "FractalDimensionSE", "RadiusWorst", "TextureWorst", "PerimeterWorst", "AreaWorst",
                "SmoothnessWorst", "CompactnessWorst", "ConcavityWorst", "ConcavePointsWorst", "SymmetryWorst",
                "FractalDimensionWorst"]


In [None]:
target_variable = "Diagnosis"
selected_columns = selected_features + [target_variable]
dataset = dataset[selected_columns]


In [None]:
scaler = MinMaxScaler()
dataset[selected_features] = scaler.fit_transform(dataset[selected_features])

In [None]:
X = dataset[selected_features]

In [None]:
y = dataset[target_variable]


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)



In [None]:
random_forest = RandomForestClassifier(random_state=42)


In [None]:
random_forest.fit(X_train, y_train)



In [None]:
y_pred = random_forest.predict(X_test)



In [None]:
confusion = confusion_matrix(y_test, y_pred)

In [None]:
accuracy = accuracy_score(y_test, y_pred)

In [None]:
recall = recall_score(y_test, y_pred, pos_label='M')

In [None]:
f1 = f1_score(y_test, y_pred, pos_label='M')

In [None]:
precision = precision_score(y_test, y_pred, pos_label='M')

In [None]:
print("Matriz de Confusión:")
print(confusion)

Matriz de Confusión:
[[87  2]
 [ 3 51]]


In [None]:
print("Accuracy:", accuracy)

Accuracy: 0.965034965034965


In [None]:
print("Recall:", recall)

Recall: 0.9444444444444444


In [None]:
print("F1-Score:", f1)

F1-Score: 0.9532710280373832


In [None]:
print("Precision:", precision)

Precision: 0.9622641509433962


In [None]:
# DATOS ESTADISTICOS OBTENIDOS
dataset.describe()

Unnamed: 0,Radius,Texture,Perimeter,Area,Smoothness,Compactness,Concavity,ConcavePoints,Symmetry,FractalDimension,...,RadiusWorst,TextureWorst,PerimeterWorst,AreaWorst,SmoothnessWorst,CompactnessWorst,ConcavityWorst,ConcavePointsWorst,SymmetryWorst,FractalDimensionWorst
count,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,...,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0,569.0
mean,0.338222,0.323965,0.332935,0.21692,0.394785,0.260601,0.208058,0.243137,0.379605,0.270379,...,0.296663,0.363998,0.283138,0.170906,0.404138,0.220212,0.217403,0.393836,0.263307,0.189596
std,0.166787,0.145453,0.167915,0.149274,0.126967,0.161992,0.186785,0.192857,0.138456,0.148702,...,0.17194,0.163813,0.167352,0.139932,0.150779,0.152649,0.166633,0.225884,0.121954,0.118466
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.223342,0.218465,0.216847,0.117413,0.304595,0.139685,0.06926,0.100944,0.282323,0.163016,...,0.180719,0.241471,0.167837,0.08113,0.300007,0.116337,0.091454,0.223127,0.185098,0.1077
50%,0.302381,0.308759,0.293345,0.172895,0.390358,0.224679,0.144189,0.166501,0.369697,0.243892,...,0.250445,0.356876,0.23532,0.123206,0.397081,0.17911,0.18107,0.343402,0.247782,0.163977
75%,0.416442,0.40886,0.416765,0.271135,0.47549,0.340531,0.306232,0.367793,0.45303,0.340354,...,0.386339,0.471748,0.373475,0.220901,0.494156,0.30252,0.305831,0.554639,0.318155,0.242949
max,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
