# Set de datos sobre Cancer Cerebral
### Por: *Marcos Figueroa - Álvaro Monsalve*  
### Tutores: *José - Sebástian*
### Métodos de Aprendizajes Automáticos Aplicados
### IDVRV - Univesidad de Talca
---
## Resumen:
### 
### A continuación encontrará una lectura de un set de datos sobre varias resonancias mágneticas con la finalidad de clasificar que persona tiene un tumor cerebral, en donde este contiene 5 atributos de primer orden y 8 atributos que tratan sobre la textura relacionado con la primera clase y que contiene un dato con comportamiento booleano en donde **si existe tumor = 1** y **no existe tumor = 0**:
### Características de primer orden
- Media
- Diferencia
- Desviación estándar
- Simetría de la curva
- Curtosis

### Características de segundo orden
- Contraste
- Energía
- ASM (segundo momento angular)
- Entropía
- Homogeneidad
- Disimilitud
- Correlación
- Tosquedad
### La columna de imagen define el nombre de la imagen y la columna de clase define si la imagen tiene tumor o no (1 = tumor, 0 = no tumor)
### 
### Los examenes son resonancias magneticas y esta es una referencia:
### ![brain](referenceimage.png)
---
## Objetivo:
### Describir el data set como primer objetivo para aprender a usar librerías relacionadas con ML y DL.
## Meta: 
### Crear un algoritmo complejo capaz de detetectar tumores cerebrales a partir de identificar patrones en imagenes.
---
## Referencia:
### Dataset Kaggle [BrainTumor](https://www.kaggle.com/datasets/jakeshbohaju/brain-tumor)

In [1]:
# Primero es importante exportar las librerias necesarias para trabajar el archivo de tipo.csv

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import numpy as np

## Lectura de datos
### Para leer el dataset usamos la funcón read_cvs(), la cual lee la tabla que contiene los datos.
### En este apartado encontramos 15 columnas, en cada columna nos encontramos un atributo que pertenece a cada caso y cada atributo tiene un relación directa con las imagenes.
- **Image**: Hace referencia al nombre de la imagen asociada a los datos correspondientes.
- **Class**: Indica si en la imagen del cerebro hay un tumor cerebral.
- **Mean**:  Es la media aritmetica y hace referencia a la media de valores que contienen los píxeles, a medida que la media aumenta el brillo de la imagen igual.
- **Variance**: Es la varianza y es una medida de dispersión, en este caso la varianza indica la dispersión que tiene cada imagen con respecto a la media aritmética.
- **Standard Deviation**: Se utiliza para cuantificar la variación de los datos con respecto a la media, es la raíz de la varianza.
- **Entropy**: La entropía mide el nivel el nivel de desorden los pixeles en cuanto se trata de imagenes, en teoria de la información la entropia hace referencia al nivel de incertidumbre, si el nivel de entropia es alto, indica que tendrá menos certeza de lo que sucede, eso en cuanto a imagenes de resonancias mageneticas se traduce en que hay una área del tejido en donde es más dificil identificar a que corresponde, lo que lo convierte en un mayor área de interes, ya que, se pueden encontrar tumores cerebrales.
- **Skewness**:  Se interpreta como asimetria y el atributo hace referencia a esto mismo, valores positivos indican que los valores estan por sobre la media, lo que indica que la cola de la distribución

In [2]:
# 
df_brain_tumor = pd.read_csv("brain_tumor.csv")
df_brain_tumor

Unnamed: 0,Image,Class,Mean,Variance,Standard Deviation,Entropy,Skewness,Kurtosis,Contrast,Energy,ASM,Homogeneity,Dissimilarity,Correlation,Coarseness
0,Image1,0,6.535339,619.587845,24.891522,0.109059,4.276477,18.900575,98.613971,0.293314,0.086033,0.530941,4.473346,0.981939,7.458341e-155
1,Image2,0,8.749969,805.957634,28.389393,0.266538,3.718116,14.464618,63.858816,0.475051,0.225674,0.651352,3.220072,0.988834,7.458341e-155
2,Image3,1,7.341095,1143.808219,33.820234,0.001467,5.061750,26.479563,81.867206,0.031917,0.001019,0.268275,5.981800,0.978014,7.458341e-155
3,Image4,1,5.958145,959.711985,30.979219,0.001477,5.677977,33.428845,151.229741,0.032024,0.001026,0.243851,7.700919,0.964189,7.458341e-155
4,Image5,0,7.315231,729.540579,27.010009,0.146761,4.283221,19.079108,174.988756,0.343849,0.118232,0.501140,6.834689,0.972789,7.458341e-155
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3757,Image3758,0,21.234512,1208.850174,34.768523,0.063774,2.082079,4.647310,158.437600,0.220666,0.048693,0.487131,5.211739,0.950972,7.458341e-155
3758,Image3759,0,20.435349,1227.151440,35.030721,0.066763,2.144625,4.882034,161.158675,0.225931,0.051045,0.502712,5.083126,0.952749,7.458341e-155
3759,Image3760,0,18.011520,1151.582765,33.934978,0.068396,2.308349,5.579498,167.130118,0.228930,0.052409,0.492269,5.103700,0.952181,7.458341e-155
3760,Image3761,0,13.330429,945.732779,30.752769,0.087872,2.732822,7.757570,223.812932,0.261527,0.068397,0.480064,6.439784,0.940898,7.458341e-155


### Revisar si el dataset contiene datos erroneos

In [3]:
# Revisar la cantidad de datos perdidos, es decir, NaN (Not a Number) dentro de un dataframe de pandas
df_brain_tumor.isna().sum()

Image                 0
Class                 0
Mean                  0
Variance              0
Standard Deviation    0
Entropy               0
Skewness              0
Kurtosis              0
Contrast              0
Energy                0
ASM                   0
Homogeneity           0
Dissimilarity         0
Correlation           0
Coarseness            0
dtype: int64

# REVISION DE DATOS DUPLICADOS

In [4]:
print(df_brain_tumor.duplicated().sum())

0


# DESCRIBE

In [5]:
# Mas descriptores generales
df_brain_tumor.describe()


Unnamed: 0,Class,Mean,Variance,Standard Deviation,Entropy,Skewness,Kurtosis,Contrast,Energy,ASM,Homogeneity,Dissimilarity,Correlation,Coarseness
count,3762.0,3762.0,3762.0,3762.0,3762.0,3762.0,3762.0,3762.0,3762.0,3762.0,3762.0,3762.0,3762.0,3762.0
mean,0.447368,9.48889,711.101063,25.182271,0.073603,4.102727,24.389071,127.961459,0.204705,0.058632,0.479252,4.698498,0.955767,7.458341e-155
std,0.497288,5.728022,467.466896,8.773526,0.070269,2.56094,56.434747,109.499601,0.129352,0.0583,0.127929,1.850173,0.026157,0.0
min,0.0,0.078659,3.145628,1.773592,0.000882,1.886014,3.942402,3.194733,0.024731,0.000612,0.10549,0.681121,0.549426,7.458341e-155
25%,0.0,4.982395,363.225459,19.058475,0.006856,2.620203,7.252852,72.125208,0.069617,0.004847,0.364973,3.412363,0.947138,7.458341e-155
50%,0.0,8.477531,622.580417,24.95156,0.066628,3.42221,12.359088,106.737418,0.225496,0.050849,0.512551,4.482404,0.96161,7.458341e-155
75%,1.0,13.212723,966.954319,31.095889,0.113284,4.651737,22.640304,161.059006,0.298901,0.089342,0.575557,5.723821,0.971355,7.458341e-155
max,1.0,33.239975,2910.581879,53.949809,0.394539,36.931294,1371.64006,3382.574163,0.589682,0.347725,0.810921,27.827751,0.989972,7.458341e-155


# INFO

In [6]:
df_brain_tumor.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3762 entries, 0 to 3761
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Image               3762 non-null   object 
 1   Class               3762 non-null   int64  
 2   Mean                3762 non-null   float64
 3   Variance            3762 non-null   float64
 4   Standard Deviation  3762 non-null   float64
 5   Entropy             3762 non-null   float64
 6   Skewness            3762 non-null   float64
 7   Kurtosis            3762 non-null   float64
 8   Contrast            3762 non-null   float64
 9   Energy              3762 non-null   float64
 10  ASM                 3762 non-null   float64
 11  Homogeneity         3762 non-null   float64
 12  Dissimilarity       3762 non-null   float64
 13  Correlation         3762 non-null   float64
 14  Coarseness          3762 non-null   float64
dtypes: float64(13), int64(1), object(1)
memory usage: 441.0