# Análisis Exploratorio de Datos (EDA)

## Dataset: Análisis de Características Geométricas

Este dataset fue obtenido de 
[Kaggle](https://www.kaggle.com/datasets/pranavraikokte/braintumorfeaturesextracted) y contiene características numéricas derivadas del análisis de imágenes de resonancia magnética cerebral. 

El archivo incluye **10 columnas** en total. Las primeras 9 son variables explicativas que describen propiedades geométricas y morfológicas extraídas del procesamiento de las imágenes. 
La columna final indica si la imagen corresponde a un caso con tumor (`1`) o sin tumor (`0`).
<!--  -->
### Variables del dataset:

- **Area**: área de la región de interés en la imagen
- **Perimeter**: perímetro de la región analizada
- **Convex Area**: área de la envolvente convexa de la región
- **Solidity**: relación entre el área del objeto y el área de su envolvente convexa (medida de convexidad)
- **Equivalent Diameter**: diámetro de un círculo con la misma área que la región
- **Major Axis**: longitud del eje mayor de la elipse que mejor ajusta a la región
- **Minor Axis**: longitud del eje menor de la elipse que mejor ajusta a la región
- **Eccentricity**: excentricidad de la elipse equivalente (el nombre de esta columna aparece duplicada en el dataset)
- **Clase objetivo**: variable binaria donde `1` indica presencia de tumor y `0` ausencia de tumor

Este dataset es ideal para aplicar técnicas de clasificación supervisada y análisis de patrones en el contexto del diagnóstico por imágenes médicas.


<h3 style="font-size: 20px;">Importación del dataset y Exploración inicial</h3>

In [2]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
from IPython.display import display


def print_summary(df):
    display(df.info())
    display(df.head())

In [3]:
df = pd.read_csv('../data/raw/dataset.csv')
print_summary(df)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 241 entries, 0 to 240
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Unnamed: 0           241 non-null    int64  
 1   Area                 241 non-null    float64
 2   Perimeter            241 non-null    float64
 3   Convex Area          241 non-null    float64
 4   Solidity             241 non-null    float64
 5   Equivalent Diameter  241 non-null    float64
 6   Major Axis           241 non-null    float64
 7   Minor Axis           241 non-null    float64
 8   Eccentricity         241 non-null    object 
 9   Eccentricity.1       241 non-null    int64  
dtypes: float64(7), int64(2), object(1)
memory usage: 19.0+ KB


None

Unnamed: 0.1,Unnamed: 0,Area,Perimeter,Convex Area,Solidity,Equivalent Diameter,Major Axis,Minor Axis,Eccentricity,Eccentricity.1
0,0,6314.5,521.972649,9855.5,0.640708,89.665328,86.297539,146.952896,(8.439724311699382e-17+1.3783115780934465j),1
1,1,52776.5,1189.820409,59947.0,0.880386,259.224086,209.59024,405.86142,(1.015395044877726e-16+1.6582659515946696j),1
2,2,50232.5,1415.34941,69628.5,0.721436,252.8992,223.632736,373.077637,(8.176507178841775e-17+1.3353249581078526j),1
3,3,4486.0,275.622365,4741.5,0.946114,75.576138,64.818382,93.083397,(6.311037889163952e-17+1.0306707033502136j),1
4,4,145.0,92.08326,323.5,0.448223,13.587484,16.90097,28.915043,(8.50007943665633e-17+1.3881683180120858j),1


Datos faltantes

In [4]:
df.isnull().sum()
# sns.heatmap(df.isnull(), cbar=False)

Unnamed: 0             0
Area                   0
Perimeter              0
Convex Area            0
Solidity               0
Equivalent Diameter    0
Major Axis             0
Minor Axis             0
Eccentricity           0
Eccentricity.1         0
dtype: int64