## Plantilla: Análisis y Preprocesamiento de Datasets Reales

<div style="text-align: right">
<font  size=3 >Integrantes:</font></font><br>
<font  size=3>Curso: Modelos de Simulación</font><br>

### Objetivo
Desarrollar habilidades para identificar el tipo de dataset, realizar limpieza de datos y aplicar las técnicas de procesamiento previo de datos (preprocessing).


### Análisis y Preprocesamiento del Dataset: nombre_del_dataset


### Fase 1: Análisis exploratorio inicial

In [26]:
import pandas as pd  # Importamos la biblioteca pandas para trabajar con datos estructurados como DataFrames.

# Cargar el dataset
filename = r"data/breast-cancer.csv"  # Usamos un string crudo (raw string) para evitar problemas con caracteres de escape.
df = pd.read_csv(filename)  # Cargamos el dataset con los nombres de las columnas

# Mostrar las primeras filas del DataFrame
df.head()

Unnamed: 0,'40-49','premeno','15-19','0-2','yes','3','right','left_up','no','recurrence-events'
0,'50-59','ge40','15-19','0-2','no','1','right','central','no','no-recurrence-events'
1,'50-59','ge40','35-39','0-2','no','2','left','left_low','no','recurrence-events'
2,'40-49','premeno','35-39','0-2','yes','3','right','left_low','yes','no-recurrence-events'
3,'40-49','premeno','30-34','3-5','yes','2','left','right_up','no','recurrence-events'
4,'50-59','premeno','25-29','3-5','no','2','right','left_up','yes','no-recurrence-events'


#### 1. Descripción del tipo de dataset:
        1. ¿Es numérico, categórico o mixto?
        2. ¿Está orientado a clasificación o regresión?


In [27]:
# Cargar el dataset utilizando la primera fila como encabezado
df = pd.read_csv(filename, header=0)

# Mostrar los tipos de datos de cada columna
print(df.dtypes)

'40-49'                object
'premeno'              object
'15-19'                object
'0-2'                  object
'yes'                  object
'3'                    object
'right'                object
'left_up'              object
'no'                   object
'recurrence-events'    object
dtype: object


### Tipo Mixto: La columnas mustran todos los datos en forma de objetos, pero se pueden trabajar y tranformar a numeros segun sea requerido por entidad


### Orientacion: El dataset está orientado a ser de clasificacion ya que se busca saber si el paciente tiene o no tiene Cancer de mama Ref: https://www.kaggle.com/datasets/mahima5598/breast-cancer-datasetnodecaps

#### 2. Estructura del Dataset
        1. Número de filas y columnas.
        2. Tipos de datos por columna.
        3. Presencia de valores faltantes o nulos.
        4. ¿Hay columnas innecesarias, duplicadas o irrelevantes?


In [28]:
# Código para obtener el numero de filas y columnas
print(df.shape)
num_filas, num_columnas = df.shape
print(f"El dataset tiene {num_filas} filas y {num_columnas} columnas.")  # Codgo para imprimir el número de filas y columnas

(285, 10)
El dataset tiene 285 filas y 10 columnas.


In [29]:
names = ['Age', 'Menopause', 'Tumor-size', 'Inv-nodes', 'Node-caps', 'Deg-malig', 'Breast', 'Breast-quad', 'Irradiat', 'Class']  # Lista de nombres de columnas
df = pd.read_csv(filename, names=names)  # Cargamos el dataset con los nombres de las columnas
df.dtypes # Mostramos los tipos de datos de cada columna del DataFrame

Age            object
Menopause      object
Tumor-size     object
Inv-nodes      object
Node-caps      object
Deg-malig      object
Breast         object
Breast-quad    object
Irradiat       object
Class          object
dtype: object

In [30]:
print('Por lo general, los valores faltantes en el dataset son: NaN o Null')
na_values = ["?", "NA", "N/A", "None", "null", "nan", ""]  # Definimos una lista de valores que se consideran como nulos
df.info()  # Mostramos información general sobre el DataFrame, incluyendo el número de entradas no nulas por columna y el tipo de datos de cada columna

df = pd.read_csv(filename, header=0, na_values=na_values)  # Cargamos el dataset con los valores nulos definidos anteriormente

print('\n',df.isnull().sum())  # Contamos los valores nulos en cada columna del DataFrame

print('\nValores faltantes en el dataset:')
print(df.isnull().values.any())  # Contamos los valores nulos en cada columna del DataFrame


Por lo general, los valores faltantes en el dataset son: NaN o Null
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 286 entries, 0 to 285
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Age          286 non-null    object
 1   Menopause    286 non-null    object
 2   Tumor-size   286 non-null    object
 3   Inv-nodes    286 non-null    object
 4   Node-caps    278 non-null    object
 5   Deg-malig    286 non-null    object
 6   Breast       286 non-null    object
 7   Breast-quad  285 non-null    object
 8   Irradiat     286 non-null    object
 9   Class        286 non-null    object
dtypes: object(10)
memory usage: 22.5+ KB

 '40-49'                0
'premeno'              0
'15-19'                0
'0-2'                  0
'yes'                  8
'3'                    0
'right'                0
'left_up'              1
'no'                   0
'recurrence-events'    0
dtype: int64

Valores faltantes en el dat

In [21]:
df = pd.read_csv(filename)  # Sin names, usa el encabezado original
print(df.columns)  # Verifica cómo se llaman realmente

for col in df.columns:
    print(f"Valores únicos en la columna {col}: {df[col].unique()} subniveles")

Index([''40-49'', ''premeno'', ''15-19'', ''0-2'', ''yes'', ''3'', ''right'',
       ''left_up'', ''no'', ''recurrence-events''],
      dtype='object')
Valores únicos en la columna '40-49': ["'50-59'" "'40-49'" "'60-69'" "'30-39'" "'70-79'" "'20-29'"] subniveles
Valores únicos en la columna 'premeno': ["'ge40'" "'premeno'" "'lt40'"] subniveles
Valores únicos en la columna '15-19': ["'15-19'" "'35-39'" "'30-34'" "'25-29'" "'40-44'" "'10-14'" "'0-4'"
 "'20-24'" "'45-49'" "'50-54'" "'5-9'"] subniveles
Valores únicos en la columna '0-2': ["'0-2'" "'3-5'" "'15-17'" "'6-8'" "'9-11'" "'24-26'" "'12-14'"] subniveles
Valores únicos en la columna 'yes': ["'no'" "'yes'" nan] subniveles
Valores únicos en la columna '3': ["'1'" "'2'" "'3'"] subniveles
Valores únicos en la columna 'right': ["'right'" "'left'"] subniveles
Valores únicos en la columna 'left_up': ["'central'" "'left_low'" "'right_up'" "'left_up'" "'right_low'" nan] subniveles
Valores únicos en la columna 'no': ["'no'" "'yes'"] subnivel

### Fase 2: Limpieza de datos

In [31]:
# Eliminar duplicados
print(f"Filas antes de eliminar duplicados: {df.shape[0]}") # Mostramos el número de filas antes de eliminar duplicados
df = df.drop_duplicates()  # Eliminamos duplicados del DataFrame
print(f"Filas después de eliminar duplicados: {df.shape[0]}")  # Mostramos el número de filas después de eliminar duplicados

Filas antes de eliminar duplicados: 285
Filas después de eliminar duplicados: 271


In [32]:
# Imputar nulos si hay
print(f"Filas antes de imputar nulos: {df.shape[0]}")  # Mostramos el número de filas antes de imputar nulos
df_categorical_imputed = df.apply( lambda x: x.fillna(x.mode()[ 0 ]) if x.dtype == 'O'  else x)   # Imputamos nulos en columnas categóricas con la moda
print(f"Filas después de imputar nulos: {df_categorical_imputed}")  # Mostramos el número de filas después de imputar nulos

Filas antes de imputar nulos: 271
Filas después de imputar nulos:      '40-49'  'premeno'  '15-19'  '0-2'  'yes'  '3'  'right'   'left_up'  \
0    '50-59'     'ge40'  '15-19'  '0-2'   'no'  '1'  'right'   'central'   
1    '50-59'     'ge40'  '35-39'  '0-2'   'no'  '2'   'left'  'left_low'   
2    '40-49'  'premeno'  '35-39'  '0-2'  'yes'  '3'  'right'  'left_low'   
3    '40-49'  'premeno'  '30-34'  '3-5'  'yes'  '2'   'left'  'right_up'   
4    '50-59'  'premeno'  '25-29'  '3-5'   'no'  '2'  'right'   'left_up'   
..       ...        ...      ...    ...    ...  ...      ...         ...   
280  '50-59'     'ge40'  '30-34'  '6-8'  'yes'  '2'   'left'  'left_low'   
281  '50-59'  'premeno'  '25-29'  '3-5'  'yes'  '2'   'left'  'left_low'   
282  '30-39'  'premeno'  '30-34'  '6-8'  'yes'  '2'  'right'  'right_up'   
283  '50-59'  'premeno'  '15-19'  '0-2'   'no'  '2'  'right'  'left_low'   
284  '50-59'     'ge40'  '40-44'  '0-2'   'no'  '3'   'left'  'right_up'   

      'no'     'recur

### Fase 3: Preprocesamiento de datos

### Conclusiones
- Describe brevemente lo aprendido en esta práctica.