# **PREPARACIÓN DE DATOS**

La preparación de datos en el aprendizaje automático (machine learning) se refiere al proceso de limpiar, transformar y organizar los datos antes de utilizarlos para entrenar un modelo de aprendizaje automático. Es una etapa crítica en el flujo de trabajo de machine learning, ya que la calidad de los datos de entrada puede tener un impacto significativo en el rendimiento del modelo.

La preparación de datos implica varias tareas, que incluyen:

**- Limpieza de datos:** Esto implica identificar y corregir errores, valores atípicos o faltantes en los datos. Esto puede incluir el manejo de datos duplicados, la imputación de valores faltantes o la eliminación de registros inconsistentes.

**- Transformación de datos:** A veces, los datos en bruto pueden no ser directamente útiles para el modelo de aprendizaje automático. En este paso, se pueden realizar transformaciones en los datos, como normalización, discretización, codificación de variables categóricas, extracción de características relevantes o reducción de la dimensionalidad.

**- Normalización y escalado:** En muchos algoritmos de aprendizaje automático, es importante escalar las características numéricas para que tengan una escala similar. Esto evita que las características con valores más grandes dominen sobre las características con valores más pequeños.

**- Selección de características:** En algunos casos, es posible que los datos contengan características irrelevantes o redundantes que no aportan información útil al modelo. La selección de características implica identificar y seleccionar las características más relevantes para mejorar la precisión y la eficiencia del modelo.

La preparación de datos puede ser un proceso iterativo, donde se realizan ajustes y mejoras en función de los resultados del modelo. Un buen procesamiento de datos puede ayudar a mejorar la precisión, la eficiencia y la capacidad de generalización de los modelos de aprendizaje automático.


# **1. PASOS PREVIOS**

## Importar librerías

In [1]:
# pandas: manejo de dataFrame
import pandas as pd
# sklearn: scikit-learn - Librería de python para Machine Learning
# Normalizar: permite escalar los datos a un rango de [0...1]
from sklearn.preprocessing import MinMaxScaler

## Importación de datos **normalización.csv**

In [2]:
datos = pd.read_csv("normalizacion.csv")
datos.head(10)

Unnamed: 0,MONTO.CREDITO,SUELDO,SEXO,ESTADO.CIVIL,DEUDA,CAPITAL.BIENES,GARANTE,DISTRITO,EDAD
0,30000.0,>= 5000,F,Divorciado,<= 1000,4050.0,No,San Sebastian,61.0
1,100000.0,>= 5000,F,Viudo,> 1000 Y < 5000,2590.0,No,Wanchaq,27.0
2,30000.0,>= 5000,M,Casado,>= 5000,6507.0,No,San Jeronimo,56.0
3,70000.0,>= 5000,M,Viudo,<= 1000,2587.0,No,Wanchaq,58.0
4,10000.0,>= 500 y < 2000,F,Divorciado,<= 1000,,Si,Wanchaq,
5,10000.0,,F,Divorciado,>= 5000,14965.0,No,San Jeronimo,37.0
6,50000.0,>= 2000 y < 5000,M,Viudo,> 1000 Y < 5000,8724.0,No,Poroy,41.0
7,70000.0,< 500,F,Casado,>= 5000,6785.0,No,,42.0
8,30000.0,>= 5000,M,Casado,> 1000 Y < 5000,4860.0,No,Wanchaq,43.0
9,70000.0,< 500,F,,>= 5000,5050.0,No,Saylla,36.0


# **2. ELIMINACIÓN DE DATOS FALTANTES**

# Determinar si existen datos faltantes

In [3]:
datos.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49 entries, 0 to 48
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   MONTO.CREDITO   48 non-null     float64
 1   SUELDO          46 non-null     object 
 2   SEXO            49 non-null     object 
 3   ESTADO.CIVIL    48 non-null     object 
 4   DEUDA           48 non-null     object 
 5   CAPITAL.BIENES  46 non-null     float64
 6   GARANTE         49 non-null     object 
 7   DISTRITO        47 non-null     object 
 8   EDAD            47 non-null     float64
dtypes: float64(3), object(6)
memory usage: 3.6+ KB


In [4]:
#número de valores nulos por cada atributo
datos.isnull().sum()

MONTO.CREDITO     1
SUELDO            3
SEXO              0
ESTADO.CIVIL      1
DEUDA             1
CAPITAL.BIENES    3
GARANTE           0
DISTRITO          2
EDAD              2
dtype: int64

In [5]:
#visualizar datos que tengan algun atributo nulo
nulos = datos[datos.isnull().any(1)]
nulos

  nulos = datos[datos.isnull().any(1)]


Unnamed: 0,MONTO.CREDITO,SUELDO,SEXO,ESTADO.CIVIL,DEUDA,CAPITAL.BIENES,GARANTE,DISTRITO,EDAD
4,10000.0,>= 500 y < 2000,F,Divorciado,<= 1000,,Si,Wanchaq,
5,10000.0,,F,Divorciado,>= 5000,14965.0,No,San Jeronimo,37.0
7,70000.0,< 500,F,Casado,>= 5000,6785.0,No,,42.0
9,70000.0,< 500,F,,>= 5000,5050.0,No,Saylla,36.0
11,10000.0,>= 5000,M,Casado,<= 1000,,No,Wanchaq,64.0
22,70000.0,,F,Viudo,>= 5000,7003.0,No,Wanchaq,42.0
26,50000.0,>= 2000 y < 5000,M,Casado,>= 5000,10877.0,Si,,
28,30000.0,< 500,M,Casado,,3287.0,No,San Jeronimo,39.0
36,,>= 2000 y < 5000,M,Divorciado,<= 1000,2859.0,Si,Poroy,31.0
40,90000.0,,M,Casado,<= 1000,,No,Cusco,27.0


In [6]:
print ('número de registros con valores nulos: ', len(nulos))

número de registros con valores nulos:  10


## Eliminar de valores nulos

In [7]:
# Elimina filas (datos) con valores faltantes 'NaN'
# axis = 0 indica fila, axis=1 indica la columna
datos = datos.dropna(axis=0)
datos.head()



Unnamed: 0,MONTO.CREDITO,SUELDO,SEXO,ESTADO.CIVIL,DEUDA,CAPITAL.BIENES,GARANTE,DISTRITO,EDAD
0,30000.0,>= 5000,F,Divorciado,<= 1000,4050.0,No,San Sebastian,61.0
1,100000.0,>= 5000,F,Viudo,> 1000 Y < 5000,2590.0,No,Wanchaq,27.0
2,30000.0,>= 5000,M,Casado,>= 5000,6507.0,No,San Jeronimo,56.0
3,70000.0,>= 5000,M,Viudo,<= 1000,2587.0,No,Wanchaq,58.0
6,50000.0,>= 2000 y < 5000,M,Viudo,> 1000 Y < 5000,8724.0,No,Poroy,41.0


In [8]:
# comprobar si existen nulos
datos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 39 entries, 0 to 48
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   MONTO.CREDITO   39 non-null     float64
 1   SUELDO          39 non-null     object 
 2   SEXO            39 non-null     object 
 3   ESTADO.CIVIL    39 non-null     object 
 4   DEUDA           39 non-null     object 
 5   CAPITAL.BIENES  39 non-null     float64
 6   GARANTE         39 non-null     object 
 7   DISTRITO        39 non-null     object 
 8   EDAD            39 non-null     float64
dtypes: float64(3), object(6)
memory usage: 3.0+ KB


**EJERCICIO:** En lugar de eliminar los registros con valores nulos, experimente con la técnica de **imputación de datos faltantes** considerando la media, mediana y moda **según sea aplicable**. Vuelva a cargar los datos originales, realice la imputación pertinente y muestre el resultado en diferentes datasets.

In [10]:
# carga de datos originales
datos2 = pd.read_csv("normalizacion.csv")
datos2.head(10)

Unnamed: 0,MONTO.CREDITO,SUELDO,SEXO,ESTADO.CIVIL,DEUDA,CAPITAL.BIENES,GARANTE,DISTRITO,EDAD
0,30000.0,>= 5000,F,Divorciado,<= 1000,4050.0,No,San Sebastian,61.0
1,100000.0,>= 5000,F,Viudo,> 1000 Y < 5000,2590.0,No,Wanchaq,27.0
2,30000.0,>= 5000,M,Casado,>= 5000,6507.0,No,San Jeronimo,56.0
3,70000.0,>= 5000,M,Viudo,<= 1000,2587.0,No,Wanchaq,58.0
4,10000.0,>= 500 y < 2000,F,Divorciado,<= 1000,,Si,Wanchaq,
5,10000.0,,F,Divorciado,>= 5000,14965.0,No,San Jeronimo,37.0
6,50000.0,>= 2000 y < 5000,M,Viudo,> 1000 Y < 5000,8724.0,No,Poroy,41.0
7,70000.0,< 500,F,Casado,>= 5000,6785.0,No,,42.0
8,30000.0,>= 5000,M,Casado,> 1000 Y < 5000,4860.0,No,Wanchaq,43.0
9,70000.0,< 500,F,,>= 5000,5050.0,No,Saylla,36.0


In [11]:
datos2.isnull().sum()

MONTO.CREDITO     1
SUELDO            3
SEXO              0
ESTADO.CIVIL      1
DEUDA             1
CAPITAL.BIENES    3
GARANTE           0
DISTRITO          2
EDAD              2
dtype: int64

In [12]:
# imputación de atributos utilizando la media
#decici imputar el monto credito con la moda
moda = datos2['MONTO.CREDITO'].mode()[0]  # La moda puede tener múltiples valores, por lo que tomamos el primero
datos2['MONTO.CREDITO'].fillna(moda, inplace=True)


In [13]:
mediana = datos2['CAPITAL.BIENES'].median()
datos2['CAPITAL.BIENES'].fillna(mediana, inplace=True)

In [14]:
# Calcular la moda para cada columna
moda_sexo = datos2['SEXO'].mode()[0]
moda_estado_civil = datos2['ESTADO.CIVIL'].mode()[0]
moda_deuda = datos2['DEUDA'].mode()[0]
moda_distrito = datos2['DISTRITO'].mode()[0]
moda_sueldo = datos2['SUELDO'].mode()[0]

# Imputar los valores nulos con la moda correspondiente
datos2['SEXO'].fillna(moda_sexo, inplace=True)
datos2['ESTADO.CIVIL'].fillna(moda_estado_civil, inplace=True)
datos2['DEUDA'].fillna(moda_deuda, inplace=True)
datos2['DISTRITO'].fillna(moda_distrito, inplace=True)
datos2['SUELDO'].fillna(moda_sueldo, inplace=True)


In [15]:
# Imputación de atributos utilizando la mediana
mediana = datos2['EDAD'].median()
datos2['EDAD'].fillna(mediana, inplace=True)



In [16]:
# visualización del dataset luego del proceso de imputación
datos2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49 entries, 0 to 48
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   MONTO.CREDITO   49 non-null     float64
 1   SUELDO          49 non-null     object 
 2   SEXO            49 non-null     object 
 3   ESTADO.CIVIL    49 non-null     object 
 4   DEUDA           49 non-null     object 
 5   CAPITAL.BIENES  49 non-null     float64
 6   GARANTE         49 non-null     object 
 7   DISTRITO        49 non-null     object 
 8   EDAD            49 non-null     float64
dtypes: float64(3), object(6)
memory usage: 3.6+ KB


# **2. CONVERSION DE DATOS CATEGÓRICOS A NUMÉRICOS**


# Revisión del atributo SUELDO

In [17]:
# vista del dataset
datos.head(10)

Unnamed: 0,MONTO.CREDITO,SUELDO,SEXO,ESTADO.CIVIL,DEUDA,CAPITAL.BIENES,GARANTE,DISTRITO,EDAD
0,30000.0,>= 5000,F,Divorciado,<= 1000,4050.0,No,San Sebastian,61.0
1,100000.0,>= 5000,F,Viudo,> 1000 Y < 5000,2590.0,No,Wanchaq,27.0
2,30000.0,>= 5000,M,Casado,>= 5000,6507.0,No,San Jeronimo,56.0
3,70000.0,>= 5000,M,Viudo,<= 1000,2587.0,No,Wanchaq,58.0
6,50000.0,>= 2000 y < 5000,M,Viudo,> 1000 Y < 5000,8724.0,No,Poroy,41.0
8,30000.0,>= 5000,M,Casado,> 1000 Y < 5000,4860.0,No,Wanchaq,43.0
10,30000.0,>= 500 y < 2000,F,Casado,<= 1000,4304.0,No,Saylla,37.0
12,50000.0,< 500,M,Soltero,<= 1000,5318.0,No,San Jeronimo,68.0
13,50000.0,>= 5000,M,Casado,>= 5000,8887.0,No,Santiago,50.0
14,100000.0,>= 500 y < 2000,M,Divorciado,>= 5000,2920.0,No,Saylla,42.0


In [18]:
# mostrar los valores existentes en la columna SUELDO
datos.SUELDO.unique()


array(['>= 5000', '>= 2000 y < 5000', '>= 500 y < 2000', '< 500'],
      dtype=object)

In [19]:
# número de valores de dominio de SUELDO
datos.SUELDO.value_counts()


>= 5000             13
< 500               10
>= 2000 y < 5000     8
>= 500 y < 2000      8
Name: SUELDO, dtype: int64

In [20]:
# ¿Cómo se codificaría automáticamente el atributo sueldo?
#codificando con leabel encoding 
datos.SUELDO.astype("category").cat.codes


0     3
1     3
2     3
3     3
6     1
8     3
10    2
12    0
13    3
14    2
15    0
16    0
17    1
18    1
19    2
20    3
21    0
23    1
24    3
25    3
27    2
29    1
30    3
31    0
32    0
33    2
34    2
35    0
37    3
38    1
39    1
41    0
42    2
43    2
44    3
45    3
46    1
47    0
48    0
dtype: int8

## Implementación de un módulo que convierte un atributo categórico a numérico utilizando las funciones **astype("category")** y **cat.codes**

In [21]:
def Categorico_a_numerico(atributo):
    #Convertir el atributo al tipo categorco
    atributo = atributo.astype("category")
    #convertir el atributo categorico a numerico
    return atributo.astype("category").cat.codes

## Convertir los atributos SUELDO, SEXO, ESTADO.CIVIL, DEUDA, GARANTE DISTRITO a numérico 

In [22]:
# datos antes de la conversión
datos2.head()

Unnamed: 0,MONTO.CREDITO,SUELDO,SEXO,ESTADO.CIVIL,DEUDA,CAPITAL.BIENES,GARANTE,DISTRITO,EDAD
0,30000.0,>= 5000,F,Divorciado,<= 1000,4050.0,No,San Sebastian,61.0
1,100000.0,>= 5000,F,Viudo,> 1000 Y < 5000,2590.0,No,Wanchaq,27.0
2,30000.0,>= 5000,M,Casado,>= 5000,6507.0,No,San Jeronimo,56.0
3,70000.0,>= 5000,M,Viudo,<= 1000,2587.0,No,Wanchaq,58.0
4,10000.0,>= 500 y < 2000,F,Divorciado,<= 1000,7278.0,Si,Wanchaq,42.0


In [23]:
# convertir los categóricos a numéricos
datos2['SUELDO'] = Categorico_a_numerico(datos2['SUELDO'])
datos2['SEXO'] = Categorico_a_numerico(datos2['SEXO'])
datos2['ESTADO.CIVIL'] = Categorico_a_numerico(datos2['ESTADO.CIVIL'])
datos2['DEUDA'] = Categorico_a_numerico(datos2['DEUDA'])
datos2['GARANTE'] = Categorico_a_numerico(datos2['GARANTE'])
datos2['DISTRITO'] = Categorico_a_numerico(datos2['DISTRITO'])



In [24]:
# datos después de la conversión
datos2.head()

Unnamed: 0,MONTO.CREDITO,SUELDO,SEXO,ESTADO.CIVIL,DEUDA,CAPITAL.BIENES,GARANTE,DISTRITO,EDAD
0,30000.0,3,0,1,0,4050.0,0,3,61.0
1,100000.0,3,0,3,1,2590.0,0,6,27.0
2,30000.0,3,1,0,2,6507.0,0,2,56.0
3,70000.0,3,1,3,0,2587.0,0,6,58.0
4,10000.0,2,0,1,0,7278.0,1,6,42.0


# **3. NORMALIZACIÓN DE DATOS**

## Implementar la normalización de datos por amplitud y distribución

In [25]:
# Transformación por amplitud [0..1]
def Normalizacion_Amplitud(atributo):
    return(atributo - atributo.min())/(atributo.max()-atributo.min())


In [26]:
# Transformación por distribución [-1..1]
def Normalizacion_Distribucion(atributo):
    return(atributo - atributo.mean())/(atributo.var())


## Normalizar todos los atributos por amplitud

In [27]:
datos2.columns

Index(['MONTO.CREDITO', 'SUELDO', 'SEXO', 'ESTADO.CIVIL', 'DEUDA',
       'CAPITAL.BIENES', 'GARANTE', 'DISTRITO', 'EDAD'],
      dtype='object')

In [28]:
datos2['MONTO.CREDITO']=Normalizacion_Amplitud(datos2['MONTO.CREDITO'])
datos2['SUELDO']=Normalizacion_Amplitud(datos2['SUELDO'])
datos2['SEXO']=Normalizacion_Amplitud(datos2['SEXO'])
datos2['ESTADO.CIVIL']=Normalizacion_Amplitud(datos2['ESTADO.CIVIL'])
datos2['DEUDA']=Normalizacion_Amplitud(datos2['DEUDA'])
datos2['CAPITAL.BIENES']=Normalizacion_Amplitud(datos2['CAPITAL.BIENES'])
datos2['GARANTE']=Normalizacion_Amplitud(datos2['GARANTE'])
datos2['DEUDA']=Normalizacion_Amplitud(datos2['DEUDA'])
datos2['DEUDA']=Normalizacion_Amplitud(datos2['DEUDA'])





TypeError: min expected at least 1 argument, got 0

In [None]:
#datos después de la normalizacion por amplitud
datos.head()

# **4. GRABACIÓN DE DATOS PRE-PROCESADOS**


In [None]:
# guardar el preprocesamiento de datos en un archivo csv


# **5. TAREA**

Normalizar los siguientes dataset:
 
> diabetes.csv

> riesgo_credito.csv