**6. El dataset elegido en PYTHON, realice tres tecnicas de preprocesamiento. Explique la razón de aplicar estas técnicas.**

In [51]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler

dat = pd.read_csv("./bank.csv")
dat.head(10)

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,deposit
0,59,admin.,married,secondary,no,2343,yes,no,unknown,5,may,1042,1,-1,0,unknown,yes
1,56,admin.,married,secondary,no,45,no,no,unknown,5,may,1467,1,-1,0,unknown,yes
2,41,technician,married,secondary,no,1270,yes,no,unknown,5,may,1389,1,-1,0,unknown,yes
3,55,services,married,secondary,no,2476,yes,no,unknown,5,may,579,1,-1,0,unknown,yes
4,54,admin.,married,tertiary,no,184,no,no,unknown,5,may,673,2,-1,0,unknown,yes
5,42,management,single,tertiary,no,0,yes,yes,unknown,5,may,562,2,-1,0,unknown,yes
6,56,management,married,tertiary,no,830,yes,yes,unknown,6,may,1201,1,-1,0,unknown,yes
7,60,retired,divorced,secondary,no,545,yes,no,unknown,6,may,1030,1,-1,0,unknown,yes
8,37,technician,married,secondary,no,1,yes,no,unknown,6,may,608,1,-1,0,unknown,yes
9,28,services,single,secondary,no,5090,yes,no,unknown,6,may,1297,3,-1,0,unknown,yes


# Remover Duplicados

In [52]:
# Mostrar la cantidad de registros antes de eliminar duplicados
print("Cantidad de registros antes de eliminar duplicados:", len(dat))

# Eliminar registros duplicados basados en todas las columnas
dat_sin_duplicados = dat.drop_duplicates()

# Mostrar la cantidad de registros después de eliminar duplicados
print("Cantidad de registros después de eliminar duplicados:", len(dat_sin_duplicados))

# Verificar si los registros duplicados se eliminaron correctamente
registros_duplicados = len(dat) - len(dat_sin_duplicados)
if registros_duplicados > 0:
    print(f"Se eliminaron {registros_duplicados} registros duplicados.")
else:
    print("No se encontraron registros duplicados en el DataFrame resultante.")



Cantidad de registros antes de eliminar duplicados: 11162
Cantidad de registros después de eliminar duplicados: 11162
No se encontraron registros duplicados en el DataFrame resultante.


**Explicacion**\
Usamos esta tecnica de preprocesamiento para asegurarnos de que no haya registros repetidos en los datos, lo que mejorará la limpieza y precisión de tus análisis y modelos de aprendizaje automático al evitar distorsiones y utilizar recursos de manera más eficiente.

# Discretizacion

In [53]:
# Utilizamos la función 'cut' de pandas sin definir límites ni etiquetas
colum = 'age' # columna a discretizar
nro_int = 4 # numero de intervalos que queremos
dat['discretizada'], intervalos = pd.cut(dat[colum], nro_int, retbins=True)

# Obtenemos las etiquetas automáticamente
etiquetas = [f'Intervalo {i}' for i in range(1, len(intervalos))]

# Contamos la frecuencia de cada intervalo
cont_intervalos = dat['discretizada'].value_counts()

# Mostramos los intervalos discretizados
print(cont_intervalos)

discretizada
(17.923, 37.25]    5173
(37.25, 56.5]      4682
(56.5, 75.75]      1154
(75.75, 95.0]       153
Name: count, dtype: int64


**Explicacion**\
Usamos esta tecnica de preprocesamiento para convertir variables numéricas continuas en categorías, lo que facilita el análisis y modelado. Por ejemplo, al discretizar la edad de los clientes en rangos, lo que nos ayuda es a comprender mejor en diferentes grupos de como responden a las campañas de marketing bancario. Además, al discretizar, mejorar la interpretación de tus resultados.

# Normalizacion

In [54]:
normalizar = ['age', 'balance', 'day', 'duration', 'campaign', 'pdays', 'previous']

# Crear un normalizador Min-Max
scaler = MinMaxScaler()

# Aplicar la normalización
dat[normalizar] = scaler.fit_transform(dat[normalizar])

# Imprimir datos normalizados
print(dat[normalizar])


            age   balance       day  duration  campaign     pdays  previous
0      0.532468  0.104371  0.133333  0.268110  0.000000  0.000000  0.000000
1      0.493506  0.078273  0.133333  0.377675  0.000000  0.000000  0.000000
2      0.298701  0.092185  0.133333  0.357566  0.000000  0.000000  0.000000
3      0.480519  0.105882  0.133333  0.148750  0.000000  0.000000  0.000000
4      0.467532  0.079851  0.133333  0.172983  0.016129  0.000000  0.000000
...         ...       ...       ...       ...       ...       ...       ...
11157  0.194805  0.077773  0.633333  0.065739  0.000000  0.000000  0.000000
11158  0.272727  0.086086  0.500000  0.020882  0.048387  0.000000  0.000000
11159  0.181818  0.078091  0.600000  0.039701  0.016129  0.000000  0.000000
11160  0.324675  0.077762  0.233333  0.001805  0.016129  0.202339  0.086207
11161  0.207792  0.077762  0.266667  0.161382  0.000000  0.000000  0.000000

[11162 rows x 7 columns]


**Explicacion**\
Esta tecnica de preprocesamiento ayuda a asegura que las características tengan la misma escala, lo que es fundamental para muchos algoritmos de aprendizaje automático. Al normalizar, se reescalan las variables numéricas a un rango común, típicamente entre 0 y 1, lo que evita que características con magnitudes diferentes dominen el modelo. Por ejemplo, si la edad y el saldo de cuentas bancarias tienen unidades y magnitudes muy diferentes, la normalización ayudará a que el modelo sea más preciso al tratar igualmente estas características, lo que es esencial para predecir si un cliente se suscribirá a un producto financiero en función de múltiples atributos.