## **3.1 Estandarización y Escalamiento de los Datos**
Andrea Mirelle Peralta Ogaz     329516

In [280]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

### **1. Lectura del archivo utilizando la librería pandas.**

In [281]:
archivo_csv = '/Users/andrea.peralta/Desktop/Curso Opción Tesis/3.1 Estandarización y Escalamiento/friedman.csv'

df = pd.read_csv(archivo_csv)

### **2. Verificación de los datos que no cuentan con valores (NaN) y eliminación si existen.**
Utilizando el método **isnull()** acompañado del método **sum()** se contaron los datos que no cuentan con valores.

In [282]:
df.isnull().sum()

X1    0
X2    3
X3    7
X4    9
X5    3
y     1
dtype: int64

Posteriormente se utilizó el método **dropna()** el cuál:

Hace una búsqueda de valores nulos, y se procede a eliminar todas las filas que contienen al menos uno del DataFrame.

In [283]:
if df.isnull().values.any():
    df = df.dropna()

Utilizando nuevamente el método **isnull()** acompañado del método **sum()** se verificó que ya no existen columnas que contengan datos con estas características.

In [284]:
df.isnull().sum()

X1    0
X2    0
X3    0
X4    0
X5    0
y     0
dtype: int64

### **3. Búsqueda de duplicados en los datos y eliminación si existen.**
A continuación, se implementó una función para contar duplicados en cada columna del DataFrame:
Esta función utiliza el método **duplicated()** de Pandas, que devuelve una Serie de valores booleanos indicando si cada fila es un duplicado de otra fila anterior. Luego, **sum()** se utiliza para contar la cantidad total de duplicados en cada columna.

In [285]:
duplicados_por_columna = df.duplicated().sum()

print(duplicados_por_columna)

2


Con esta información se utilizó **drop_duplicates()** en donde:

Se hace una búsqueda de valores duplicados y se procede a eliminar las filas que contienen datos duplicados.

In [286]:
df = df.drop_duplicates()

Nuevamente utilizando nuevamente el método **duplicated().sum()** se utiliza para verificar el procedimiento.

In [287]:
duplicados_por_columna = df.duplicated().sum()

print(duplicados_por_columna)

0


### **4. División de los datos en conjuntos de entrenamiento y prueba.**
Antes de proceder con la división de los datos, se llevó a cabo una visualización de las primeras entradas del conjunto de datos para obtener una previsualización. 

Posteriormente, se verificó el número total de filas y columnas en el conjunto de datos.

In [288]:
df.head(5)

Unnamed: 0,X1,X2,X3,X4,X5,y
0,0,9.180832,0.338964,0.815286,751.781576,21.960703
1,0,4.174843,0.032865,0.564896,996.962045,18.845243
2,1,6.246199,0.483333,0.782381,832.210988,21.087837
3,1,6.855714,0.128648,0.850434,535.498859,23.906546
4,0,1.224144,0.164815,0.085038,822.389048,8.222496


In [305]:
print(df.shape[0], "," , df.shape[1])

978 , 6


Se utilizó df.iloc en Python para seleccionar y acceder a elementos específicos en un DataFrame:
1. En **X = df.iloc[:, 0:5]**: X se crea seleccionando todas las filas (:) y las primeras cinco columnas (índices de columna 0 a 4) de df.

2. Para **y = df.iloc[:, 5]**: y se crea seleccionando todas las filas (:) y solo la sexta columna (índice de columna 5) de df.

In [291]:
X= df.iloc[:,0:5]
y= df.iloc[:,5]

Nuevamente se verificó el número total de filas y columnas en el conjunto de datos, para visualizar el cambio.

In [308]:
X.shape

(978, 5)

In [293]:
y.shape

(978,)

Se utilizó la función **train_test_split** de la biblioteca **scikit-learn** para llevar a cabo la división de un conjunto de datos en conjuntos de entrenamiento y prueba. En esta implementación, se asignó el 80% de los datos para el conjunto de entrenamiento y el 20% para el conjunto de prueba.

In [294]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

Se llevó a cabo la verificación del número de filas y columnas tanto para el conjunto de entrenamiento como para el conjunto de prueba. 

In [295]:
X_train.shape

(782, 5)

In [296]:
X_test.shape

(196, 5)

Se aplicó **pd.DataFrame** para construir y manipular estructuras de datos tabulares.

In [297]:
column_names = ['X1', 'X2', 'X3', 'X4', 'X5']

X_train = pd.DataFrame(X_train, columns=column_names)
X_test = pd.DataFrame(X_test, columns=column_names)

### **5. Estandarización de la variable X2 utilizando el valor Z-score.**
La variable X2 fue estandarizada aplicando el Z-score para asegurar que tenga una media de cero y una desviación estándar de uno.

In [298]:
std_zscore = StandardScaler().fit(X_train[['X2']])
X_train_std = X_train['X2'] = std_zscore.transform(X_train[['X2']])
X_test_std = X_test['X2'] = std_zscore.transform(X_test[['X2']])

Posteriormente se visualizaron los resultados para verificar la correcta ejecución.

In [299]:
print(X_train, X_train_std)
print(X_test, X_test_std)

     X1        X2        X3        X4          X5
206   0  1.441107  0.762715  0.869222   20.375068
649   1  1.480636  0.262613  0.078405  829.305737
94    1  0.874284  0.424511  0.989336  255.762138
948   1  0.005955  0.336715  0.418901  885.117790
73    0 -1.034637  0.042709  0.408283  109.548806
..   ..       ...       ...       ...         ...
424   1 -0.041266  0.305348  0.688902   30.364237
949   1  0.490643  0.005500  0.346947  533.187529
388   0  0.027266  0.398027  0.336103   32.580129
40    1  0.969055  0.378895  0.612299  957.103043
737   0  1.629831  0.286746  0.036897  127.887684

[782 rows x 5 columns] [[ 1.44110651e+00]
 [ 1.48063605e+00]
 [ 8.74283787e-01]
 [ 5.95504927e-03]
 [-1.03463708e+00]
 [-1.49953261e-01]
 [ 1.26170669e+00]
 [-8.47632681e-01]
 [-5.32548817e-02]
 [ 9.88554866e-01]
 [ 1.65787025e-01]
 [-8.48783060e-01]
 [ 1.23885722e+00]
 [-5.41170179e-01]
 [-9.61167730e-01]
 [-1.49674701e-01]
 [ 2.67616887e-01]
 [ 1.15148046e+00]
 [-6.64988080e-01]
 [-9.47575937e-

### **6. Escalado de las columnas X3, X4 y X5 utilizando el valor máximo y mínimo.**
Las columnas X3, X4 y X5 fueron escaladas utilizando el valor máximo y mínimo (**MinMaxScaler**) para llevarlas a un rango específico y se verificó.

In [300]:
scaler = MinMaxScaler()

X_train_scaler = X_train[['X3', 'X4', 'X5']] = scaler.fit_transform(X_train[['X3', 'X4', 'X5']])
X_test_scaler = X_test[['X3', 'X4', 'X5']] = scaler.transform(X_test[['X3', 'X4', 'X5']])

In [301]:
print(X_train, X_train_scaler)
print(X_test, X_test_scaler)

     X1        X2        X3        X4        X5
206   0  1.441107  0.763150  0.869541  0.018716
649   1  1.480636  0.259946  0.078250  0.830420
94    1  0.874284  0.422848  0.989727  0.254910
948   1  0.005955  0.334508  0.418951  0.886424
73    0 -1.034637  0.038678  0.408326  0.108195
..   ..       ...       ...       ...       ...
424   1 -0.041266  0.302945  0.689113  0.028739
949   1  0.490643  0.001238  0.346953  0.533287
388   0  0.027266  0.396200  0.336103  0.030963
40    1  0.969055  0.376949  0.612465  0.958656
737   0  1.629831  0.284229  0.036717  0.126597

[782 rows x 5 columns] [[0.76314967 0.86954142 0.01871569]
 [0.25994582 0.07824992 0.83042019]
 [0.4228478  0.98972728 0.25490991]
 ...
 [0.39619959 0.33610281 0.03096261]
 [0.37694938 0.61246455 0.95865572]
 [0.28422856 0.03671687 0.12659697]]
     X1        X2        X3        X4        X5
778   0 -1.302821  0.886344  0.014534  0.811408
262   0  1.675991  0.042688  0.801106  0.344305
358   1 -1.628053  0.961651  0.379

### **7. Conclusión y Comentario sobre la Actividad.**
- En el proceso de preparación de datos, se realizan pasos específicos para asegurar que el modelo se entrene y evalúe correctamente como eliminación de nulos y duplicados. 
- La estrategia de división en conjuntos de entrenamiento y prueba permite evaluar la capacidad del modelo para generalizar a nuevos datos. 
- Además, la estandarización y escalado de variables son prácticas comunes para asegurar que las diferentes características del conjunto de datos estén en una escala comparable. 
- Entender y aplicar estas técnicas es crucial para obtener resultados precisos y confiables al trabajar con modelos de aprendizaje automático.