### Introducción
En este notebook, realizaremos el preprocesamiento de datos utilizando NumPy. Aprenderemos cómo identificar y manejar valores faltantes, eliminar duplicados, detectar valores atípicos (outliers), y normalizar nuestros datos. El preprocesamiento es un paso crucial en la limpieza de datos antes de aplicar modelos de análisis o machine learning.

In [100]:
# Importar la librería NumPy
import numpy as np

### Crear Arreglo con Valores Faltantes
Primero, crearemos un arreglo que contiene algunos valores faltantes. Estos valores faltantes serán identificados y reemplazados en los siguientes pasos.

In [101]:
datos = np.array([1, 2, np.nan, 4, 5, np.nan, 7])

print("Datos con valores faltantes (NaN):", datos)


Datos con valores faltantes (NaN): [ 1.  2. nan  4.  5. nan  7.]


### Identificar Valores Faltantes
Utilizamos la función `np.isnan()` para encontrar los valores faltantes (`NaN`). Esta función devuelve un arreglo booleano indicando qué elementos son `NaN`.


In [102]:
valores_faltantes = np.isnan(datos)
print("Valores nulos en el arreglo:", valores_faltantes)

Valores nulos en el arreglo: [False False  True False False  True False]


### Reemplazar Valores Faltantes
Una vez identificados los valores `NaN`, podemos reemplazarlos con la media de los valores no faltantes para mantener la coherencia del dataset.
```


In [103]:
media = np.nanmean(datos) # Calcula la media sin considerar los NaN
print(media )
datos_reemplazados = np.where(np.isnan(datos), media, datos)
print("Datos con NaN reemplazados por la media:", datos_reemplazados)

3.8
Datos con NaN reemplazados por la media: [1.  2.  3.8 4.  5.  3.8 7. ]


In [104]:
datos_reemplazados_0=np.where(np.isnan(datos), 0, datos)
print(datos_reemplazados_0)

[1. 2. 0. 4. 5. 0. 7.]


In [105]:
media_1=np.mean(datos)
print(media_1)

nan


### Eliminar Valores Duplicados
A continuación, creamos un nuevo arreglo con valores duplicados y utilizamos `np.unique()` para eliminar dichos duplicados.

In [106]:
datos_duplicados = np.array([1, 2, 2, 3, 4, 4, 5,5,6,6])
datos_unicos = np.unique(datos_duplicados)
print("Datos sin valores duplicados:", datos_unicos)

Datos sin valores duplicados: [1 2 3 4 5 6]


### Detectar Valores Atípicos (Outliers)
Para identificar valores que se encuentren fuera de un rango aceptable, calculamos la media y la desviación estándar del conjunto de datos y consideramos como outliers aquellos valores que estén a más de 2 desviaciones estándar de la media.

In [107]:
print(datos_reemplazados)

media = np.mean(datos_reemplazados)
desviacion = np.std(datos_reemplazados)
umbral = 2
outliers = datos_reemplazados[np.abs(datos_reemplazados - media) > umbral * desviacion]
print(outliers)
print("Valores atípicos (outliers):", outliers)


[1.  2.  3.8 4.  5.  3.8 7. ]
[]
Valores atípicos (outliers): []


In [108]:
datos_out=np.append(datos_reemplazados,[25000,2,3,3, 20000, 2,3,5,6,7,1,1,1,1,1,2,2,])
print(datos_out)

[1.0e+00 2.0e+00 3.8e+00 4.0e+00 5.0e+00 3.8e+00 7.0e+00 2.5e+04 2.0e+00
 3.0e+00 3.0e+00 2.0e+04 2.0e+00 3.0e+00 5.0e+00 6.0e+00 7.0e+00 1.0e+00
 1.0e+00 1.0e+00 1.0e+00 1.0e+00 2.0e+00 2.0e+00]


In [109]:
media = np.mean(datos_out)
desviacion = np.std(datos_out)
umbral = 2
outliers = datos_out[np.abs(datos_out - media) > umbral * desviacion]
print(outliers)

[25000. 20000.]


In [110]:
datos_w_o=np.setdiff1d(datos_out,outliers) #metodo incluye errores en esta version 
print(datos_w_o)

[1.  2.  3.  3.8 4.  5.  6.  7. ]


### Metodo mas exacto

In [111]:
mask=~np.isin(datos_out,outliers)
print(mask) #Todo: mascara donde los outlier aparecen como falsos entonces seran eliminados en sun aplicacion 

[ True  True  True  True  True  True  True False  True  True  True False
  True  True  True  True  True  True  True  True  True  True  True  True]


In [112]:
datos_w_o_better=datos_out[mask]
print(datos_w_o_better)

[1.  2.  3.8 4.  5.  3.8 7.  2.  3.  3.  2.  3.  5.  6.  7.  1.  1.  1.
 1.  1.  2.  2. ]


### Normalizar Datos
Finalmente, normalizamos los datos para asegurarnos de que todos los valores se encuentren en un rango similar. Esto es útil para evitar que algunos valores con mayor magnitud dominen sobre otros durante el análisis.


In [113]:
datos_min = np.min(datos_w_o_better)
print(datos_min)
datos_max = np.max(datos_w_o_better)
print(datos_max)


datos_normalizados = (datos_w_o_better - datos_min) / (datos_max - datos_min)
print("Datos normalizados:", datos_normalizados)


1.0
7.0
Datos normalizados: [0.         0.16666667 0.46666667 0.5        0.66666667 0.46666667
 1.         0.16666667 0.33333333 0.33333333 0.16666667 0.33333333
 0.66666667 0.83333333 1.         0.         0.         0.
 0.         0.         0.16666667 0.16666667]


### Filtrar Valores Basados en una Condición
Podemos filtrar los valores que cumplan con una condición específica, como aquellos que sean mayores a un determinado umbral. En este ejemplo, seleccionamos los valores mayores a 4.


In [114]:

valores_mayores = datos_reemplazados[datos_reemplazados > 1]
print("Valores mayores a 4:", valores_mayores)


Valores mayores a 4: [2.  3.8 4.  5.  3.8 7. ]


In [121]:
valores_cero=datos_normalizados[datos_normalizados==0]
print(valores_cero)

[0. 0. 0. 0. 0. 0.]


In [122]:
mask=~np.isin(datos_normalizados,valores_cero)
print(mask)
print(datos_normalizados)

[False  True  True  True  True  True  True  True  True  True  True  True
  True  True  True False False False False False  True  True]
[0.         0.16666667 0.46666667 0.5        0.66666667 0.46666667
 1.         0.16666667 0.33333333 0.33333333 0.16666667 0.33333333
 0.66666667 0.83333333 1.         0.         0.         0.
 0.         0.         0.16666667 0.16666667]


In [124]:
datos_norm_sin_cero=datos_normalizados[mask]
print(datos_norm_sin_cero)

[0.16666667 0.46666667 0.5        0.66666667 0.46666667 1.
 0.16666667 0.33333333 0.33333333 0.16666667 0.33333333 0.66666667
 0.83333333 1.         0.16666667 0.16666667]


### Conclusión
El preprocesamiento de datos con NumPy incluye una serie de técnicas fundamentales que ayudan a mejorar la calidad de los datos para análisis posteriores. Estas incluyen la identificación y manejo de valores faltantes, la eliminación de duplicados, la detección de outliers y la normalización de datos. NumPy nos proporciona herramientas eficientes y rápidas para llevar a cabo estos procesos.

### Leer un archivo CSV
Podemos usar la función `np.genfromtxt()` para leer datos de un archivo CSV. Esta función es especialmente útil cuando los datos contienen valores faltantes.

In [125]:
# Asegúrate de tener un archivo CSV llamado 'datos.csv' en el mismo directorio
datos_csv = np.genfromtxt('student-mat.csv', delimiter=',', skip_header=1)
print("Datos leídos del archivo CSV:")
print(datos_csv)

Datos leídos del archivo CSV:
[[nan nan 18. ...  5.  6.  6.]
 [nan nan 17. ...  5.  5.  6.]
 [nan nan 15. ...  7.  8. 10.]
 ...
 [nan nan 21. ... 10.  8.  7.]
 [nan nan 18. ... 11. 12. 10.]
 [nan nan 19. ...  8.  9.  9.]]


In [116]:
datos_csv = np.where(np.isnan(datos_csv), 0, datos_csv)
print(datos_csv)

[[ 0.  0. 18. ...  5.  6.  6.]
 [ 0.  0. 17. ...  5.  5.  6.]
 [ 0.  0. 15. ...  7.  8. 10.]
 ...
 [ 0.  0. 21. ... 10.  8.  7.]
 [ 0.  0. 18. ... 11. 12. 10.]
 [ 0.  0. 19. ...  8.  9.  9.]]


In [128]:
datos_imp=datos_csv[:,-7:-5]

print(datos_imp)

[[1. 1.]
 [1. 1.]
 [2. 3.]
 [1. 1.]
 [1. 2.]
 [1. 2.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 2.]
 [1. 1.]
 [1. 3.]
 [1. 2.]
 [1. 1.]
 [1. 2.]
 [1. 2.]
 [1. 1.]
 [2. 4.]
 [1. 3.]
 [1. 1.]
 [1. 1.]
 [1. 3.]
 [2. 4.]
 [1. 1.]
 [1. 3.]
 [1. 2.]
 [2. 4.]
 [1. 1.]
 [5. 5.]
 [3. 4.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 2.]
 [2. 4.]
 [1. 1.]
 [1. 1.]
 [2. 2.]
 [1. 1.]
 [1. 4.]
 [1. 1.]
 [2. 2.]
 [1. 1.]
 [2. 3.]
 [1. 1.]
 [3. 4.]
 [2. 3.]
 [4. 4.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [2. 3.]
 [5. 5.]
 [1. 1.]
 [2. 4.]
 [2. 4.]
 [1. 2.]
 [5. 5.]
 [1. 2.]
 [1. 3.]
 [2. 3.]
 [1. 1.]
 [1. 1.]
 [2. 4.]
 [2. 2.]
 [2. 4.]
 [2. 3.]
 [1. 1.]
 [1. 3.]
 [1. 1.]
 [1. 2.]
 [1. 3.]
 [1. 2.]
 [1. 1.]
 [1. 3.]
 [2. 3.]
 [2. 3.]
 [1. 2.]
 [1. 3.]
 [1. 1.]
 [3. 5.]
 [1. 3.]
 [1. 3.]
 [2. 3.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 2.]
 [1. 1.]
 [5. 5.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [3. 5.]
 [1. 1.]
 [1. 1.]
 

In [131]:
np.shape(datos_csv)


(395, 33)

In [132]:
np.shape(datos_imp)

(395, 2)

In [135]:
average=np.mean(datos_imp,axis=0)
print(average)


[1.48101266 2.29113924]


In [143]:
print(f"Promedio de consumo de alcohol en fines de semana: {average[1]}")

print(f"Promedio de consumo de alcohol en dias entresemana: {average[0]}")




Promedio de consumo de alcohol en fines de semana: 2.2911392405063293
Promedio de consumo de alcohol en dias entresemana: 1.481012658227848


In [140]:
std_desv=np.std(datos_imp, axis=0)
print(std_desv)

[0.88961319 1.28626531]


In [None]:
print(f"Desviación estandar de consumo de alcohol en fines de semana: {std_desv[1]}")

print(f"Desviación estandar de consumo de alcohol en dias entresemana: {std_desv[0]}")


Desviación estandar de consumo de alcohol en fines de semana: 0.8896131927704085
Desviación estandar de consumo de alcohol en dias entresemana: 1.286265310488668
