# Limpieza y preparación de datos

# Inicio Clase 72

## 2.1 Tratamiento de los datos que faltan

### En muchas aplicaciones de análisis de datos es habitual que falten datos. Uno de los objetivos de pandas es hacer que trabajar con datos perdidos sea lo menos doloroso posible. Por ejemplo, todas las estadísticas descriptivas de los objetos de pandas excluyen por defecto los datos que faltan.

### La forma en que se representan los datos que faltan en los objetos de pandas es algo imperfecta, pero es suficiente para la mayoría de los usos en el mundo real. Para datos con dtype float64, pandas utiliza el valor de coma flotante NaN (`Not a Number`) para representar los datos que faltan.

Lo llamamos valor centinela (sentinel value): cuando está presente, indica un valor ausente (o nulo):

In [16]:
import pandas as pd
import numpy as np

float_data = pd.Series([1.8, -3.5, np.nan, 0])

Mi_float_data = pd.Series(['a', -3.5, 1,np.nan])

In [17]:
print(float_data)
print()
print(Mi_float_data)

0    1.8
1   -3.5
2    NaN
3    0.0
dtype: float64

0      a
1   -3.5
2      1
3    NaN
dtype: object


El método `isna` nos da una Serie Booleana con `True` donde los valores son 'nulos':

In [3]:
float_data.isna()

0    False
1    False
2     True
3    False
dtype: bool

En pandas, hemos adoptado una convención utilizada en el lenguaje de programación R refiriéndonos a los datos perdidos como `NA`, que significa no disponible (`Not Available`). 

El valor `None` (ausencia de un valor o un valor nulo) incorporado en Python también se trata como `NA`:

In [4]:
string_data = pd.Series(['abcd', np.nan, None, 'dfeg'])

string_data

0    abcd
1     NaN
2    None
3    dfeg
dtype: object

In [5]:
string_data.isna()

0    False
1     True
2     True
3    False
dtype: bool

El método `isna` nos da una Serie Booleana con `True` donde los valores son 'nulos':

In [22]:
float_data = pd.Series([1, 2, None], dtype='float64')

mi_float_data=pd.Series([3, 4, 7, 3.4, 7, 0, None, 0.3, 4, 1, None])

print(mi_float_data)
print()
float_data

0     3.0
1     4.0
2     7.0
3     3.4
4     7.0
5     0.0
6     NaN
7     0.3
8     4.0
9     1.0
10    NaN
dtype: float64



0    1.0
1    2.0
2    NaN
dtype: float64

In [24]:
print(mi_float_data.isna())
print()
float_data.isna()

0     False
1     False
2     False
3     False
4     False
5     False
6      True
7     False
8     False
9     False
10     True
dtype: bool



0    False
1    False
2     True
dtype: bool

**Otros metodos**


`dropna()`: es un método utilizado para eliminar filas o columnas que contienen valores nulos (NaN).  

`fillna`: Rellena los datos que faltan con algún valor o utilizando un método de interpolación como `ffill` o `bfill`.

`ìsna()`: Devuelve valores booleanos que indican qué valores faltan `NA`. 

`notna`: Negación de `isna`, devuelve `True` para valores no `NA` y False para valores `NA`.

### Filtrar los datos que faltan

Hay algunas formas de filtrar los datos que faltan. Aunque siempre se tiene la opción de hacerlo a mano usando `pandas.isna()` y la indexación booleana, `dropna()` puede ser útil. En una Serie, devuelve la Serie con sólo los datos no nulos y los valores de índice:

In [37]:
data = pd.Series([1, np.nan, 3.5, np.nan, 7])
Mi_data = pd.Series([1, np.nan, 3.5, None, np.nan, 7])
print(data.dropna())
print()
Mi_data.notna()


0    1.0
2    3.5
4    7.0
dtype: float64



0     True
1    False
2     True
3    False
4    False
5     True
dtype: bool

Esto es lo mismo que hacer:

In [35]:
data.notna()

0     True
1    False
2     True
3    False
4     True
dtype: bool

Con los objetos DataFrame, hay diferentes formas de eliminar los datos que faltan. Es posible que desee eliminar las filas o columnas que son todas NA, o sólo las filas o columnas que contienen cualquier NA en absoluto. `dropna()` por defecto elimina cualquier fila que contenga un valor perdido:

In [38]:
data = pd.DataFrame([[1., 6.5, 3.], [1., np.nan, np.nan],
             [np.nan, np.nan, np.nan],
             [np.nan, 6.5, 3.]])

mi_data = pd.DataFrame([[1., 6.5, 3., 0], [8, 1, 0, 2],
             [np.nan, np.nan, 0, 3],
             [np.nan, None, np.nan, None]])

print(data)
print()
mi_data

     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0



Unnamed: 0,0,1,2,3
0,1.0,6.5,3.0,0.0
1,8.0,1.0,0.0,2.0
2,,,0.0,3.0
3,,,,


In [40]:
print(data.dropna())
print()
mi_data.dropna() 

     0    1    2
0  1.0  6.5  3.0



Unnamed: 0,0,1,2,3
0,1.0,6.5,3.0,0.0
1,8.0,1.0,0.0,2.0


Si se pasa `how="all"`, sólo se eliminarán las filas que sean todas NA:

In [42]:
print(data.dropna(how="all"))
print()
print(mi_data.dropna(how="all"))
print()
mi_data


     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
3  NaN  6.5  3.0

     0    1    2    3
0  1.0  6.5  3.0  0.0
1  8.0  1.0  0.0  2.0
2  NaN  NaN  0.0  3.0



Unnamed: 0,0,1,2,3
0,1.0,6.5,3.0,0.0
1,8.0,1.0,0.0,2.0
2,,,0.0,3.0
3,,,,


Tenga en cuenta que estas funciones devuelven nuevos objetos por defecto y no modifican el contenido del objeto original.

Para soltar (drop) columnas del mismo modo, pase `axis="columns"`:


In [45]:
data[4] = np.nan
print(data)
print()
print(mi_data)
print()
mi_data[4]=np.nan
mi_data

     0    1    2   4
0  1.0  6.5  3.0 NaN
1  1.0  NaN  NaN NaN
2  NaN  NaN  NaN NaN
3  NaN  6.5  3.0 NaN

     0    1    2    3   4
0  1.0  6.5  3.0  0.0 NaN
1  8.0  1.0  0.0  2.0 NaN
2  NaN  NaN  0.0  3.0 NaN
3  NaN  NaN  NaN  NaN NaN



Unnamed: 0,0,1,2,3,4
0,1.0,6.5,3.0,0.0,
1,8.0,1.0,0.0,2.0,
2,,,0.0,3.0,
3,,,,,


In [52]:
mi_data1 = pd.DataFrame([[1., 6.5, 3., 0], [8, 1, 0, 2],
[2, np.nan, 0, 3],
[3, None, np.nan, None]])
print(mi_data1)
print()
print(mi_data1.dropna(axis="columns"))
print()
data.dropna(axis="columns", how="all")



     0    1    2    3
0  1.0  6.5  3.0  0.0
1  8.0  1.0  0.0  2.0
2  2.0  NaN  0.0  3.0
3  3.0  NaN  NaN  NaN

     0
0  1.0
1  8.0
2  2.0
3  3.0



Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


Supongamos que desea conservar sólo las filas que contengan como máximo un determinado número de observaciones omitidas.  
Puede indicarlo con el argumento `thresh`, el cual especifica el número mínimo de valores no nulos que deben estar presentes en una fila o columna para que no sea eliminada.  
Si una fila o columna no cumple con este umbral mínimo de valores no nulos, será eliminada del DataFrame.

In [83]:
 df = pd.DataFrame(np.random.standard_normal((7, 3)))
 
 df_1 = pd.DataFrame(np.random.standard_normal((8, 4)))
 
 df_2 = pd.DataFrame(np.random.standard_normal((9, 5)))
 

In [84]:
print(df)
print()
print(df_1)
print()
df_2


          0         1         2
0 -0.689859  1.502193 -1.133089
1 -0.190453  0.380016 -0.572662
2  1.405653  1.696467  1.478727
3 -1.031556  1.029356  0.301410
4 -0.352114 -0.148971  0.815259
5  0.434023 -2.295916 -0.426819
6  2.216655 -0.627189 -0.816908

          0         1         2         3
0  1.152069  0.489660 -1.447451  0.924103
1 -0.199648  0.023229 -1.632171  0.764754
2  0.457322 -1.031360  1.143603 -1.552225
3  0.351991  0.449048  0.155745 -0.128090
4 -0.515430 -0.990425 -0.512231 -0.792147
5  1.370671 -0.278436 -0.394670  0.969267
6  0.208861 -0.118976 -0.159338  0.450502
7 -0.400702 -0.126432  0.307809  1.951067



Unnamed: 0,0,1,2,3,4
0,-0.533473,-0.230496,0.905595,0.26343,1.609479
1,0.17855,-1.612611,0.055245,1.199089,-0.456682
2,-0.837546,1.026222,-1.079689,-2.494234,-0.18861
3,0.677042,1.727954,-0.870498,0.557573,0.661852
4,1.462078,-0.579672,0.522501,-0.748456,1.855297
5,-1.099431,0.797034,-0.663657,-0.586088,-0.597626
6,-0.557485,0.091103,0.052466,1.546092,0.544085
7,0.47818,1.328201,-0.89158,0.37753,0.063472
8,0.466078,-0.705445,0.003602,-1.292552,-1.022998


Unnamed: 0,0,1,2,3,4
3,0.677042,1.727954,-0.870498,0.557573,0.661852
4,1.462078,-0.579672,0.522501,-0.748456,1.855297
5,-1.099431,0.797034,-0.663657,-0.586088,-0.597626
6,-0.557485,0.091103,0.052466,1.546092,0.544085
7,0.47818,1.328201,-0.89158,0.37753,0.063472


In [60]:
df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan


In [18]:
df

Unnamed: 0,0,1,2
0,-0.350195,,
1,-1.60395,,
2,0.064977,,-0.807149
3,0.205999,,0.333218
4,0.193293,-1.670206,-0.590758
5,0.496036,-0.706883,0.392845
6,1.310755,1.240568,-1.25612


In [19]:
df.dropna()

Unnamed: 0,0,1,2
4,0.193293,-1.670206,-0.590758
5,0.496036,-0.706883,0.392845
6,1.310755,1.240568,-1.25612


In [20]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
2,0.064977,,-0.807149
3,0.205999,,0.333218
4,0.193293,-1.670206,-0.590758
5,0.496036,-0.706883,0.392845
6,1.310755,1.240568,-1.25612


In [67]:
print(df_1)
print()
df_1.iloc[2:4,3]=np.nan
df_1.iloc[5:7,0]=np.nan


          0         1         2         3
0 -0.562239 -0.538679  0.092159  0.866690
1  0.435171  0.086605 -0.539535  1.638161
2 -0.269751 -0.016318  1.975415       NaN
3  0.253939 -0.327988  0.736766       NaN
4  1.176226  2.087048 -0.417223 -0.182218
5       NaN  0.807250 -1.439846  1.004179
6       NaN -1.337561 -1.566016 -1.760304
7  1.068203  0.855511 -0.887699 -2.786103



### Rellenar los datos que faltan

En lugar de filtrar los datos que faltan (y potencialmente descartar otros datos junto con ellos), es posible que desee rellenar los "huecos" de varias maneras. Para la mayoría de los propósitos, el método `fillna()` es la función a utilizar. Llamar a `fillna()` con una constante sustituye los valores que faltan por ese valor:

In [21]:
df

Unnamed: 0,0,1,2
0,-0.350195,,
1,-1.60395,,
2,0.064977,,-0.807149
3,0.205999,,0.333218
4,0.193293,-1.670206,-0.590758
5,0.496036,-0.706883,0.392845
6,1.310755,1.240568,-1.25612


In [22]:
df.fillna(0)

Unnamed: 0,0,1,2
0,-0.350195,0.0,0.0
1,-1.60395,0.0,0.0
2,0.064977,0.0,-0.807149
3,0.205999,0.0,0.333218
4,0.193293,-1.670206,-0.590758
5,0.496036,-0.706883,0.392845
6,1.310755,1.240568,-1.25612


In [69]:
df_1.fillna(-1)

Unnamed: 0,0,1,2,3
0,-0.562239,-0.538679,0.092159,0.86669
1,0.435171,0.086605,-0.539535,1.638161
2,-0.269751,-0.016318,1.975415,-1.0
3,0.253939,-0.327988,0.736766,-1.0
4,1.176226,2.087048,-0.417223,-0.182218
5,-1.0,0.80725,-1.439846,1.004179
6,-1.0,-1.337561,-1.566016,-1.760304
7,1.068203,0.855511,-0.887699,-2.786103


Llamando a `fillna()` con un diccionario, puede utilizar un valor de relleno diferente para cada columna:

In [71]:
df.fillna({1: 0.5, 2: 0})

Unnamed: 0,0,1,2
0,0.175351,0.5,0.0
1,-0.067846,0.5,0.0
2,0.255104,0.5,-0.672915
3,1.416088,0.5,-0.650013
4,0.473113,-1.453965,0.2662
5,-0.017,-0.083933,0.502919
6,0.347622,1.523456,-0.79939


In [79]:
df_1.fillna({0: 100, 2: 0, 3: 100})

Unnamed: 0,0,1,2,3
0,-0.562239,-0.538679,0.092159,0.86669
1,0.435171,0.086605,-0.539535,1.638161
2,-0.269751,-0.016318,1.975415,100.0
3,0.253939,-0.327988,0.736766,100.0
4,1.176226,2.087048,-0.417223,-0.182218
5,100.0,0.80725,-1.439846,1.004179
6,100.0,-1.337561,-1.566016,-1.760304
7,1.068203,0.855511,-0.887699,-2.786103


Los mismos métodos de interpolación disponibles para la reindexación pueden utilizarse con `fillna()`:

In [24]:
df = pd.DataFrame(np.random.standard_normal((6, 3)))

In [25]:
df.iloc[2:, 1] = np.nan
df.iloc[4:, 2] = np.nan
df

Unnamed: 0,0,1,2
0,-1.722007,-1.895035,-0.090413
1,-1.634339,-1.782433,-0.950678
2,-1.004879,,0.732767
3,1.611951,,-0.385819
4,2.559992,,
5,0.803963,,


In [81]:
df_1


Unnamed: 0,0,1,2,3
0,-0.562239,-0.538679,0.092159,0.86669
1,0.435171,0.086605,-0.539535,1.638161
2,-0.269751,-0.016318,1.975415,
3,0.253939,-0.327988,0.736766,
4,1.176226,2.087048,-0.417223,-0.182218
5,,0.80725,-1.439846,1.004179
6,,-1.337561,-1.566016,-1.760304
7,1.068203,0.855511,-0.887699,-2.786103


In [86]:
df_1.fillna(method="ffill")

  df_1.fillna(method="ffill")


Unnamed: 0,0,1,2,3
0,1.152069,0.48966,-1.447451,0.924103
1,-0.199648,0.023229,-1.632171,0.764754
2,0.457322,-1.03136,1.143603,-1.552225
3,0.351991,0.449048,0.155745,-0.12809
4,-0.51543,-0.990425,-0.512231,-0.792147
5,1.370671,-0.278436,-0.39467,0.969267
6,0.208861,-0.118976,-0.159338,0.450502
7,-0.400702,-0.126432,0.307809,1.951067


In [82]:
df_1.fillna(method='ffill')

  df_1.fillna(method='ffill')


Unnamed: 0,0,1,2,3
0,-0.562239,-0.538679,0.092159,0.86669
1,0.435171,0.086605,-0.539535,1.638161
2,-0.269751,-0.016318,1.975415,1.638161
3,0.253939,-0.327988,0.736766,1.638161
4,1.176226,2.087048,-0.417223,-0.182218
5,1.176226,0.80725,-1.439846,1.004179
6,1.176226,-1.337561,-1.566016,-1.760304
7,1.068203,0.855511,-0.887699,-2.786103


In [27]:
df.fillna(method="ffill", limit=2)

  df.fillna(method="ffill", limit=2)


Unnamed: 0,0,1,2
0,-1.722007,-1.895035,-0.090413
1,-1.634339,-1.782433,-0.950678
2,-1.004879,-1.782433,0.732767
3,1.611951,-1.782433,-0.385819
4,2.559992,,-0.385819
5,0.803963,,-0.385819


In [91]:
df_2
df_2.iloc[2:8, 0]=np.nan
df_2

Unnamed: 0,0,1,2,3,4
0,-0.533473,-0.230496,0.905595,0.26343,1.609479
1,0.17855,-1.612611,0.055245,1.199089,-0.456682
2,,1.026222,-1.079689,-2.494234,-0.18861
3,,1.727954,-0.870498,0.557573,0.661852
4,,-0.579672,0.522501,-0.748456,1.855297
5,,0.797034,-0.663657,-0.586088,-0.597626
6,,0.091103,0.052466,1.546092,0.544085
7,,1.328201,-0.89158,0.37753,0.063472
8,0.466078,-0.705445,0.003602,-1.292552,-1.022998


In [92]:
df_2.fillna(method="ffill", limit=2)

  df_2.fillna(method="ffill", limit=2)


Unnamed: 0,0,1,2,3,4
0,-0.533473,-0.230496,0.905595,0.26343,1.609479
1,0.17855,-1.612611,0.055245,1.199089,-0.456682
2,0.17855,1.026222,-1.079689,-2.494234,-0.18861
3,0.17855,1.727954,-0.870498,0.557573,0.661852
4,,-0.579672,0.522501,-0.748456,1.855297
5,,0.797034,-0.663657,-0.586088,-0.597626
6,,0.091103,0.052466,1.546092,0.544085
7,,1.328201,-0.89158,0.37753,0.063472
8,0.466078,-0.705445,0.003602,-1.292552,-1.022998


Con `fillna()` puede hacer muchas otras cosas, como la imputación simple de datos utilizando la mediana o la media estadística:

In [98]:
data = pd.Series([1., np.nan, 3.5, np.nan, 7])
data_1 = pd.Series([1., np.nan, 3.5, np.nan, 7, 12, 9, 2.3, np.nan])
print(data)
print()
data_1

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64



0     1.0
1     NaN
2     3.5
3     NaN
4     7.0
5    12.0
6     9.0
7     2.3
8     NaN
dtype: float64

In [29]:
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

In [97]:
data_1.fillna(data_1.mean())
# La media de la serie es 5.8

0     1.0
1     5.8
2     3.5
3     5.8
4     7.0
5    12.0
6     9.0
7     2.3
8     5.8
dtype: float64

**Funciones de argumento para `fillna`**

`value`: Valor escalar u objeto tipo diccionario que se utilizará para rellenar los valores que faltan.

`method`: Método de interpolación: uno de "bfill" (relleno hacia atrás) o "ffill" (relleno hacia delante); por defecto es None

`axis`: Eje de relleno ("index" o "columns"); por defecto axis="index".

`limit`: Para el llenado hacia delante y hacia atrás, número máximo de periodos consecutivos a llenar

## Transformación de datos

Hasta ahora nos hemos ocupado de la gestión de los datos que faltan. El filtrado, la limpieza y otras transformaciones son otra clase de operaciones importantes.

### Remover duplicados

Pueden encontrarse filas duplicadas en un DataFrame por cualquier número de razones. He aquí un ejemplo:

In [11]:
import pandas as pd

data = pd.DataFrame({"k1": ["one", "two"] * 3 + ["two"],
                     "k2":[1, 1, 2, 3, 3, 4, 4]})

print(data)
print()

data_2= pd.DataFrame({"a1":[7, 2, 2, 3, 2, 2, 6, 7, 7, 7, 2], 
                    "a2":[7, 2, 2, 4, 2, 2, 7, 8, 9, 7, 2], 
                    "a3":[7, 3, 2, 21, 2, 2, 12, 13, 14, 7, 2], 
                    "a4":[7, 16, 2, 18, 2, 2, 18, 12, 10, 7, 2]})

data_2

    k1  k2
0  one   1
1  two   1
2  one   2
3  two   3
4  one   3
5  two   4
6  two   4



Unnamed: 0,a1,a2,a3,a4
0,7,7,7,7
1,2,2,3,16
2,2,2,2,2
3,3,4,21,18
4,2,2,2,2
5,2,2,2,2
6,6,7,12,18
7,7,8,13,12
8,7,9,14,10
9,7,7,7,7


In [31]:
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


El método DataFrame `duplicated` devuelve una serie booleana que indica si cada fila es un duplicado (sus valores de columna son exactamente iguales a los de una fila anterior) o no:

In [32]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [16]:
data_2.duplicated()

0     False
1     False
2     False
3     False
4      True
5      True
6     False
7     False
8     False
9      True
10     True
dtype: bool

En relación con esto, `drop_duplicates` devuelve un DataFrame con filas en las que se ha filtrado False el array duplicado:

In [33]:
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


In [14]:
print(data_2)
print()
data_2.drop_duplicates()

    a1  a2  a3  a4
0    7   7   7   7
1    2   2   3  16
2    2   2   2   2
3    3   4  21  18
4    2   2   2   2
5    2   2   2   2
6    6   7  12  18
7    7   8  13  12
8    7   9  14  10
9    7   7   7   7
10   2   2   2   2



Unnamed: 0,a1,a2,a3,a4
0,7,7,7,7
1,2,2,3,16
2,2,2,2,2
3,3,4,21,18
6,6,7,12,18
7,7,8,13,12
8,7,9,14,10


Ambos métodos consideran por defecto todas las columnas; alternativamente, puede especificar cualquier subconjunto de ellas para detectar duplicados. Supongamos que tenemos una columna adicional de valores y queremos filtrar los duplicados basándonos sólo en la columna "k1":

In [34]:
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [17]:
# Añadimos una tercera columna
data["v1"] = range(7)
print(data)

print()

# Añadimos a data_2 una quinta columna
data_2["a5"] = range(11)
data_2

    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
5  two   4   5
6  two   4   6



Unnamed: 0,a1,a2,a3,a4,a5
0,7,7,7,7,0
1,2,2,3,16,1
2,2,2,2,2,2
3,3,4,21,18,3
4,2,2,2,2,4
5,2,2,2,2,5
6,6,7,12,18,6
7,7,8,13,12,7
8,7,9,14,10,8
9,7,7,7,7,9


In [36]:
data.drop_duplicates(subset=["k1"])

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1


In [23]:
print(data_2)
print()
print(data_2.drop_duplicates(subset=["a4"]))
print()
data_2.drop_duplicates(subset=["a4"], keep="last")

    a1  a2  a3  a4  a5
0    7   7   7   7   0
1    2   2   3  16   1
2    2   2   2   2   2
3    3   4  21  18   3
4    2   2   2   2   4
5    2   2   2   2   5
6    6   7  12  18   6
7    7   8  13  12   7
8    7   9  14  10   8
9    7   7   7   7   9
10   2   2   2   2  10

   a1  a2  a3  a4  a5
0   7   7   7   7   0
1   2   2   3  16   1
2   2   2   2   2   2
3   3   4  21  18   3
7   7   8  13  12   7
8   7   9  14  10   8



Unnamed: 0,a1,a2,a3,a4,a5
1,2,2,3,16,1
6,6,7,12,18,6
7,7,8,13,12,7
8,7,9,14,10,8
9,7,7,7,7,9
10,2,2,2,2,10


`duplicated` y `drop_duplicates` mantienen por defecto la primera combinación de valores observada. Si se pasa `keep="last"` se devolverá la última.  
El argumento `keep` puede tomar tres valores:

`"first"`: (por defecto) Mantiene la primera aparición de una fila duplicada y elimina las subsecuentes.  

`"last"`: Mantiene la última aparición de una fila duplicada y elimina las anteriores.  

`"False"`: Elimina todas las filas duplicadas, no conservando ninguna.

In [37]:
data

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5
6,two,4,6


In [21]:
print(data)
print()
print(data.drop_duplicates(["k1", "k2"]))
print()
data.drop_duplicates(["k1", "k2"], keep="last")

    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
5  two   4   5
6  two   4   6

    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
5  two   4   5



Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
6,two,4,6


### Transformación de datos mediante una `Function` o `Mapping`

Para muchos conjuntos de datos, es posible que desee realizar alguna transformación basada en los valores de un array, Serie o columna de un DataFrame. Considere los siguientes datos hipotéticos recogidos sobre varios tipos de jamón:

In [39]:
data = pd.DataFrame({"food": ["bacon", "pulled pork",
                              "bacon","pastrami", "corned beef",
                              "bacon", "pastrami", "honey ham",
                              "nova lox"],
                     "ounces": [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,pastrami,6.0
4,corned beef,7.5
5,bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


Supongamos que queremos añadir una columna que indique el tipo de animal del que procede cada alimento. Escribamos una correspondencia entre cada tipo de carne y el tipo de animal:

In [40]:
meat_to_animal = {
  "bacon": "pig",
  "pulled pork": "pig",
  "pastrami": "cow",
  "corned beef": "cow",
  "honey ham": "pig",
  "nova lox": "salmon"
}

El método `map` de una serie acepta una función u objeto de tipo diccionario que contenga un mapeo para realizar la transformación de los valores:

In [41]:
data["animal"] = data["food"].map(meat_to_animal)
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,pastrami,6.0,cow
4,corned beef,7.5,cow
5,bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


También podríamos haber pasado una función que haga todo el trabajo:

In [42]:
def get_animal(x):
    return meat_to_animal[x]

data["animal"] = data["food"].map(get_animal)
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,pastrami,6.0,cow
4,corned beef,7.5,cow
5,bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


### Sustitución de valores

Rellenar los datos que faltan con el método `fillna` es un caso especial de sustitución de valores más general. Como ya se ha visto, `map` puede utilizarse para modificar un subconjunto de valores de un objeto, tambien `replace` proporciona una forma más sencilla y flexible de hacerlo. Consideremos esta serie:

In [43]:
data = pd.Series([1., -999., 2., -999., -1000., 3.])
data

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

Los valores `-999` podrían ser valores centinela de datos perdidos. Para reemplazarlos por valores `NA` que pandas entienda, podemos usar `replace`, produciendo una nueva Serie:

In [25]:
import numpy as np
import pandas as pd

print(data.replace(-999, np.nan))

print()
data_2.replace(18, 180)

    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
5  two   4   5
6  two   4   6



Unnamed: 0,a1,a2,a3,a4,a5
0,7,7,7,7,0
1,2,2,3,16,1
2,2,2,2,2,2
3,3,4,21,180,3
4,2,2,2,2,4
5,2,2,2,2,5
6,6,7,12,180,6
7,7,8,13,12,7
8,7,9,14,10,8
9,7,7,7,7,9


Si desea sustituir varios valores a la vez, debe pasar una lista y, a continuación, el valor sustituido:

In [26]:
print(data.replace([-999, -1000], np.nan))
print()
data_2.replace([18, 16], [180, 160])

    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
5  two   4   5
6  two   4   6



Unnamed: 0,a1,a2,a3,a4,a5
0,7,7,7,7,0
1,2,2,3,160,1
2,2,2,2,2,2
3,3,4,21,180,3
4,2,2,2,2,4
5,2,2,2,2,5
6,6,7,12,180,6
7,7,8,13,12,7
8,7,9,14,10,8
9,7,7,7,7,9


Para utilizar un sustituto diferente para cada valor, pase una lista de sustitutos:

In [27]:
data.replace([-999, -1000], [np.nan, 0])

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5
6,two,4,6


El argumento pasado también puede ser un diccionario:

In [31]:
print(data_2)
print()
print(data.replace({-999: np.nan, -1000: 0}))
print()
data_2.replace({2: np.nan, 7: 0})


    a1  a2  a3  a4  a5
0    7   7   7   7   0
1    2   2   3  16   1
2    2   2   2   2   2
3    3   4  21  18   3
4    2   2   2   2   4
5    2   2   2   2   5
6    6   7  12  18   6
7    7   8  13  12   7
8    7   9  14  10   8
9    7   7   7   7   9
10   2   2   2   2  10

    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
5  two   4   5
6  two   4   6



Unnamed: 0,a1,a2,a3,a4,a5
0,0.0,0.0,0.0,0.0,0.0
1,,,3.0,16.0,1.0
2,,,,,
3,3.0,4.0,21.0,18.0,3.0
4,,,,,4.0
5,,,,,5.0
6,6.0,0.0,12.0,18.0,6.0
7,0.0,8.0,13.0,12.0,0.0
8,0.0,9.0,14.0,10.0,8.0
9,0.0,0.0,0.0,0.0,9.0


El método `data.replace()` es distinto de `data.str.replace`, que realiza la sustitución de cadenas por elementos. Veremos estos métodos de cadena en Series más adelante.

### Renombrar índices de ejes

Al igual que los valores de una Serie, las etiquetas de los ejes pueden transformarse de forma similar mediante una función o un mapeo (`mapping`) de algún tipo para producir nuevos objetos etiquetados de forma diferente. También puede modificar los ejes in situ sin crear una nueva estructura de datos. He aquí un ejemplo sencillo:

In [40]:
import numpy as np
import pandas as pd

data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                    index=["Ohio", "Colorado", "New York"],
                    columns=["one", "two", "three", "four"])

data_3 = pd.DataFrame(np.arange(6).reshape((2, 3)),
                    index=["Camaguey", "Ciego de Avila"],
                    columns=["one", "two", "three"])
                    
print(data)
print()
data_3

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
New York    8    9     10    11



Unnamed: 0,one,two,three
Camaguey,0,1,2
Ciego de Avila,3,4,5


Al igual que una Serie, los índices de eje tienen un método `map`:

In [43]:
import numpy as np
import pandas as pd

def transform(x):
    return x[:4].upper()

def transforma(x):
    return x[:5].upper()



print(data.index.map(transform))

print()

data_3.index.map(transforma)
#Index(['OHIO', 'COLO', 'NEW '], dtype='object')

Index(['OHIO', 'COLO', 'NEW '], dtype='object')



Index(['CAMAG', 'CIEGO'], dtype='object')

In [50]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


You can assign to the `index` attribute, modifying the DataFrame in place:

In [46]:
data.index = data.index.map(transform)
print(data)

print()

data_3.index = data_3.index.map(transforma)

data_3

      one  two  three  four
OHIO    0    1      2     3
COLO    4    5      6     7
NEW     8    9     10    11



Unnamed: 0,one,two,three
CAMAG,0,1,2
CIEGO,3,4,5


Si desea crear una versión transformada de un conjunto de datos sin modificar el original, un método útil es `rename`:


In [47]:
print(data.rename(index=str.title, columns=str.upper))

print()

data_3.rename(index=str.title, columns=str.upper)

      ONE  TWO  THREE  FOUR
Ohio    0    1      2     3
Colo    4    5      6     7
New     8    9     10    11



Unnamed: 0,ONE,TWO,THREE
Camag,0,1,2
Ciego,3,4,5


En particular, renombrar puede utilizarse junto con un objeto tipo diccionario, proporcionando nuevos valores para un subconjunto de las etiquetas de los ejes:

In [53]:
data.rename(index={"OHIO": "Madrid"},
            columns={"three": "tres"})
            

Unnamed: 0,one,two,tres,four
Madrid,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


### Discretización y `binning`

La discretización y el binning son técnicas utilizadas en la preprocesamiento de datos para convertir datos continuos en discretos. Estas técnicas son útiles para reducir la variabilidad, agrupar datos similares y mejorar el rendimiento de algunos algoritmos de aprendizaje automático

### Discretización.  

Es el proceso de convertir datos continuos en datos categóricos dividiendo el rango de valores continuos en intervalos (bins).

### Binning (Agrupación por intervalos)
El `binning` es una técnica de discretización que agrupa los datos en intervalos, o `"bins"`.  
Hay varios métodos para hacer `binning` en pandas, como el binning por frecuencia, el binning por longitud de intervalo y el binning basado en la cuantilación (por ejemplo Cuartil).

Los datos continuos suelen discretizarse o separarse en "intervalos" (bins) para su análisis. Supongamos que se dispone de datos sobre un grupo de personas en un estudio y desea agruparlas en grupos de edad discretos:

In [5]:
import numpy as np
import pandas as pd

ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

ages1 = [20, 22, 25, 27, 50]


Vamos a dividirlos en franjas (bins) de 18 a 25, de 26 a 35, de 36 a 60 y, por último, de 61 años en adelante. Para ello, hay que utilizar `pandas.cut`:

In [7]:
import numpy as np
import pandas as pd

bins = [18, 25, 35, 60, 100]

bins1 = [10, 40, 70]

In [8]:
age_categories = pd.cut(ages, bins)

age_categories1 = pd.cut(ages1, bins1)

In [9]:
import numpy as np
import pandas as pd

print(age_categories)

print()

print(age_categories1)

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

[(10, 40], (10, 40], (10, 40], (10, 40], (40, 70]]
Categories (2, interval[int64, right]): [(10, 40] < (40, 70]]


El objeto que pandas devuelve es un objeto `Categorical` especial. La salida que se ve describe los bins calculados por `pandas.cut`. Cada bin se identifica por un tipo de valor de intervalo especial (único en pandas) que contiene el límite inferior y superior de cada bin:

In [10]:
print(age_categories.codes)
print()


age_categories1.codes


[0 0 0 1 0 0 2 1 3 2 2 1]



array([0, 0, 0, 0, 1], dtype=int8)

In [11]:
age_categories.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]], dtype='interval[int64, right]')

In [12]:
print(age_categories.categories[0])
print()
print(age_categories1.categories[1])


(18, 25]

(40, 70]


In [13]:
import numpy as np
import pandas as pd

pd.value_counts(age_categories)
print()
pd.value_counts(age_categories1)





  pd.value_counts(age_categories)
  pd.value_counts(age_categories1)


(10, 40]    4
(40, 70]    1
Name: count, dtype: int64

Tenga en cuenta que `pd.value_counts(categories)` son los recuentos bin del resultado de `pandas.cut`.

En la representación de cadena de un intervalo, un paréntesis significa que el lado está abierto (excluyente), mientras que el corchete significa que está cerrado (incluyente). Puede cambiar el lado cerrado pasando `right=False`

In [62]:
pd.cut(ages, bins, right=False)

[[18, 25), [18, 25), [25, 35), [25, 35), [18, 25), ..., [25, 35), [60, 100), [35, 60), [35, 60), [25, 35)]
Length: 12
Categories (4, interval[int64, left]): [[18, 25) < [25, 35) < [35, 60) < [60, 100)]

Puede anular el etiquetado de contenedores por defecto basado en intervalos pasando una lista o array a la opción `labels`:

In [20]:
import numpy as np
import pandas as pd

group_names = ["Youth", "YoungAdult", "MiddleAged", "Senior"]

a= [1, 2, 3, 4, 6, 10, 11, 12, 13, 18, 20]
b= [0, 6, 11, 16, 21]

group_names1 = ["Pancho", "Juan", "Pedro","Jose"]

print(pd.cut(ages, bins, labels=group_names))
print()
print(pd.cut(a,b,labels=group_names1))


['Youth', 'Youth', 'Youth', 'YoungAdult', 'Youth', ..., 'YoungAdult', 'Senior', 'MiddleAged', 'MiddleAged', 'YoungAdult']
Length: 12
Categories (4, object): ['Youth' < 'YoungAdult' < 'MiddleAged' < 'Senior']

['Pancho', 'Pancho', 'Pancho', 'Pancho', 'Pancho', ..., 'Juan', 'Pedro', 'Pedro', 'Jose', 'Jose']
Length: 11
Categories (4, object): ['Pancho' < 'Juan' < 'Pedro' < 'Jose']


Consideremos el caso de unos datos distribuidos uniformemente y cortados en cuartos:

In [21]:
data = np.random.uniform(size=20)
print(data)
print()
data_4 = np.random.uniform(size=40)
print(data_4)


[0.78229492 0.26590622 0.60060428 0.32190894 0.39227668 0.70620353
 0.52830272 0.27587433 0.24833378 0.56654884 0.56926241 0.24874702
 0.6784947  0.54235923 0.22562541 0.33864115 0.83672622 0.72809618
 0.61652857 0.3669341 ]

[0.5377502  0.74320368 0.05003486 0.96072008 0.73554941 0.36886272
 0.69287283 0.47664719 0.11905325 0.58026402 0.85586389 0.02564636
 0.01044199 0.16168726 0.74254503 0.11475227 0.43006435 0.87980177
 0.41614008 0.77290541 0.70641318 0.74341307 0.06571017 0.41275176
 0.15548998 0.0585598  0.88806531 0.76452403 0.22160616 0.20867288
 0.02886261 0.2006483  0.24232632 0.14909658 0.52180801 0.33860993
 0.65033448 0.08575906 0.81082445 0.7330281 ]


In [22]:
print(pd.cut(data, 4, precision=2))
print()
print(pd.cut(data_4, 4, precision=2))


[(0.68, 0.84], (0.23, 0.38], (0.53, 0.68], (0.23, 0.38], (0.38, 0.53], ..., (0.23, 0.38], (0.68, 0.84], (0.68, 0.84], (0.53, 0.68], (0.23, 0.38]]
Length: 20
Categories (4, interval[float64, right]): [(0.23, 0.38] < (0.38, 0.53] < (0.53, 0.68] < (0.68, 0.84]]

[(0.49, 0.72], (0.72, 0.96], (0.0095, 0.25], (0.72, 0.96], (0.72, 0.96], ..., (0.25, 0.49], (0.49, 0.72], (0.0095, 0.25], (0.72, 0.96], (0.72, 0.96]]
Length: 40
Categories (4, interval[float64, right]): [(0.0095, 0.25] < (0.25, 0.49] < (0.49, 0.72] < (0.72, 0.96]]


La opción `precision=2` limita la precisión decimal a dos dígitos distintos de cero.

Una función estrechamente relacionada, `pandas.qcut`, separa los datos basándose en los cuantiles de la muestra. Dependiendo de la distribución de los datos, el uso de `pandas.cut` no siempre resultará en que cada contenedor tenga el mismo número de puntos de datos. Dado que `pandas.qcut` utiliza los cuantiles de la muestra en su lugar, obtendrá intervalos de tamaño más o menos igual:

In [24]:
data = np.random.standard_normal(1000)
print(data)
data_5 = np.random.standard_normal(400)
print(data_5)

[-9.22419675e-01 -7.58845414e-01 -6.11030218e-02 -2.89811435e-02
 -4.76265027e-01 -9.09324771e-01 -2.54208187e-01 -9.69504864e-01
 -8.37639844e-01  9.91373292e-01  1.29153610e+00 -9.04922243e-01
  1.08251538e+00 -6.46260635e-01 -4.90381779e-02 -5.32130464e-01
  5.01062207e-01  5.05703194e-01  8.22892517e-01 -4.78762468e-01
 -1.01469512e+00  3.04294061e+00 -1.63182439e+00  1.52942749e+00
 -2.50578964e-01 -5.66054232e-01 -1.62970552e+00  9.97131509e-01
  9.13446246e-01 -3.78446642e-01 -7.57998523e-01  4.25333029e-01
 -4.54062613e-01  4.90592766e-01  9.91323022e-01  4.99838786e-01
  6.89280534e-01  4.76492510e-01  2.83218969e-01 -4.60837025e-01
  2.47087166e-01  5.95488033e-01 -1.52947827e-01  4.43368832e-01
  7.15189207e-01  7.18528460e-01 -1.07198850e+00 -5.12020854e-01
 -4.32407821e-02  2.21165040e+00 -1.12047793e+00  5.01523234e-01
 -1.83418461e+00  2.19546726e-01  1.34269802e+00  8.26341122e-01
  1.30872247e+00 -5.33425860e-01  3.93068845e-01 -1.29550256e-01
 -2.01437577e+00 -8.09178

In [25]:
quartiles = pd.qcut(data, 4, precision=2)
print(quartiles)

quartiles1 = pd.qcut(data_5, 4, precision=2)
print(quartiles1)

[(-2.9499999999999997, -0.59], (-2.9499999999999997, -0.59], (-0.59, 0.033], (-0.59, 0.033], (-0.59, 0.033], ..., (-2.9499999999999997, -0.59], (-2.9499999999999997, -0.59], (0.033, 0.68], (-0.59, 0.033], (-2.9499999999999997, -0.59]]
Length: 1000
Categories (4, interval[float64, right]): [(-2.9499999999999997, -0.59] < (-0.59, 0.033] < (0.033, 0.68] < (0.68, 3.22]]
[(-2.8099999999999996, -0.71], (0.71, 3.44], (-0.71, -0.025], (0.71, 3.44], (0.71, 3.44], ..., (0.71, 3.44], (0.71, 3.44], (-0.71, -0.025], (-2.8099999999999996, -0.71], (-0.025, 0.71]]
Length: 400
Categories (4, interval[float64, right]): [(-2.8099999999999996, -0.71] < (-0.71, -0.025] < (-0.025, 0.71] < (0.71, 3.44]]


In [26]:
print(pd.value_counts(quartiles))
print()
print(pd.value_counts(quartiles1))

(-2.9499999999999997, -0.59]    250
(-0.59, 0.033]                  250
(0.033, 0.68]                   250
(0.68, 3.22]                    250
Name: count, dtype: int64

(-2.8099999999999996, -0.71]    100
(-0.71, -0.025]                 100
(-0.025, 0.71]                  100
(0.71, 3.44]                    100
Name: count, dtype: int64


  print(pd.value_counts(quartiles))
  print(pd.value_counts(quartiles1))


In [27]:
print(pd.Series(quartiles).value_counts())
print()
print(pd.Series(quartiles1).value_counts())


(-2.9499999999999997, -0.59]    250
(-0.59, 0.033]                  250
(0.033, 0.68]                   250
(0.68, 3.22]                    250
Name: count, dtype: int64

(-2.8099999999999996, -0.71]    100
(-0.71, -0.025]                 100
(-0.025, 0.71]                  100
(0.71, 3.44]                    100
Name: count, dtype: int64


De forma similar a `pandas.cut`, el usuario puede pasar sus propios cuantiles (números entre 0 y 1, ambos inclusive):

In [28]:
print(data)
print()
print(data_5)

[-9.22419675e-01 -7.58845414e-01 -6.11030218e-02 -2.89811435e-02
 -4.76265027e-01 -9.09324771e-01 -2.54208187e-01 -9.69504864e-01
 -8.37639844e-01  9.91373292e-01  1.29153610e+00 -9.04922243e-01
  1.08251538e+00 -6.46260635e-01 -4.90381779e-02 -5.32130464e-01
  5.01062207e-01  5.05703194e-01  8.22892517e-01 -4.78762468e-01
 -1.01469512e+00  3.04294061e+00 -1.63182439e+00  1.52942749e+00
 -2.50578964e-01 -5.66054232e-01 -1.62970552e+00  9.97131509e-01
  9.13446246e-01 -3.78446642e-01 -7.57998523e-01  4.25333029e-01
 -4.54062613e-01  4.90592766e-01  9.91323022e-01  4.99838786e-01
  6.89280534e-01  4.76492510e-01  2.83218969e-01 -4.60837025e-01
  2.47087166e-01  5.95488033e-01 -1.52947827e-01  4.43368832e-01
  7.15189207e-01  7.18528460e-01 -1.07198850e+00 -5.12020854e-01
 -4.32407821e-02  2.21165040e+00 -1.12047793e+00  5.01523234e-01
 -1.83418461e+00  2.19546726e-01  1.34269802e+00  8.26341122e-01
  1.30872247e+00 -5.33425860e-01  3.93068845e-01 -1.29550256e-01
 -2.01437577e+00 -8.09178

In [29]:
print(pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.]).value_counts())
print()
print(pd.qcut(data_5, [0, 0.1, 0.5, 0.9, 1.]).value_counts())

(-2.945, -1.209]    100
(-1.209, 0.0329]    400
(0.0329, 1.221]     400
(1.221, 3.216]      100
Name: count, dtype: int64

(-2.8, -1.177]        40
(-1.177, -0.0247]    160
(-0.0247, 1.389]     160
(1.389, 3.444]        40
Name: count, dtype: int64


El segundo argumento `[0, 0.1, 0.5, 0.9, 1.]` especifica los puntos de corte para los cuantiles.  
Estos puntos de corte son porcentajes que indican cómo se deben dividir los datos.  

`0` corresponde al valor mínimo.  
`0.1` corresponde al percentil 10 (el valor por debajo del cual se encuentra el 10% de los datos).  
`0.5` corresponde al percentil 50 (la mediana).  
`0.9` corresponde al percentil 90 (el valor por debajo del cual se encuentra el 90% de los datos).  
`1.` corresponde al valor máximo.  

# Fin Clase 72

### Detección y filtrado de valores atípicos (outliers)

Filtrar o transformar los valores atípicos es en gran medida una cuestión de aplicar operaciones de arrays. Considere un DataFrame con algunos datos distribuidos normalmente:

In [45]:
import numpy as np
import pandas as pd
from scipy import stats

# Configurar la semilla para reproducibilidad
np.random.seed(0)

# Crear un DataFrame con datos distribuidos normalmente
data = np.random.normal(loc=0, scale=1, size=(100, 3))  # 100 filas y 3 columnas
df = pd.DataFrame(data, columns=['A', 'B', 'C'])

print("Original DataFrame:")
print(df.head())

# Paso 1: Calcular el Z-Score para identificar outliers
z_scores = np.abs(stats.zscore(df))

# Definir un umbral para considerar un valor como outlier
threshold = 3

# Identificar valores atípicos
outliers = (z_scores > threshold)

print("\nZ-Scores:")
print(z_scores[:5])  # Mostrar las primeras 5 filas para verificar

print("\nOutliers (boolean mask):")
print(outliers[:5])  # Mostrar las primeras 5 filas para verificar





Original DataFrame:
          A         B         C
0  1.764052  0.400157  0.978738
1  2.240893  1.867558 -0.977278
2  0.950088 -0.151357 -0.103219
3  0.410599  0.144044  1.454274
4  0.761038  0.121675  0.443863

Z-Scores:
          A         B         C
0  1.621322  0.299284  1.130061
1  2.086064  1.793542  0.874086
2  0.828011  0.262324  0.021481
3  0.302210  0.038483  1.617298
4  0.643758  0.015705  0.582025

Outliers (boolean mask):
       A      B      C
0  False  False  False
1  False  False  False
2  False  False  False
3  False  False  False
4  False  False  False
