# Limpieza y preparación de datos

# Inicio Clase 72

## 2.1 Tratamiento de los datos que faltan

### En muchas aplicaciones de análisis de datos es habitual que falten datos. Uno de los objetivos de pandas es hacer que trabajar con datos perdidos sea lo menos doloroso posible. Por ejemplo, todas las estadísticas descriptivas de los objetos de pandas excluyen por defecto los datos que faltan.

### La forma en que se representan los datos que faltan en los objetos de pandas es algo imperfecta, pero es suficiente para la mayoría de los usos en el mundo real. Para datos con dtype float64, pandas utiliza el valor de coma flotante NaN (`Not a Number`) para representar los datos que faltan.

Lo llamamos valor centinela (sentinel value): cuando está presente, indica un valor ausente (o nulo):

In [1]:
import pandas as pd
import numpy as np
float_data = pd.Series([1.8, -3.5, np.nan, 0])

In [2]:
float_data

0    1.8
1   -3.5
2    NaN
3    0.0
dtype: float64

El método `isna` nos da una Serie Booleana con `True` donde los valores son 'nulos':

In [3]:
float_data.isna()

0    False
1    False
2     True
3    False
dtype: bool

En pandas, hemos adoptado una convención utilizada en el lenguaje de programación R refiriéndonos a los datos perdidos como `NA`, que significa no disponible (`Not Available`). 

El valor `None` (ausencia de un valor o un valor nulo) incorporado en Python también se trata como `NA`:

In [4]:
string_data = pd.Series(['abcd', np.nan, None, 'dfeg'])

string_data

0    abcd
1     NaN
2    None
3    dfeg
dtype: object

In [5]:
string_data.isna()

0    False
1     True
2     True
3    False
dtype: bool

El método `isna` nos da una Serie Booleana con `True` donde los valores son 'nulos':

In [6]:
float_data = pd.Series([1, 2, None], dtype='float64')
float_data

0    1.0
1    2.0
2    NaN
dtype: float64

In [7]:
float_data.isna()

0    False
1    False
2     True
dtype: bool

**Otros metodos**


`dropna()`: es un método utilizado para eliminar filas o columnas que contienen valores nulos (NaN).  

`fillna`: Rellena los datos que faltan con algún valor o utilizando un método de interpolación como `ffill` o `bfill`.

`ìsna()`: Devuelve valores booleanos que indican qué valores faltan `NA`. 

`notna`: Negación de `isna`, devuelve `True` para valores no `NA` y False para valores `NA`.

### Filtrar los datos que faltan

Hay algunas formas de filtrar los datos que faltan. Aunque siempre se tiene la opción de hacerlo a mano usando `pandas.isna()` y la indexación booleana, `dropna()` puede ser útil. En una Serie, devuelve la Serie con sólo los datos no nulos y los valores de índice:

In [8]:
data = pd.Series([1, np.nan, 3.5, np.nan, 7])
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

Esto es lo mismo que hacer:

In [9]:
data[data.notna()]

0    1.0
2    3.5
4    7.0
dtype: float64

Con los objetos DataFrame, hay diferentes formas de eliminar los datos que faltan. Es posible que desee eliminar las filas o columnas que son todas NA, o sólo las filas o columnas que contienen cualquier NA en absoluto. `dropna()` por defecto elimina cualquier fila que contenga un valor perdido:

In [10]:
data = pd.DataFrame([[1., 6.5, 3.], [1., np.nan, np.nan],
             [np.nan, np.nan, np.nan],
             [np.nan, 6.5, 3.]])

data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [11]:
 data.dropna()

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


Si se pasa `how="all"`, sólo se eliminarán las filas que sean todas NA:

In [12]:
data.dropna(how="all")

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


Tenga en cuenta que estas funciones devuelven nuevos objetos por defecto y no modifican el contenido del objeto original.

Para soltar (drop) columnas del mismo modo, pase `axis="columns"`:


In [13]:
data[4] = np.nan
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [14]:
data.dropna(axis="columns", how="all")

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


Supongamos que desea conservar sólo las filas que contengan como máximo un determinado número de observaciones omitidas.  
Puede indicarlo con el argumento `thresh`, el cual especifica el número mínimo de valores no nulos que deben estar presentes en una fila o columna para que no sea eliminada.  
Si una fila o columna no cumple con este umbral mínimo de valores no nulos, será eliminada del DataFrame.

In [15]:
 df = pd.DataFrame(np.random.standard_normal((7, 3)))

In [16]:
df

Unnamed: 0,0,1,2
0,-0.350195,0.184925,-0.666579
1,-1.60395,0.516483,-0.190964
2,0.064977,0.14097,-0.807149
3,0.205999,0.668086,0.333218
4,0.193293,-1.670206,-0.590758
5,0.496036,-0.706883,0.392845
6,1.310755,1.240568,-1.25612


In [17]:
df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan

In [18]:
df

Unnamed: 0,0,1,2
0,-0.350195,,
1,-1.60395,,
2,0.064977,,-0.807149
3,0.205999,,0.333218
4,0.193293,-1.670206,-0.590758
5,0.496036,-0.706883,0.392845
6,1.310755,1.240568,-1.25612


In [19]:
df.dropna()

Unnamed: 0,0,1,2
4,0.193293,-1.670206,-0.590758
5,0.496036,-0.706883,0.392845
6,1.310755,1.240568,-1.25612


In [20]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
2,0.064977,,-0.807149
3,0.205999,,0.333218
4,0.193293,-1.670206,-0.590758
5,0.496036,-0.706883,0.392845
6,1.310755,1.240568,-1.25612


### Rellenar los datos que faltan

En lugar de filtrar los datos que faltan (y potencialmente descartar otros datos junto con ellos), es posible que desee rellenar los "huecos" de varias maneras. Para la mayoría de los propósitos, el método `fillna()` es la función a utilizar. Llamar a `fillna()` con una constante sustituye los valores que faltan por ese valor:

In [21]:
df

Unnamed: 0,0,1,2
0,-0.350195,,
1,-1.60395,,
2,0.064977,,-0.807149
3,0.205999,,0.333218
4,0.193293,-1.670206,-0.590758
5,0.496036,-0.706883,0.392845
6,1.310755,1.240568,-1.25612


In [22]:
df.fillna(0)

Unnamed: 0,0,1,2
0,-0.350195,0.0,0.0
1,-1.60395,0.0,0.0
2,0.064977,0.0,-0.807149
3,0.205999,0.0,0.333218
4,0.193293,-1.670206,-0.590758
5,0.496036,-0.706883,0.392845
6,1.310755,1.240568,-1.25612


Llamando a `fillna()` con un diccionario, puede utilizar un valor de relleno diferente para cada columna:

In [23]:
df.fillna({1: 0.5, 2: 0})

Unnamed: 0,0,1,2
0,-0.350195,0.5,0.0
1,-1.60395,0.5,0.0
2,0.064977,0.5,-0.807149
3,0.205999,0.5,0.333218
4,0.193293,-1.670206,-0.590758
5,0.496036,-0.706883,0.392845
6,1.310755,1.240568,-1.25612


Los mismos métodos de interpolación disponibles para la reindexación pueden utilizarse con `fillna()`:

In [24]:
df = pd.DataFrame(np.random.standard_normal((6, 3)))

In [25]:
df.iloc[2:, 1] = np.nan
df.iloc[4:, 2] = np.nan
df

Unnamed: 0,0,1,2
0,-1.722007,-1.895035,-0.090413
1,-1.634339,-1.782433,-0.950678
2,-1.004879,,0.732767
3,1.611951,,-0.385819
4,2.559992,,
5,0.803963,,


In [26]:
 df.fillna(method="ffill")

  df.fillna(method="ffill")


Unnamed: 0,0,1,2
0,-1.722007,-1.895035,-0.090413
1,-1.634339,-1.782433,-0.950678
2,-1.004879,-1.782433,0.732767
3,1.611951,-1.782433,-0.385819
4,2.559992,-1.782433,-0.385819
5,0.803963,-1.782433,-0.385819


In [27]:
df.fillna(method="ffill", limit=2)

  df.fillna(method="ffill", limit=2)


Unnamed: 0,0,1,2
0,-1.722007,-1.895035,-0.090413
1,-1.634339,-1.782433,-0.950678
2,-1.004879,-1.782433,0.732767
3,1.611951,-1.782433,-0.385819
4,2.559992,,-0.385819
5,0.803963,,-0.385819


Con `fillna()` puede hacer muchas otras cosas, como la imputación simple de datos utilizando la mediana o la media estadística:

In [28]:
data = pd.Series([1., np.nan, 3.5, np.nan, 7])
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [29]:
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

**Funciones de argumento para `fillna`**

`value`: Valor escalar u objeto tipo diccionario que se utilizará para rellenar los valores que faltan.

`method`: Método de interpolación: uno de "bfill" (relleno hacia atrás) o "ffill" (relleno hacia delante); por defecto es None

`axis`: Eje de relleno ("index" o "columns"); por defecto axis="index".

`limit`: Para el llenado hacia delante y hacia atrás, número máximo de periodos consecutivos a llenar

## Transformación de datos

Hasta ahora nos hemos ocupado de la gestión de los datos que faltan. El filtrado, la limpieza y otras transformaciones son otra clase de operaciones importantes.

### Remover duplicados

Pueden encontrarse filas duplicadas en un DataFrame por cualquier número de razones. He aquí un ejemplo:

In [30]:
data = pd.DataFrame({"k1": ["one", "two"] * 3 + ["two"],
                     "k2":[1, 1, 2, 3, 3, 4, 4]})

In [31]:
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


El método DataFrame `duplicated` devuelve una serie booleana que indica si cada fila es un duplicado (sus valores de columna son exactamente iguales a los de una fila anterior) o no:

In [32]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

En relación con esto, `drop_duplicates` devuelve un DataFrame con filas en las que se ha filtrado False el array duplicado:

In [33]:
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


Ambos métodos consideran por defecto todas las columnas; alternativamente, puede especificar cualquier subconjunto de ellas para detectar duplicados. Supongamos que tenemos una columna adicional de valores y queremos filtrar los duplicados basándonos sólo en la columna "k1":

In [34]:
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [35]:
# Añadimos una tercera columna
data["v1"] = range(7)
data

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5
6,two,4,6


In [36]:
data.drop_duplicates(subset=["k1"])

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1


`duplicated` y `drop_duplicates` mantienen por defecto la primera combinación de valores observada. Si se pasa `keep="last"` se devolverá la última.  
El argumento `keep` puede tomar tres valores:

`"first"`: (por defecto) Mantiene la primera aparición de una fila duplicada y elimina las subsecuentes.  

`"last"`: Mantiene la última aparición de una fila duplicada y elimina las anteriores.  

`"False"`: Elimina todas las filas duplicadas, no conservando ninguna.

In [37]:
data

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5
6,two,4,6


In [38]:
data.drop_duplicates(["k1", "k2"], keep="last")

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
6,two,4,6


### Transformación de datos mediante una `Function` o `Mapping`

Para muchos conjuntos de datos, es posible que desee realizar alguna transformación basada en los valores de un array, Serie o columna de un DataFrame. Considere los siguientes datos hipotéticos recogidos sobre varios tipos de jamón:

In [39]:
data = pd.DataFrame({"food": ["bacon", "pulled pork",
                              "bacon","pastrami", "corned beef",
                              "bacon", "pastrami", "honey ham",
                              "nova lox"],
                     "ounces": [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,pastrami,6.0
4,corned beef,7.5
5,bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


Supongamos que queremos añadir una columna que indique el tipo de animal del que procede cada alimento. Escribamos una correspondencia entre cada tipo de carne y el tipo de animal:

In [40]:
meat_to_animal = {
  "bacon": "pig",
  "pulled pork": "pig",
  "pastrami": "cow",
  "corned beef": "cow",
  "honey ham": "pig",
  "nova lox": "salmon"
}

El método `map` de una serie acepta una función u objeto de tipo diccionario que contenga un mapeo para realizar la transformación de los valores:

In [41]:
data["animal"] = data["food"].map(meat_to_animal)
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,pastrami,6.0,cow
4,corned beef,7.5,cow
5,bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


También podríamos haber pasado una función que haga todo el trabajo:

In [42]:
def get_animal(x):
    return meat_to_animal[x]

data["animal"] = data["food"].map(get_animal)
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,pastrami,6.0,cow
4,corned beef,7.5,cow
5,bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


### Sustitución de valores

Rellenar los datos que faltan con el método `fillna` es un caso especial de sustitución de valores más general. Como ya se ha visto, `map` puede utilizarse para modificar un subconjunto de valores de un objeto, tambien `replace` proporciona una forma más sencilla y flexible de hacerlo. Consideremos esta serie:

In [43]:
data = pd.Series([1., -999., 2., -999., -1000., 3.])
data

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

Los valores `-999` podrían ser valores centinela de datos perdidos. Para reemplazarlos por valores `NA` que pandas entienda, podemos usar `replace`, produciendo una nueva Serie:

In [44]:
data.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

Si desea sustituir varios valores a la vez, debe pasar una lista y, a continuación, el valor sustituido:

In [45]:
data.replace([-999, -1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

Para utilizar un sustituto diferente para cada valor, pase una lista de sustitutos:

In [46]:
 data.replace([-999, -1000], [np.nan, 0])

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

El argumento pasado también puede ser un diccionario:

In [47]:
data.replace({-999: np.nan, -1000: 0})

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

El método `data.replace()` es distinto de `data.str.replace`, que realiza la sustitución de cadenas por elementos. Veremos estos métodos de cadena en Series más adelante.

### Renombrar índices de ejes

Al igual que los valores de una Serie, las etiquetas de los ejes pueden transformarse de forma similar mediante una función o un mapeo (`mapping`) de algún tipo para producir nuevos objetos etiquetados de forma diferente. También puede modificar los ejes in situ sin crear una nueva estructura de datos. He aquí un ejemplo sencillo:

In [48]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                    index=["Ohio", "Colorado", "New York"],
                    columns=["one", "two", "three", "four"])
                    
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


Al igual que una Serie, los índices de eje tienen un método `map`:

In [49]:
def transform(x):
    return x[:4].upper()

data.index.map(transform)
#Index(['OHIO', 'COLO', 'NEW '], dtype='object')

Index(['OHIO', 'COLO', 'NEW '], dtype='object')

In [50]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


You can assign to the `index` attribute, modifying the DataFrame in place:

In [51]:
data.index = data.index.map(transform)
data

Unnamed: 0,one,two,three,four
OHIO,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


Si desea crear una versión transformada de un conjunto de datos sin modificar el original, un método útil es `rename`:


In [52]:
data.rename(index=str.title, columns=str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colo,4,5,6,7
New,8,9,10,11


En particular, renombrar puede utilizarse junto con un objeto tipo diccionario, proporcionando nuevos valores para un subconjunto de las etiquetas de los ejes:

In [53]:
data.rename(index={"OHIO": "Madrid"},
            columns={"three": "tres"})
            

Unnamed: 0,one,two,tres,four
Madrid,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


### Discretización y `binning`

La discretización y el binning son técnicas utilizadas en la preprocesamiento de datos para convertir datos continuos en discretos. Estas técnicas son útiles para reducir la variabilidad, agrupar datos similares y mejorar el rendimiento de algunos algoritmos de aprendizaje automático

### Discretización.  

Es el proceso de convertir datos continuos en datos categóricos dividiendo el rango de valores continuos en intervalos (bins).

### Binning (Agrupación por intervalos)
El `binning` es una técnica de discretización que agrupa los datos en intervalos, o `"bins"`.  
Hay varios métodos para hacer `binning` en pandas, como el binning por frecuencia, el binning por longitud de intervalo y el binning basado en la cuantilación (por ejemplo Cuartil).

Los datos continuos suelen discretizarse o separarse en "intervalos" (bins) para su análisis. Supongamos que se dispone de datos sobre un grupo de personas en un estudio y desea agruparlas en grupos de edad discretos:

In [54]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

Vamos a dividirlos en franjas (bins) de 18 a 25, de 26 a 35, de 36 a 60 y, por último, de 61 años en adelante. Para ello, hay que utilizar `pandas.cut`:

In [55]:
bins = [18, 25, 35, 60, 100]

In [56]:
age_categories = pd.cut(ages, bins)

In [57]:
age_categories

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

El objeto que pandas devuelve es un objeto `Categorical` especial. La salida que se ve describe los bins calculados por `pandas.cut`. Cada bin se identifica por un tipo de valor de intervalo especial (único en pandas) que contiene el límite inferior y superior de cada bin:

In [58]:
age_categories.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [59]:
age_categories.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]], dtype='interval[int64, right]')

In [60]:
age_categories.categories[0]

Interval(18, 25, closed='right')

In [61]:
pd.value_counts(age_categories)

  pd.value_counts(age_categories)


(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
Name: count, dtype: int64

Tenga en cuenta que `pd.value_counts(categories)` son los recuentos bin del resultado de `pandas.cut`.

En la representación de cadena de un intervalo, un paréntesis significa que el lado está abierto (excluyente), mientras que el corchete significa que está cerrado (incluyente). Puede cambiar el lado cerrado pasando `right=False`

In [62]:
pd.cut(ages, bins, right=False)

[[18, 25), [18, 25), [25, 35), [25, 35), [18, 25), ..., [25, 35), [60, 100), [35, 60), [35, 60), [25, 35)]
Length: 12
Categories (4, interval[int64, left]): [[18, 25) < [25, 35) < [35, 60) < [60, 100)]

Puede anular el etiquetado de contenedores por defecto basado en intervalos pasando una lista o array a la opción `labels`:

In [63]:
group_names = ["Youth", "YoungAdult", "MiddleAged", "Senior"]
pd.cut(ages, bins, labels=group_names)

['Youth', 'Youth', 'Youth', 'YoungAdult', 'Youth', ..., 'YoungAdult', 'Senior', 'MiddleAged', 'MiddleAged', 'YoungAdult']
Length: 12
Categories (4, object): ['Youth' < 'YoungAdult' < 'MiddleAged' < 'Senior']

Consideremos el caso de unos datos distribuidos uniformemente y cortados en cuartos:

In [64]:
data = np.random.uniform(size=20)
data

array([0.19834812, 0.53076273, 0.35208551, 0.80617213, 0.07788087,
       0.93115619, 0.32682571, 0.73751538, 0.41027641, 0.61318939,
       0.07088802, 0.24386108, 0.16731792, 0.64121504, 0.44593581,
       0.82643679, 0.2275916 , 0.538186  , 0.73839418, 0.8404235 ])

In [65]:
pd.cut(data, 4, precision=2)

[(0.07, 0.29], (0.5, 0.72], (0.29, 0.5], (0.72, 0.93], (0.07, 0.29], ..., (0.72, 0.93], (0.07, 0.29], (0.5, 0.72], (0.72, 0.93], (0.72, 0.93]]
Length: 20
Categories (4, interval[float64, right]): [(0.07, 0.29] < (0.29, 0.5] < (0.5, 0.72] < (0.72, 0.93]]

La opción `precision=2` limita la precisión decimal a dos dígitos distintos de cero.

Una función estrechamente relacionada, `pandas.qcut`, separa los datos basándose en los cuantiles de la muestra. Dependiendo de la distribución de los datos, el uso de `pandas.cut` no siempre resultará en que cada contenedor tenga el mismo número de puntos de datos. Dado que `pandas.qcut` utiliza los cuantiles de la muestra en su lugar, obtendrá intervalos de tamaño más o menos igual:

In [66]:
data = np.random.standard_normal(1000)
data

array([-3.09268346e-01,  8.60592035e-01, -1.85165971e-01, -4.71546927e-01,
        3.18580942e-01, -2.06018529e+00,  3.72494003e-01, -5.69119202e-01,
       -5.04604078e-01, -5.87250433e-01, -2.37701074e-01, -2.92980763e-01,
        2.41436268e+00,  2.18157475e-01, -3.98198873e-01,  1.04274608e+00,
        1.76838058e+00,  1.35027966e+00,  2.46026619e-02,  5.25024303e-01,
        6.71442706e-01, -7.35708038e-01, -1.00038276e+00, -5.18769871e-01,
       -8.88890755e-02,  4.39346501e-01, -1.59845881e-02, -1.61451172e+00,
        9.94131773e-01,  7.00355220e-01,  8.15292370e-01, -5.23127661e-02,
        8.46694004e-01,  5.06151274e-01,  9.69795320e-01,  6.10639750e-02,
       -8.07918762e-01,  6.57095397e-01, -1.20144435e+00,  8.21814785e-01,
       -3.51248424e-01, -6.72352785e-01,  7.86341241e-01,  3.56367869e-02,
        1.92860011e+00,  4.57564391e-01, -6.18631735e-01,  6.32390262e-01,
        7.26868265e-01,  4.10636040e-02, -3.15152220e-02,  1.19819443e+00,
       -8.01919336e-01,  

In [67]:
quartiles = pd.qcut(data, 4, precision=2)
quartiles

[(-0.72, 0.0047], (0.65, 3.02], (-0.72, 0.0047], (-0.72, 0.0047], (0.0047, 0.65], ..., (0.65, 3.02], (-0.72, 0.0047], (-0.72, 0.0047], (0.65, 3.02], (-0.72, 0.0047]]
Length: 1000
Categories (4, interval[float64, right]): [(-3.07, -0.72] < (-0.72, 0.0047] < (0.0047, 0.65] < (0.65, 3.02]]

In [68]:
pd.value_counts(quartiles)

  pd.value_counts(quartiles)


(-3.07, -0.72]     250
(-0.72, 0.0047]    250
(0.0047, 0.65]     250
(0.65, 3.02]       250
Name: count, dtype: int64

In [69]:
pd.Series(quartiles).value_counts()

(-3.07, -0.72]     250
(-0.72, 0.0047]    250
(0.0047, 0.65]     250
(0.65, 3.02]       250
Name: count, dtype: int64

De forma similar a `pandas.cut`, el usuario puede pasar sus propios cuantiles (números entre 0 y 1, ambos inclusive):

In [70]:
data

array([-3.09268346e-01,  8.60592035e-01, -1.85165971e-01, -4.71546927e-01,
        3.18580942e-01, -2.06018529e+00,  3.72494003e-01, -5.69119202e-01,
       -5.04604078e-01, -5.87250433e-01, -2.37701074e-01, -2.92980763e-01,
        2.41436268e+00,  2.18157475e-01, -3.98198873e-01,  1.04274608e+00,
        1.76838058e+00,  1.35027966e+00,  2.46026619e-02,  5.25024303e-01,
        6.71442706e-01, -7.35708038e-01, -1.00038276e+00, -5.18769871e-01,
       -8.88890755e-02,  4.39346501e-01, -1.59845881e-02, -1.61451172e+00,
        9.94131773e-01,  7.00355220e-01,  8.15292370e-01, -5.23127661e-02,
        8.46694004e-01,  5.06151274e-01,  9.69795320e-01,  6.10639750e-02,
       -8.07918762e-01,  6.57095397e-01, -1.20144435e+00,  8.21814785e-01,
       -3.51248424e-01, -6.72352785e-01,  7.86341241e-01,  3.56367869e-02,
        1.92860011e+00,  4.57564391e-01, -6.18631735e-01,  6.32390262e-01,
        7.26868265e-01,  4.10636040e-02, -3.15152220e-02,  1.19819443e+00,
       -8.01919336e-01,  

In [71]:
pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.]).value_counts()

(-3.057, -1.259]     100
(-1.259, 0.00467]    400
(0.00467, 1.203]     400
(1.203, 3.024]       100
Name: count, dtype: int64

El segundo argumento `[0, 0.1, 0.5, 0.9, 1.]` especifica los puntos de corte para los cuantiles.  
Estos puntos de corte son porcentajes que indican cómo se deben dividir los datos.  

`0` corresponde al valor mínimo.  
`0.1` corresponde al percentil 10 (el valor por debajo del cual se encuentra el 10% de los datos).  
`0.5` corresponde al percentil 50 (la mediana).  
`0.9` corresponde al percentil 90 (el valor por debajo del cual se encuentra el 90% de los datos).  
`1.` corresponde al valor máximo.  

# Fin Clase 72

### Detección y filtrado de valores atípicos (outliers)

Filtrar o transformar los valores atípicos es en gran medida una cuestión de aplicar operaciones de arrays. Considere un DataFrame con algunos datos distribuidos normalmente: