# Data Preparation

[Fuente original de Notebook de *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio de Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Exploring `DataFrame` information

> **Objetivo de aprendizaje:** Al final de esta subsección, debería sentirse cómodo encontrando información general sobre los datos almacenados en los DataFrames de pandas.

Una vez que haya cargado sus datos en pandas, lo más probable es que estén en un`DataFrame`.Sin embargo, si el conjunto de datos de su 'DataFrame' tiene 60.000 filas y 400 columnas, ¿cómo puede empezar a tener una idea de con qué está trabajando? Afortunadamente, pandas proporciona algunas herramientas convenientes para ver rápidamente la información general sobre un `DataFrame` además de las primeras y últimas filas.

Para explorar esta funcionalidad, importaremos la biblioteca scikit-learn de Python y utilizaremos un conjunto de datos icónico que todo científico de datos ha visto cientos de veces: el conjunto de datos *Iris* del biólogo británico Ronald Fisher utilizado en su artículo de 1936 "El uso de múltiples mediciones en problemas taxonómicos":

In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Hemos cargado el Iris Dataset en la variable`iris_df`. Antes de sumergirnos en los datos, sería valioso saber el número de puntos de datos que tenemos y el tamaño total del conjunto de datos. Es útil observar el volumen de datos con el que estamos tratando.

In [2]:
iris_df.shape

(150, 4)

Por lo tanto, se trata de 150 filas y 4 columnas de datos. Cada fila representa un punto de datos y cada columna representa una única entidad asociada al marco de datos. Básicamente, hay 150 puntos de datos que contienen 4 características cada uno.

`shape` Aquí hay un atributo del marco de datos y no una función, por lo que no termina en un par de paréntesis.

### `DataFrame.columns`
Pasemos ahora a las 4 columnas de datos. ¿Qué representa exactamente cada uno de ellos? El atributo `columns` nos dará el nombre de las columnas en el marco de datos.

In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Como podemos ver, hay cuatro (4) columnas. El atributo `columns` nos dice el nombre de las columnas y básicamente nada más. Este atributo cobra importancia cuando queremos identificar las características que contiene un conjunto de datos.

### `DataFrame.info`
La cantidad de datos (dada por el atributo `shape`) y el nombre de las entidades o columnas (dado por el atributo `columns`) Cuéntanos algo sobre el conjunto de datos. Ahora, nos gustaría profundizar en el conjunto de datos. La funcion `DataFrame.info()` es bastante útil para esto. 

In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


A partir de aquí, podemos hacer algunas observaciones:
1. El tipo de datos de cada columna: en este conjunto de datos, todos los datos se almacenan como números de punto flotante de 64 bits.
2. Número de valores no nulos: Tratar con valores nulos es un paso importante en la preparación de datos. De ello se hablará más adelante en el cuaderno.

### DataFrame.describe()
Digamos que tenemos una gran cantidad de datos numéricos en nuestro conjunto de datos. Los cálculos estadísticos univariados, como la media, la mediana, los cuartiles, etc., se pueden realizar en cada una de las columnas individualmente. La función `DataFrame.describe()` nos proporciona un resumen estadístico de las columnas numéricas de un conjunto de datos.



In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


El resultado anterior muestra el número total de puntos de datos, la media, la desviación estándar, el mínimo, el cuartil inferior (25%), la mediana (50%), el cuartil superior (75%) y el valor máximo de cada columna.

### `DataFrame.head`
Con todas las funciones y atributos anteriores, tenemos una vista de nivel superior del conjunto de datos. Sabemos cuántos puntos de datos hay, cuántas entidades hay, el tipo de datos de cada entidad y el número de valores no nulos de cada entidad.

Ahora es el momento de mirar los datos en sí. Veamos cuáles son las primeras filas (los primeros puntos de datos) de nuestro `DataFrame`:

In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Como resultado aquí, podemos ver cinco (5) entradas del conjunto de datos. Si nos fijamos en el índice de la izquierda, encontramos que estas son las primeras cinco filas.

### Ejercicio:

Del ejemplo anterior, queda claro que, por defecto, `DataFrame.head` devuelve las primeras cinco filas de un `DataFrame`. En la celda de código a continuación, ¿puede encontrar una manera de mostrar más de cinco filas?

In [61]:
# Hint: Consult the documentation by using iris_df.head?
iris_df.head(10)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
6,4.6,3.4,1.4,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,4.9,3.1,1.5,0.1


### `DataFrame.tail`
Otra forma de ver los datos puede ser desde el final (en lugar del principio). La otra cara de la moneda `DataFrame.head` es `DataFrame.tail`, que devuelve las últimas cinco filas de un `DataFrame`:

In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


En la práctica, es útil poder examinar fácilmente las primeras filas o las últimas filas de un `DataFrame`, especialmente cuando se buscan valores atípicos en conjuntos de datos ordenados. 

Todas las funciones y atributos mostrados anteriormente, con la ayuda de ejemplos de código, nos ayudan a tener una idea de los datos.

> **Takeaway:** Incluso con solo mirar los metadatos sobre la información en un DataFrame o el primer y último valor de uno, puede tener una idea inmediata sobre el tamaño, la forma y el contenido de los datos con los que está tratando.

### Datos faltantes
Profundicemos en los datos que faltan. Los datos que faltan se producen cuando no se almacena ningún valor en algunas de las columnas. 

Pongamos un ejemplo: supongamos que alguien es consciente de su peso y no rellena el campo de peso en una encuesta. Entonces, faltará el valor de peso para esa persona en particular. 

La mayoría de las veces, en los conjuntos de datos del mundo real, se producen valores faltantes.

**Cómo Pandas maneja los datos faltantes**


Pandas maneja los valores faltantes de dos maneras. Lo primero que has visto antes en secciones anteriores: 'NaN', o No es un número. En realidad, se trata de un valor especial que forma parte de la especificación de punto flotante IEEE y solo se utiliza para indicar los valores de punto flotante que faltan.

Para los valores que faltan aparte de floats, pandas usa Python `None`objeto. Si bien puede parecer confuso que se encuentre con dos tipos diferentes de valores que dicen esencialmente lo mismo, existen razones programáticas sólidas para esta elección de diseño y, en la práctica, seguir esta ruta permite a los pandas ofrecer un buen compromiso para la gran mayoría de los casos. A pesar de ello, tanto `None` y `NaN` Lleve restricciones que debe tener en cuenta con respecto a cómo se pueden usar.

### `None`: Datos faltantes no flotantes
Porque `None` proviene de Python, no se puede usar en matrices NumPy y pandas que no sean de tipo de datos `'object'`. Recuerde que las matrices de NumPy (y las estructuras de datos de los pandas) solo pueden contener un tipo de datos. Esto es lo que les da su enorme poder para datos a gran escala y trabajo computacional, pero también limita su flexibilidad. Estas matrices tienen que convertirse en el "mínimo común denominador", el tipo de datos que abarcará todo lo que hay en la matriz. Cuando `None` está en la matriz, significa que está trabajando con objetos de Python.

Para ver esto en acción, considere la siguiente matriz de ejemplo (tenga en cuenta la `dtype` para ello):

In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

La realidad de los tipos de datos de conversión conlleva dos efectos secundarios. En primer lugar, las operaciones se llevarán a cabo a nivel de código Python interpretado en lugar de código NumPy compilado. Esencialmente, esto significa que cualquier operación que implique`Series` o `DataFrames` con `None`en ellos será más lento. Aunque probablemente no note este impacto en el rendimiento, para grandes conjuntos de datos podría convertirse en un problema.

El segundo efecto secundario se deriva del primero. Porque `None` esencialmente arrastra `Series` o `DataFrame`s de vuelta en el mundo de Python vainilla, usando agregaciones de NumPy/pandas como `sum()` o `min()`en matrices que contienen un ``None`` En matrices que contienen unvalor generalmente producirá un error:

In [10]:
example1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

**Conclusión clave**: Suma (y otras operaciones) entre enteros y `None` values no está definido, lo que puede limitar lo que puede hacer con los conjuntos de datos que los contienen.

### `NaN`: Valores flotantes faltantes

A diferencia de `None`, NumPy (y por lo tanto pandas) soporta`NaN` fPor sus operaciones rápidas y vectorizadas y UFUNCS. La mala noticia es que cualquier aritmética realizada en `NaN` siempre da como resultado `NaN`. Por ejemplo:

In [12]:
np.nan + 1

nan

In [13]:
np.nan * 0

nan

La buena noticia: las agregaciones se ejecutan en matrices con `NaN` En ellos no hay errores. La mala noticia: los resultados no son uniformemente útiles:

In [14]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Ejercicio

In [63]:
#¿Qué sucede si agrega np.nan y None juntos?

np.nan([None])


TypeError: 'float' object is not callable

Recordar: `NaN` es solo para los valores de punto flotante que faltan; No hay `NaN` equivalente para enteros, cadenas o booleanos.

### `NaN` and `None`: Valores nulos en pandas

A pesar de que `NaN` y `None` pueden comportarse de manera algo diferente, los pandas están diseñados para manejarlos indistintamente. Para ver lo que queremos decir, considere una 'Serie' de números enteros:

In [16]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int32

### Ejercicio:

In [64]:
# Ahora establece un elemento de int_series igual a None.
# ¿Cómo aparece ese elemento en la serie?
# ¿Cuál es el tipo de la serie?

# Crear una serie de ejemplo
int_series = pd.Series([1, 2, 3, 4, 5])

# Establecer un elemento a None
int_series[2] = None

# Mostrar la serie
print(int_series)

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64


En el proceso de conversión de tipos de datos para establecer la homogeneidad de los datos en `Series` y `DataFrame`s, Los pandas cambiarán voluntariamente los valores que faltan entre `None` y `NaN`. Debido a esta característica de diseño, puede ser útil pensar en `None` y `NaN` como dos sabores diferentes de "nulo" en los pandas. De hecho, algunos de los métodos básicos que utilizará para lidiar con los valores faltantes en los pandas reflejan esta idea en sus nombres:

- `isnull()`: Genera una máscara booleana que indica los valores que faltan
- `notnull()`: Opposite of `isnull()`
- `dropna()`: Devuelve una versión filtrada de los datos
- `fillna()`: Devuelve una copia de los datos con los valores faltantes rellenados o imputados

Estos son métodos importantes para dominar y con los que te sientes cómodo, así que repasemos cada uno de ellos con cierta profundidad.

### Detección de valores nulos

Ahora que hemos entendido la importancia de los valores perdidos, debemos detectarlos en nuestro conjunto de datos antes de tratar con ellos.
Ambos `isnull()` y `notnull()` son los métodos principales para detectar datos nulos. Ambos devuelven máscaras booleanas sobre los datos.

In [18]:
example3 = pd.Series([0, np.nan, '', None])

In [19]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Fíjate bien en el resultado. ¿Te sorprende algo de esto? Si bien '0' es un nulo aritmético, es un número entero perfectamente bueno y pandas lo trata como tal. '''' es un poco más sutil. Si bien lo usamos en la Sección 1 para representar un valor de cadena vacío, es un objeto de cadena y no una representación de null en lo que respecta a pandas.

Ahora, demos la vuelta a esto y usemos estos métodos de una manera más parecida a como los usarías en la práctica. Puede utilizar máscaras booleanas directamente como ``Series`` o ``DataFrame`` index, que puede ser útil cuando se intenta trabajar con valores aislados que faltan (o están presentes).

Si queremos el número total de valores que faltan, podemos hacer una suma sobre la máscara producida por el método`isnull()`.

In [20]:
example3.isnull().sum()

2

### Ejercicio:

In [65]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?
example3.notnull()

0    True
2    True
dtype: bool

Se utiliza en pandas para crear una máscara booleana que indica qué elementos de la Serie o DataFrame example3 son no nulos (diferentes de NaN).

### Tratamiento de los datos que faltan

> **Objetivo de aprendizaje:** Al final de esta subsección, debe saber cómo y cuándo reemplazar o quitar valores nulos de DataFrames.

Los modelos de aprendizaje automático no pueden lidiar con los datos que faltan por sí mismos. Por lo tanto, antes de pasar los datos al modelo, debemos ocuparnos de estos valores faltantes.

La forma en que se manejan los datos faltantes conlleva sutiles compensaciones, puede afectar su análisis final y los resultados del mundo real.

Hay principalmente dos formas de tratar los datos que faltan:


1. Elimine la fila que contiene el valor que falta
2. Reemplace el valor faltante con algún otro valor

Discutiremos ambos métodos y sus pros y contras en detalle.


### Eliminación de valores nulos

La cantidad de datos que transmitimos a nuestro modelo tiene un efecto directo en su rendimiento. Eliminar valores nulos significa que estamos reduciendo el número de puntos de datos y, por lo tanto, reduciendo el tamaño del conjunto de datos. Por lo tanto, es recomendable eliminar filas con valores nulos cuando el conjunto de datos es bastante grande.

Otro caso puede ser que una determinada fila o columna tenga muchos valores faltantes. Entonces, es posible que se descarten porque no agregarían mucho valor a nuestro análisis, ya que faltan la mayoría de los datos para esa fila/columna.

Más allá de identificar los valores que faltan, pandas proporciona un medio conveniente para eliminar los valores nulos de `Series` y `DataFrame`s. Para ver esto en acción, volvamos a `example3`. La función `DataFrame.dropna()`ayuda a eliminar las filas con valores nulos.

In [22]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Tenga en cuenta que esto debería verse como su salida de `example3[example3.notnull()]`. La diferencia aquí es que, en lugar de simplemente indexar los valores enmascarados, `dropna` ha eliminado los valores que faltan de la `Serie` `example3`.

Dado que los DataFrames tienen dos dimensiones, ofrecen más opciones para quitar datos.

In [23]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(¿Te diste cuenta de que los pandas convirtieron dos de las columnas en carrozas para acomodar a los `NaN`?)

No puede quitar un solo valor de un `DataFrame`, por lo que debe eliminar filas o columnas completas. Dependiendo de lo que estés haciendo, es posible que desees hacer uno u otro, por lo que pandas te ofrece opciones para ambos. Dado que en la ciencia de datos, las columnas generalmente representan variables y las filas representan observaciones, es más probable que se quiten filas de datos; La configuración predeterminada para `dropna()` es eliminar todas las filas que contienen valores nulos:

In [24]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Si es necesario, puede quitar los valores NA de las columnas. Use `axis=1` para hacerlo:

In [25]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Tenga en cuenta que esto puede quitar una gran cantidad de datos que es posible que desee conservar, especialmente en conjuntos de datos más pequeños. ¿Qué sucede si solo desea eliminar filas o columnas que contienen varios o incluso todos los valores nulos? Especifique esos ajustes en `dropna` con los parámetros `how` y `thresh`.

De forma predeterminada, `how='any'` (si desea verificar por sí mismo o ver qué otros parámetros tiene el método, ejecute 'example4.dropna?' en una celda de código). Alternativamente, puede especificar `how='all'` para eliminar solo las filas o columnas que contienen todos los valores nulos. Ampliemos nuestro ejemplo `DataFrame` para verlo en acción en el siguiente ejercicio.

In [26]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


>Puntos clave: 
1. Descartar valores nulos es una buena idea solo si el conjunto de datos es lo suficientemente grande.
2. Las filas o columnas completas se pueden descartar si faltan la mayoría de sus datos.
3. El método `DataFrame.dropna(axis=)` ayuda a eliminar valores nulos. El argumento `axis` significa si se deben eliminar filas o columnas. 
4. También se puede utilizar el argumento `how`. De forma predeterminada, se establece en `any`. Por lo tanto, solo descarta aquellas filas/columnas que contienen valores nulos. Se puede establecer en 'all' para especificar que eliminaremos solo aquellas filas/columnas en las que todos los valores sean nulos.

### Ejercicio:

In [None]:
# ¿Cómo podrías hacer para eliminar solo la columna 3?
# Sugerencia: recuerde que deberá proporcionar tanto el parámetro axis como el parámetro how.

El parametro `thresh` proporciona un control más detallado: se establece el número de valores *no nulos* que debe tener una fila o columna para mantenerse:

In [28]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Aquí, la primera y la última fila se han quitado, ya que solo contienen dos valores no nulos.

### Rellenar valores nulos

A veces tiene sentido rellenar los valores que faltan con otros que podrían ser válidos. Hay algunas técnicas para rellenar valores nulos. La primera es utilizar el conocimiento del dominio (conocimiento del tema en el que se basa el conjunto de datos) para aproximarse de alguna manera a los valores que faltan. 


Podría usar `isnull` para hacer esto en su lugar, pero eso puede ser laborioso, especialmente si tiene muchos valores para completar. Debido a que esta es una tarea tan común en la ciencia de datos, pandas proporciona `fillna`, que devuelve una copia de la `Serie` o 'DataFrame' con los valores faltantes reemplazados por uno de su elección. Vamos a crear otro ejemplo de `Serie` para ver cómo funciona esto en la práctica.

### Datos categóricos (no numéricos)
En primer lugar, consideremos los datos no numéricos. En los conjuntos de datos, tenemos columnas con datos categóricos. Eg. Género, verdadero o falso, etc.

En la mayoría de estos casos, reemplazamos los valores faltantes con el `mode` de la columna. Digamos que tenemos 100 puntos de datos y 90 han dicho Verdadero, 8 han dicho Falso y 2 no se han llenado. Luego, podemos hacer el 2 con True, considerando la columna completa. 

Una vez más, aquí podemos usar el conocimiento del dominio. Consideremos un ejemplo de llenado con el modo.

In [29]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Ahora, primero encontremos el modo antes de llenar el archivo `None` valor con el modo.

In [30]:
fill_with_mode[2].value_counts()

2
True     3
False    1
Name: count, dtype: int64

Por lo tanto, reemplazaremos None con True

In [31]:
fill_with_mode[2].fillna('True',inplace=True)

In [32]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Como podemos ver, el valor nulo ha sido reemplazado. No hace falta decir que podríamos haber escrito cualquier cosa en su lugar o`'True'` y habría sido sustituido.

### Datos numéricos
Ahora, pasando a los datos numéricos. Aquí, tenemos dos formas comunes de reemplazar los valores que faltan:

1. Reemplace con Mediana de la fila
2. Reemplace con Media de la fila 

Reemplazamos con Mediana, en caso de datos sesgados con valores atípicos. Esto se debe a que la mediana es robusta a los valores atípicos.

Cuando los datos están normalizados, podemos usar la media, ya que en ese caso, la media y la mediana estarían bastante cerca.

Primero, tomemos una columna que está distribuida normalmente y llenemos el valor faltante con la media de la columna.

In [33]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


La media de la columna es

In [34]:
np.mean(fill_with_mean[0])

0.0

Relleno de media

In [35]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Como podemos ver, el valor que falta ha sido reemplazado por su media.

Ahora probemos con otro dataframe, y esta vez reemplazaremos los valores None con la mediana de la columna.

In [36]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


La mediana de la segunda columna es

In [37]:
fill_with_median[1].median()

4.0

Relleno con mediana

In [38]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Como podemos ver, el valor de NaN ha sido reemplazado por la mediana de la columna

In [39]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

You can fill all of the null entries with a single value, such as `0`:

In [40]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Puntos clave:
1. El llenado de los valores faltantes debe hacerse cuando hay menos datos o hay una estrategia para completar los datos que faltan.
2. El conocimiento del dominio se puede utilizar para completar los valores faltantes aproximándolos.
3. Para los datos categóricos, en su mayoría, los valores faltantes se sustituyen por el modo de la columna. 
4. En el caso de los datos numéricos, los valores que faltan suelen rellenarse con la media (para conjuntos de datos normalizados) o la mediana de las columnas.

### Ejercicio:

In [41]:
# ¿Qué sucede si intenta rellenar valores nulos con una cadena, como ''?

Puede **rellenar hacia adelante** valores nulos, que es usar el último valor válido para rellenar un valor nulo:

In [42]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Puede **rellenar hacia adelante** valores nulos, que es usar el último valor válido para rellenar un valor nulo:

In [43]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Como puede adivinar, esto funciona igual con DataFrames, pero también puede especificar un 'eje' a lo largo del cual rellenar los valores nulos:

In [44]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [45]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Tenga en cuenta que cuando un valor anterior no está disponible para rellenar, el valor nulo permanece.

### Exercise:

In [57]:
# ¿Qué salida produce example4.fillna(method='bfill', axis=1)?
# ¿Qué pasa con example4.fillna(method='ffill') o example4.fillna(method='bfill')?
# ¿Se te ocurre un fragmento de código más largo para escribir que pueda rellenar todos los valores nulos del ejemplo4?


Puedes ser creativo sobre cómo usas `fillna`. Por ejemplo, veamos el `example4` de nuevo, pero esta vez vamos a rellenar los valores que faltan con el promedio de todos los valores de la clase `DataFrame`:

In [47]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Tenga en cuenta que la columna 3 sigue sin valor: la dirección predeterminada es rellenar los valores por filas.

>**Conclusión:** Hay varias formas de tratar los valores faltantes en los conjuntos de datos. La estrategia específica que utilice (eliminarlos, reemplazarlos o incluso cómo reemplazarlos) debe estar dictada por los detalles de esos datos. Desarrollará una mejor idea de cómo tratar los valores faltantes cuanto más maneje e interactúe con los conjuntos de datos.

### Codificación de datos categóricos

Los modelos de aprendizaje automático solo se ocupan de los números y de cualquier forma de datos numéricos. No podrá diferenciar entre un Sí y un No, pero sí podrá distinguir entre 0 y 1. Por lo tanto, después de completar los valores que faltan, debemos codificar los datos categóricos de alguna forma numérica para que el modelo los entienda.

La codificación se puede realizar de dos maneras. Hablaremos de ellos a continuación.


**CODIFICACIÓN DE ETIQUETAS**


La codificación de etiquetas consiste básicamente en convertir cada categoría en un número. Por ejemplo, supongamos que tenemos un conjunto de datos de pasajeros de aerolíneas y hay una columna que contiene su clase entre las siguientes ['clase ejecutiva', 'clase económica', 'primera clase']. Si la codificación de etiquetas se realiza en esto, se transformaría en [0,1,2]. Veamos un ejemplo a través del código. Como estaríamos aprendiendo `scikit-learn`. En los próximos cuadernos, no lo usaremos aquí.

In [48]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Para realizar la codificación de etiquetas en la 1ª columna, primero tenemos que describir un mapeo de cada clase a un número, antes de reemplazar

In [49]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Como podemos ver, el resultado coincide con lo que pensábamos que sucedería. Entonces, ¿cuándo usamos la codificación de etiquetas? La codificación de etiquetas se utiliza en uno o ambos de los siguientes casos:
1. Cuando el número de categorías es grande
2. Cuando las categorías están en orden.

**UNA CODIFICACIÓN ACTIVA**

Otro tipo de codificación es One Hot Encoding. En este tipo de codificación, cada categoría de la columna se agrega como una columna independiente y cada punto de datos obtendrá un 0 o un 1 en función de si contiene esa categoría. Por lo tanto, si hay n categorías diferentes, se anexarán n columnas al marco de datos.

Por ejemplo, tomemos el mismo ejemplo de la clase de avión. Las categorías fueron: ['clase ejecutiva', 'clase económica', 'primera clase'] . Por lo tanto, si realizamos una codificación activa, se agregarán las siguientes tres columnas al conjunto de datos: ['clase class_business','class_economy clase','class_first clase'].

In [50]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Vamos a realizar una codificación activa en la 1ª columna

In [51]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [52]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,True,False,False
1,20,False,False,True
2,30,False,True,False
3,40,False,True,False
4,50,False,True,False
5,60,True,False,False


Cada columna codificada en caliente contiene 0 o 1, que especifica si esa categoría existe para ese punto de datos.

¿Cuándo usamos una codificación activa? Se utiliza una codificación activa en uno o ambos de los siguientes casos:

1. Cuando el número de categorías y el tamaño del conjunto de datos es menor.
2. Cuando las categorías no siguen ningún orden en particular.

> Puntos clave:
1. La codificación se realiza para convertir datos no numéricos en datos numéricos.
2. Hay dos tipos de codificación: codificación de etiquetas y codificación One Hot, las cuales se pueden realizar en función de las demandas del conjunto de datos.

## Eliminación de datos duplicados

> **Objetivo de aprendizaje:** Al final de esta subsección, debería sentirse cómodo identificando y eliminando valores duplicados de DataFrames.

Además de los datos que faltan, a menudo encontrará datos duplicados en conjuntos de datos del mundo real. Afortunadamente, pandas proporciona un medio fácil de detectar y eliminar entradas duplicadas.

### Identificación de duplicados: `duplicated`

Puede detectar fácilmente los valores duplicados utilizando el comando `duplicated` en pandas, que devuelve una máscara booleana que indica si una entrada en un `DataFrame` es un duplicado de uno anterior. Vamos a crear otro ejemplo `DataFrame` para ver esto en acción.

In [53]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [54]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Eliminación de duplicados: `drop_duplicates`
`drop_duplicates` simplemente devuelve una copia de los datos para los que todos los valores `duplicados` son `False`:

In [55]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Ambos `duplicated` y`drop_duplicates`de forma predeterminada para considerar todas las columnas, pero puede especificar que examinen solo un subconjunto de columnas en su `DataFrame`:

In [56]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Conclusión:** La eliminación de datos duplicados es una parte esencial de casi todos los proyectos de ciencia de datos. Los datos duplicados pueden cambiar los resultados de sus análisis y darle resultados inexactos.