# Complejidad de los datos

### Introducci√≥n

En esta sesi√≥n analizaremos el tema de complejidad de los datos y algunas t√©cnicas para tratar los efectos de la misma. Este cuaderno se basa parcialmente en el material del curso de limpieza de datos de Kaggle disponible [aqu√≠](https://www.kaggle.com/learn/data-cleaning).

### Gesti√≥n de valores omitidos
Elimine los valores que faltan o rell√©nelos con un flujo de trabajo automatizado.

La limpieza de datos es una parte clave de la ciencia de datos, pero puede ser muy frustrante. ¬øPor qu√© hay campos de texto ilegibles? ¬øQu√© hacer con los valores que faltan? ¬øPor qu√© las fechas no tienen el formato correcto? ¬øC√≥mo puede solucionar r√°pidamente la introducci√≥n de datos incoherentes? En este tema, aprender√° por qu√© se ha encontrado con estos problemas y, lo que es m√°s importante, c√≥mo solucionarlos.

En este cuaderno, aprender√° a abordar algunos de los problemas m√°s comunes de limpieza de datos para que pueda analizar sus datos m√°s r√°pidamente. Realizar√° cinco ejercicios pr√°cticos con datos reales y desordenados y responder√° a algunas de las preguntas m√°s frecuentes sobre la limpieza de datos.

En este cuaderno, veremos c√≥mo tratar los valores faltantes u omitidos.

#### Primer vistazo a los datos

Lo primero que tenemos que hacer es cargar las bibliotecas y el conjunto de datos que vamos a utilizar.

Para la demostraci√≥n, utilizaremos un conjunto de datos de eventos ocurridos en partidos de f√∫tbol americano. Debido al tama√±o del conjunto de datos, lo descargaremos y posteriormente lo cargaremos a nuestro espacio temporal. [Ir a la p√°gina de descarga](https://www.kaggle.com/code/alexisbcook/handling-missing-values/data?select=NFL+Play+by+Play+2009-2017+%28v4%29.csv).

In [None]:
# m√≥dulos que usaremos
import pandas as pd
import numpy as np

# cargamos los datos
nfl_data = pd.read_csv("NFL Play by Play 2009-2017 (v4).csv")

# fijamos la semilla para reproducibilidad
np.random.seed(0)

Lo primero que hay que hacer cuando se recibe un nuevo conjunto de datos es echar un vistazo a algunos de ellos. Esto nos permite ver que todo se lee correctamente y nos da una idea de lo que est√° pasando con los datos. En este caso, vamos a ver si hay valores perdidos u omitidos, que son representados en Python con `NaN`.

In [None]:
nfl_data.head()

¬øObservamos datos faltantes?

¬øCu√°ntos puntos de datos faltantes tenemos?

Bien, ahora sabemos que tenemos algunos valores faltantes. Veamos cu√°ntos tenemos en cada columna.

In [None]:
# obtenemos el n√∫mero de datos faltantes por columna
missing_values_count = nfl_data.isnull().sum()

# Revisamos el n√∫mero de datos faltantes en las primeras 10 columnas del conjunto de datos (tiene 102 columnas en total).
missing_values_count[0:10]

¬øQu√© opinas de los resultados mostrados? Ser√≠a √∫til saber qu√© porcentaje de valores faltan en nuestro conjunto de datos para hacernos una idea m√°s precisa de la magnitud del problema:

In [None]:
print(nfl_data.shape)
a,b = nfl_data.shape
print(a)
print(b)
print(a*b)

In [None]:
# ¬øCu√°ntos valores faltantes tenemos en total en el conjunto datos?
print(nfl_data.shape)
total_cells = np.product(nfl_data.shape)
total_missing = missing_values_count.sum()

# porcentaje de datos faltante
percent_missing = (total_missing/total_cells) * 100
print(f'Celdas totales: {total_cells:,}')   # Se agrega :, a la derecha de la variable para dar formato de miles
print(f'Celdas con datos faltantes: {total_missing:,}') # Se agrega :, a la derecha de la variable para dar formato de miles
print(f'Porcentaje de datos faltantes: {round(percent_missing,2)}%')

¬øQu√© opinas del porcentaje de datos faltantes?

#### Averiguar por qu√© faltan datos

Este es el punto en el que entramos en la parte de la ciencia de datos que solemos llamar "intuici√≥n de datos", es decir, "analizar realmente los datos e intentar averiguar por qu√© son como son y c√≥mo afectar√°n a nuestro an√°lisis". Puede ser una parte frustrante de la ciencia de datos, especialmente si eres nuevo en este campo y no tienes mucha experiencia. Para tratar los valores que faltan, tendr√°s que usar tu intuici√≥n para averiguar por qu√© falta el valor. Una de las preguntas m√°s importantes que puede hacerse para averiguarlo es la siguiente:

**¬øEste valor falta porque no se registr√≥ o porque no existe?**

Si falta un valor porque no existe (como la altura del hijo mayor de alguien que no tiene hijos), no tiene sentido intentar adivinar cu√°l podr√≠a ser. Estos valores probablemente quieras mantenerlos como NaN. Por otro lado, si falta un valor porque no se registr√≥, puede intentar adivinar cu√°l podr√≠a haber sido bas√°ndose en los dem√°s valores de esa columna y fila. Esto se llama imputaci√≥n, ¬°y aprenderemos a hacerlo a continuaci√≥n! :)

Veamos un ejemplo. Observando el n√∫mero de valores faltantes en el marco de datos nfl_data, nos damos cuenta de que la columna "TimeSecs" tiene muchos valores faltantes:

In [None]:
# Revisamos el n√∫mero de datos faltantes en las primeras 10 columnas del conjunto de datos (tiene 102 columnas en total).
missing_values_count[0:10]

Revisando la documentaci√≥n, podemos ver que esta columna tiene informaci√≥n sobre el n√∫mero de segundos que quedaban en el partido cuando se hizo la jugada. Esto significa que estos valores probablemente faltan porque no se registraron, y no porque no existan. Por lo tanto, tendr√≠a sentido que intent√°ramos adivinar cu√°les deber√≠an ser en lugar de dejarlos como `NaN`.

Por otra parte, hay otros campos, como "PenalizedTeam", en los que tambi√©n faltan muchos campos. En este caso, sin embargo, el campo falta porque si no hubo penalizaci√≥n no tiene sentido decir qu√© equipo fue penalizado. Para esta columna, tendr√≠a m√°s sentido dejarla vac√≠a o a√±adir un tercer valor como "ninguno" y utilizarlo para reemplazar los `NaN`.

Si est√° realizando un an√°lisis de datos muy cuidadoso, este es el punto en el que mirar√≠a cada columna individualmente para averiguar cu√°l es la mejor estrategia para rellenar los valores que faltan. En el resto de este cuaderno, trataremos algunas t√©cnicas "r√°pidas y sucias" que pueden ayudarle con los valores que faltan, pero que probablemente acabar√°n eliminando informaci√≥n √∫til o a√±adiendo ruido a los datos.

#### Eliminar valores faltantes
Si tiene prisa o no tiene motivos para averiguar por qu√© faltan valores, una opci√≥n es eliminar las filas o columnas que contengan valores que falten. (Nota: ¬°generalmente no se recomienda este enfoque para proyectos importantes! Suele merecer la pena tomarse el tiempo necesario para revisar los datos y examinar una por una todas las columnas con valores faltantes para conocer realmente el conjunto de datos).

Si est√° seguro de que quiere eliminar las filas con valores faltantes, pandas tiene una funci√≥n muy √∫til, dropna() para ayudarle a hacerlo. Vamos a probarla en nuestro conjunto de datos de la NFL.

In [None]:
# eliminar todos los renglones que contengan un valor faltante u omitido
nfl_data.dropna()

¬øQu√© sucedi√≥? ¬°parece que se han eliminado todos nuestros datos! üò± Esto se debe a que cada fila de nuestro conjunto de datos ten√≠a al menos un valor faltante. Podr√≠amos tener mejor suerte eliminando todas las columnas que tienen al menos un valor faltante en su lugar.

In [None]:
# Eliminemos ahora todas las columnas en donde exista un valor faltante
columns_with_na_dropped = nfl_data.dropna(axis=1) #Al agregar el par√°metro axis=1 estamos indicando que el criterio sea revisar columnas. Por defecto se revisan renglones (axis=0)
columns_with_na_dropped.head(10)

In [None]:
columns_with_na_dropped.shape

In [None]:
#a, b = nfl_data.shape
a = nfl_data.shape[0]
b = nfl_data.shape[1]
print(a)
print(b)

Calcular cuanta informaci√≥n hemos perdido

In [None]:
print(f"Columnas en el conjunto de datos original: {nfl_data.shape[1]}")
print(f"Columnas restantes tras eliminar datos faltantes: {columns_with_na_dropped.shape[1]}")
print(f"Total de columnas eliminadas: {nfl_data.shape[1] - columns_with_na_dropped.shape[1]}")

#### Rellenar autom√°ticamente los valores que faltan
Otra opci√≥n es intentar rellenar los valores que faltan. Para ello, vamos a tomar una peque√±a subsecci√≥n de los datos de la NFL para que se imprima bien.

In [None]:
# obtenemos un peque√±o subconjunto del conjunto de datos de la NFL
subset_nfl_data = nfl_data.loc[:, 'EPA':'Season'].head()
subset_nfl_data

Podemos utilizar la funci√≥n fillna() de Panda para que rellene por nosotros los valores que faltan en un marco de datos. Una opci√≥n que tenemos es especificar con qu√© queremos que se sustituyan los valores NaN. Aqu√≠, estoy diciendo que me gustar√≠a reemplazar todos los valores NaN con 0.

In [None]:
# remplazar todos los datos NaN con 0
subset_nfl_data.fillna(0)

Quiz√°s una mejor estrategia sea sustituir los valores que faltan por cualquier valor que le siga directamente en la misma columna. (Esto tiene mucho sentido para conjuntos de datos en los que las observaciones tienen alg√∫n tipo de orden l√≥gico).

In [None]:
# reemplazar todos los NaN con el valor que viene directamente despu√©s de √©l en la misma columna
# y sustituir todos los NaN restantes por 0
subset_nfl_data.fillna(method='bfill', axis=0).fillna(0)

Opciones para el par√°metro `method`:

**ffill**

Rellenar valores propagando la √∫ltima observaci√≥n v√°lida a la siguiente v√°lida.

**bfill**

Rellenar valores utilizando la siguiente observaci√≥n v√°lida para rellenar el hueco.

In [None]:
# reemplazar todos los NaN con el valor que viene directamente antes de √©l en la misma columna
# y sustituir todos los NaN restantes por 0
subset_nfl_data.fillna(method='ffill', axis=0).fillna(0)

### Escalado y Normalizaci√≥n
Transformar variables num√©ricas para que tengan propiedades √∫tiles.

#### Cargamos los m√≥dulos a utilizar

In [None]:
%pip install mlxtend

In [None]:
# m√≥dulos a utilizar
import pandas as pd
import numpy as np

# para transformaci√≥n Box-Cox
from scipy import stats

# para escalado min_max
from mlxtend.preprocessing import minmax_scaling

# m√≥dulos de visualizaci√≥n
import seaborn as sns
import matplotlib.pyplot as plt

# fijamos la semilla para reproducibilidad
np.random.seed(0)

#### Escalado frente a normalizaci√≥n: ¬øCu√°l es la diferencia?

Una de las razones por las que es f√°cil confundirse entre escalado y normalizaci√≥n es porque los t√©rminos a veces se utilizan indistintamente y, para hacerlo a√∫n m√°s confuso, ¬°son muy similares! En ambos casos, se transforman los valores de las variables num√©ricas para que los puntos de datos transformados tengan propiedades √∫tiles espec√≠ficas. La diferencia es que en el escalado, se cambia el rango de los datos, mientras que en la normalizaci√≥n, cambia la forma de la distribuci√≥n de los datos.

Hablemos un poco m√°s en profundidad de cada una de estas opciones.

#### Escalado

Esto significa que est√° transformando sus datos para que se ajusten a una escala espec√≠fica, como 0-100 o 0-1. Es conveniente escalar los datos cuando se utilizan m√©todos basados en medidas de la distancia entre los puntos de datos, como las m√°quinas de vectores de soporte (SVM) o los vecinos m√°s cercanos (KNN). Con estos algoritmos, un cambio de "1" en cualquier caracter√≠stica num√©rica recibe la misma importancia.

Por ejemplo, puede consultar los precios de algunos productos en yenes y en d√≥lares estadounidenses. Un d√≥lar estadounidense vale unos 100 yenes, pero si no escala los precios, m√©todos como SVM o KNN considerar√°n que una diferencia de precio de 1 yen es tan importante como una diferencia de 1 d√≥lar estadounidense. Est√° claro que esto no encaja con nuestras intuiciones del mundo. Con la divisa, puedes convertir entre divisas. Pero, ¬øqu√© ocurre con la altura y el peso? No est√° del todo claro cu√°ntas libras equivalen a una pulgada (o cu√°ntos kilogramos equivalen a un metro).

Al escalar las variables, puedes comparar diferentes variables en igualdad de condiciones. Para ayudarte a entender c√≥mo es el escalado, veamos un ejemplo inventado. (No te preocupes, en el siguiente ejercicio trabajaremos con datos reales).

In [None]:
# generar 1000 puntos de datos extra√≠dos aleatoriamente de una distribuci√≥n exponencial
original_data = np.random.exponential(size=1000)

# mix-max escala los datos entre 0 y 1
scaled_data = minmax_scaling(original_data, columns=[0])

# graficamos ambos para comparar
fig, ax = plt.subplots(1, 2, figsize=(15, 3))
sns.histplot(original_data, ax=ax[0], kde=True, legend=False)
ax[0].set_title("Datos Originales")
sns.histplot(scaled_data, ax=ax[1], kde=True, legend=False)
ax[1].set_title("Datos Escalados")
plt.show()

Observe que la forma de los datos no cambia, pero que en lugar de ir de 0 a 8, ahora van de 0 a 1.

#### Normalizaci√≥n
El escalado s√≥lo cambia el rango de los datos. La normalizaci√≥n es una transformaci√≥n m√°s radical. El objetivo de la normalizaci√≥n es cambiar las observaciones para que puedan describirse como una distribuci√≥n normal.

[Distribuci√≥n normal](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal): Tambi√©n conocida como "curva de campana", es una distribuci√≥n estad√≠stica espec√≠fica en la que aproximadamente el mismo n√∫mero de observaciones se sit√∫an por encima y por debajo de la media, la media y la mediana son iguales y hay m√°s observaciones cerca de la media. La distribuci√≥n normal tambi√©n se conoce como distribuci√≥n de Gauss.

En general, normalizar√° sus datos si va a utilizar una t√©cnica de aprendizaje autom√°tico o estad√≠stica que asuma que sus datos se distribuyen normalmente. Algunos ejemplos son el an√°lisis discriminante lineal (LDA) y el Bayes ingenuo gaussiano. (Consejo profesional: cualquier m√©todo con "gaussiano" en el nombre probablemente asume la normalidad).

El m√©todo que estamos utilizando para normalizar aqu√≠ se llama Transformaci√≥n [Box-Cox](https://en.wikipedia.org/wiki/Power_transform#Box%E2%80%93Cox_transformation). Echemos un vistazo r√°pido a c√≥mo se ve la normalizaci√≥n de algunos datos:

In [None]:
# normalizar los datos exponenciales con boxcox
normalized_data = stats.boxcox(original_data)

# graficamos ambos para comparar
fig, ax=plt.subplots(1, 2, figsize=(15, 3))
sns.histplot(original_data, ax=ax[0], kde=True, legend=False)
ax[0].set_title("Datos Originales")
sns.histplot(normalized_data[0], ax=ax[1], kde=True, legend=False)
ax[1].set_title("Datos Normalizados")
plt.show()

Observe que la forma de nuestros datos ha cambiado. Antes de la normalizaci√≥n ten√≠an casi forma de L. Pero despu√©s de la normalizaci√≥n se parecen m√°s al contorno de una campana (de ah√≠ lo de "curva de campana").

### An√°lisis de fechas
Ayuda a Python a reconocer fechas compuestas por d√≠a, mes y a√±o.

#### Cargamos los m√≥dulos y conjunto de datos a utilizar
Trabajaremos con un conjunto de datos que contiene informaci√≥n sobre los desprendimientos de tierra ocurridos entre 2007 y 2016.

In [None]:
# m√≥dulos a utilizar
import pandas as pd
import numpy as np
import seaborn as sns
import datetime

# cargamos los datos
landslides = pd.read_csv("data/landslides.csv")

# fijamos la semilla para reproducibilidad
np.random.seed(0)

#### Comprobar el tipo de datos de nuestra columna de fecha
Empezaremos echando un vistazo a las cinco primeras filas de datos.

In [None]:
landslides.head()

Estaremos trabajando con la columna "date". Revisemos que realmente contenga fechas.

In [None]:
# Imprimir los primeros renglones de la columna "date"
print(landslides['date'].head())

Al ver los datos podemos asumir como humanos que son datos de fechas, pero esto no significa que Python reconozca que son fechas. Si revisamos la √∫ltima l√≠nea de la funci√≥n head() notamos que el tipo de dato (dtype) es "object".

Si revisamos la documentaci√≥n de dtype de pandas, veremos que tambi√©n hay un dtype espec√≠fico datetime64. Como el dtype de nuestra columna es object y no datetime64, podemos decir que Python no sabe que esta columna contiene fechas.

Tambi√©n podemos ver s√≥lo el dtype de una columna sin imprimir las primeras filas:

In [None]:
# Podemos revisar el tipo de dato de una columna
landslides['date'].dtype

"O" es el c√≥digo de "objeto", por lo que podemos ver que estos dos m√©todos nos dan la misma informaci√≥n.

In [None]:
# Tambi√©n podemos revisar los tipos de dato de todas las columnas
landslides.dtypes

#### Convertir nuestras columnas de fecha a datetime
Ahora que sabemos que nuestra columna de fecha no est√° siendo reconocida como una fecha, es hora de convertirla para que sea reconocida como una fecha. Esto se llama "analizar fechas" ("parsing dates" en ingl√©s) porque estamos tomando una cadena e identificando las partes que la componen.

Podemos determinar cu√°l es el formato de nuestras fechas con una gu√≠a llamada "directiva strftime", de la que puedes encontrar m√°s informaci√≥n [aqu√≠](https://strftime.org/)]. La idea b√°sica es que hay que se√±alar donde est√°n las diferentes partes de la fecha y qu√© signos de puntuaci√≥n hay entre ellas. Hay muchas partes posibles de una fecha, pero las m√°s comunes son %d para el d√≠a, %m para el mes, %y para un a√±o de dos d√≠gitos y %Y para un a√±o de cuatro d√≠gitos.

Algunos ejemplos:

- 1/17/07 tiene el formato "%m/%d/%y".
- 17-1-2007 tiene el formato "%d-%m-%Y".

Si volvemos a mirar la cabecera de la columna "date" (fecha) en el conjunto de datos de desprendimientos, vemos que tiene el formato "month/day/two-digit year" (mes/d√≠a/a√±o de dos d√≠gitos), por lo que podemos utilizar la misma sintaxis que en el primer ejemplo para analizar las fechas:

In [None]:
# crear una nueva columna, date_parsed, con las fechas analizadas
landslides['date_parsed'] = pd.to_datetime(landslides['date'], format="%m/%d/%y")

In [None]:
# revisamos los primeros datos
landslides['date_parsed'].head()

Ahora que nuestras fechas est√°n correctamente analizadas, podemos interactuar con ellas de forma √∫til.

¬øQu√© pasa si nos encontramos con un error con m√∫ltiples formatos de fecha? Mientras estamos especificando el formato de fecha, a veces se encontrar√° con un error cuando hay m√∫ltiples formatos de fecha en una sola columna. Si eso ocurre, puede hacer que pandas intente deducir cu√°l deber√≠a ser el formato de fecha correcto. Puede hacerlo as√≠:

`landslides['date_parsed'] = pd.to_datetime(landslides['Date'], infer_datetime_format=True)`

¬øPor qu√© no utilizar siempre infer_datetime_format = True? Hay dos grandes razones para no hacer que pandas adivine siempre el formato de hora. La primera es que pandas no siempre ser√° capaz de averiguar el formato de fecha correcto, especialmente si alguien se ha puesto creativo con la entrada de datos. La segunda es que es mucho m√°s lento que especificar el formato exacto de las fechas.

#### Seleccionar el d√≠a del mes
Ahora que tenemos una columna de fechas analizadas, podemos extraer informaci√≥n como el d√≠a del mes en que se produjo un desprendimiento.

In [None]:
# obtener e√± d√≠a del mes de la columna date_parsed
day_of_month_landslides = landslides['date_parsed'].dt.day
day_of_month_landslides.head()

¬øQu√© sucede si intentamos hacer lo mismo con la columna "date" original?

In [None]:
day_lanslides = landslides['date'].dt.day

#### Trazar el d√≠a del mes para comprobar el an√°lisis sint√°ctico de la fecha
Uno de los mayores peligros al analizar fechas es confundir los meses y los d√≠as. La funci√≥n to_datetime() tiene mensajes de error muy √∫tiles, pero no est√° de m√°s volver a comprobar que los d√≠as del mes que hemos extra√≠do tienen sentido.

Para ello, vamos a trazar un histograma de los d√≠as del mes. Esperamos que tenga valores entre 1 y 31 (Con un asterisco en el 31 porque no todos los meses tienen 31 d√≠as) y, puesto que no hay raz√≥n para suponer que los desprendimientos son m√°s frecuentes en unos d√≠as del mes que en otros, esperamos una distribuci√≥n relativamente uniforme. Veamos si es as√≠:

In [None]:
# remover valores nulos (NaN)
day_of_month_landslides = day_of_month_landslides.dropna()

# graficamos el d√≠a del mes
sns.displot(day_of_month_landslides, kde=False, bins=31) #KDE (kernel density estimate) representa los datos mediante una curva de densidad de probabilidad continua en una o varias dimensiones.
