Juan Miguel Armenta Cano


Muchos pensarían que el trabajo de la ciencia de datos es exclusivo del desarrollo de modelos de aprendizaje automático y la evaluación de la métrica técnica. Si bien no está mal, la responsabilidad laboral es mucho mayor. Los científicos de datos necesitan trabajar en la recopilación, limpieza, análisis, comprensión de datos, etc.

Entonces, ¿en qué tarea dedican más tiempo los científicos de datos? Según una encuesta de CrowdFlower, los científicos de datos dedican el 80% de su tiempo a limpiar datos. No es de extrañar porque nuestro proyecto de ciencia de datos depende de qué tan limpios estén nuestros datos.

Sin embargo, existen métodos para acortar los tiempos de procesamiento de limpieza de datos mediante el empleo de paquetes de limpieza de datos. ¿Qué son estos paquetes y cómo funcionan? a continuacion haremos mencion de algunos de ellos 

1. Pyjanitor

In [3]:
import pandas as pd

In [7]:
review = pd.read_csv('coffee_meets_bagel_google_play_reviews.csv')
review.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25025 entries, 0 to 25024
Data columns (total 10 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   reviewId              25025 non-null  object
 1   userName              25025 non-null  object
 2   userImage             25025 non-null  object
 3   content               25021 non-null  object
 4   score                 25025 non-null  int64 
 5   thumbsUpCount         25025 non-null  int64 
 6   reviewCreatedVersion  22020 non-null  object
 7   at                    25025 non-null  object
 8   replyContent          8089 non-null   object
 9   repliedAt             8089 non-null   object
dtypes: int64(2), object(8)
memory usage: 1.9+ MB


Antes de comenzar, necesitamos instalar el paquete Pyjanitor.

Probemos el paquete Pyjanitor con nuestro conjunto de datos de muestra.

In [10]:
import janitor
jan_review = review.factorize_columns(column_names=["userName"]).expand_column(column_name = 'reviewCreatedVersion').clean_names()

podemos factorizar la columna de nombre de usuario para convertir los datos categóricos en numéricos "factorize_columns"

Expanda la columna de revisión de la versión creada "expand_column"

Se Limpia el nombre de la columna convirtiéndolos a minúsculas, luego se Cambian todos los espacios con guiones bajos "clean_names"


Además, el método de cadena también funciona con la API original de Panda. Puede combinar ambos para lograr los datos limpios que desea.

2. Klib 
es un paquete Python de código abierto para importar, limpiar y analizar. Es un paquete integral que se utiliza para comprender fácilmente sus datos y su preprocesamiento. El paquete es bueno para evaluar sus datos mediante visualización intuitiva y API fáciles de usar.

Para la limpieza de datos, Klib confía en la API data_cleaning para limpiar automáticamente el marco de datos.

Después de la instalación, pasaríamos el conjunto de datos a la API data_cleaning.

In [13]:
import klib
df_cleaned = klib.data_cleaning(review)

Shape of cleaned data: (25025, 10) - Remaining NAs: 36881


Dropped rows: 0
     of which 0 duplicates. (Rows (first 150 shown): [])

Dropped columns: 0
     of which 0 single valued.     Columns: []
Dropped missing values: 0
Reduced memory by at least: 0.44 MB (-23.04%)



La función anterior produce la información de limpieza de datos realizada en nuestro ejemplo de conjunto de datos. 
El procedimiento de limpieza de datos de Klib sigue los pasos actuales:

Limpieza de nombres de columnas,
Eliminando columnas vacías y prácticamente vacías,
Elimina columnas cardinales individuales,
Elimina filas duplicadas,
Reducción de memoria.

3. scrubadub
Scrubadub es un paquete Python de código abierto para eliminar información de identificación personal de datos de texto. Scrubadub funciona eliminando los datos personales detectados y reemplazándolos con un identificador de texto como {{EMAIL}} o {{NAME}}.

Intentemos limpiar nuestro conjunto de datos de muestra con Scrubadub. 
Primero, necesitamos instalar el paquete.

Como vimos en el comentario anterior, hay varios datos personales que podríamos eliminar usando Scrubadub, como nombres y direcciones de correo electrónico. 
Utilicemos una muestra de datos que contenga nombre e información personal de correo electrónico.

In [21]:
review['replyContent'].loc[24947]

"Hi Annie, we're so sorry the app was not working for you! We'd love to help solve this and have you try out our app. Please try deleting and reinstalling. If you are still coming across and issue, please email us at contact@coffeemeetsbagel.com and let us know if you are getting any specific error message. Thanks!"

Los datos contienen el nombre y los datos de correo electrónico que queremos eliminar.

In [23]:
import scrubadub

In [24]:
sample = review['replyContent'].loc[24947]
scrubadub.clean(sample)



"Hi Annie, we're so sorry the app was not working for you! We'd love to help solve this and have you try out our app. Please try deleting and reinstalling. If you are still coming across and issue, please email us at {{EMAIL}} and let us know if you are getting any specific error message. Thanks!"

Los datos limpios tienen los datos del correo electrónico eliminados y reemplazados por el identificador {{EMAIL}}. Sin embargo, todavía tenemos los datos del nombre identificados. ¿Cómo podría Scrubadub eliminar el nombre entonces?

Para mejorar el identificador de nombre de Scrubadub, necesitamos agregar la mejora de detección de nombres de otros paquetes. Para este ejemplo, agreguemos el detector de TextBlob.

In [25]:
scrubber = scrubadub.Scrubber()
scrubber.add_detector(scrubadub.detectors.TextBlobNameDetector)
scrubber.clean(sample)



"Hi {{NAME}}, we're so sorry the app was not working for you! We'd love to help solve this and have you try out our app. Please try deleting and reinstalling. If you are still coming across and issue, please email us at {{EMAIL}} and let us know if you are getting any specific error message. Thanks!"

Ahora eliminamos el nombre y lo reemplazamos por el identificador {{NAME}}.

In [None]:
Conclusiones
La limpieza de datos es el proceso que lleva más tiempo en el trabajo de la ciecia de datos. 
para ayudar con los trabajos de limpieza, existen muchos paquetes de Python desarrollados para la limpieza de datos.
acontinuacion se mencionan algiunos paquetes de Python para limpieza de datos:
Pyjanitor
Klib
Scrubadub