# **Ejercicio en clase 2 - ETL**

**Daniela Gómez Ayalde**

Este ejercicio consiste en limpiar y transformar un dataset de una empresa de E-commerce para entrenar un modelo de machine learning que prediga si un producto es nuevo o usado.

### **Librerías**

Se importan las librerías necesarias para ejecutar el código correctamente.

In [1]:
import pandas as pd

### **Lectura del dataset en formato JSONL**

Esta celda carga el dataset desde un archivo en formato *JSONLines*, donde cada línea representa un registro en formato JSON. Se utiliza la función *pd.read_json()* de pandas con el parámetro *lines=True* para interpretar correctamente la estructura del archivo. Luego, se muestra el contenido del dataset para visualizar sus primeras y últimas filas y entender su estructura.

In [2]:
dataset = pd.read_json("MLA_100k.jsonlines", lines=True)
dataset

Unnamed: 0,seller_address,warranty,sub_status,condition,seller_contact,deal_ids,base_price,shipping,non_mercado_pago_payment_methods,seller_id,...,status,video_id,catalog_product_id,subtitle,initial_quantity,start_time,permalink,geolocation,sold_quantity,available_quantity
0,"{'comment': '', 'longitude': -58.3986709, 'id'...",,[],new,,[],80.0,"{'local_pick_up': True, 'methods': [], 'tags':...","[{'description': 'Transferencia bancaria', 'id...",74952096,...,active,,,,1,2015-09-05 20:42:53+00:00,http://articulo.mercadolibre.com.ar/MLA-578052...,"{'latitude': -34.6280698, 'longitude': -58.398...",0,1
1,"{'comment': '', 'longitude': -58.5059173, 'id'...",NUESTRA REPUTACION,[],used,,[],2650.0,"{'local_pick_up': True, 'methods': [], 'tags':...","[{'description': 'Transferencia bancaria', 'id...",42093335,...,active,,,,1,2015-09-26 18:08:30+00:00,http://articulo.mercadolibre.com.ar/MLA-581565...,"{'latitude': -34.5935524, 'longitude': -58.505...",0,1
2,"{'comment': '', 'longitude': -58.4143948, 'id'...",,[],used,,[],60.0,"{'local_pick_up': True, 'methods': [], 'tags':...","[{'description': 'Transferencia bancaria', 'id...",133384258,...,active,,,,1,2015-09-09 23:57:07+00:00,http://articulo.mercadolibre.com.ar/MLA-578780...,"{'latitude': -34.6233907, 'longitude': -58.414...",0,1
3,"{'comment': '', 'longitude': -58.4929208, 'id'...",,[],new,,[],580.0,"{'local_pick_up': True, 'methods': [], 'tags':...","[{'description': 'Transferencia bancaria', 'id...",143001605,...,active,,,,1,2015-09-28 18:47:56+00:00,http://articulo.mercadolibre.com.ar/MLA-581877...,"{'latitude': -34.6281894, 'longitude': -58.492...",0,1
4,"{'comment': '', 'longitude': -58.5495042, 'id'...",MI REPUTACION.,[],used,,[],30.0,"{'local_pick_up': True, 'methods': [], 'tags':...","[{'description': 'Transferencia bancaria', 'id...",96873449,...,active,,,,1,2015-08-24 22:07:20+00:00,http://articulo.mercadolibre.com.ar/MLA-576112...,"{'latitude': -34.6346547, 'longitude': -58.549...",0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,"{'comment': '', 'longitude': -58.6142895, 'id'...",,[],used,,[],30.0,"{'local_pick_up': True, 'methods': [], 'tags':...","[{'description': 'Transferencia bancaria', 'id...",86277472,...,active,,,,1,2015-09-28 01:04:49+00:00,http://articulo.mercadolibre.com.ar/MLA-581735...,"{'latitude': -34.4893206, 'longitude': -58.614...",0,1
99996,"{'comment': '', 'longitude': '', 'id': 1114571...",,[],new,,[],239.0,"{'local_pick_up': False, 'methods': [], 'tags'...","[{'description': 'Tarjeta de crédito', 'id': '...",120301324,...,active,,,,5,2015-09-11 18:09:02+00:00,http://articulo.mercadolibre.com.ar/MLA-579045...,"{'latitude': '', 'longitude': ''}",0,5
99997,"{'comment': '', 'longitude': -58.6241199, 'id'...",,[],used,,[],600.0,"{'local_pick_up': False, 'methods': [], 'tags'...",[],12147240,...,active,,,,1,2015-09-06 22:29:30+00:00,http://articulo.mercadolibre.com.ar/MLA-578170...,"{'latitude': -34.6467858, 'longitude': -58.624...",0,1
99998,"{'comment': '', 'longitude': -58.4020374, 'id'...","Buen estado, se verifica al entregar. la total...",[],used,,[],50.0,"{'local_pick_up': True, 'methods': [], 'tags':...","[{'description': 'Transferencia bancaria', 'id...",86102489,...,active,,,,1,2015-08-18 17:22:28+00:00,http://articulo.mercadolibre.com.ar/MLA-575062...,"{'latitude': -34.6100093, 'longitude': -58.402...",0,1


### **Información del dataset**

Esta celda devuelve la forma del dataset, es decir, el número de filas y columnas. La función *shape* de pandas proporciona una tupla *(n_filas, n_columnas)*, lo que permite conocer el tamaño del conjunto de datos y tener una idea inicial sobre su dimensión antes de procesarlo.

In [3]:
dataset.shape

(100000, 48)

Esta celda proporciona un resumen general del dataset utilizando la función *info()* de pandas. Muestra el número total de filas y columnas, los nombres de las columnas, el tipo de dato de cada una y la cantidad de valores no nulos. Esto es útil para identificar la presencia de valores faltantes y entender el tipo de datos con los que se trabajará en el proceso de limpieza y transformación.

In [4]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 48 columns):
 #   Column                            Non-Null Count   Dtype              
---  ------                            --------------   -----              
 0   seller_address                    100000 non-null  object             
 1   warranty                          39104 non-null   object             
 2   sub_status                        100000 non-null  object             
 3   condition                         100000 non-null  object             
 4   seller_contact                    2219 non-null    object             
 5   deal_ids                          100000 non-null  object             
 6   base_price                        100000 non-null  float64            
 7   shipping                          100000 non-null  object             
 8   non_mercado_pago_payment_methods  100000 non-null  object             
 9   seller_id                         100000 non-null

Esta celda crea una copia del dataset original utilizando la función *copy()* de pandas. Esto es útil para preservar el conjunto de datos sin modificaciones, permitiendo trabajar con la copia (df) sin afectar el dataset original (dataset).

In [5]:
df = dataset.copy()

### **Eliminar columnas irrelevantes**

Esta celda elimina varias columnas del dataset que contienen una gran cantidad de valores nulos, lo que las hace poco útiles para el análisis. Se utiliza la función *drop()* de pandas, especificando las columnas a eliminar en una lista. Luego, se ejecuta *df.info()* para verificar la nueva estructura del dataset y confirmar que las columnas han sido eliminadas correctamente. Esta limpieza ayuda a reducir la dimensionalidad del dataset y a enfocarse en las variables más relevantes.

In [6]:
df = df.drop(['warranty', 'seller_contact', 'parent_item_id', 'official_store_id', 'differential_pricing', 'original_price', 'video_id',
              'catalog_product_id', 'subtitle'], axis=1)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 39 columns):
 #   Column                            Non-Null Count   Dtype              
---  ------                            --------------   -----              
 0   seller_address                    100000 non-null  object             
 1   sub_status                        100000 non-null  object             
 2   condition                         100000 non-null  object             
 3   deal_ids                          100000 non-null  object             
 4   base_price                        100000 non-null  float64            
 5   shipping                          100000 non-null  object             
 6   non_mercado_pago_payment_methods  100000 non-null  object             
 7   seller_id                         100000 non-null  int64              
 8   variations                        100000 non-null  object             
 9   location                          100000 non-null

Esta celda elimina columnas que contienen **IDs**, ya que estos valores suelen ser identificadores únicos que no aportan información relevante para el modelo de machine learning. Se aplica *drop()* y luego *df.info()* para verificar los cambios en la estructura del dataset.

In [7]:
df = df.drop(['deal_ids', 'seller_id', 'site_id', 'category_id', 'id', 'currency_id'], axis=1)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 33 columns):
 #   Column                            Non-Null Count   Dtype              
---  ------                            --------------   -----              
 0   seller_address                    100000 non-null  object             
 1   sub_status                        100000 non-null  object             
 2   condition                         100000 non-null  object             
 3   base_price                        100000 non-null  float64            
 4   shipping                          100000 non-null  object             
 5   non_mercado_pago_payment_methods  100000 non-null  object             
 6   variations                        100000 non-null  object             
 7   location                          100000 non-null  object             
 8   listing_type_id                   100000 non-null  object             
 9   price                             100000 non-null

Esta celda cuenta la frecuencia de los valores en la columna “available_quantity” (como un ejemplo) utilizando *value_counts()*. Esto permite analizar la distribución de los datos y detectar patrones, como la presencia de valores repetidos o columnas con poca variabilidad. Este análisis se puede repetir con **diferentes columnas** para identificar aquellas que contienen información poco útil o redundante, facilitando la selección de las variables más relevantes para el modelo.

In [8]:
## Este paso se repite con todas las columnas
conteo_valores = df["available_quantity"].value_counts()  
print(conteo_valores)

available_quantity
1      70793
2       5270
10      4339
3       3525
5       2292
       ...  
734        1
318        1
168        1
816        1
945        1
Name: count, Length: 468, dtype: int64


En este código, se eliminan múltiples columnas tras analizar su contenido. Las razones para descartarlas incluyen:

* **Datos irrelevantes o redundantes:** Columnas como "seller_address", "location", "geolocation", "permalink", "secure_thumbnail", "descriptions" y "thumbnail", entre otras, contienen información que no influye en la predicción del estado del producto.
* **Estructuras complejas o difícilmente aprovechables:** Por ejemplo, columnas como "pictures" almacenan datos en formatos anidados o listas, lo que complica su procesamiento sin aportar información relevante en este caso.
* **Poca variabilidad o valores repetitivos:** Columnas como "sub_status", "international_delivery_mode", "listing_source", "attributes", "tags", "coverage_areas" y "variations" pueden tener valores muy similares en la mayoría de los casos, por lo que no contribuyen significativamente al modelo.

Después de esta limpieza, *df.info()* se usa nuevamente para verificar la nueva estructura del dataset y asegurarse de que solo queden las columnas más útiles.

In [9]:
df = df.drop(['seller_address', 'sub_status', 'base_price', 'non_mercado_pago_payment_methods', 'variations', 'location', 'attributes', 'tags', 
              'listing_source', 'coverage_areas', 'descriptions', 'international_delivery_mode', 'pictures', 'thumbnail', 'title', 'secure_thumbnail', 
              'stop_time', 'initial_quantity', 'start_time', 'permalink', 'geolocation', 'sold_quantity', 'available_quantity'], axis=1)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 10 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   condition            100000 non-null  object 
 1   shipping             100000 non-null  object 
 2   listing_type_id      100000 non-null  object 
 3   price                100000 non-null  float64
 4   buying_mode          100000 non-null  object 
 5   last_updated         100000 non-null  object 
 6   accepts_mercadopago  100000 non-null  bool   
 7   automatic_relist     100000 non-null  bool   
 8   date_created         100000 non-null  object 
 9   status               100000 non-null  object 
dtypes: bool(2), float64(1), object(7)
memory usage: 6.3+ MB


### **Aplicar transformaciones**

Esta celda analiza la distribución de valores en la columna “shipping” utilizando *value_counts()*. Esto permite identificar patrones en los datos y entender cómo están estructurados antes de transformarlos. Este mismo procedimiento se aplica a otras dos columnas que también requieren procesamiento antes de ser utilizadas en el modelo. El objetivo es extraer información relevante de estas columnas y generar nuevas variables más útiles para el análisis y la predicción.

In [10]:
shipping_values = df["shipping"].value_counts()
print(shipping_values)

shipping
{'local_pick_up': True, 'methods': [], 'tags': [], 'free_shipping': False, 'mode': 'me2', 'dimensions': None}                                                                                                                                       41518
{'local_pick_up': True, 'methods': [], 'tags': [], 'free_shipping': False, 'mode': 'not_specified', 'dimensions': None}                                                                                                                             32809
{'local_pick_up': False, 'methods': [], 'tags': [], 'free_shipping': False, 'mode': 'not_specified', 'dimensions': None}                                                                                                                            12338
{'local_pick_up': False, 'methods': [], 'tags': [], 'free_shipping': False, 'mode': 'me2', 'dimensions': None}                                                                                                                                   

In [11]:
updated_values = df["last_updated"].value_counts()
print(updated_values)

last_updated
2015-09-18T13:21:40.000Z    7
2015-09-18T13:20:41.000Z    6
2015-09-30T12:20:39.000Z    6
2015-09-18T13:21:30.000Z    6
2015-09-18T13:21:35.000Z    6
                           ..
2015-10-14T08:01:32.000Z    1
2015-10-10T12:57:01.000Z    1
2015-09-19T00:53:06.000Z    1
2015-09-05T16:39:02.000Z    1
2015-09-21T13:02:18.000Z    1
Name: count, Length: 95124, dtype: int64


In [12]:
created_values = df["date_created"].value_counts()
print(created_values)

date_created
2015-09-03T20:22:05.000Z    7
2015-09-28T14:10:39.000Z    7
2015-08-31T15:10:05.000Z    7
2015-09-15T12:02:24.000Z    7
2015-09-17T18:26:59.000Z    7
                           ..
2015-09-02T17:25:18.000Z    1
2015-09-04T17:27:45.000Z    1
2015-09-12T16:04:57.000Z    1
2015-09-08T14:41:06.000Z    1
2015-09-21T13:02:16.000Z    1
Name: count, Length: 87075, dtype: int64


En esta celda, se extraen tres nuevas columnas a partir de la información contenida en la columna “shipping”, que originalmente almacena datos en formato diccionario. Se utiliza *apply()* junto con una función *lambda* para acceder a valores específicos dentro de este diccionario:
* **“shipping_local_pick_up”:** Indica si el producto permite retiro en tienda (*local_pick_up*).
* **“shipping_free_shipping”:** Indica si el envío es gratuito (*free_shipping*).
* **“shipping_mode”:** Contiene el modo de envío (*mode*), que puede ser, por ejemplo, estándar o express.

Después de extraer esta información, la columna original “shipping” se elimina con *drop()*, ya que su estructura no es directamente utilizable para el modelo y sus valores clave ya fueron transformados en variables separadas. Esto mejora la interpretabilidad y facilita el uso de estos datos en el entrenamiento del modelo.

In [13]:
df["shipping_local_pick_up"] = df["shipping"].apply(lambda x: x.get("local_pick_up") if isinstance(x, dict) else None)
df["shipping_free_shipping"] = df["shipping"].apply(lambda x: x.get("free_shipping") if isinstance(x, dict) else None)
df["shipping_mode"] = df["shipping"].apply(lambda x: x.get("mode") if isinstance(x, dict) else None)

df = df.drop(columns=["shipping"])
df

Unnamed: 0,condition,listing_type_id,price,buying_mode,last_updated,accepts_mercadopago,automatic_relist,date_created,status,shipping_local_pick_up,shipping_free_shipping,shipping_mode
0,new,bronze,80.0,buy_it_now,2015-09-05T20:42:58.000Z,True,False,2015-09-05T20:42:53.000Z,active,True,False,not_specified
1,used,silver,2650.0,buy_it_now,2015-09-26T18:08:34.000Z,True,False,2015-09-26T18:08:30.000Z,active,True,False,me2
2,used,bronze,60.0,buy_it_now,2015-09-09T23:57:10.000Z,True,False,2015-09-09T23:57:07.000Z,active,True,False,me2
3,new,silver,580.0,buy_it_now,2015-10-05T16:03:50.306Z,True,False,2015-09-28T18:47:56.000Z,active,True,False,me2
4,used,bronze,30.0,buy_it_now,2015-08-28T13:37:41.000Z,True,False,2015-08-24T22:07:20.000Z,active,True,False,not_specified
...,...,...,...,...,...,...,...,...,...,...,...,...
99995,used,free,30.0,buy_it_now,2015-09-28T01:05:00.000Z,True,False,2015-09-28T01:04:49.000Z,active,True,False,me2
99996,new,bronze,239.0,buy_it_now,2015-09-11T18:09:04.000Z,True,False,2015-09-11T18:09:02.000Z,active,False,False,not_specified
99997,used,bronze,600.0,buy_it_now,2015-09-06T22:29:45.000Z,True,False,2015-09-06T22:29:30.000Z,active,False,False,me2
99998,used,bronze,50.0,buy_it_now,2015-08-18T17:23:33.000Z,True,False,2015-08-18T17:22:28.000Z,active,True,False,me2


En esta celda, la columna “last_updated” se convierte en un objeto de tipo *datetime* utilizando *pd.to_datetime()*, lo que permite extraer información temporal relevante. Luego, se generan cuatro nuevas columnas:
* **“month_updated”:** Nombre del mes en que se realizó la última actualización (January, February, etc.).
* **“day_name_updated”:** Día de la semana en que se actualizó el producto (Monday, Tuesday, etc.).
* **“hour_updated”:** Hora exacta de la actualización (valores entre 0 y 23).
* **“min_updated”:** Minuto exacto de la actualización.

Finalmente, la columna original “last_updated” se elimina, ya que su información se desglosó en variables separadas, lo que facilita su uso en el modelo. Estas transformaciones permiten analizar patrones temporales y evaluar si ciertos períodos influyen en la condición del producto.

In [14]:
df["last_updated"] = pd.to_datetime(df["last_updated"])

df["month_updated"] = df["last_updated"].dt.strftime("%B")  
df["day_name_updated"] = df["last_updated"].dt.strftime("%A")  
df["hour_updated"] = df["last_updated"].dt.hour
df["min_updated"] = df["last_updated"].dt.minute

df = df.drop(columns=["last_updated"])
df

Unnamed: 0,condition,listing_type_id,price,buying_mode,accepts_mercadopago,automatic_relist,date_created,status,shipping_local_pick_up,shipping_free_shipping,shipping_mode,month_updated,day_name_updated,hour_updated,min_updated
0,new,bronze,80.0,buy_it_now,True,False,2015-09-05T20:42:53.000Z,active,True,False,not_specified,September,Saturday,20,42
1,used,silver,2650.0,buy_it_now,True,False,2015-09-26T18:08:30.000Z,active,True,False,me2,September,Saturday,18,8
2,used,bronze,60.0,buy_it_now,True,False,2015-09-09T23:57:07.000Z,active,True,False,me2,September,Wednesday,23,57
3,new,silver,580.0,buy_it_now,True,False,2015-09-28T18:47:56.000Z,active,True,False,me2,October,Monday,16,3
4,used,bronze,30.0,buy_it_now,True,False,2015-08-24T22:07:20.000Z,active,True,False,not_specified,August,Friday,13,37
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,used,free,30.0,buy_it_now,True,False,2015-09-28T01:04:49.000Z,active,True,False,me2,September,Monday,1,5
99996,new,bronze,239.0,buy_it_now,True,False,2015-09-11T18:09:02.000Z,active,False,False,not_specified,September,Friday,18,9
99997,used,bronze,600.0,buy_it_now,True,False,2015-09-06T22:29:30.000Z,active,False,False,me2,September,Sunday,22,29
99998,used,bronze,50.0,buy_it_now,True,False,2015-08-18T17:22:28.000Z,active,True,False,me2,August,Tuesday,17,23


Esta celda también transforma la columna “date_created” en un formato *datetime*. A partir de esta conversión, se crean cinco nuevas columnas:
* **“year_created”:** Año en que se creó el producto.
* **“month_created”**: Nombre del mes en que fue creado (January, February, etc.).
* **“day_name_created”:** Día de la semana en que se creó (Monday, Tuesday, etc.).
* **“hour_created”:** Hora exacta del registro (valores entre 0 y 23).
* **“min_created”:** Minuto exacto de la creación.

Luego, la columna original “date_created” se elimina, ya que su información ha sido desglosada en variables separadas. Estas transformaciones ayudan a identificar patrones temporales en la creación de productos y su posible relación con la condición del producto (nuevo o usado).

In [15]:
df["date_created"] = pd.to_datetime(df["date_created"])

df["year_created"] = df["date_created"].dt.year
df["month_created"] = df["date_created"].dt.strftime("%B")
df["day_name_created"] = df["date_created"].dt.strftime("%A")
df["hour_created"] = df["date_created"].dt.hour
df["min_created"] = df["date_created"].dt.minute

df = df.drop(columns=["date_created"])
df

Unnamed: 0,condition,listing_type_id,price,buying_mode,accepts_mercadopago,automatic_relist,status,shipping_local_pick_up,shipping_free_shipping,shipping_mode,month_updated,day_name_updated,hour_updated,min_updated,year_created,month_created,day_name_created,hour_created,min_created
0,new,bronze,80.0,buy_it_now,True,False,active,True,False,not_specified,September,Saturday,20,42,2015,September,Saturday,20,42
1,used,silver,2650.0,buy_it_now,True,False,active,True,False,me2,September,Saturday,18,8,2015,September,Saturday,18,8
2,used,bronze,60.0,buy_it_now,True,False,active,True,False,me2,September,Wednesday,23,57,2015,September,Wednesday,23,57
3,new,silver,580.0,buy_it_now,True,False,active,True,False,me2,October,Monday,16,3,2015,September,Monday,18,47
4,used,bronze,30.0,buy_it_now,True,False,active,True,False,not_specified,August,Friday,13,37,2015,August,Monday,22,7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,used,free,30.0,buy_it_now,True,False,active,True,False,me2,September,Monday,1,5,2015,September,Monday,1,4
99996,new,bronze,239.0,buy_it_now,True,False,active,False,False,not_specified,September,Friday,18,9,2015,September,Friday,18,9
99997,used,bronze,600.0,buy_it_now,True,False,active,False,False,me2,September,Sunday,22,29,2015,September,Sunday,22,29
99998,used,bronze,50.0,buy_it_now,True,False,active,True,False,me2,August,Tuesday,17,23,2015,August,Tuesday,17,22


Esta celda muestra un resumen actualizado del dataset después de las transformaciones realizadas.

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 19 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   condition               100000 non-null  object 
 1   listing_type_id         100000 non-null  object 
 2   price                   100000 non-null  float64
 3   buying_mode             100000 non-null  object 
 4   accepts_mercadopago     100000 non-null  bool   
 5   automatic_relist        100000 non-null  bool   
 6   status                  100000 non-null  object 
 7   shipping_local_pick_up  100000 non-null  bool   
 8   shipping_free_shipping  100000 non-null  bool   
 9   shipping_mode           100000 non-null  object 
 10  month_updated           100000 non-null  object 
 11  day_name_updated        100000 non-null  object 
 12  hour_updated            100000 non-null  int32  
 13  min_updated             100000 non-null  int32  
 14  year_created         

### **Eliminar filas duplicadas**

Esta celda verifica la presencia de filas duplicadas en el dataset utilizando la función *duplicated()* de pandas. Luego, el resultado se imprime en un mensaje con el número total de filas duplicadas. Este análisis es importante porque los datos repetidos pueden afectar el rendimiento del modelo de machine learning, introduciendo sesgos o redundancias innecesarias.

In [17]:
duplicate_rows = df.duplicated().sum()
print(f"Number of duplicate rows: {duplicate_rows}")

Number of duplicate rows: 2409


Esta celda elimina las filas duplicadas del dataset utilizando *drop_duplicates()*, asegurando que cada registro sea único. Luego, *df.count()* se usa para contar el número de valores no nulos en cada columna, lo que permite verificar cuántos registros quedaron después de la eliminación de duplicados.

In [18]:
df = df.drop_duplicates()
df.count()

condition                 97591
listing_type_id           97591
price                     97591
buying_mode               97591
accepts_mercadopago       97591
automatic_relist          97591
status                    97591
shipping_local_pick_up    97591
shipping_free_shipping    97591
shipping_mode             97591
month_updated             97591
day_name_updated          97591
hour_updated              97591
min_updated               97591
year_created              97591
month_created             97591
day_name_created          97591
hour_created              97591
min_created               97591
dtype: int64

### **Exportar dataset final**

Esta celda guarda el dataset limpio en un archivo CSV llamado *“clean_data.csv”*. Se utiliza *to_csv()* con el parámetro *index=False* para evitar que pandas agregue una columna de índice en el archivo de salida. Este archivo será el dataset final, listo para ser utilizado en el entrenamiento del modelo de machine learning. 

In [19]:
df.to_csv("clean_data.csv", index=False)