# Preparación de datos
1. Entender los diferentes tipos de datos
2. Identificar datos duplicados o nulos
3. Realizar la interpretación del tipo de datos 

# Importación de librerias y archivos 

In [1]:
import pandas as pd
import os 
#libreria para el manejo de datos
from datetime import date

In [2]:
#Cargar los datos en csv
data=pd.read_csv("Archivo1_Datos.csv",sep=";",encoding="latin-1")
data.head()

Unnamed: 0,orden_id,order_item_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto
0,107500PO59A,A,PO59,VE5389,07/04/2018 18:12,271.86,30.72,52435,Mallama,Nariño,Productos ecoamigables,6,7,27,2486,17,11,14
1,37493PS22B,B,PS22,VE1558,20/10/2017 09:07,115.73,4.68,52203,Colon,Nariño,Carnicería,10,31,20,256,43,2,21
2,28050PK20B,B,PK20,VE9159,17/08/2017 08:15,432.99,82.7,66001,Pereira,Risaralda,Deportes,25,5,4,5270,9,27,29
3,52187PA10A,A,PA10,VE3159,23/09/2017 23:27,108.38,35.39,52435,Mallama,Nariño,Electrodomésticos,10,1,6,734,46,48,22
4,84639PR12A,A,PR12,VE5090,07/01/2018 11:50,51.5,11.1,73001,Ibague,Tolima,Frutas y verduras,23,16,35,884,45,26,18


# Tipos de datos 
Nos dan el análisis de los tipos de datos  que estamos trabajando, estos pueden ser datos numéricos o categóricos
1. Object es categórico
2. float e int son numéricos

In [3]:
#revisar los tipos de datos del dataset
data.dtypes

orden_id                          object
order_item_id                     object
producto_id                       object
vendedor_id                       object
fecha_envio_limite                object
precio                           float64
valor_flete                      float64
codigo_postal_vendedor             int64
ciudad_vendedor                   object
departamento_vendedor             object
nombre_categoria_producto         object
longitud_nombre_producto           int64
longitud_descripcion_producto      int64
cantidad_fotos_producto            int64
peso_g_producto                    int64
longitud_cm_producto               int64
altura_cm_producto                 int64
ancho_cm_producto                  int64
dtype: object

In [4]:
#En este caso el dato "codigo_postal_vendedor" es un dato categórico y se está tomando como un dato numérico
data["codigo_postal_vendedor"].describe()

count    10134.000000
mean     49991.684626
std      22463.895340
min       5001.000000
25%      50001.000000
50%      52323.000000
75%      54003.000000
max      99001.000000
Name: codigo_postal_vendedor, dtype: float64

In [5]:
#Lo mejor es convertir en un dato categórico como se muestra a continuación 
data["codigo_postal_vendedor"]=data["codigo_postal_vendedor"].astype(str)
data["codigo_postal_vendedor"].describe()

count     10134
unique       71
top       52323
freq        428
Name: codigo_postal_vendedor, dtype: object

# DATOS NULOS 
Es la información que no se registra en puede generar un posible ruido 

In [6]:
##Función para encontrar datos nulos 
#Muestra Variable por variable la cantidad de datos nulos que contienen 
data.isna().sum()

orden_id                         0
order_item_id                    0
producto_id                      0
vendedor_id                      0
fecha_envio_limite               0
precio                           0
valor_flete                      0
codigo_postal_vendedor           0
ciudad_vendedor                  0
departamento_vendedor            0
nombre_categoria_producto        0
longitud_nombre_producto         0
longitud_descripcion_producto    0
cantidad_fotos_producto          0
peso_g_producto                  0
longitud_cm_producto             0
altura_cm_producto               0
ancho_cm_producto                0
dtype: int64

In [7]:
data.shape #Conocer filas y columnas 

(10134, 18)

## Métodos para el manejo de datos faltantes
1. Eliminación
2. Regressión
3. Técnica de imputación de datos
4. Mantener los vacios 

In [8]:
#Eliminación de los datos faltantes 
data=data.dropna()
data.shape

(10134, 18)

# Identificar los datos duplicados 


In [9]:
data.duplicated().sum()

0

In [10]:
#Establecer un método para eliminar los duplicados 
data=data.drop_duplicates()
data.head(5)

Unnamed: 0,orden_id,order_item_id,producto_id,vendedor_id,fecha_envio_limite,precio,valor_flete,codigo_postal_vendedor,ciudad_vendedor,departamento_vendedor,nombre_categoria_producto,longitud_nombre_producto,longitud_descripcion_producto,cantidad_fotos_producto,peso_g_producto,longitud_cm_producto,altura_cm_producto,ancho_cm_producto
0,107500PO59A,A,PO59,VE5389,07/04/2018 18:12,271.86,30.72,52435,Mallama,Nariño,Productos ecoamigables,6,7,27,2486,17,11,14
1,37493PS22B,B,PS22,VE1558,20/10/2017 09:07,115.73,4.68,52203,Colon,Nariño,Carnicería,10,31,20,256,43,2,21
2,28050PK20B,B,PK20,VE9159,17/08/2017 08:15,432.99,82.7,66001,Pereira,Risaralda,Deportes,25,5,4,5270,9,27,29
3,52187PA10A,A,PA10,VE3159,23/09/2017 23:27,108.38,35.39,52435,Mallama,Nariño,Electrodomésticos,10,1,6,734,46,48,22
4,84639PR12A,A,PR12,VE5090,07/01/2018 11:50,51.5,11.1,73001,Ibague,Tolima,Frutas y verduras,23,16,35,884,45,26,18


In [11]:
data.duplicated().sum()

0

# Elegir el formato

In [12]:
#Calcular la fecha de envío hasta hoy 
hoy=pd.to_datetime("now")
hoy

Timestamp('2025-04-16 20:26:18.129302')

In [13]:
#Restar los dias que hay de hoy hasta la fecha de envío
data["fecha_envio_limite"]

0        07/04/2018 18:12
1        20/10/2017 09:07
2        17/08/2017 08:15
3        23/09/2017 23:27
4        07/01/2018 11:50
               ...       
10129    01/04/2018 11:38
10130    21/10/2017 17:09
10131    10/10/2017 08:37
10132    13/11/2017 03:20
10133    26/12/2017 19:34
Name: fecha_envio_limite, Length: 10134, dtype: object

In [14]:
data[["fecha_envio_limite"]].dtypes

fecha_envio_limite    object
dtype: object

In [15]:
data["fecha_envio_limite"]=pd.to_datetime(data["fecha_envio_limite"],format="%d/%m/%Y %H:%M")#Verificar el formato de la fecha
data[["fecha_envio_limite"]].dtypes

fecha_envio_limite    datetime64[ns]
dtype: object

In [16]:
hoy-data["fecha_envio_limite"]

0       2566 days 02:14:18.129302
1       2735 days 11:19:18.129302
2       2799 days 12:11:18.129302
3       2761 days 20:59:18.129302
4       2656 days 08:36:18.129302
                   ...           
10129   2572 days 08:48:18.129302
10130   2734 days 03:17:18.129302
10131   2745 days 11:49:18.129302
10132   2711 days 17:06:18.129302
10133   2668 days 00:52:18.129302
Name: fecha_envio_limite, Length: 10134, dtype: timedelta64[ns]