# PROYECTO FINAL


##ANALISIS DE ARCHIVOS CSV
- Para determinar el tratamiento que debemos dar a cada archivo realizamos un analisis general de cada uno:


1.   Archivo ecommerce_products_dataset:
  *   ("products") información sobre los productos disponibles.
  *   Los encabezados de las columnas sugieren que incluye detalles como el nombre del producto, la categoría, la longitud y la descripción del producto, entre otros.
  *   Este archivo se utilizará para identificar la categoría de productos más vendida.

2.   Archivo ecommerce_orders_dataset:
  *   ("orders") información sobre los pedidos realizados.
  *   Los encabezados de las columnas incluyen detalles como el ID del pedido, el ID del cliente, el estado del pedido y fechas relacionadas con el proceso de pedido.
  *   Este archivo se utilizará para calcular el número total de pedidos realizados y para analizar el comportamiento de compra de los clientes.

3. Archivo ecommerce_order_payments_dataset:
  *   ("order_payments") información sobre los pagos
  *   Los encabezados de las columnas incluyen detalles como el método de pago, el valor del pago y el número de cuotas.
  *   Este archivo se utilizará para calcular el promedio de valor de pago por pedido.

4. Archivo ecommerce_customers_dataset:
  *   ("customers") sugiere que contiene información sobre los clientes.
  *   Los encabezados de las columnas incluyen detalles como el ID del cliente, el código postal, la ciudad y el estado del cliente.
  *   Este archivo se utilizará para contar el número total de clientes únicos.

5. Archivo ecommerce_order_items_dataset:
*   ("order_items") información sobre los productos incluidos en cada pedido.
*   Los encabezados de las columnas incluyen detalles como el ID del pedido, el ID del producto, el precio y el valor del envío.
*   Este archivo se utilizará para calcular métricas relacionadas con las ventas y los productos.

Al considerar estos factores, podemos determinar qué operaciones realizar en cada archivo para cumplir con los requisitos del trabajo.

##TRATAMIENTO DE ARCHIVOS CSV


Importacion de la libreria

In [8]:
!pip install pandas==2.2.2



In [9]:
import pandas as pd
import os

Defino una funcion para la limpieza de los archivos

In [27]:
def limpiar_analizar_datos(df):
    """
    Esta función carga un DataFrame, realiza tareas de limpieza y análisis, y devuelve el DataFrame limpio.

    Parámetros:
        df (DataFrame): El DataFrame que se va a limpiar y analizar.

    Retorna:
        DataFrame: El DataFrame limpio.
    """
    # Tamaño del DataFrame
    print("Tamaño del DataFrame:")
    print(df.shape)
    print("----------------------------------------")

    # Análisis de Tipos de Datos
    print("Análisis de Tipos de Datos:")
    print(df.info())
    print("----------------------------------------")

    # Recuento de Valores Nulos
    print("Recuento de Valores Nulos:")
    print(df.isnull().sum())
    print("----------------------------------------")

    # Recuento de Valores Duplicados
    print("Recuento de Valores Duplicados:")
    print(df.duplicated().sum())
    print("----------------------------------------")

    # Análisis de Estadísticas Descriptivas (para columnas numéricas)
    print("Estadísticas Descriptivas:")
    print(df.describe())
    print("----------------------------------------")

    return df

### ORDERS



In [49]:
#Importar dataset como Dataframe y visualizar los 5 primeros datos del dataset
df_orders = pd.read_csv("https://raw.githubusercontent.com/lucreciam/TrabajoFinalCursoAnalisisDeDatos/main/ecommerce_orders_dataset.csv")
df_orders.head()


Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00


In [50]:
# Llamar a la función para limpiar y analizar los datos
df_orders = limpiar_analizar_datos(df_orders)

Tamaño del DataFrame:
(99441, 8)
----------------------------------------
Análisis de Tipos de Datos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   order_id                       99441 non-null  object
 1   customer_id                    99441 non-null  object
 2   order_status                   99441 non-null  object
 3   order_purchase_timestamp       99441 non-null  object
 4   order_approved_at              99281 non-null  object
 5   order_delivered_carrier_date   97658 non-null  object
 6   order_delivered_customer_date  96476 non-null  object
 7   order_estimated_delivery_date  99441 non-null  object
dtypes: object(8)
memory usage: 6.1+ MB
None
----------------------------------------
Recuento de Valores Nulos:
order_id                            0
customer_id                         0
order_statu

### CUSTOMERS


In [51]:
#Importar dataset como Dataframe y visualizar los 5 primeros datos del dataset
df_customers = pd.read_csv("https://raw.githubusercontent.com/lucreciam/TrabajoFinalCursoAnalisisDeDatos/main/ecommerce_customers_dataset.csv")
df_customers.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


In [52]:
# Llamar a la función para limpiar y analizar los datos
df_customers = limpiar_analizar_datos(df_customers)

Tamaño del DataFrame:
(99441, 5)
----------------------------------------
Análisis de Tipos de Datos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 5 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   customer_id               99441 non-null  object
 1   customer_unique_id        99441 non-null  object
 2   customer_zip_code_prefix  99441 non-null  int64 
 3   customer_city             99441 non-null  object
 4   customer_state            99441 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.8+ MB
None
----------------------------------------
Recuento de Valores Nulos:
customer_id                 0
customer_unique_id          0
customer_zip_code_prefix    0
customer_city               0
customer_state              0
dtype: int64
----------------------------------------
Recuento de Valores Duplicados:
0
----------------------------------------
Estadístic

### PAYMENTS

In [53]:
#Importar dataset como Dataframe y visualizar los 5 primeros datos del dataset
df_payments = pd.read_csv("https://raw.githubusercontent.com/lucreciam/TrabajoFinalCursoAnalisisDeDatos/main/ecommerce_order_payments_dataset.csv")
df_payments.head()

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39
2,25e8ea4e93396b6fa0d3dd708e76c1bd,1,credit_card,1,65.71
3,ba78997921bbcdc1373bb41e913ab953,1,credit_card,8,107.78
4,42fdf880ba16b47b59251dd489d4441a,1,credit_card,2,128.45


In [54]:
# Llamar a la función para limpiar y analizar los datos
df_payments = limpiar_analizar_datos(df_payments)

Tamaño del DataFrame:
(103886, 5)
----------------------------------------
Análisis de Tipos de Datos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103886 entries, 0 to 103885
Data columns (total 5 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   order_id              103886 non-null  object 
 1   payment_sequential    103886 non-null  int64  
 2   payment_type          103886 non-null  object 
 3   payment_installments  103886 non-null  int64  
 4   payment_value         103886 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ MB
None
----------------------------------------
Recuento de Valores Nulos:
order_id                0
payment_sequential      0
payment_type            0
payment_installments    0
payment_value           0
dtype: int64
----------------------------------------
Recuento de Valores Duplicados:
0
----------------------------------------
Estadísticas Descriptivas:
  

### PRODUCTS

In [55]:
#Importar dataset como Dataframe y visualizar los 5 primeros datos del dataset
df_products = pd.read_csv("https://raw.githubusercontent.com/lucreciam/TrabajoFinalCursoAnalisisDeDatos/main/ecommerce_products_dataset.csv")
df_products.head()

Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,46.0,250.0,1.0,154.0,18.0,9.0,15.0
3,cef67bcfe19066a932b7673e239eb23d,bebes,27.0,261.0,1.0,371.0,26.0,4.0,26.0
4,9dc1a7de274444849c219cff195d0b71,utilidades_domesticas,37.0,402.0,4.0,625.0,20.0,17.0,13.0


In [56]:
# Llamar a la función para limpiar y analizar los datos
df_products = limpiar_analizar_datos(df_products)

Tamaño del DataFrame:
(32951, 9)
----------------------------------------
Análisis de Tipos de Datos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32951 entries, 0 to 32950
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   product_id                  32951 non-null  object 
 1   product_category_name       32341 non-null  object 
 2   product_name_lenght         32341 non-null  float64
 3   product_description_lenght  32341 non-null  float64
 4   product_photos_qty          32341 non-null  float64
 5   product_weight_g            32949 non-null  float64
 6   product_length_cm           32949 non-null  float64
 7   product_height_cm           32949 non-null  float64
 8   product_width_cm            32949 non-null  float64
dtypes: float64(7), object(2)
memory usage: 2.3+ MB
None
----------------------------------------
Recuento de Valores Nulos:
product_id                      0
prod

### ORDERS ITEMS

In [57]:
#Importar dataset como Dataframe y visualizar los 5 primeros datos del dataset
df_order_items = pd.read_csv("https://raw.githubusercontent.com/lucreciam/TrabajoFinalCursoAnalisisDeDatos/main/ecommerce_order_items_dataset.csv")
df_order_items.head()

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


In [58]:
# Llamar a la función para limpiar y analizar los datos
df_order_items = limpiar_analizar_datos(df_order_items)

Tamaño del DataFrame:
(112650, 7)
----------------------------------------
Análisis de Tipos de Datos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   order_id             112650 non-null  object 
 1   order_item_id        112650 non-null  int64  
 2   product_id           112650 non-null  object 
 3   seller_id            112650 non-null  object 
 4   shipping_limit_date  112650 non-null  object 
 5   price                112650 non-null  float64
 6   freight_value        112650 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 6.0+ MB
None
----------------------------------------
Recuento de Valores Nulos:
order_id               0
order_item_id          0
product_id             0
seller_id              0
shipping_limit_date    0
price                  0
freight_value          0
dtype: int64
-----


# TRANSFORMACION DE DATAFRAMES

## FUNCIONES


In [44]:
# Función para transformar fechas
def transformarFechas(df, columnas_fechas):
    df[columnas_fechas] = df[columnas_fechas].apply(pd.to_datetime)
    return df

In [45]:
# Función para transformar columnas a tipo string
def transformarString(df, columnas_string):
    for columna in columnas_string:
        df[columna] = df[columna].astype("string")
    return df

In [46]:
# Función para convertir a mayúsculas
def convertirMayusculas(df, columna):
    df[columna] = df[columna].str.upper()
    return df

In [47]:
# Función para convertir a minúsculas
def convertirMinusculas(df, columna):
    df[columna] = df[columna].str.lower()
    return df

## ORDERS

In [59]:
# Porcentaje de nulos en cada columna
null_percentages_orders = (df_orders.isnull().sum() / len(df_orders)) * 100

# Filtramos las columnas con menos del 10% de valores nulos
columns_to_keep_orders = null_percentages_orders[null_percentages_orders <= 10].index

# Eliminamos las filas con nulos solo en las columnas seleccionadas
df_orders = df_orders.dropna(subset=columns_to_keep_orders).copy()

# Lista de columnas que contienen fechas
columnas_fechas_orders = ['order_purchase_timestamp', 'order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date', 'order_estimated_delivery_date']

# Aplicamos nuestra funcion conversora de fechas
df_orders = transformarFechas(df_orders, columnas_fechas_orders)

# Lista de columnas a transformar en string
columnas_string_orders = ["order_id","customer_id","order_status"]

# Aplicamos nuestra funcion conversora de string
df_orders = transformarString(df_orders, columnas_string_orders)

# Revisamos que los tipos de datos sean correctos
df_orders.info()

# Aplicamos la conversion a minúsculas
df_orders = convertirMinusculas(df_orders, "order_status")



<class 'pandas.core.frame.DataFrame'>
Index: 96461 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   order_id                       96461 non-null  string        
 1   customer_id                    96461 non-null  string        
 2   order_status                   96461 non-null  string        
 3   order_purchase_timestamp       96461 non-null  datetime64[ns]
 4   order_approved_at              96461 non-null  datetime64[ns]
 5   order_delivered_carrier_date   96461 non-null  datetime64[ns]
 6   order_delivered_customer_date  96461 non-null  datetime64[ns]
 7   order_estimated_delivery_date  96461 non-null  datetime64[ns]
dtypes: datetime64[ns](5), string(3)
memory usage: 6.6 MB


## PRODUCTS

In [62]:
# Porcentaje de nulos en cada columna
null_percentages_products = (df_products.isnull().sum() / len(df_products)) * 100

print("Porcentaje de nulos en cada columna:")
print(null_percentages_products)

# Filtramos las columnas con menos del 10% de valores nulos
columns_to_keep_products = null_percentages_products[null_percentages_products <= 10].index

print("Columnas seleccionadas:")
print(columns_to_keep_products)

# Eliminamos las filas con nulos solo en las columnas seleccionadas
df_products.dropna(subset=columns_to_keep_products, inplace=True)

# Chequeo cantidad de null
print("Recuento de valores nulos después de la eliminación:")
print(df_products.isnull().sum())

# Lista de columnas a transformar en string
columnas_string_products = ["product_id", "product_category_name"]

# Aplicamos nuestra función conversora de string
df_products = transformarString(df_products, columnas_string_products)

# Revisamos que los tipos de datos sean correctos
print("Información del DataFrame después de la conversión:")
print(df_products.info())

# Aplicamos la conversión a minúsculas
df_products = convertirMinusculas(df_products, "product_category_name")



Porcentaje de nulos en cada columna:
product_id                    0.0
product_category_name         0.0
product_name_lenght           0.0
product_description_lenght    0.0
product_photos_qty            0.0
product_weight_g              0.0
product_length_cm             0.0
product_height_cm             0.0
product_width_cm              0.0
dtype: float64
Columnas seleccionadas:
Index(['product_id', 'product_category_name', 'product_name_lenght',
       'product_description_lenght', 'product_photos_qty', 'product_weight_g',
       'product_length_cm', 'product_height_cm', 'product_width_cm'],
      dtype='object')
Recuento de valores nulos después de la eliminación:
product_id                    0
product_category_name         0
product_name_lenght           0
product_description_lenght    0
product_photos_qty            0
product_weight_g              0
product_length_cm             0
product_height_cm             0
product_width_cm              0
dtype: int64
Información del DataFram

## CUSTOMERS

In [63]:
# Lista de columnas a transformar en string
columnas_string_customers = ["customer_id", "customer_unique_id", "customer_zip_code_prefix", "customer_city", "customer_state"]

# Aplicamos nuestra función conversora de string
df_customers = transformarString(df_customers, columnas_string_customers)

# Revisamos que los tipos de datos sean correctos
print("Información del DataFrame después de la conversión:")
print(df_customers.info())

# Aplicamos la conversión a minúsculas
df_customers = convertirMinusculas(df_customers, "customer_city")

# Aplicamos la conversión a mayúsculas
df_customers = convertirMayusculas(df_customers, "customer_state")


Información del DataFrame después de la conversión:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 5 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   customer_id               99441 non-null  string
 1   customer_unique_id        99441 non-null  string
 2   customer_zip_code_prefix  99441 non-null  string
 3   customer_city             99441 non-null  string
 4   customer_state            99441 non-null  string
dtypes: string(5)
memory usage: 3.8 MB
None


## PAYMENTS

In [64]:
# Lista de columnas a transformar en string
columnas_string_order_payments = ["order_id", "payment_type"]

# Aplicamos nuestra función conversora de string
df_order_payments = transformarString(df_order_payments, columnas_string_order_payments)

# Aplicamos la conversión a minúsculas
df_order_payments = convertirMinusculas(df_order_payments, "payment_type")


## ORDER ITEMS

In [60]:
# Lista de columnas que contienen fechas
columnas_fechas_order_items = ['shipping_limit_date']

# Aplicamos nuestra función conversora de fechas
df_order_items = transformarFechas(df_order_items, columnas_fechas_order_items)

# Lista de columnas a transformar en string
columnas_string_order_items = ["order_id", "order_item_id", "product_id", "seller_id", "shipping_limit_date"]

# Aplicamos nuestra función conversora de string
df_order_items = transformarString(df_order_items, columnas_string_order_items)


# ANALISIS

Siguiendo con el analisis que hice al comienzo, se decide realizar esta funcion para proporcionar de manera rapida y sencilla informacion basica sobre los dataframes que se estuvieron trabajando.

*   Selección de columnas numéricas y cualitativas: identifica las columnas numéricas y cualitativas en el DataFrame utilizando los métodos select_dtypes de Pandas. Esto permite un análisis separado de variables cuantitativas (como números enteros y flotantes) y cualitativas (como cadenas de texto).
*   Análisis de variables cuantitativas: Si el DataFrame contiene columnas numéricas, la función imprime un resumen estadístico básico de esas columnas utilizando el método describe de Pandas. Esto proporciona información útil como el recuento de valores no nulos, la media, la desviación estándar, el valor mínimo, los percentiles y el valor máximo de cada columna numérica.
*   Análisis de variables cualitativas: Si el DataFrame contiene columnas de tipo string u objeto, la función también imprime un resumen de esas columnas utilizando describe. Esto proporciona recuentos de valores únicos, el valor más frecuente (mode) y la frecuencia de ese valor, lo que puede ser útil para comprender la distribución de los datos cualitativos.
*   Manejo de DataFrames vacíos: La función incluye una verificación para asegurarse de que haya columnas numéricas y/o cualitativas antes de intentar realizar los análisis correspondientes. Esto evita errores si el DataFrame no contiene ninguno de estos tipos de columnas.

In [68]:
def analisisDataFrames(df):
    print("----------")
    print("Análisis variables cuantitativas")
    columnas_numericas = df.select_dtypes(include=['int', 'float']).columns
    if not columnas_numericas.empty:
        print(df[columnas_numericas].describe())
    else:
        print("No se encontraron variables cuantitativas en este DataFrame.")

    print("----------")
    print("Análisis variables cualitativas")
    columnas_string = df.select_dtypes(include=['string']).columns
    if not columnas_string.empty:
        print(df[columnas_string].describe())
    else:
        print("No se encontraron variables cualitativas en este DataFrame.")


### ORDERS

In [69]:
#Aplicamos la función
analisisDataFrames(df_orders)

----------
Análisis variables cuantitativas
No se encontraron variables cuantitativas en este DataFrame.
----------
Análisis variables cualitativas
                                order_id                       customer_id  \
count                              96461                             96461   
unique                             96461                             96461   
top     e481f51cbdc54678b7cc49136f2d6af7  9ef432eb6251297304e76186b10a928d   
freq                                   1                                 1   

       order_status  
count         96461  
unique            2  
top       delivered  
freq          96455  


#### Análisis de variables cualitativas:

*   order_id: Hay un total de 96,461 registros únicos para los IDs de pedido.
*   customer_id: También hay 96,461 registros únicos para los IDs de cliente.
*   order_status: Este campo muestra que hay dos estados principales de pedidos: "delivered" (entregado) La mayoría de los pedidos, específicamente 96,455 de ellos, se encuentran en el estado "delivered".

#### Observaciones:
La mayoría de los pedidos están en el estado "delivered", lo que sugiere que la mayoría de los pedidos han sido entregados correctamente.
Todos los IDs de pedido y de cliente son únicos, lo que indica que cada pedido y cliente tiene una identificación única en el conjunto de datos.

## PRODUCTS

In [70]:
#Aplicamos la función
analisisDataFrames(df_products)

----------
Análisis variables cuantitativas
       product_name_lenght  product_description_lenght  product_photos_qty  \
count         32340.000000                32340.000000        32340.000000   
mean             48.476592                  771.492393            2.188961   
std              10.245699                  635.124831            1.736787   
min               5.000000                    4.000000            1.000000   
25%              42.000000                  339.000000            1.000000   
50%              51.000000                  595.000000            1.000000   
75%              57.000000                  972.000000            3.000000   
max              76.000000                 3992.000000           20.000000   

       product_weight_g  product_length_cm  product_height_cm  \
count      32340.000000       32340.000000       32340.000000   
mean        2276.956586          30.854545          16.958813   
std         4279.291845          16.955965          13.636

#### Análisis de variables cuantitativas:
*   product_photos_qty: En promedio, los productos tienen alrededor de 2.19 fotos, con un mínimo de 1 y un máximo de 20.
*   product_weight_g: El peso promedio de los productos es aproximadamente 2276.96 gramos, con un mínimo de 0 y un máximo de 40425.






#### Análisis de variables cualitativas:
*   product_id: Hay un total de 32,340 registros únicos para los IDs de producto.
*   product_category_name: Hay un total de 73 categorías únicas de productos.



#### Observaciones:
*   La mayoría de las variables cuantitativas tienen un rango bastante amplio, lo que sugiere que hay una gran variabilidad en las características físicas de los productos.
*   Se podría profundizar más en el análisis de la distribución de las categorías de productos para comprender mejor la composición del inventario.



In [71]:
#Analizamos las categorias
df_products["product_category_name"].value_counts()

product_category_name
cama_mesa_banho                  3029
esporte_lazer                    2867
moveis_decoracao                 2657
beleza_saude                     2444
utilidades_domesticas            2335
                                 ... 
fashion_roupa_infanto_juvenil       5
casa_conforto_2                     5
pc_gamer                            3
seguros_e_servicos                  2
cds_dvds_musicais                   1
Name: count, Length: 73, dtype: Int64


1.   Productos para el hogar dominantes: Las categorías relacionadas con el hogar, como "cama_mesa_banho" y "utilidades_domesticas", son las más populares, lo que sugiere una alta demanda de artículos para el hogar.
2.   Efecto de las imágenes: Se observa que la mayoría de los productos tienen una sola foto en la descripción, lo que podría indicar que una sola imagen es suficiente para atraer a los compradores. 3.   Variedad de categorías: Aunque las categorías relacionadas con el hogar dominan el conjunto de datos, también se observa una amplia variedad de categorías,

## ORDERS ITEMS

In [72]:
#Aplicamos la función
analisisDataFrames(df_order_items)

----------
Análisis variables cuantitativas
               price  freight_value
count  112650.000000  112650.000000
mean      120.653739      19.990320
std       183.633928      15.806405
min         0.850000       0.000000
25%        39.900000      13.080000
50%        74.990000      16.260000
75%       134.900000      21.150000
max      6735.000000     409.680000
----------
Análisis variables cualitativas
                                order_id order_item_id  \
count                             112650        112650   
unique                             98666            21   
top     8272b63d03f5f79c56e9e4120aec44ef             1   
freq                                  21         98666   

                              product_id                         seller_id  \
count                             112650                            112650   
unique                             32951                              3095   
top     aca2eb7d00ea1a7b8ebd4e68314663af  6560211a19b47992c3666c

#### Análisis de variables cuantitativas:
*   Precio (price): El precio medio de los productos es de aproximadamente 120.65 unidades monetarias, con un rango que va desde 0.85 hasta 6735 unidades. La dispersión de los datos es alta, como lo indica la desviación estándar de 183.63.
*   Valor del flete (freight_value): El valor medio del flete es de aproximadamente 19.99 unidades monetarias, con un rango que va desde 0 hasta 409.68 unidades. La desviación estándar de 15.81 indica una dispersión moderada de los datos.






#### Análisis de variables cualitativas:
*   ID del artículo del pedido (order_item_id): La mayoría de los pedidos (aproximadamente el 87.6%) contienen un solo artículo, lo que sugiere que la mayoría de los clientes realizan compras de productos individuales.
*   Fecha límite de envío (shipping_limit_date): La fecha límite de envío más común es el 21 de julio de 2017, que aparece en 21 pedidos. Esto sugiere que podría haber habido algún evento promocional o campaña de marketing durante ese período que generó un aumento en las ventas.



#### Observaciones
*   La mayoría de los pedidos (87.6%) consisten en un solo artículo. Esto sugiere que la mayoría de los clientes realizan compras individuales en lugar de pedidos múltiples.





## CUSTOMERS


In [73]:
#Aplicamos la función
analisisDataFrames(df_customers)

----------
Análisis variables cuantitativas
No se encontraron variables cuantitativas en este DataFrame.
----------
Análisis variables cualitativas
                             customer_id                customer_unique_id  \
count                              99441                             99441   
unique                             99441                             96096   
top     06b8999e2fba1a1fbc88172c00ba8bc7  8d50f5eadf50201ccdcedfb9e2ac8455   
freq                                   1                                17   

       customer_zip_code_prefix customer_city customer_state  
count                     99441         99441          99441  
unique                    14994          4119             27  
top                       22790     sao paulo             SP  
freq                        142         15540          41746  


#### Análisis de variables cualitativas:
*   customer_zip_code_prefix: Hay 14,994 códigos postales únicos en el conjunto de datos, lo que sugiere una variedad de ubicaciones geográficas para los clientes.
*   customer_city: Se registran 4,119 ciudades únicas en el conjunto de datos, lo que indica la diversidad de áreas urbanas y rurales donde residen los clientes.



In [74]:
#Realizamos un analisis por regiones de los compradores
df_customers["customer_state"].value_counts()

customer_state
SP    41746
RJ    12852
MG    11635
RS     5466
PR     5045
SC     3637
BA     3380
DF     2140
ES     2033
GO     2020
PE     1652
CE     1336
PA      975
MT      907
MA      747
MS      715
PB      536
PI      495
RN      485
AL      413
SE      350
TO      280
RO      253
AM      148
AC       81
AP       68
RR       46
Name: count, dtype: Int64

Podemos observar que el estado de São Paulo (SP) tiene la mayor cantidad de compradores, seguido de Río de Janeiro (RJ) y Minas Gerais (MG).

## PAYMENTS

In [75]:
#Aplicamos la función
analisisDataFrames(df_order_payments)

----------
Análisis variables cuantitativas
       payment_sequential  payment_installments  payment_value
count       103886.000000         103886.000000  103886.000000
mean             1.092679              2.853349     154.100380
std              0.706584              2.687051     217.494064
min              1.000000              0.000000       0.000000
25%              1.000000              1.000000      56.790000
50%              1.000000              1.000000     100.000000
75%              1.000000              4.000000     171.837500
max             29.000000             24.000000   13664.080000
----------
Análisis variables cualitativas
                                order_id payment_type
count                             103886       103886
unique                             99440            5
top     fa65dad1b0e818e3ccc5cb0e39231352  credit_card
freq                                  29        76795


#### Analisis de variables cuantitativas:
*   payment_installments: La mayoría de los pagos se realizan en un solo pago. Sin embargo, el número máximo de cuotas es de 24, lo que sugiere que algunos clientes optan por pagar en múltiples cuotas.




#### Analisis de variables cualitativas:
*   payment_type: El método de pago más común es mediante tarjeta de crédito, seguido por boleto bancario, voucher de regalo, debit card y transferencia bancaria.




# Nuevos DATAFRAMES

Para generar los nuevos DataFrames, primero realizamos un proceso de fusión (merge) entre los conjuntos de datos originales.

In [76]:
directorio_actual = os.getcwd()

print("El directorio actual es:", directorio_actual)

El directorio actual es: /content


In [77]:
# Crear la carpeta 'dataset_generados' si no existe
if not os.path.exists('dataset_generados'):
    os.makedirs('dataset_generados')

In [78]:
# Fusionar el DataFrame de Órdenes y Pagos
df_merge_orders_payments = pd.merge(df_orders, df_order_payments, how="inner", on="order_id")

# Simplificar la información
df_merge_orders_payments.drop(['customer_id', 'order_approved_at', 'order_delivered_carrier_date',
                               'order_delivered_customer_date', 'order_estimated_delivery_date'],
                              axis=1, inplace=True)

# Exportar como CSV
df_merge_orders_payments.to_csv("dataset_generados/orders_payments.csv", index=False)


In [79]:
# Fusionar el DataFrame de Ítems de Orden y Productos
df_merge_order_items_products = pd.merge(df_order_items, df_products, how="inner", on="product_id")

# Simplificar la información
df_merge_order_items_products.drop(['product_id', 'seller_id', 'shipping_limit_date'],
                                    axis=1, inplace=True)

# Exportar como CSV
df_merge_order_items_products.to_csv("dataset_generados/order_items_products.csv", index=False)

## ANALISIS Y FUSION DE DATAFRAMES

La fusión de los DataFrames se realiza para combinar la información relevante de diferentes conjuntos de datos en un solo DataFrame, lo que facilita el análisis conjunto y la generación de informes. Por ejemplo:



*   Al fusionar el DataFrame de Órdenes con el de Pagos, obtenemos un conjunto de datos que incluye información sobre las órdenes y los pagos asociados, lo que nos permite analizar el comportamiento de compra de los clientes y los patrones de pago.
*   Al fusionar el DataFrame de Ítems de Orden con el de Productos, creamos un conjunto de datos que contiene detalles sobre los productos comprados en cada orden, lo que nos permite analizar las ventas de productos y las preferencias de los clientes.