<a href="https://colab.research.google.com/github/Patriciol03/Reporte_tendencias_de_compras/blob/main/Proyecto_Tend_de_compras.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tendencias de compras en usuarios a traves del Ecommerce
## Introduccion al Proyecto

**Descripcion:** El proyecto busca explorar y analizar los datos de una base de clientes de un ecommerce para identificar patrones de comportamiento y tendencias en sus compras. La información del dataset incluye aspectos demográficos, preferencias de compra, calificaciones y métodos de pago, entre otros. Los resultados del análisis podrán ser utilizados para optimizar estrategias de marketing, personalización de ofertas y mejora en la experiencia de usuario.

**Objetivo:** Detectar patrones de comportamiento de compra y tendencias relevantes en los clientes para proponer estrategias que incrementen la efectividad del negocio, como segmentación de mercado, personalización de promociones y optimización de la logística.

**Hipotesis:**

1) El género y la edad influyen significativamente en las categorías de productos más comprados y los métodos de pago preferidos.

*Por ejemplo:* Las mujeres jóvenes podrían preferir ropa y accesorios específicos, mientras que los hombres mayores podrían inclinarse por compras de calzado.

2) Los clientes con suscripción tienen una mayor frecuencia de compras y generan un mayor monto promedio por transacción que los clientes no suscritos.

Por ejemplo: La fidelidad del cliente suscrito podría estar asociada a promociones exclusivas o envío gratuito.


A partir de las 2 hipotesis, se plantearan las siguientes preguntas de interes que ayudaran a explorar el dataset de una forma complementaria y generar insights más profundos.

1- ¿Cuál es la relación entre la edad de los clientes y las categorías de productos comprados?

2- ¿Qué método de envío es más utilizado por clientes según su ciudad y categoría de producto?

3- ¿Qué ciudades generan mayores ingresos para el ecommerce, y qué categorías son las más compradas en cada ciudad?

4- ¿Cuántas compras anteriores tienen en promedio los clientes que utilizan códigos promocionales frente a los que no los usan?

5 - ¿Cual fue el color mas vendido de una categoria y un talle determinado?


**Algunas de las variables mas interesantes del data set para generar insigths utiles son:**

* Edad: Permite segmentar a los clientes por grupos generacionales y analizar patrones asociados a etapas de la vida.
* Género: Útil para identificar diferencias de comportamiento en compras entre hombres y mujeres.
* Categoría (ropa, calzado, accesorios, etc.): Clave para entender las preferencias generales del cliente y qué sectores tienen mayor demanda.
* Frecuencia de compras: Ayuda a clasificar clientes en grupos como frecuentes, ocasionales o inactivos.
* Código promocional usado (sí o no): Puede revelar la efectividad de campañas promocionales.
* Suscripción (sí o no): Permite analizar cómo la suscripción afecta la lealtad, frecuencia y el monto de compra.
* Calificación (0-5): Indicador directo de satisfacción del cliente con el producto o el servicio.

## Descripcion de columnas

En total son 16 columnas con informacion relevante de las compras realizadas por diferentes clientes en la tienda online.

* **Cliente id:** Identificador unico de cada cliente.
* **Edad:** Edad del cliente.
* **Genero:** Genero del cliente, segmentado unicamente en Hombre y Mujer.
* **Articulo comprado:** Tipo de articulo de la compra, puede variar entre blusa, sueter, camisa, etc.
* **Categoría:** Segmentacion de los articulos, por ejemplo: ropa,
calzado,accesorios,etc.
* **Monto de compra en USD:** Monto expresado en numeros decimales.
* **Ciudad:** Ciudad correspondiente al cliente.
* **Tamaño:** Hace referencia al arituculo comprado, puede ser l, s, xl, etc.
* **Color:** Hace referencia al articulo comprado.
* **Calificación:** Calificacion del articulo brindada por el cliente, puede ir desde 0 a 5 (incluye decimales)
* **Suscripción:** Indica si el cliente esta suscripto al plan de clientes o no.
* **Envio:** Tipo de envio usado por el cliente, por ejemplo: Expres, estándar, gratis, etc.
* **Descuento aplicado:** Indica si hubo o no un descuento aplicado en la compra del cliente.
* **Codigo promocional usado:** Indica si el cliente utilizo o no un codigo promocional al momento de la compra.
* **Compras anteriores:** Refleja la cantidad de compras realizadas con anterioridad por el mismo cliente.
* **Método de pago:** Metodo de pago utilizado por el cliente en la compra.
* **Frecuencia de compras:** Hace referencia a la frecuencia de compra del cliente, pudiendo ser quincenal, mensual, anual,etc.

# Exploracion y manipulacion del dataset

##Carga de archivo e importacion de librerias

In [1]:
#importacion de librerias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns

In [4]:
#importacion de dataset en formato SCV.

url = 'https://raw.githubusercontent.com/Patriciol03/Reporte_tendencias_de_compras/refs/heads/main/Tendencias-de-compras.csv'
df_tend_de_compras = pd.read_csv(url, index_col=0, delimiter = ",")

## Analisis/Exploracion de calidad en los datos


1) vista previa del data set, primeros 5 registros

In [10]:
df_tend_de_compras.head()

Unnamed: 0_level_0,Edad,Genero,Articulo Comprado,Categoria,Monto de compra (USD),Ciudad,Tamaño,Color,Calificacion_cliente,Suscripcion,Envio,Descuento aplicado,Codigo promocional usado,Compas anteriores,Metodo de pago,Frecuencia de compras
Cliente_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
1,55,Hombre,Blusa,Ropa,53,Kentucky,L,Gris,3.1,Si,Expres,Si,Si,14,Venmo,Quincenal
2,19,Hombre,Suéter,Ropa,64,Maine,L,Marrón,3.1,Si,Expres,Si,Si,2,Efectivo,Quincenal
3,50,Hombre,Vaqueros,Ropa,73,Massachusetts,S,Marrón,3.1,Si,Envío Gratis,Si,Si,23,Tarjeta de crédito,Semanal
4,21,Hombre,Sandalias,Calzado,90,Rhode Island,M,Marrón,3.5,Si,Aire al día siguiente,Si,Si,49,PayPal,Semanal
5,45,Hombre,Blusa,Ropa,49,Oregón,M,Turquesa,2.7,Si,Envío Gratis,Si,Si,31,PayPal,Anualmente


2) Cantidad de registros y cantidad de columnas

In [8]:
df_tend_de_compras.shape

(3900, 16)

3) Tipos de datos en cada columna

In [11]:
# Tipos de datos de las columnas
print(df_tend_de_compras.dtypes)

Edad                          int64
Genero                       object
Articulo Comprado            object
Categoria                    object
Monto de compra (USD)         int64
Ciudad                       object
Tamaño                       object
Color                        object
Calificacion_cliente        float64
Suscripcion                  object
Envio                        object
Descuento aplicado           object
Codigo promocional usado     object
Compas anteriores             int64
Metodo de pago               object
Frecuencia de compras        object
dtype: object


4) Verificar si hay datos nulos

In [12]:
df_tend_de_compras.isnull().sum()

Unnamed: 0,0
Edad,0
Genero,0
Articulo Comprado,0
Categoria,0
Monto de compra (USD),0
Ciudad,0
Tamaño,0
Color,0
Calificacion_cliente,0
Suscripcion,0


5) Verificar si hay datos duplicados

In [13]:
df_tend_de_compras.duplicated().sum()

0

6) Analisis estadistico:

**Count** (El número de valores no nulos en la columna)

**Mean** (La media aritmética de la columna)

**Std** (La desviación estándar de la columna)

**Min** (El valor mínimo en la columna)

**25%** (El primer cuartil (percentil 25) de la columna)

**50%** (La mediana (percentil 50) de la columna)

**75%** (El tercer cuartil (percentil 75) de la columna)

**Max** (El valor máximo en la columna)

In [16]:
df_tend_de_compras.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Edad,3900.0,44.068462,15.207589,18.0,31.0,44.0,57.0,70.0
Monto de compra (USD),3900.0,59.764359,23.685392,20.0,39.0,60.0,81.0,100.0
Calificacion_cliente,3900.0,3.749949,0.716223,2.5,3.1,3.7,4.4,5.0
Compas anteriores,3900.0,25.351538,14.447125,1.0,13.0,25.0,38.0,50.0


7) Exploración detallada de las columnas no numéricas

**Contar la cantidad de valores únicos:** Identifica la diversidad de valores dentro de cada columna

**Analizar la frecuencia de cada valor:** Permite detectar valores atípicos o patrones recurrentes

*a) Articulos comprados*




In [24]:
print(f"Cantidad de articulos diferentes: {df_tend_de_compras['Articulo Comprado'].nunique()}")


Cantidad de articulos diferentes: 25


In [25]:
print(f"Cantidad de valores por articulo: {df_tend_de_compras['Articulo Comprado'].value_counts()}")

Cantidad de valores por articulo: Articulo Comprado
Blusa                   171
Joyería                 171
Pantalón                171
Camisa                  169
Vestido                 166
Suéter                  164
Chaqueta                163
Cinturón                161
Gafas de sol            161
Abrigo                  161
Sandalias               160
Calcetines              159
Falda                   158
Shorts                  157
Bufanda                 157
Tiene                   154
Bolso                   153
Sudadera con capucha    151
Calzado                 150
Camiseta                147
Zapatos deportivos      145
Botas                   144
Mochila                 143
Guantes                 140
Vaqueros                124
Name: count, dtype: int64


*b) Categoria*

In [26]:
print(f"Cantidad de categorias diferentes: {df_tend_de_compras['Categoria'].nunique()}")

Cantidad de categorias diferentes: 4


In [27]:
print(f"Cantidad de valores por categoria: {df_tend_de_compras['Categoria'].value_counts()}")

Cantidad de valores por categoria: Categoria
Ropa          1737
Accesorios    1240
Calzado        599
Abrigos        324
Name: count, dtype: int64


*c) Ciudad*

In [28]:
print(f"Cantidad de ciudades diferentes: {df_tend_de_compras['Ciudad'].nunique()}")

Cantidad de ciudades diferentes: 50


In [29]:
print(f"Cantidad de valores por ciudad: {df_tend_de_compras['Ciudad'].value_counts()}")

Cantidad de valores por ciudad: Ciudad
Montana                96
California             95
Idaho                  93
Illinois               92
Alabama                89
Minnesota              88
Nebraska               87
Nueva York             87
Nevada                 87
Maryland               86
Delaware               86
Vermont                85
Luisiana               84
Dakota del Norte       83
Misuri                 81
Virginia Occidental    81
Nuevo México           81
Misisipi               80
Indiana                79
Georgia                79
Kentucky               79
Arkansas               79
Carolina del Norte     78
Connecticut            78
Virginia               77
Ohio                   77
Tennessee              77
Texas                  77
Maine                  77
Carolina del Sur       76
Colorado               75
Oklahoma               75
Wisconsin              75
Oregón                 74
Pensilvania            74
Washington             73
Míchigan               73

*d) Tamaño*

In [30]:
print(f"Cantidad de tamaños diferentes de cada articulo: {df_tend_de_compras['Tamaño'].nunique()}")

Cantidad de tamaños diferentes de cada articulo: 4


In [31]:
print(f"Cantidad de valores por tamaño: {df_tend_de_compras['Tamaño'].value_counts()}")

Cantidad de valores por tamaño: Tamaño
M     1755
L     1053
S      663
XL     429
Name: count, dtype: int64


*e) Color*

In [32]:
print(f"Cantidad de colores difernetes: {df_tend_de_compras['Color'].nunique()}")

Cantidad de colores difernetes: 24


In [34]:
print(f"Cantidad de valores por color: {df_tend_de_compras['Color'].value_counts()}")

Cantidad de valores por color: Color
Marrón       299
Aceituna     177
Amarillo     174
Plata        173
Cerceta      172
Verde        169
Negro        167
Cian         166
Violeta      166
Gris         159
Naranja      154
Carbón       153
Rosado       153
Magenta      152
Azul         152
Morado       151
Melocotón    149
Rojo         148
Beige        147
Añil         147
Lavanda      147
Turquesa     145
Blanco       142
Oro          138
Name: count, dtype: int64


*f) Envio*

In [35]:
print(f"Tipos de envios difernetes: {df_tend_de_compras['Envio'].nunique()}")

Tipos de envios difernetes: 6


In [36]:
print(f"Cantidad de valores por envios: {df_tend_de_compras['Envio'].value_counts()}")

Cantidad de valores por envios: Envio
Envío Gratis             675
Estándar                 654
Recogida en tienda       650
Aire al día siguiente    648
Expres                   646
Envío en 2 días          627
Name: count, dtype: int64


*g) Metodo de pago*

In [37]:
print(f"Tipos de metodos de pago diferentes: {df_tend_de_compras['Metodo de pago'].nunique()}")

Tipos de metodos de pago diferentes: 6


In [38]:
print(f"Cantidad de valores por meotodo de pago: {df_tend_de_compras['Metodo de pago'].value_counts()}")

Cantidad de valores por meotodo de pago: Metodo de pago
PayPal                    677
Tarjeta de crédito        671
Efectivo                  670
Tarjeta de débito         636
Venmo                     634
Transferencia bancaria    612
Name: count, dtype: int64


*h) Frecuencia de compras*

In [40]:
print(f"Tipos de frecuencia de compras diferentes: {df_tend_de_compras['Frecuencia de compras'].nunique()}")

Tipos de frecuencia de compras diferentes: 5


In [39]:
print(f"Cantidad de valores por frecuencia de compras: {df_tend_de_compras['Frecuencia de compras'].value_counts()}")

Cantidad de valores por frecuencia de compras: Frecuencia de compras
Trimestral    1147
Quincenal     1089
Anualmente     572
Mensual        553
Semanal        539
Name: count, dtype: int64


## Manipulacion del data set

Luego de la exploracion del data set, no se hallaron datos nulos, ni duplicados, tampoco se detectaron valores atipicos o 0 que podrian afectar el desarrollo del proyecto.

Sin embargo, hay nombres en las columnas que contienen espacios y otras que contienen "_" entre cada palabra. Para poder corregir esto, se realizara una copia del archivo CSV y posteriormente se modificaran los nombres de las columnas que contengan espacios.

Finalmente el desarrollo del proyecto se realizara con este nuevo archivo corregido.

Creacion de copia del archivo original

In [45]:
df_tend_de_compras_corregido = df_tend_de_compras.copy()

Modificacion de los nombres de las columnas sobre el nuevo archivo

In [46]:
df_tend_de_compras_corregido.columns = df_tend_de_compras_corregido.columns.str.replace(' ', '_')

Vista previa del nuevo dara set con los nombres corregidos.

In [48]:
df_tend_de_compras_corregido.head()

Unnamed: 0_level_0,Edad,Genero,Articulo_Comprado,Categoria,Monto_de_compra_(USD),Ciudad,Tamaño,Color,Calificacion_cliente,Suscripcion,Envio,Descuento_aplicado,Codigo_promocional_usado,Compas_anteriores,Metodo_de_pago,Frecuencia_de_compras
Cliente_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
1,55,Hombre,Blusa,Ropa,53,Kentucky,L,Gris,3.1,Si,Expres,Si,Si,14,Venmo,Quincenal
2,19,Hombre,Suéter,Ropa,64,Maine,L,Marrón,3.1,Si,Expres,Si,Si,2,Efectivo,Quincenal
3,50,Hombre,Vaqueros,Ropa,73,Massachusetts,S,Marrón,3.1,Si,Envío Gratis,Si,Si,23,Tarjeta de crédito,Semanal
4,21,Hombre,Sandalias,Calzado,90,Rhode Island,M,Marrón,3.5,Si,Aire al día siguiente,Si,Si,49,PayPal,Semanal
5,45,Hombre,Blusa,Ropa,49,Oregón,M,Turquesa,2.7,Si,Envío Gratis,Si,Si,31,PayPal,Anualmente
