# **Customer Shopping Trends Dataset**

#### Este conjunto de datos incluye varias características relacionadas con las preferencias de compra de los clientes, ofreciendo información valiosa sobre el comportamiento y los patrones de compra de los consumidores. 

#### Este análisis es fundamental para comprender la naturaleza de los datos, detectar posibles errores o inconsistencias, y tomar decisiones informadas en el proceso de análisis y modelado.

### **Importar librerías**

In [39]:
import pandas as pd

### **Cargar Dataset**

In [40]:
data = pd.read_csv ('shopping_trends_updated.csv')

### **Análisis de la Calidad de los Datos**

#### *1- Cantidad de registros y columnas*

In [41]:
data.shape

(3900, 18)

#### *2- Conocer información de los datos, vista previa de 5 registros*

In [42]:
data.head()

Unnamed: 0,Customer ID,Age,Gender,Item Purchased,Category,Purchase Amount (USD),Location,Size,Color,Season,Review Rating,Subscription Status,Shipping Type,Discount Applied,Promo Code Used,Previous Purchases,Payment Method,Frequency of Purchases
0,1,55,Male,Blouse,Clothing,53,Kentucky,L,Gray,Winter,3.1,Yes,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Male,Sweater,Clothing,64,Maine,L,Maroon,Winter,3.1,Yes,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Male,Jeans,Clothing,73,Massachusetts,S,Maroon,Spring,3.1,Yes,Free Shipping,Yes,Yes,23,Credit Card,Weekly
3,4,21,Male,Sandals,Footwear,90,Rhode Island,M,Maroon,Spring,3.5,Yes,Next Day Air,Yes,Yes,49,PayPal,Weekly
4,5,45,Male,Blouse,Clothing,49,Oregon,M,Turquoise,Spring,2.7,Yes,Free Shipping,Yes,Yes,31,PayPal,Annually


#### *3- Tipos de datos de cada columna*

In [43]:
print(data.dtypes)

Customer ID                 int64
Age                         int64
Gender                     object
Item Purchased             object
Category                   object
Purchase Amount (USD)       int64
Location                   object
Size                       object
Color                      object
Season                     object
Review Rating             float64
Subscription Status        object
Shipping Type              object
Discount Applied           object
Promo Code Used            object
Previous Purchases          int64
Payment Method             object
Frequency of Purchases     object
dtype: object


#### *4- Cantidad de columnas con valores nulos*

In [44]:
print(data.isna().sum())

Customer ID               0
Age                       0
Gender                    0
Item Purchased            0
Category                  0
Purchase Amount (USD)     0
Location                  0
Size                      0
Color                     0
Season                    0
Review Rating             0
Subscription Status       0
Shipping Type             0
Discount Applied          0
Promo Code Used           0
Previous Purchases        0
Payment Method            0
Frequency of Purchases    0
dtype: int64


#### *5- Verificar si hay duplicados*

In [45]:
print(data.duplicated().sum())

0


#### *6- Análisis Estadístico* 

**Count** (El número de valores no nulos en la columna)

**Mean** (La media aritmética de la columna)

**Std** (La desviación estándar de la columna)

**Min** (El valor mínimo en la columna)

**25%** (El primer cuartil (percentil 25) de la columna)

**50%** (La mediana (percentil 50) de la columna)

**75%** (El tercer cuartil (percentil 75) de la columna)

**Max** (El valor máximo en la columna)

In [46]:
data.describe()

Unnamed: 0,Customer ID,Age,Purchase Amount (USD),Review Rating,Previous Purchases
count,3900.0,3900.0,3900.0,3900.0,3900.0
mean,1950.5,44.068462,59.764359,3.749949,25.351538
std,1125.977353,15.207589,23.685392,0.716223,14.447125
min,1.0,18.0,20.0,2.5,1.0
25%,975.75,31.0,39.0,3.1,13.0
50%,1950.5,44.0,60.0,3.7,25.0
75%,2925.25,57.0,81.0,4.4,38.0
max,3900.0,70.0,100.0,5.0,50.0


#### 7- *Ciclo for para obtener más cálculos estadísticos:*

**Mediana** (El valor central de los datos cuando están ordenados)

**Varianza** (Una medida de dispersión de los datos respecto a su media)

**Rango** (La diferencia entre el valor máximo y mínimo)

**Moda** (El valor que más se repite en los datos)

In [47]:
def calculos_estaditiscos(data):
    for i in data.columns:
        if data[i].dtype == 'float64' or data[i].dtype == 'int64':
            print(i)
            print('Mediana:',data[i].median())
            print('Varianza:',data[i].var())
            print('Rango', data[i].max()-data[i].min())
            print("Moda",data[i].mode())
            print('__')

calculos_estaditiscos(data)

Customer ID
Mediana: 1950.5
Varianza: 1267825.0
Rango 3899
Moda 0          1
1          2
2          3
3          4
4          5
        ... 
3895    3896
3896    3897
3897    3898
3898    3899
3899    3900
Name: Customer ID, Length: 3900, dtype: int64
__
Age
Mediana: 44.0
Varianza: 231.27076706058753
Rango 52
Moda 0    69
Name: Age, dtype: int64
__
Purchase Amount (USD)
Mediana: 60.0
Varianza: 560.997806077824
Rango 80
Moda 0    32
1    36
2    94
Name: Purchase Amount (USD), dtype: int64
__
Review Rating
Mediana: 3.7
Varianza: 0.512975119195586
Rango 2.5
Moda 0    3.4
Name: Review Rating, dtype: float64
__
Previous Purchases
Mediana: 25.0
Varianza: 208.7194256910056
Rango 49
Moda 0    31
Name: Previous Purchases, dtype: int64
__


#### *8- Exploración detallada de las columnas numéricas*

**Contar la cantidad de valores únicos:** Identifica la diversidad de valores dentro de cada columna

**Analizar la frecuencia de cada valor:** Permite detectar valores atípicos o patrones recurrentes

**1- ITEM PURCHASED (articulos comprados)**

In [48]:
print(f"Cantidad de registros distintos de los Artículos Comprados: {data['Item Purchased'].nunique()}")

Cantidad de registros distintos de los Artículos Comprados: 25


In [49]:
print(f"Cantidad de valores por {data['Item Purchased'].value_counts()}")

Cantidad de valores por Item Purchased
Blouse        171
Jewelry       171
Pants         171
Shirt         169
Dress         166
Sweater       164
Jacket        163
Belt          161
Sunglasses    161
Coat          161
Sandals       160
Socks         159
Skirt         158
Shorts        157
Scarf         157
Hat           154
Handbag       153
Hoodie        151
Shoes         150
T-shirt       147
Sneakers      145
Boots         144
Backpack      143
Gloves        140
Jeans         124
Name: count, dtype: int64


**2- CATEGORY (categoría)**

In [50]:
print(f"Cantidad de registros distintos de Categorias: {data['Category'].nunique()}")

Cantidad de registros distintos de Categorias: 4


In [51]:
print(f"Cantidad de valores por {data['Category'].value_counts()}")

Cantidad de valores por Category
Clothing       1737
Accessories    1240
Footwear        599
Outerwear       324
Name: count, dtype: int64


**3- LOCATION (ubicación)**

In [52]:
print(f"Cantidad de registros distintos en Location: {data['Location'].nunique()}")

Cantidad de registros distintos en Location: 50


In [53]:
print(f"Cantidad de valores por {data['Location'].value_counts()}")

Cantidad de valores por Location
Montana           96
California        95
Idaho             93
Illinois          92
Alabama           89
Minnesota         88
Nebraska          87
New York          87
Nevada            87
Maryland          86
Delaware          86
Vermont           85
Louisiana         84
North Dakota      83
Missouri          81
West Virginia     81
New Mexico        81
Mississippi       80
Indiana           79
Georgia           79
Kentucky          79
Arkansas          79
North Carolina    78
Connecticut       78
Virginia          77
Ohio              77
Tennessee         77
Texas             77
Maine             77
South Carolina    76
Colorado          75
Oklahoma          75
Wisconsin         75
Oregon            74
Pennsylvania      74
Washington        73
Michigan          73
Alaska            72
Massachusetts     72
Wyoming           71
Utah              71
New Hampshire     71
South Dakota      70
Iowa              69
Florida           68
New Jersey        67
H

**4- SIZE (tamaño)**

In [54]:
print(f"Cantidad de registros distintos de Tamaños: {data['Size'].nunique()}")

Cantidad de registros distintos de Tamaños: 4


In [55]:
print(f"Cantidad de valores por {data['Size'].value_counts()}")

Cantidad de valores por Size
M     1755
L     1053
S      663
XL     429
Name: count, dtype: int64


**5- COLOR (colores)**

In [56]:
print(f"Cantidad de registros distintos en Colores: {data['Color'].nunique()}")

Cantidad de registros distintos en Colores: 25


In [57]:
print(f"Cantidad de valores por {data['Color'].value_counts()}")

Cantidad de valores por Color
Olive        177
Yellow       174
Silver       173
Teal         172
Green        169
Black        167
Cyan         166
Violet       166
Gray         159
Maroon       158
Orange       154
Charcoal     153
Pink         153
Magenta      152
Blue         152
Purple       151
Peach        149
Red          148
Beige        147
Indigo       147
Lavender     147
Turquoise    145
White        142
Brown        141
Gold         138
Name: count, dtype: int64


**6- SEASON (temporada)**

In [58]:
print(f"Cantidad de registros distintos de Temporadas: {data['Season'].nunique()}")

Cantidad de registros distintos de Temporadas: 4


In [59]:
print(f"Cantidad de valores por {data['Season'].value_counts()}")

Cantidad de valores por Season
Spring    999
Fall      975
Winter    971
Summer    955
Name: count, dtype: int64


**7- Shipping Type (tipo de envío)**

In [60]:
print(f"Cantidad de registros distintos en los Tipos de envío: {data['Shipping Type'].nunique()}")

Cantidad de registros distintos en los Tipos de envío: 6


In [61]:
print(f"Cantidad de valores por {data['Shipping Type'].value_counts()}")

Cantidad de valores por Shipping Type
Free Shipping     675
Standard          654
Store Pickup      650
Next Day Air      648
Express           646
2-Day Shipping    627
Name: count, dtype: int64


**8- Payment Method (Métodos de Pago)**

In [62]:
print(f"Cantidad de registros distintos en los Métodos de Pago: {data['Payment Method'].nunique()}")

Cantidad de registros distintos en los Métodos de Pago: 6


In [63]:
print(f"Cantidad de valores por {data['Payment Method'].value_counts()}")

Cantidad de valores por Payment Method
PayPal           677
Credit Card      671
Cash             670
Debit Card       636
Venmo            634
Bank Transfer    612
Name: count, dtype: int64


**9- Frequency of Purchases (Frecuencia de compras)**

In [64]:
print(f"Cantidad de registros distintos en la Frecuencia de Compras: {data['Frequency of Purchases'].nunique()}")

Cantidad de registros distintos en la Frecuencia de Compras: 7


In [65]:
print(f"Cantidad de valores por {data['Frequency of Purchases'].value_counts()}")

Cantidad de valores por Frequency of Purchases
Every 3 Months    584
Annually          572
Quarterly         563
Monthly           553
Bi-Weekly         547
Fortnightly       542
Weekly            539
Name: count, dtype: int64


### Con el objetivo de extraer el máximo valor de los datos, se llevó a cabo un análisis más profundo en Power BI. A través de visualizaciones interactivas, se logró una comprensión más clara de la distribución de los datos y se identificaron patrones relevantes. Al comparar diferentes variables y segmentar los datos, se obtuvieron insights valiosos que permitieron tomar decisiones más informadas y basadas en datos