## Librerias y directorios

### Importacion de librerias

**El primer paso sera importar las librerias de Python que el proyecto requiere, El uso de estas bibliotecas nos permite cubrir todos los aspectos del procesamiento de datos, desde la adquisición hasta la manipulación y análisis de los mismos, incluyendo la identificación de posibles problemas como datos faltantes o errores en los valores de las columnas.**


In [2]:
# Bibliotecas para Manipulación de Datos y Análisis
import pandas as pd 
import numpy as np 

# Bibliotecas para Manejo de Archivos
import requests 
import zipfile  
import os  

# Visualización de Datos Perdidos
import missingno as msno

# Recolección y comprensión de los Datos





- **Definimos la variable ``path_csv_update``, que almacena la ruta del archivo CSV que queremos procesar.**
- **Utilizamos la función ``read_csv`` de la biblioteca pandas para cargar el archivo CSV en un DataFrame. Esto nos permite manejar y analizar los datos de forma más eficiente, aprovechando las capacidades de manipulación de datos de pandas.**

In [3]:
path_csv_update = '../data/bronze/shopping_behavior_updated.csv'
df = pd.read_csv(path_csv_update)

### Descubriendo los datos

### Descripcion y estadisticas basicas

**Luego se analizaran visualmente en la etapa de EDA**

- **Utilizamos el método describe para obtener un resumen estadístico del conjunto de datos, que incluye métricas clave como la media, la desviación estándar, los valores mínimos, máximos, y los percentiles.**

In [10]:
df.describe(include='all')

Unnamed: 0,Customer ID,Age,Gender,Item Purchased,Category,Purchase Amount (USD),Location,Size,Color,Season,Review Rating,Subscription Status,Shipping Type,Discount Applied,Promo Code Used,Previous Purchases,Payment Method,Frequency of Purchases
count,3900.0,3900.0,3900,3900,3900,3900.0,3900,3900,3900,3900,3900.0,3900,3900,3900,3900,3900.0,3900,3900
unique,,,2,25,4,,50,4,25,4,,2,6,2,2,,6,7
top,,,Male,Blouse,Clothing,,Montana,M,Olive,Spring,,No,Free Shipping,No,No,,PayPal,Every 3 Months
freq,,,2652,171,1737,,96,1755,177,999,,2847,675,2223,2223,,677,584
mean,1950.5,44.068462,,,,59.764359,,,,,3.749949,,,,,25.351538,,
std,1125.977353,15.207589,,,,23.685392,,,,,0.716223,,,,,14.447125,,
min,1.0,18.0,,,,20.0,,,,,2.5,,,,,1.0,,
25%,975.75,31.0,,,,39.0,,,,,3.1,,,,,13.0,,
50%,1950.5,44.0,,,,60.0,,,,,3.7,,,,,25.0,,
75%,2925.25,57.0,,,,81.0,,,,,4.4,,,,,38.0,,


### Extraccion de metadatos

- **Utilizamos el método dtypes para obtener los nombres de las columnas del DataFrame y los tipos de datos asociados a cada una de ellas.**

In [11]:
df.dtypes

Customer ID                 int64
Age                         int64
Gender                     object
Item Purchased             object
Category                   object
Purchase Amount (USD)       int64
Location                   object
Size                       object
Color                      object
Season                     object
Review Rating             float64
Subscription Status        object
Shipping Type              object
Discount Applied           object
Promo Code Used            object
Previous Purchases          int64
Payment Method             object
Frequency of Purchases     object
dtype: object

- **Acá separamos los valores categoricos de los valores numericos, esto porque identificar las columnas categóricas es un paso fundamental en la comprensión de los datos porque te permite tomar decisiones informadas sobre cómo manejar y preparar las diferentes variables, ajustar técnicas de limpieza, visualización, y transformarlas correctamente para el análisis o modelado.**

In [12]:
categorical_variables = df.select_dtypes(exclude=['number']).columns

1. **Creamos una serie vacía llamada `unique_categories`.**
2. **Creamos un diccionario vacío llamado ``dict_unique_categories``.**

- **Iteramos con un bucle for sobre cada columna en la lista ``categorical_variables``. En cada iteración:**

    * Guardamos los valores únicos de esa columna en la serie ``unique_categories`` con la clave siendo el nombre de la columna.
    * Guardamos el conteo de valores únicos de esa columna en el diccionario ``dict_unique_categories`` con la clave siendo el nombre de la columna








In [28]:
unique_categories = pd.Series({})
dict_unique_categories = {}

for column in categorical_variables:
    unique_categories[column] = df[column].unique()
    dict_unique_categories[column] = df[column].nunique()

1. **Iteramos con un bucle for sobre cada par clave-valor en el diccionario `dict_unique_categories`.** 

    - En cada iteración del bucle:  

        * key representa el nombre de la columna (la clave en el diccionario).

        * value representa el conteo de valores únicos en esa columna (el valor en el diccionario).

2. **Imprimimos una cadena formateada que muestra:**

    * El nombre de la columna (key).
    * El conteo de valores únicos en esa columna (value).

In [29]:
for key, value in dict_unique_categories.items():
    print(f"Columna: {key} - Valores unicos: {value}")


Columna: Gender - Valores unicos: 2
Columna: Item Purchased - Valores unicos: 25
Columna: Category - Valores unicos: 4
Columna: Location - Valores unicos: 50
Columna: Size - Valores unicos: 4
Columna: Color - Valores unicos: 25
Columna: Season - Valores unicos: 4
Columna: Subscription Status - Valores unicos: 2
Columna: Shipping Type - Valores unicos: 6
Columna: Discount Applied - Valores unicos: 2
Columna: Promo Code Used - Valores unicos: 2
Columna: Payment Method - Valores unicos: 6
Columna: Frequency of Purchases - Valores unicos: 7


1. **Calculamos las frecuencias de los valores únicos en `unique_categories`.**

   - Usamos el método `value_counts()` para contar cuántas veces aparece cada valor único en la serie `unique_categories`.
   - Guardamos el resultado en la variable `count_unique_values`, que es una nueva serie con los valores únicos como índices y sus frecuencias como valores.

In [32]:
count_unique_values = unique_categories.value_counts()

In [33]:
print(count_unique_values)

[Male, Female]                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                1
[Blouse, Sweater, Jeans, Sandals, Sneakers, Shirt, Shorts, Coat, Handbag, Shoes, Dress, Skirt, Sunglasses, Pants, Jacket, Hoodie, Jewelry, T-shirt, Scarf, Hat, Socks, Backpack, Belt, Boots, Gloves]                                                                                                                                                                                                                                                                                   

### Variables del Dataset

| Columna                   | Tipo de dato | Descripción                                      | Variables únicas                                                      |
|----------------------------|--------------|--------------------------------------------------|-----------------------------------------------------------------------|
| **Customer ID**            | int64        | Identificador único para cada cliente            | -                                                                     |
| **Age**                    | int64        | Edad del cliente                                 | -                                                                     |
| **Gender**                 | category     | Género del cliente                               | Male, Female                                                          |
| **Item Purchased**         | category     | Producto adquirido                               | Blouse, Sweater, Jeans, Sandals, Sneakers, Shirt, Shorts, Coat, Handbag, Shoes, Dress, Skirt, Sunglasses, Pants, Jacket, Hoodie, Jewelry, T-shirt, Scarf, Hat, Socks, Backpack, Belt, Boots, Gloves |
| **Category**               | category     | Categoría del producto                           | Clothing, Footwear, Outerwear, Accessories                            |
| **Purchase Amount (USD)**  | int64        | Monto total de la compra en dólares              | -                                                                     |
| **Location**               | category     | Ubicación geográfica del cliente                 | Kentucky, Maine, Massachusetts, Rhode Island, Oregon, Wyoming, Montana, Louisiana, West Virginia, Missouri, Arkansas, Hawaii, Delaware, New Hampshire, New York, Alabama, Mississippi, North Carolina, California, Oklahoma, Florida, Texas, Nevada, Kansas, Colorado, North Dakota, Illinois, Indiana, Arizona, Alaska, Tennessee, Ohio, New Jersey, Maryland, Vermont, New Mexico, South Carolina, Idaho, Pennsylvania, Connecticut, Utah, Virginia, Georgia, Nebraska, Iowa, South Dakota, Minnesota, Washington, Wisconsin, Michigan |
| **Size**                   | category     | Talla del producto                               | L, S, M, XL                                                           |
| **Color**                  | category     | Color del producto                               | Gray, Maroon, Turquoise, White, Charcoal, Silver, Pink, Purple, Olive, Gold, Violet, Teal, Lavender, Black, Green, Peach, Red, Cyan, Brown, Beige, Orange, Indigo, Yellow, Magenta, Blue |
| **Season**                 | category     | Temporada de la compra                           | Winter, Spring, Summer, Fall                                                 |
| **Review Rating**          | float64      | Calificación del producto por parte del cliente  | -                                                                            |
| **Subscription Status**    | category     | Estado de la suscripción del cliente             | Yes, No                                                                      |
| **Shipping Type**          | category     | Tipo de envío seleccionado                       | Express, Free Shipping, Next Day Air, Standard, 2-Day Shipping, Store Pickup |
| **Discount Applied**       | category     | Indica si se aplicó un descuento                 | Yes, No                                                                      |
| **Promo Code Used**        | category     | Indica si se utilizó un código promocional       | Yes, No                                                                      |
| **Previous Purchases**     | int64        | Número de compras anteriores del cliente         | -                                                                            |
| **Payment Method**         | category     | Método de pago utilizado                         | Venmo, Cash, Credit Card, PayPal, Bank Transfer, Debit Card                  |
| **Frequency of Purchases** | category     | Frecuencia con la que el cliente realiza compras | Fortnightly, Weekly, Annually, Quarterly, Bi-Weekly, Monthly, Every 3 Months |

### Guardado de datasets

In [76]:
# guardo los dataframes con archivo .csv dentro de la carpeta "bronze"
path_csv = '../data/bronze/clients_behavior.csv'
df.to_csv(path_csv_from_library, index=False)