# Análisis y Predicción de Ventas en una Tienda de Retail - Proyecto I - Parte 2 (Core)
### Parte II: Análisis Exploratorio con Pandas

# PARTE 2 

## Instrucciones

### Introducción al Proyecto.

En esta segunda parte del proyecto, vamos a utilizar Pandas para realizar un análisis exploratorio más detallado de nuestro dataset de ventas. El objetivo es aplicar técnicas de carga, exploración, filtrado y slicing de datos para obtener una comprensión profunda de los datos y preparar el dataset para futuros análisis y modelados predictivos.

### Instrucciones:

1. Preparación del Entorno
   * Asegúrate de tener instalado Pandas en tu entorno de trabajo.
   * Utiliza el archivo retail_sales.csv del proyecto inicial. Si aún no lo tienes, descarga el archivo correspondiente.
2. Cargar los Datos
   * Carga el archivo retail_sales.csv en un DataFrame de Pandas.
   * Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.
3. Exploración Inicial de los Datos
   * Muestra las últimas 5 filas del DataFrame.
   * Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
   * Genera estadísticas descriptivas del DataFrame utilizando el método describe().
4. Inspección de los Datos
   * Inspecciona los tipos de datos de cada columna utilizando el atributo dtypes.
   * Cuenta los valores únicos en la columna Producto utilizando el método value_counts().
   * Muestra todos los valores únicos en la columna Tienda utilizando el método unique().
5. Filtrado de Datos
   * Filtra el DataFrame para mostrar solo las filas donde las ventas (Ventas) sean mayores a 50.
   * Filtra el DataFrame para mostrar solo las filas donde el precio (Precio) sea menor a 0.5.
   * Utilizando el método query(), filtra el DataFrame para mostrar las filas donde el producto sea Manzanas y las ventas sean mayores a 30.
6.  Slicing de Datos
   * Selecciona y muestra solo las columnas Producto y Ventas del DataFrame.
   * Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas Producto y Tienda.
   * Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame.



## Sobre los campos del dataset

About this file

1. **Transaction ID:** A unique identifier for each transaction, allowing tracking and reference.
2. **Date:** The date when the transaction occurred, providing insights into sales trends over time.
3. **Customer ID:** A unique identifier for each customer, enabling customer-centric analysis.
4. **Gender:** The gender of the customer (Male/Female), offering insights into gender-based purchasing patterns.
5. **Age:** The age of the customer, facilitating segmentation and exploration of age-related influences.
6. **Product Category:** The category of the purchased product (e.g., Electronics, Clothing, Beauty), helping understand product preferences.
7. **Quantity:** The number of units of the product purchased, contributing to insights on purchase volumes.
8. **Price per Unit:** The price of one unit of the product, aiding in calculations related to total spending.
9. **Total Amount:** The total monetary value of the transaction, showcasing the financial impact of each purchase.


*Traducción de los campos del dataset*
1. **Transaction ID:** Un identificador único para cada transacción, que permite su seguimiento y referencia.
2. **Date:** La fecha en que se produjo la transacción, lo que permite conocer las tendencias de las ventas a lo largo del tiempo.
3. **Customer ID:** Un identificador único para cada cliente, que permite un análisis centrado en el cliente.
4. **Gender:** El sexo del cliente (hombre/mujer), que ofrece información sobre las pautas de compra en función del sexo 
5. **Age:** La edad del cliente, que facilita la segmentación y la exploración de las influencias relacionadas con la edad.
6. **Product Category:** La categoría del producto comprado (por ejemplo, electrónica, ropa, belleza), que ayuda a comprender las preferencias de producto.
7. **Quantity:** El número de unidades del producto comprado, lo que contribuye a comprender los volúmenes de compra.
8. **Price per Unit:** El precio de una unidad del producto, lo que ayuda a realizar cálculos relacionados con el gasto total.
9. **Total Amount:** El valor monetario total de la transacción, que muestra el impacto financiero de cada compra.

Cada columna de este conjunto de datos desempeña un papel fundamental a la hora de desentrañar la dinámica de las operaciones minoristas y el comportamiento de los clientes. Al explorar y analizar estos atributos, descubrirá tendencias, patrones y correlaciones que arrojan luz sobre la compleja interacción entre clientes y productos en un entorno minorista.

1. ID de transacción: 
2. Fecha:
3. ID de cliente: 
4. Sexo: 
5. Edad: 
6. Categoría del producto: 
7. Cantidad:
8. Precio por Unidad: 
9. Importe total: 


## Desarrollo

### 1. Preparación del Entorno
   * Asegúrate de tener instalado Pandas en tu entorno de trabajo.
   * Utiliza el archivo retail_sales.csv del proyecto inicial. Si aún no lo tienes, descarga el archivo correspondiente.

### 2. Cargar los Datos
   * Carga el archivo retail_sales.csv en un DataFrame de Pandas.
   * Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

#### **Carga el archivo retail_sales.csv en un DataFrame de Pandas.**

In [67]:
import pandas as pd
from IPython.display import display #Para Impiimir en formato TABLA

In [68]:
# Cargar datos desde un archivo CSV
df = pd.read_csv(r'C:\Users\GIGABYTE\Documents\tareas_bootcamp_coding_dojo\mod_1_data_fundamentals\2_proyecto_retail_sales_analysis\data\retail_sales.csv')


#### **Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.**

In [69]:
# Ver las primeras filas del DataFrame
print("Primeras 10 filas del DataFrame:")
df.head(10)

Primeras 10 filas del DataFrame:


Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200


### 3. Exploración Inicial de los Datos
   * Muestra las últimas 5 filas del DataFrame.
   * Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
   * Genera estadísticas descriptivas del DataFrame utilizando el método describe().

#### **Muestra las últimas 5 filas del DataFrame.**

In [70]:
print("Últimas 5 filas del DataFrame:")
df.tail(5)

Últimas 5 filas del DataFrame:


Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150
999,1000,2023-04-12,CUST1000,Male,47,Electronics,4,30,120


#### **Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.**

In [71]:
# Obtener información general sobre el DataFrame
print("Información del DataFrame:")
df.info()

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


#### **Genera estadísticas descriptivas del DataFrame utilizando el método describe().**

In [72]:
# Generar estadísticas descriptivas
print("Estadísticas descriptivas del DataFrame:")
df.describe()

Estadísticas descriptivas del DataFrame:


Unnamed: 0,Transaction ID,Age,Quantity,Price per Unit,Total Amount
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,500.5,41.392,2.514,179.89,456.0
std,288.819436,13.68143,1.132734,189.681356,559.997632
min,1.0,18.0,1.0,25.0,25.0
25%,250.75,29.0,1.0,30.0,60.0
50%,500.5,42.0,3.0,50.0,135.0
75%,750.25,53.0,4.0,300.0,900.0
max,1000.0,64.0,4.0,500.0,2000.0


### 4. Inspección de los Datos
   * Inspecciona los tipos de datos de cada columna utilizando el atributo dtypes.
   * Cuenta los valores únicos en la columna Producto utilizando el método value_counts().
   * Muestra todos los valores únicos en la columna Tienda utilizando el método unique().

#### **Inspecciona los tipos de datos de cada columna utilizando el atributo dtypes.**

In [73]:
# Ver tipos de datos de los campos
print("Tipos de datos de las columnas:")
df.dtypes

Tipos de datos de las columnas:


Transaction ID       int64
Date                object
Customer ID         object
Gender              object
Age                  int64
Product Category    object
Quantity             int64
Price per Unit       int64
Total Amount         int64
dtype: object

In [74]:
# Renombrar las columnas del DataFrame
df.columns = df.columns.str.lower().str.replace(' ', '_')
df.dtypes

transaction_id       int64
date                object
customer_id         object
gender              object
age                  int64
product_category    object
quantity             int64
price_per_unit       int64
total_amount         int64
dtype: object

#### **Cuenta los valores únicos en la columna Producto utilizando el método value_counts().**

In [75]:
# Contar los valores únicos en la columna 'Producto'
conteo_productos = df['product_category'].value_counts()
print(conteo_productos)

product_category
Clothing       351
Electronics    342
Beauty         307
Name: count, dtype: int64


#### **Muestra todos los valores únicos en la columna Tienda utilizando el método unique().**

In [76]:
# Mostrar valores únicos de Gender ya que no existe la columna Tienda en el DataFrame
print("Valores únicos en la columna 'gender':")
df['gender'].unique()


Valores únicos en la columna 'gender':


array(['Male', 'Female'], dtype=object)

### 5. Filtrado de Datos
   * Filtra el DataFrame para mostrar solo las filas donde las ventas (Ventas) sean mayores a 50.
   * Filtra el DataFrame para mostrar solo las filas donde el precio (Precio) sea menor a 0.5.
   * Utilizando el método query(), filtra el DataFrame para mostrar las filas donde el producto sea Manzanas y las ventas sean mayores a 30.

#### **Filtra el DataFrame para mostrar solo las filas donde las ventas (Ventas) sean mayores a 50.**

In [77]:
# Filtrar filas donde las ventas son mayores a 50
ventas_mayores_1 = df[df['total_amount'] > 50]
display(ventas_mayores_1)

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
...,...,...,...,...,...,...,...,...,...
993,994,2023-12-18,CUST994,Female,51,Beauty,2,500,1000
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150


#### **Filtra el DataFrame para mostrar solo las filas donde el precio (Precio) sea menor a 0.5.**

In [78]:
# Filtrar filas donde las ventas son mayores a 50 como no hay productos que cuesten 0.5
ventas_menores = df[df['price_per_unit'] < 50]
display(ventas_menores)


Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
11,12,2023-10-30,CUST012,Male,35,Beauty,3,25,75
...,...,...,...,...,...,...,...,...,...
991,992,2023-08-21,CUST992,Female,57,Electronics,2,30,60
994,995,2023-04-30,CUST995,Female,41,Clothing,1,30,30
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100


#### **Utilizando el método query(), filtra el DataFrame para mostrar las filas donde el producto sea Manzanas y las ventas sean mayores a 30.**

In [79]:
# Filtrar el DataFrame para mostrar las filas donde el sexo es 'Male' y la Edad sea mayor a 30
ventas_action = df.query("gender == 'Male' & age > 30")
display(ventas_action)

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600
...,...,...,...,...,...,...,...,...,...
973,974,2023-05-03,CUST974,Male,47,Beauty,1,30,30
983,984,2023-08-29,CUST984,Male,56,Clothing,1,500,500
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90


### 6.  Slicing de Datos
   * Selecciona y muestra solo las columnas Producto y Ventas del DataFrame.
   * Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas Producto y Tienda.
   * Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame.

#### **Selecciona y muestra solo las columnas Producto y Ventas del DataFrame.**

In [80]:
# Seleccionar columnas por nombre
sliced_columns = df[['product_category', 'total_amount']]
display(sliced_columns)


Unnamed: 0,product_category,total_amount
0,Beauty,150
1,Clothing,1000
2,Electronics,30
3,Clothing,500
4,Beauty,100
...,...,...
995,Clothing,50
996,Beauty,90
997,Beauty,100
998,Electronics,150


#### **Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas Producto y Tienda.**

In [81]:
# Seleccionar filas y columnas específicas con loc
loc_result = df.loc[5:10, ['product_category', 'price_per_unit']]
display(loc_result)

Unnamed: 0,product_category,price_per_unit
5,Beauty,30
6,Clothing,25
7,Electronics,25
8,Electronics,300
9,Clothing,50
10,Clothing,50


#### **Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame.**

In [82]:
# Seleccionar filas y columnas específicas con iloc
iloc_result = df.iloc[0:5, 0:3]
display(iloc_result)

Unnamed: 0,transaction_id,date,customer_id
0,1,2023-11-24,CUST001
1,2,2023-02-27,CUST002
2,3,2023-01-13,CUST003
3,4,2023-05-21,CUST004
4,5,2023-05-06,CUST005
