### **Parte 2:** Análisis Exploratorio con Pandas

En esta segunda parte del proyecto, vamos a utilizar Pandas para realizar un análisis exploratorio más detallado de nuestro dataset de ventas. El objetivo es aplicar técnicas de carga, exploración, filtrado y slicing de datos para obtener una comprensión profunda de los datos y preparar el dataset para futuros análisis y modelados predictivos.

### **Instrucciones**

1. **Preparación del Entorno:**
    - Asegúrate de tener instalado Pandas en tu entorno de trabajo.
    - Utiliza el archivo retail_sales.csv del proyecto inicial. Si aún no lo tienes, descarga el archivo correspondiente.

2. **Cargar los Datos:**
    - Carga el archivo retail_sales.csv en un DataFrame de Pandas.
    - Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

3. **Exploración Inicial de los Datos:**
    - Muestra las últimas 5 filas del DataFrame.
    - Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
    - Genera estadísticas descriptivas del DataFrame utilizando el método describe().

4. **Inspección de los Datos:**
    - Inspecciona los tipos de datos de cada columna utilizando el atributo dtypes.
    - Cuenta los valores únicos en la columna Category utilizando el método value_counts().
    - Muestra todos los valores únicos en la columna Category utilizando el método unique().

5. **Filtrado de Datos:**
    - Filtra el DataFrame para mostrar solo las filas donde las ventas (Tota_Amount) sean mayores a 50.
    - Muestra las filas en las que el precio por unidad (Price_per_Unit) es inferior a 30.
    - Muestra las filas en las que la categoría del producto es 'Beauty' y el total de ventas (Total_Amount) es mayor a 30.
    
6. **Slicing de Datos:**
    - Selecciona y muestra solo las columnas Category y Total_Amount del DataFrame.
    - Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas Producto y Tienda.
    - Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame.


In [14]:
import pandas as pd

# Cargar los datos
ruta_archivo = r'C:\Users\Andy\Documents\Proyecto_1\Data\retail_sales_dataset.csv'
datos = pd.read_csv(ruta_archivo)

# # Muestra las primeras 10 filas del DataFrame
print("Primeras 10 filas del DataFrame:")
print(datos.head(10))

# 3. Exploración Inicial de los Datos:
# Muestra las últimas 5 filas del DataFrame
print("Últimas 5 filas del DataFrame:")
print(datos.tail())

# Obtiene información general sobre el DataFrame
print("\nInformación del DataFrame:")
print(datos.info())

# Genera estadísticas descriptivas del DataFrame
print("\nEstadísticas descriptivas:")
print(datos.describe())

# Mostrar los nombres de las columnas actuales
print("Nombres de las columnas actuales:")
print(datos.columns)

# Renombrar columnas
datos.rename(columns={
    'Transaction ID': 'Transaction_ID',
    'Customer ID': 'Customer_ID',
    'Total Amount': 'Total_Amount',
    'Product Category': 'Product_Category',
    'Price per Unit': 'Price_per_Unit',
    # Añade más columnas según sea necesario
}, inplace=True)

# Verificar los cambios
print("\nNombres de las columnas después de renombrar:")
print(datos.columns)


Primeras 10 filas del DataFrame:
   Transaction ID        Date Customer ID  Gender  Age Product Category  \
0               1  2023-11-24     CUST001    Male   34           Beauty   
1               2  2023-02-27     CUST002  Female   26         Clothing   
2               3  2023-01-13     CUST003    Male   50      Electronics   
3               4  2023-05-21     CUST004    Male   37         Clothing   
4               5  2023-05-06     CUST005    Male   30           Beauty   
5               6  2023-04-25     CUST006  Female   45           Beauty   
6               7  2023-03-13     CUST007    Male   46         Clothing   
7               8  2023-02-22     CUST008    Male   30      Electronics   
8               9  2023-12-13     CUST009    Male   63      Electronics   
9              10  2023-10-07     CUST010  Female   52         Clothing   

   Quantity  Price per Unit  Total Amount  
0         3              50           150  
1         2             500          1000  
2        

In [19]:
# INSPECCIÓN DE LOS DATOS

# Inspecciona los tipos de datos de cada columna
print("\nTipos de datos en cada columna:")
print(datos.dtypes)

# Cuenta los valores únicos en la columna Product_Category
if 'Product_Category' in datos.columns:
    print("\nValores únicos en la columna 'Product_Category':")
    print(datos['Product_Category'].value_counts())

# Muestra todos los valores únicos en la columna 'Product_Category'
if 'Product_Category' in datos.columns:
    print("\nValores únicos en la columna 'Product_Category':")
    print(datos['Product_Category'].unique())



Tipos de datos en cada columna:
Transaction_ID       int64
Date                object
Customer_ID         object
Gender              object
Age                  int64
Product_Category    object
Quantity             int64
Price_per_Unit       int64
Total_Amount         int64
dtype: object

Valores únicos en la columna 'Product_Category':
Product_Category
Clothing       351
Electronics    342
Beauty         307
Name: count, dtype: int64

Valores únicos en la columna 'Product_Category':
['Beauty' 'Clothing' 'Electronics']


In [20]:
# FILTRADO DE DATOS
# Filtra el DataFrame para mostrar solo las filas donde las ventas (Total_Amount) sean mayores a 50
if 'Total_Amount' in datos.columns:
    ventas_mayores_50 = datos[datos['Total_Amount'] > 50]
    print("\nFilas donde Total_Amount es mayor a 50:")
    print(ventas_mayores_50)

# Filtra el DataFrame para mostrar solo las filas donde el precio (Price_per_Unit) sea menor a 0.75
if 'Price_per_Unit' in datos.columns:
    precio_menor_30 = datos[datos['Price_per_Unit'] < 30]
    print("\nFilas donde Price_per_Unit es menor a 30:")
    print(precio_menor_30)

# Utilizando el método query(), filtra el DataFrame para mostrar las filas donde la categoría sea Beauty y las ventas sean mayores a 30
if 'Product_Category' in datos.columns and 'Total_Amount' in datos.columns:
    ventas_beauty_mayores_50 = datos.query("Product_Category == 'Beauty' and Total_Amount > 50")
    print("\nFilas donde Product_Category es 'Beauty' y Total_Amount es mayor a 50:")
    print(ventas_beauty_mayores_50)


Filas donde Total_Amount es mayor a 50:
     Transaction_ID        Date Customer_ID  Gender  Age Product_Category  \
0                 1  2023-11-24     CUST001    Male   34           Beauty   
1                 2  2023-02-27     CUST002  Female   26         Clothing   
3                 4  2023-05-21     CUST004    Male   37         Clothing   
4                 5  2023-05-06     CUST005    Male   30           Beauty   
7                 8  2023-02-22     CUST008    Male   30      Electronics   
..              ...         ...         ...     ...  ...              ...   
993             994  2023-12-18     CUST994  Female   51           Beauty   
996             997  2023-11-17     CUST997    Male   52           Beauty   
997             998  2023-10-29     CUST998  Female   23           Beauty   
998             999  2023-12-05     CUST999  Female   36      Electronics   
999            1000  2023-04-12    CUST1000    Male   47      Electronics   

     Quantity  Price_per_Unit  Tot

In [21]:
# SLICING DE DATOS
# Selecciona y muestra solo las columnas Product_Category y Total_Amount del DataFrame
if 'Product_Category' in datos.columns and 'Total_Amount' in datos.columns:
    print("\nColumnas Product_Category y Total_Amount:")
    print(datos[['Product_Category', 'Total_Amount']])

# Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas 'Product_Category' y 'Store'
if 'Product_Category' in datos.columns and 'Store' in datos.columns:
    print("\nFilas de la 5 a la 10 (inclusive) y columna 'Product_Category':")
    print(datos.loc[5:10, ['Product_Category']])

# Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame
print("\nPrimeras 5 filas y primeras 3 columnas del DataFrame:")
print(datos.iloc[:5, :3])


Columnas Product_Category y Total_Amount:
    Product_Category  Total_Amount
0             Beauty           150
1           Clothing          1000
2        Electronics            30
3           Clothing           500
4             Beauty           100
..               ...           ...
995         Clothing            50
996           Beauty            90
997           Beauty           100
998      Electronics           150
999      Electronics           120

[1000 rows x 2 columns]

Primeras 5 filas y primeras 3 columnas del DataFrame:
   Transaction_ID        Date Customer_ID
0               1  2023-11-24     CUST001
1               2  2023-02-27     CUST002
2               3  2023-01-13     CUST003
3               4  2023-05-21     CUST004
4               5  2023-05-06     CUST005
