## Proyecto I- Parte 2 (Core)
### Análisis y Predicción de Ventas en una Tienda de Retail
### Parte II: Análisis Exploratorio con Pandas
En esta segunda parte del proyecto, vamos a utilizar Pandas para realizar un análisis exploratorio más detallado de nuestro dataset de ventas. El objetivo es aplicar técnicas de carga, exploración, filtrado y slicing de datos para obtener una comprensión profunda de los datos y preparar el dataset para futuros análisis y modelados predictivos.

### Instrucciones
### Preparación del Entorno
    - Asegúrate de tener instalado Pandas en tu entorno de trabajo.
    - Utiliza el archivo retail_sales.csv del proyecto inicial. Si aún no lo tienes, descarga el archivo correspondiente.

### Cargar los Datos
    - Carga el archivo retail_sales.csv en un DataFrame de Pandas.
    - Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

In [1]:
import pandas as pd

# Cargar datos desde un archivo CSV
df = pd.read_csv('../data/retail_sales_dataset.csv')

# Ver las primeras
print("Primeras filas del DataFrame:")
print(df.head(10))

Primeras filas del DataFrame:
   Transaction ID        Date Customer ID  Gender  Age Product Category  \
0               1  2023-11-24     CUST001    Male   34           Beauty   
1               2  2023-02-27     CUST002  Female   26         Clothing   
2               3  2023-01-13     CUST003    Male   50      Electronics   
3               4  2023-05-21     CUST004    Male   37         Clothing   
4               5  2023-05-06     CUST005    Male   30           Beauty   
5               6  2023-04-25     CUST006  Female   45           Beauty   
6               7  2023-03-13     CUST007    Male   46         Clothing   
7               8  2023-02-22     CUST008    Male   30      Electronics   
8               9  2023-12-13     CUST009    Male   63      Electronics   
9              10  2023-10-07     CUST010  Female   52         Clothing   

   Quantity  Price per Unit  Total Amount  
0         3              50           150  
1         2             500          1000  
2         1 

### Exploración Inicial de los Datos
    - Muestra las últimas 5 filas del DataFrame.
    - Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
    - Genera estadísticas descriptivas del DataFrame utilizando el método describe().

In [None]:
print("Últimas filas del DataFrame:")
print(df.tail(5))
print('-----------------------------------------', end='\n')

print("Información del DataFrame:")
print(df.info())
print('-----------------------------------------', end='\n')

print("Estadísticas descriptivas del DataFrame:")
print(df.describe())
print('-----------------------------------------', end='\n')

### Inspección de los Datos
    - Inspecciona los tipos de datos de cada columna utilizando el atributo dtypes.
    - Cuenta los valores únicos en la columna Producto utilizando el método value_counts().
    - Muestra todos los valores únicos en la columna Tienda utilizando el método unique().

In [None]:
# Inspeccionar los tipos de datos de las columnas
print("Tipos de datos de las columnas:")
print(df.dtypes)
print('-----------------------------------------', end='\n')

# Contar valores únicos en una columna específica
print("Conteo de valores únicos en la columna 'Quantity':")
print(df['Quantity'].value_counts())
print('-----------------------------------------', end='\n')

# Obtener valores únicos en una columna específica
print("nValores únicos en la columna 'Date':")
print(df['Date'].unique())
print('-----------------------------------------', end='\n')

### Filtrado de Datos
    - Filtra el DataFrame para mostrar solo las filas donde las ventas (Ventas) sean mayores a 50.
    - Filtra el DataFrame para mostrar solo las filas donde el precio (Precio) sea menor a 0.5.
    - Utilizando el método query(), filtra el DataFrame para mostrar las filas donde el producto sea Manzanas y las ventas sean mayores a 30.

In [None]:
# Filtrado de ventas
ventas_mayores_a_50 = df[(df['Total Amount'] > 50)]
print(ventas_mayores_a_50)
print('-----------------------------------------', end='\n')

# Filtrado de ventas
ventas_menores_a_0_5 = df[(df['Price per Unit'] < 0.5)]
print(ventas_menores_a_0_5)
print('-----------------------------------------', end='\n')

# Metodo query
query_result = df.query('`Product Category` == "Electronics" & `Total Amount` > 30')
print(query_result)
print('-----------------------------------------', end='\n')

### Slicing de Datos
    - Selecciona y muestra solo las columnas Producto y Ventas del DataFrame.
    - Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas Producto y Tienda.
    - Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame.

In [27]:
print(df.head(5))
print('-----------------------------------------', end='\n')


print(df.columns)
print('-----------------------------------------', end='\n')

# Seleccionar Name y Global_Sales
sliced_rows = df[['Date','Date']]
print(sliced_rows)
print('-----------------------------------------', end='\n')

# Seleccionar filas y columnas específicas con loc
loc_result = df.loc[5:10, ['Date', 'Gender']]
print(loc_result)
print('-----------------------------------------', end='\n')

# Seleccionar filas y columnas específicas con iloc
iloc_result = df.iloc[0:5, 0:3]
print(iloc_result)
print('-----------------------------------------', end='\n')

   Transaction ID        Date Customer ID  Gender  Age Product Category  \
0               1  2023-11-24     CUST001    Male   34           Beauty   
1               2  2023-02-27     CUST002  Female   26         Clothing   
2               3  2023-01-13     CUST003    Male   50      Electronics   
3               4  2023-05-21     CUST004    Male   37         Clothing   
4               5  2023-05-06     CUST005    Male   30           Beauty   

   Quantity  Price per Unit  Total Amount  
0         3              50           150  
1         2             500          1000  
2         1              30            30  
3         1             500           500  
4         2              50           100  
-----------------------------------------
Index(['Transaction ID', 'Date', 'Customer ID', 'Gender', 'Age',
       'Product Category', 'Quantity', 'Price per Unit', 'Total Amount'],
      dtype='object')
-----------------------------------------
           Date        Date
0    2023-11