<a href="https://colab.research.google.com/github/Javorai/Coding-Dojo-Core/blob/main/Pandas_para_Ciencia_de_Datos_Proyecto_I_Parte_2_(Core).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Proyecto I- Parte 2 (Core)**

**Análisis y Predicción de Ventas en una Tienda de Retail**

**Parte II: Análisis Exploratorio con Pandas**

En esta segunda parte del proyecto, vamos a utilizar Pandas para realizar un análisis exploratorio más detallado de nuestro dataset de ventas. El objetivo es aplicar técnicas de carga, exploración, filtrado y slicing de datos para obtener una comprensión profunda de los datos y preparar el dataset para futuros análisis y modelados predictivos.

**Instrucciones**

1.  **Preparación del Entorno**
* Asegúrate de tener instalado Pandas en tu entorno de trabajo.
* Utiliza el archivo retail_sales.csv del proyecto inicial. Si aún no lo tienes, descarga el archivo correspondiente.
2.  **Cargar los Datos**
* Carga el archivo retail_sales.csv en un DataFrame de Pandas.
* Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.
3.  **Exploración Inicial de los Datos**
* Muestra las últimas 5 filas del DataFrame.
* Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
* Genera estadísticas descriptivas del DataFrame utilizando el método describe().
4.  **Inspección de los Datos**
* Inspecciona los tipos de datos de cada columna utilizando el atributo dtypes.
Cuenta los valores únicos en la columna Producto utilizando el método value_counts().
* Muestra todos los valores únicos en la columna Tienda utilizando el método unique().
5.  **Filtrado de Datos**
* Filtra el DataFrame para mostrar solo las filas donde las ventas (Ventas) sean mayores a 50.
* Filtra el DataFrame para mostrar solo las filas donde el precio (Precio) sea menor a 0.5.
* Utilizando el método query(), filtra el DataFrame para mostrar las filas donde el producto sea Manzanas y las ventas sean mayores a 30.
6.  **Slicing de Datos**
* Selecciona y muestra solo las columnas Producto y Ventas del DataFrame.
* Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas Producto y Tienda.
* Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame.


In [1]:
#Importación de datos y librerias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = "/content/drive/MyDrive/Bootcamp Coding Dojo/DataScience/Tareas Core/Archivos CSV-Tareas/retail_sales_dataset.csv"
df = pd.read_csv(url)
df

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150


In [2]:
# Primeros 10 datos
print(df.head(10))

   Transaction ID        Date Customer ID  Gender  Age Product Category  \
0               1  2023-11-24     CUST001    Male   34           Beauty   
1               2  2023-02-27     CUST002  Female   26         Clothing   
2               3  2023-01-13     CUST003    Male   50      Electronics   
3               4  2023-05-21     CUST004    Male   37         Clothing   
4               5  2023-05-06     CUST005    Male   30           Beauty   
5               6  2023-04-25     CUST006  Female   45           Beauty   
6               7  2023-03-13     CUST007    Male   46         Clothing   
7               8  2023-02-22     CUST008    Male   30      Electronics   
8               9  2023-12-13     CUST009    Male   63      Electronics   
9              10  2023-10-07     CUST010  Female   52         Clothing   

   Quantity  Price per Unit  Total Amount  
0         3              50           150  
1         2             500          1000  
2         1              30            30 

In [3]:
# Ultimos 5 datos
print(df.tail(5))

     Transaction ID        Date Customer ID  Gender  Age Product Category  \
995             996  2023-05-16     CUST996    Male   62         Clothing   
996             997  2023-11-17     CUST997    Male   52           Beauty   
997             998  2023-10-29     CUST998  Female   23           Beauty   
998             999  2023-12-05     CUST999  Female   36      Electronics   
999            1000  2023-04-12    CUST1000    Male   47      Electronics   

     Quantity  Price per Unit  Total Amount  
995         1              50            50  
996         3              30            90  
997         4              25           100  
998         3              50           150  
999         4              30           120  


In [4]:
# Información general del Dataframe
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB
None


In [5]:
# Estadisticas descriptivas del Dataframe
print(df.describe())

       Transaction ID         Age     Quantity  Price per Unit  Total Amount
count     1000.000000  1000.00000  1000.000000     1000.000000   1000.000000
mean       500.500000    41.39200     2.514000      179.890000    456.000000
std        288.819436    13.68143     1.132734      189.681356    559.997632
min          1.000000    18.00000     1.000000       25.000000     25.000000
25%        250.750000    29.00000     1.000000       30.000000     60.000000
50%        500.500000    42.00000     3.000000       50.000000    135.000000
75%        750.250000    53.00000     4.000000      300.000000    900.000000
max       1000.000000    64.00000     4.000000      500.000000   2000.000000


In [6]:
# Tipos de datos
print(df.dtypes)

Transaction ID       int64
Date                object
Customer ID         object
Gender              object
Age                  int64
Product Category    object
Quantity             int64
Price per Unit       int64
Total Amount         int64
dtype: object


In [8]:
# Valores unicos en la columna Producto
print(df['Product Category'].value_counts())

Product Category
Clothing       351
Electronics    342
Beauty         307
Name: count, dtype: int64


In [10]:
# Valores unicos
print(df['Product Category'].unique())

['Beauty' 'Clothing' 'Electronics']


In [11]:
# Filtrado de Datos de Ventas
df_filtrado_Ventas = df[df['Total Amount'] > 50]
print(df_filtrado_Ventas)

     Transaction ID        Date Customer ID  Gender  Age Product Category  \
0                 1  2023-11-24     CUST001    Male   34           Beauty   
1                 2  2023-02-27     CUST002  Female   26         Clothing   
3                 4  2023-05-21     CUST004    Male   37         Clothing   
4                 5  2023-05-06     CUST005    Male   30           Beauty   
7                 8  2023-02-22     CUST008    Male   30      Electronics   
..              ...         ...         ...     ...  ...              ...   
993             994  2023-12-18     CUST994  Female   51           Beauty   
996             997  2023-11-17     CUST997    Male   52           Beauty   
997             998  2023-10-29     CUST998  Female   23           Beauty   
998             999  2023-12-05     CUST999  Female   36      Electronics   
999            1000  2023-04-12    CUST1000    Male   47      Electronics   

     Quantity  Price per Unit  Total Amount  
0           3              50

In [12]:
# Filtrado de Datos de Precio
df_filtrado_Precio = df[df['Price per Unit'] > 0.5]
print(df_filtrado_Precio)

     Transaction ID        Date Customer ID  Gender  Age Product Category  \
0                 1  2023-11-24     CUST001    Male   34           Beauty   
1                 2  2023-02-27     CUST002  Female   26         Clothing   
2                 3  2023-01-13     CUST003    Male   50      Electronics   
3                 4  2023-05-21     CUST004    Male   37         Clothing   
4                 5  2023-05-06     CUST005    Male   30           Beauty   
..              ...         ...         ...     ...  ...              ...   
995             996  2023-05-16     CUST996    Male   62         Clothing   
996             997  2023-11-17     CUST997    Male   52           Beauty   
997             998  2023-10-29     CUST998  Female   23           Beauty   
998             999  2023-12-05     CUST999  Female   36      Electronics   
999            1000  2023-04-12    CUST1000    Male   47      Electronics   

     Quantity  Price per Unit  Total Amount  
0           3              50

In [19]:
# Filtrado Electronics x Product Category
df_filtrado_Electronics = df.query('`Product Category` == "Electronics" and Quantity > 2')
print(df_filtrado_Electronics)

     Transaction ID        Date Customer ID  Gender  Age Product Category  \
7                 8  2023-02-22     CUST008    Male   30      Electronics   
12               13  2023-08-05     CUST013    Male   22      Electronics   
14               15  2023-01-16     CUST015  Female   42      Electronics   
30               31  2023-05-23     CUST031    Male   44      Electronics   
45               46  2023-06-26     CUST046  Female   20      Electronics   
..              ...         ...         ...     ...  ...              ...   
976             977  2023-02-08     CUST977  Female   35      Electronics   
979             980  2023-07-29     CUST980  Female   31      Electronics   
992             993  2023-02-06     CUST993  Female   48      Electronics   
998             999  2023-12-05     CUST999  Female   36      Electronics   
999            1000  2023-04-12    CUST1000    Male   47      Electronics   

     Quantity  Price per Unit  Total Amount  
7           4              25

In [20]:
# Slicing de Datos Product Category y Quantity
df_slicing_1 = df[['Product Category', 'Quantity']]
print(df_slicing_1)

    Product Category  Quantity
0             Beauty         3
1           Clothing         2
2        Electronics         1
3           Clothing         1
4             Beauty         2
..               ...       ...
995         Clothing         1
996           Beauty         3
997           Beauty         4
998      Electronics         3
999      Electronics         4

[1000 rows x 2 columns]


In [21]:
# Slicing de Datos Product Category y Quantity
df_slicing_2_loc = df.loc[5:10, ['Product Category', 'Quantity']]
print(df_slicing_2_loc)

   Product Category  Quantity
5            Beauty         1
6          Clothing         2
7       Electronics         4
8       Electronics         2
9          Clothing         4
10         Clothing         2


In [22]:
# Slicing de Datos DataFrame
df_slicing_iloc = df.iloc[:5, :3]
print(df_slicing_iloc)

   Transaction ID        Date Customer ID
0               1  2023-11-24     CUST001
1               2  2023-02-27     CUST002
2               3  2023-01-13     CUST003
3               4  2023-05-21     CUST004
4               5  2023-05-06     CUST005
