In [None]:
!pip install numpy
!python3 -m pip install numpy

!pip install pandas
!python3 -m pip install pandas

!pip install matplotlib
!python3 -m pip install matplotlib

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Parte 1: Exploración Inicial

### 1. Importación del dataset y muestra de las primeras filas

In [7]:
# Importación

df_salesDataSample_csv = pd.read_csv('./data/sales_data_sample.csv', encoding="latin-1")

# Primeras 5 filas

df_salesDataSample_csv.head()

Unnamed: 0,ORDERNUMBER,QUANTITYORDERED,PRICEEACH,ORDERLINENUMBER,SALES,ORDERDATE,STATUS,QTR_ID,MONTH_ID,YEAR_ID,...,ADDRESSLINE1,ADDRESSLINE2,CITY,STATE,POSTALCODE,COUNTRY,TERRITORY,CONTACTLASTNAME,CONTACTFIRSTNAME,DEALSIZE
0,10107,30,95.7,2,2871.0,2/24/2003 0:00,Shipped,1,2,2003,...,897 Long Airport Avenue,,NYC,NY,10022.0,USA,,Yu,Kwai,Small
1,10121,34,81.35,5,2765.9,5/7/2003 0:00,Shipped,2,5,2003,...,59 rue de l'Abbaye,,Reims,,51100.0,France,EMEA,Henriot,Paul,Small
2,10134,41,94.74,2,3884.34,7/1/2003 0:00,Shipped,3,7,2003,...,27 rue du Colonel Pierre Avia,,Paris,,75508.0,France,EMEA,Da Cunha,Daniel,Medium
3,10145,45,83.26,6,3746.7,8/25/2003 0:00,Shipped,3,8,2003,...,78934 Hillside Dr.,,Pasadena,CA,90003.0,USA,,Young,Julie,Medium
4,10159,49,100.0,14,5205.27,10/10/2003 0:00,Shipped,4,10,2003,...,7734 Strong St.,,San Francisco,CA,,USA,,Brown,Julie,Medium


### 2. Dimensiones del DataFrame y los tipos de datos

In [9]:
#Dimension del data frame
df_salesDataSample_csv.shape

(2823, 25)

In [None]:
#Tipos de datos
df_salesDataSample_csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2823 entries, 0 to 2822
Data columns (total 25 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ORDERNUMBER       2823 non-null   int64  
 1   QUANTITYORDERED   2823 non-null   int64  
 2   PRICEEACH         2823 non-null   float64
 3   ORDERLINENUMBER   2823 non-null   int64  
 4   SALES             2823 non-null   float64
 5   ORDERDATE         2823 non-null   object 
 6   STATUS            2823 non-null   object 
 7   QTR_ID            2823 non-null   int64  
 8   MONTH_ID          2823 non-null   int64  
 9   YEAR_ID           2823 non-null   int64  
 10  PRODUCTLINE       2823 non-null   object 
 11  MSRP              2823 non-null   int64  
 12  PRODUCTCODE       2823 non-null   object 
 13  CUSTOMERNAME      2823 non-null   object 
 14  PHONE             2823 non-null   object 
 15  ADDRESSLINE1      2823 non-null   object 
 16  ADDRESSLINE2      302 non-null    object 


### 3. Identificación de las regiones que más aparecen

In [29]:
regions = df_salesDataSample_csv["TERRITORY"].value_counts()
regions

TERRITORY
EMEA     1407
APAC      221
Japan     121
Name: count, dtype: int64

### 4. Cálculo de valores mínimos, máximos y promedios de las columnas numéricas

In [15]:
df_salesDataSample_csv.describe()

Unnamed: 0,ORDERNUMBER,QUANTITYORDERED,PRICEEACH,ORDERLINENUMBER,SALES,QTR_ID,MONTH_ID,YEAR_ID,MSRP
count,2823.0,2823.0,2823.0,2823.0,2823.0,2823.0,2823.0,2823.0,2823.0
mean,10258.725115,35.092809,83.658544,6.466171,3553.889072,2.717676,7.092455,2003.81509,100.715551
std,92.085478,9.741443,20.174277,4.225841,1841.865106,1.203878,3.656633,0.69967,40.187912
min,10100.0,6.0,26.88,1.0,482.13,1.0,1.0,2003.0,33.0
25%,10180.0,27.0,68.86,3.0,2203.43,2.0,4.0,2003.0,68.0
50%,10262.0,35.0,95.7,6.0,3184.8,3.0,8.0,2004.0,99.0
75%,10333.5,43.0,100.0,9.0,4508.0,4.0,11.0,2004.0,124.0
max,10425.0,97.0,100.0,18.0,14082.8,4.0,12.0,2005.0,214.0


In [30]:
#Fecha del primer pedido

#df_salesDataSample_csv["ORDERDATE"].sort_values().head(1), df_salesDataSample_csv["ORDERDATE"].sort_values().tail(1)

dateRange = df_salesDataSample_csv['ORDERDATE'].min(), df_salesDataSample_csv['ORDERDATE'].max()
dateRange


('1/10/2003 0:00', '9/9/2004 0:00')

#### Preguntas guía: 
• **¿Cuántas regiones distintas hay en el dataset?**

Hay 3 regiones distintas: EMEA, APAC y Japan

• **¿Cuál es el rango de fechas de los pedidos?**

Entre el 1/10/2003 y el 9/9/2004, siguiendo el formato de fecha mm/dd/yyyy

• **¿Cuál parece ser la región con mayor volumen de pedidos?**

EMEA


## Parte 2: Manipulación y análisis

### 1. Eliminación de filas duplicadas (si existen)

In [41]:
# shape sin eliminar filas duplicadas: (2823, 25)

df_salesDataSample_csv = df_salesDataSample_csv.drop_duplicates()

### 2. Cálculo de ventas totales (Total Revenue) y ganancias totales (Total Profit) por region

In [42]:
# Ventas totales

totalRevenue = df_salesDataSample_csv.groupby('TERRITORY')['QUANTITYORDERED'].sum()
totalRevenue

TERRITORY
APAC      7482
EMEA     49306
Japan     4327
Name: QUANTITYORDERED, dtype: int64

In [43]:
totalProfit = df_salesDataSample_csv.groupby('TERRITORY')['SALES'].sum()
totalProfit

TERRITORY
APAC      746121.83
EMEA     4979272.41
Japan     455173.22
Name: SALES, dtype: float64

### 3. Mostrar resultados ordenados de mayor a menor ganancia

In [44]:
# Resultados ordenados
print('Total Revenue: \n', totalRevenue.sort_values(ascending = False))
print('\n')
print('Total Profit: \n', totalProfit.sort_values(ascending= False))

Total Revenue: 
 TERRITORY
EMEA     49306
APAC      7482
Japan     4327
Name: QUANTITYORDERED, dtype: int64


Total Profit: 
 TERRITORY
EMEA     4979272.41
APAC      746121.83
Japan     455173.22
Name: SALES, dtype: float64


### 4. Cálculo del promedio de margen por canal de venta (Online vs Offline)

#### Preguntas guía

• ¿Qué región genera más ingresos totales?

• ¿El canal online o el offline es más rentable?

• ¿Cuál es el margen promedio global de la empresa?


## Parte 3: Visualización y storytelling

### 1. Gráfico de barras mostrando las ventas totales por región

### 2. Gráfico circular mosstrando la proporción de ventas por canal

### 3. Gráfico de línea o dispersión mostrando la relación entre Unit Price y Total Profit

#### Reto adicional: Identificar los 3 productos más rentables y mostrarlos en un gráfico de barras horizontal, con títulos y etiquetas claras.