# Desafio - Transformación y manipulación de datos (Parte II)


## Análisis de información para empresa ADL

### Desarrollo

#### 1. 

Para comenzar a desarrollar el desafío importamos la librería Pandas

Cargamos el archivo Excel en la variable **archivo_excel** donde usamos la función **ExcelFile** para cargar un archivo Excel especificado por la ruta. Esta función permite acceder a las diferentes hojas del archivo.

Para obtener el nombre de las hojas usamos la propiedad **sheet_names** la que nos entrega una lista de los nombres de todas las hojas en el archivo Excel cargado.

Usamos la variable **nombre_reportes** para mostrar una lista con todas las hojas del archivo.


In [1]:
import pandas as pd

# Cargar los nombres de las hojas
archivo_excel = pd.ExcelFile('/Users/andrea/Desktop/DATA SCIENCE/Modulo 2-Python/manipulacion y transformacion de datos 2/Apoyo Desafío - Manipulación y transformación de datos (Parte II)/US_Regional_Sales_Data.xlsx')

# Obtener el nombre de las hojas

nombre_reportes = archivo_excel.sheet_names

nombre_reportes   

['Sales Orders Sheet',
 'Customers Sheet',
 'Store Locations Sheet',
 'Products Sheet',
 'Sales Team Sheet']

A continuacón creamos un diccionario con las hojas del archivo, ya que si bien no es estrictamente necesario tiene varias ventajas cuando se trabaja con archivos Excel que contienen múltiples hojas.

Creamos un diccionario por compresión de DataFrame, donde la *key* se llama **hoja** y el *valor* corresponde a **pd.read_excel(archivo_excel, sheet_name=hoja)**. 
**pd.read_excel** es una función que carga datos de una hoja de cálculo Excel. **sheet_name=hoja** especifica qué hoja cargar en cada iteración.
**for hoja in nombre_reportes** itera sobre la lista *nombre_reportes* que contiene los nombres de todas las hojas del archivo Excel.


In [2]:
# Crear un diccionario para almacenar los DataFrames
data_frames_dict = {hoja: pd.read_excel(archivo_excel, sheet_name=hoja) for hoja in nombre_reportes}

data_frames_dict

{'Sales Orders Sheet':        OrderNumber Sales Channel WarehouseCode ProcuredDate  OrderDate  \
 0      SO - 000101      In-Store  WARE-UHY1004   2017-12-31 2018-05-31   
 1      SO - 000102        Online  WARE-NMK1003   2017-12-31 2018-05-31   
 2      SO - 000103   Distributor  WARE-UHY1004   2017-12-31 2018-05-31   
 3      SO - 000104     Wholesale  WARE-NMK1003   2017-12-31 2018-05-31   
 4      SO - 000105   Distributor  WARE-NMK1003   2018-04-10 2018-05-31   
 ...            ...           ...           ...          ...        ...   
 7986  SO - 0008087      In-Store  WARE-MKL1006   2020-09-26 2020-12-30   
 7987  SO - 0008088        Online  WARE-NMK1003   2020-09-26 2020-12-30   
 7988  SO - 0008089        Online  WARE-UHY1004   2020-09-26 2020-12-30   
 7989  SO - 0008090        Online  WARE-NMK1003   2020-09-26 2020-12-30   
 7990  SO - 0008091      In-Store  WARE-UHY1004   2020-09-26 2020-12-30   
 
        ShipDate DeliveryDate CurrencyCode  _SalesTeamID  _CustomerID  \
 0 

#### 2.

Se crean DataFrames a partir del diccionario **data_frames_dict** que contiene las hojas de datos extraídas del archivo Excel. Cada entrada del diccionario se convierte en un DataFrame separado:

- *orders* contendrá los datos de la hoja de pedidos de ventas.
- *customers* contendrá los datos de la hoja de clientes.
- *store_locations* contendrá los datos de la hoja de ubicaciones de tiendas.
- *products* contendrá los datos de la hoja de productos.
- *sales_team* contendrá los datos de la hoja de equipo de ventas.

A continuación se realiza el cruce de los DataFrames para crear un único DataFrame llamado **df_base**. Para ello usamos **merge()**. Explicaré cada combinación:

- **Primer merge**: se combinan los DataFrames *orders* y *customers* usando la columna **_CustomerID** como clave. El tipo de combinación es *inner*, ya que al no especificar el parámetro *how*, éste toma el valor pór defecto. La validación *many_to_one* asegura que cada valor en orders se mapea con un solo valor en customers.

- **Segunfo merge**: une el DataFrame resultante del primer merge (*df_base*) con el DataFrame *store_locations* utilizando la columna **_StoreID** como clave.

- **Tercer merge**: une el DataFrame *df_base* con el DataFrame *products* utilizando la columna **_ProductID** como clave.

- **Cuarto merge**: une el DataFrame *df_base* con el DataFrame *sales_team* utilizando la columna **_SalesTeamID** como clave.

In [42]:
# Crear DataFrames
orders = data_frames_dict['Sales Orders Sheet']
store_locations = data_frames_dict['Store Locations Sheet']
customers = data_frames_dict['Customers Sheet']
products = data_frames_dict['Products Sheet']
sales_team = data_frames_dict['Sales Team Sheet']

#Cruzar los DataFrames
df_base = orders.merge(customers, on='_CustomerID',validate='many_to_one')
df_base = df_base.merge(store_locations, on='_StoreID', validate='many_to_one')
df_base = df_base.merge(products, on='_ProductID', validate='many_to_one')
df_base = df_base.merge(sales_team, on='_SalesTeamID', validate='many_to_one')

df_base.head(10)

Unnamed: 0,OrderNumber,Sales Channel,WarehouseCode,ProcuredDate,OrderDate,ShipDate,DeliveryDate,CurrencyCode,_SalesTeamID,_CustomerID,...,AreaCode,Population,Household Income,Median Income,Land Area,Water Area,Time Zone,Product Name,Sales Team,Region
0,SO - 000101,In-Store,WARE-UHY1004,2017-12-31,2018-05-31,2018-06-14,2018-06-19,USD,6,15,...,631,213776,68789,80327,135481314,160302131,America/New York,Dining Furniture,Joshua Bennett,Northeast
1,SO - 0002491,In-Store,WARE-NMK1003,2018-10-27,2019-03-06,2019-03-25,2019-03-30,USD,6,11,...,478,153515,57025,36568,645603627,14488557,America/New York,Dining Furniture,Joshua Bennett,Northeast
2,SO - 0001458,In-Store,WARE-NMK1003,2018-07-19,2018-11-09,2018-11-11,2018-11-17,USD,6,12,...,719,456568,174441,54527,506667557,947196,America/Denver,Dining Furniture,Joshua Bennett,Northeast
3,SO - 0005166,In-Store,WARE-PUJ1005,2019-08-23,2020-01-22,2020-01-28,2020-01-31,USD,6,7,...,716,258071,110549,31918,104592941,31362925,America/New York,Dining Furniture,Joshua Bennett,Northeast
4,SO - 0002439,In-Store,WARE-UHY1004,2018-10-27,2019-02-26,2019-03-06,2019-03-10,USD,6,33,...,702,223182,88401,43911,121034884,0,America/Los Angeles,Dining Furniture,Joshua Bennett,Northeast
5,SO - 0006567,In-Store,WARE-NMK1003,2020-03-10,2020-07-06,2020-07-18,2020-07-22,USD,6,18,...,706,123912,45389,39464,308738452,4741286,America/New York,Baseball,Joshua Bennett,Northeast
6,SO - 0001359,In-Store,WARE-NMK1003,2018-07-19,2018-10-29,2018-11-02,2018-11-09,USD,6,31,...,719,109412,43249,34550,138802381,2033674,America/Denver,Baseball,Joshua Bennett,Northeast
7,SO - 0006713,In-Store,WARE-UHY1004,2020-03-10,2020-07-21,2020-08-15,2020-08-16,USD,6,48,...,631,213776,68789,80327,135481314,160302131,America/New York,Computers,Joshua Bennett,Northeast
8,SO - 0002401,In-Store,WARE-NBV1002,2018-10-27,2019-02-21,2019-03-08,2019-03-17,USD,6,46,...,805,105093,27365,50433,59005328,1648788,America/Los Angeles,Computers,Joshua Bennett,Northeast
9,SO - 0006674,In-Store,WARE-NMK1003,2020-03-10,2020-07-17,2020-08-11,2020-08-15,USD,6,9,...,815,147861,46895,60976,166876584,1718805,America/Chicago,Computers,Joshua Bennett,Northeast


#### 3.

1. Antes de agregar las columnas solicitadas nos tenemos que asegurar que las columnas con infomación de fecha sean del tipo *datetime*. Este paso convierte las columnas de fechas en el DataFrame *df_base* al tipo de dato *datetime*:

    - **pd.to_datetime(df_base['OrderDate'])**: Convierte la columna *OrderDate* a tipo datetime.Este proceso se repite para las columnas *ProcuredDate*, *ShipDate* y *DeliveryDate*.
    
    - **df_base.info()**: Nos entrega información del tipo de dato de cada columna y nos sirve para verificar si estan correctas las columnas que acabamos de cambiar.
    
    
    
2. Calculamos las nuevas columnas según lo solicitado:

    - **ProcurementDays**: Calcula la diferencia en días entre *OrderDate* y *ProcuredDate*. Esta diferencia se almacena en la nueva columna **ProcurementDays**.

    - **ShippingDays**: Calcula la diferencia en días entre *ShipDate* y *OrderDate*. Esta diferencia se almacena en la nueva columna **ShippingDays**.
    
    - **DeliveryDays**: Calcula la diferencia en días entre *DeliveryDate* y *ShipDate*. Esta diferencia se almacena en la nueva columna **DeliveryDays**.
    
    - **CustomerDays**: Suma los valores de las columnas ShippingDays y DeliveryDays.Esta suma se almacena en la nueva columna **CustomerDays**.
    
    - Con **dt.days** obtenemos los dias de cada fecha para realizar los cálculos anteriores.
    
    - **df_base['CustomerDays'] = df_base['ShippingDays'] + df_base['DeliveryDays']** no incluye *dt.days* porque *ShippingDays* y *DeliveryDays* ya son columnas de tipo entero que representan la cantidad de días.
 


In [4]:
# Asegurar de que las columnas sean de tipo datetime
df_base['OrderDate'] = pd.to_datetime(df_base['OrderDate'])
df_base['ProcuredDate'] = pd.to_datetime(df_base['ProcuredDate'])
df_base['ShipDate'] = pd.to_datetime(df_base['ShipDate'])
df_base['DeliveryDate'] = pd.to_datetime(df_base['DeliveryDate'])

df_base.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7991 entries, 0 to 7990
Data columns (total 34 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   OrderNumber       7991 non-null   object        
 1   Sales Channel     7991 non-null   object        
 2   WarehouseCode     7991 non-null   object        
 3   ProcuredDate      7991 non-null   datetime64[ns]
 4   OrderDate         7991 non-null   datetime64[ns]
 5   ShipDate          7991 non-null   datetime64[ns]
 6   DeliveryDate      7991 non-null   datetime64[ns]
 7   CurrencyCode      7991 non-null   object        
 8   _SalesTeamID      7991 non-null   int64         
 9   _CustomerID       7991 non-null   int64         
 10  _StoreID          7991 non-null   int64         
 11  _ProductID        7991 non-null   int64         
 12  Order Quantity    7991 non-null   int64         
 13  Discount Applied  7991 non-null   float64       
 14  Unit Price        7991 n

In [5]:
# Calcular las nuevas columnas
df_base['ProcurementDays'] = (df_base['OrderDate'] - df_base['ProcuredDate']).dt.days
df_base['ShippingDays'] = (df_base['ShipDate'] - df_base['OrderDate']).dt.days
df_base['DeliveryDays'] = (df_base['DeliveryDate'] - df_base['ShipDate']).dt.days
df_base['CustomerDays'] = df_base['ShippingDays'] + df_base['DeliveryDays']

df_base[['ProcurementDays', 'ShippingDays', 'DeliveryDays', 'CustomerDays']].head()


Unnamed: 0,ProcurementDays,ShippingDays,DeliveryDays,CustomerDays
0,151,14,5,19
1,130,19,5,24
2,113,2,6,8
3,152,6,3,9
4,122,8,4,12


#### 4. 

1. Primero definimos los intervalos y las etiquetas que se usarán para categorizar los valores en la columna **CustomerDays**

2. Creamos la nueva columna **CustomerDaysInterval**. Utilizamos la función **pd.cut** para segmentar los valores en los intervalos definidos por *intervalo* y asignarles las etiquetas correspondientes de *etiquetas*. En este caso no necesitamos usar *dt.days* porque "df_base['CustomerDays']" ya es una columna de números enteros que representan días. 


In [6]:

# Definir los intervalos y etiquetas
intervalo = [0, 15, 30, 45, 60, 75, 90]
etiquetas = ['0 to 15 days', '15 to 30 days', '30 to 45 days', '45 to 60 days', '60 to 75 days', '75 to 90 days']

# Crear la nueva columna
df_base['CustomerDaysInterval'] = pd.cut(df_base['CustomerDays'], bins=intervalo, labels=etiquetas)
                                   

# Mostrar los cambios 
df_base.head()


Unnamed: 0,OrderNumber,Sales Channel,WarehouseCode,ProcuredDate,OrderDate,ShipDate,DeliveryDate,CurrencyCode,_SalesTeamID,_CustomerID,...,Water Area,Time Zone,Product Name,Sales Team,Region,ProcurementDays,ShippingDays,DeliveryDays,CustomerDays,CustomerDaysInterval
0,SO - 000101,In-Store,WARE-UHY1004,2017-12-31,2018-05-31,2018-06-14,2018-06-19,USD,6,15,...,160302131,America/New York,Dining Furniture,Joshua Bennett,Northeast,151,14,5,19,15 to 30 days
1,SO - 0002491,In-Store,WARE-NMK1003,2018-10-27,2019-03-06,2019-03-25,2019-03-30,USD,6,11,...,14488557,America/New York,Dining Furniture,Joshua Bennett,Northeast,130,19,5,24,15 to 30 days
2,SO - 0001458,In-Store,WARE-NMK1003,2018-07-19,2018-11-09,2018-11-11,2018-11-17,USD,6,12,...,947196,America/Denver,Dining Furniture,Joshua Bennett,Northeast,113,2,6,8,0 to 15 days
3,SO - 0005166,In-Store,WARE-PUJ1005,2019-08-23,2020-01-22,2020-01-28,2020-01-31,USD,6,7,...,31362925,America/New York,Dining Furniture,Joshua Bennett,Northeast,152,6,3,9,0 to 15 days
4,SO - 0002439,In-Store,WARE-UHY1004,2018-10-27,2019-02-26,2019-03-06,2019-03-10,USD,6,33,...,0,America/Los Angeles,Dining Furniture,Joshua Bennett,Northeast,122,8,4,12,0 to 15 days


#### 5. 

1. Creamos una tabla pivote usando la función **pd.pivot_table**:

- **df_base**: es el *data*, que es el DataFrame a partir del cual se va a crear la tabla pivote. 

- **values='OrderNumber'**: La columna que queremos contar, cuyos valores se van a agregar en la tabla pivote. 

- **index='Sales Team'**: Las filas de la tabla pivote, donde cada fila representará un equipo de ventas.

- **columns='CustomerDaysInterval'**: Son las columnas de la tabla pivoteque representarán un intervalo de días del cliente.

- **margins=True**: argumento que usamos para agregar totales marginales, es decir los totales de filas y columnas. 

- **aggfunc='count'**: Es la función de agregación, aquí usamos *count* para contar el número de órdenes.

- **fill_value=0**: Es el valor con el que se llenarán las celdas vacías, usaremos 0 para rellenar.



In [39]:
# Crear una tabla pivote para mostrar el conteo de órdenes agrupando por Sales Team y CustomerDaysInterval
pivot_table = pd.pivot_table(df_base
                             , values='OrderNumber'
                             , index='Sales Team'
                             , columns='CustomerDaysInterval'
                             , margins=True
                             , aggfunc='count'
                             , fill_value=0)

pivot_table

CustomerDaysInterval,0 to 15 days,15 to 30 days,30 to 45 days,45 to 60 days,60 to 75 days,75 to 90 days,All
Sales Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Adam Hernandez,81,179,42,0,0,0,302
Anthony Berry,76,181,41,0,0,0,298
Anthony Torres,81,162,45,0,0,0,288
Carl Nguyen,96,178,40,0,0,0,314
Carlos Miller,65,148,34,0,0,0,247
Chris Armstrong,92,156,44,0,0,0,292
Donald Reynolds,97,163,36,0,0,0,296
Douglas Tucker,87,145,45,0,0,0,277
Frank Brown,85,150,40,0,0,0,275
George Lewis,104,169,42,0,0,0,315


#### 6. 

Creamos la columna **'GrossMargin'**. Dentro de la columna realizamos el cálculo solicitado.

- **df_base['Order Quantity']**: Accede a la columna *Order Quantity*, que contiene la cantidad de productos ordenados para cada registro.

- **df_base['Unit Price']**: Accede a la columna *Unit Price*, que contiene el precio por unidad del producto.

- **df_base['Discount Applied']**: Accede a la columna *Discount Applied*, que contiene el porcentaje de descuento aplicado al precio del producto.

- **df_base['Unit Cost']**: Accede a la columna *Unit Cost*, que contiene el costo por unidad del producto.


In [43]:
# Calcular GrossMargin
df_base['GrossMargin'] = df_base['Order Quantity'] * (df_base['Unit Price'] * (1 - df_base['Discount Applied']) - df_base['Unit Cost'])

df_base[['GrossMargin']].head(10)

Unnamed: 0,GrossMargin
0,4073.4325
1,1988.091
2,2185.272
3,4296.375
4,1118.565
5,1214.442
6,1029.388
7,3177.81
8,6090.903
9,551.812


In [49]:
df_base.columns

Index(['OrderNumber', 'Sales Channel', 'WarehouseCode', 'ProcuredDate',
       'OrderDate', 'ShipDate', 'DeliveryDate', 'CurrencyCode', '_SalesTeamID',
       '_CustomerID', '_StoreID', '_ProductID', 'Order Quantity',
       'Discount Applied', 'Unit Price', 'Unit Cost', 'Customer Names',
       'City Name', 'County', 'StateCode', 'State', 'Type', 'Latitude',
       'Longitude', 'AreaCode', 'Population', 'Household Income',
       'Median Income', 'Land Area', 'Water Area', 'Time Zone', 'Product Name',
       'Sales Team', 'Region', 'GrossMargin', 'CommissionsPercentage',
       'CommissionsAmount', 'NetMargin'],
      dtype='object')

#### 7. 

1. Creamos los intervalos y las etiquetas de acuerdo a lo solicitado.

2. Creamos la columna **'CommissionsPercentage'** y usamos la función **pd.cut**. Con **.astype(float)** conviertimos la columna a tipo float.

In [44]:
# Definir los intervalos y etiquetas numéricas
intervalo = [0, 100, 1000, 10000, 100000]
etiqueta = [0.05, 0.10, 0.15, 0.20]

# Crear la nueva columna
df_base['CommissionsPercentage'] = pd.cut(df_base['GrossMargin'], bins=intervalo, labels=etiqueta).astype(float)

df_base[['CommissionsPercentage']].head(10)

Unnamed: 0,CommissionsPercentage
0,0.15
1,0.15
2,0.15
3,0.15
4,0.15
5,0.15
6,0.15
7,0.15
8,0.15
9,0.1


#### 8. 

Creamos la columna **'CommissionsAmount'** y realizamos el cálculo solicitado.

In [45]:
# Calcular CommissionsAmount
df_base['CommissionsAmount'] = df_base['GrossMargin'] * df_base['CommissionsPercentage']

df_base[['CommissionsAmount']].head(10)


Unnamed: 0,CommissionsAmount
0,611.014875
1,298.21365
2,327.7908
3,644.45625
4,167.78475
5,182.1663
6,154.4082
7,476.6715
8,913.63545
9,55.1812


#### 9.  

Creamos la columna **'NetMargin'** y realizamos el cálculo solicitado.

In [46]:
# Calcular NetMargin
df_base['NetMargin'] = df_base['GrossMargin'] - df_base['CommissionsAmount']

df_base[['NetMargin']].head(10)

Unnamed: 0,NetMargin
0,3462.417625
1,1689.87735
2,1857.4812
3,3651.91875
4,950.78025
5,1032.2757
6,874.9798
7,2701.1385
8,5177.26755
9,496.6308


#### 10. 

Creamos otra tabla pivote: 

- **index**: Usamos como filas *'Sales Team'* donde cada fila representará un equipo de ventas.

- **values**: Usamos como valor de las columnas *'GrossMargin'*, *'NetMargin'*, y *'CommissionsAmount'*.

- **margins**: Añadirá una fila y una columna de totales.

- **aggfunc**: La función de agregación que se aplicará para **sumar** los valores.

- **round(2)**: Redondea los valores a 2 decimales para una mejor presentación.


In [47]:
# Crear la tabla pivote
pivot_table_sum = pd.pivot_table(df_base
                                       , index='Sales Team'
                                       , values=['GrossMargin', 'NetMargin', 'CommissionsAmount']
                                       , margins=True
                                       , aggfunc='sum').round(2)


pivot_table_sum

Unnamed: 0_level_0,CommissionsAmount,GrossMargin,NetMargin
Sales Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adam Hernandez,126637.21,779095.2,677987.33
Anthony Berry,124061.18,767943.95,654798.34
Anthony Torres,117962.21,743901.44,636758.05
Carl Nguyen,123843.21,774781.47,661874.73
Carlos Miller,110882.09,668752.93,580326.02
Chris Armstrong,122565.71,781608.7,660857.42
Donald Reynolds,143768.34,885386.81,754038.26
Douglas Tucker,120806.4,745528.56,633786.05
Frank Brown,104839.47,670881.25,570076.79
George Lewis,136852.26,839150.75,710824.78
