## **Análisis Exploratorio de Datos (EDA): Negocio de Ventas**

### Autor: Isabela Toledo Balcázar

### Marzo 2024

### A) Tabla "Sales"

In [62]:
# Importar librerias necesarias
import openpyxl
import pandas as pd
import numpy as np

1. Carga de datos

In [2]:
# Cargar datos a un Dataframe
dataset_path = "202403-Summan-PruebaTécnica-AnalistaDatos.xlsx"
df = pd.read_excel(dataset_path)

2. Exploración inicial

In [3]:
# Inspeccionar el dataset
df.head()

Unnamed: 0,Row_ID,Order_ID,Order_Date,Ship_Date,Ship_Mode,Customer_ID,Country/Region,City,State/Province,Postal_Code,Region,Product_ID,Sales,Quantity,Discount,Profit
0,1,US-2020-103800,2020-01-03,2020-01-07,Standard Class,DP-13000,United States,Houston,Texas,77095,Central,OFF-PA-10000174,16.448,2,0.2,5.5512
1,2,US-2020-112326,2020-01-04,2020-01-08,Standard Class,PO-19195,United States,Naperville,Illinois,60540,Central,OFF-BI-10004094,3.54,2,0.8,-5.487
2,3,US-2020-112326,2020-01-04,2020-01-08,Standard Class,PO-19195,United States,Naperville,Illinois,60540,Central,OFF-LA-10003223,11.784,3,0.2,4.2717
3,4,US-2020-112326,2020-01-04,2020-01-08,Standard Class,PO-19195,United States,Naperville,Illinois,60540,Central,OFF-ST-10002743,272.736,3,0.2,-64.7748
4,5,US-2020-141817,2020-01-05,2020-01-12,Standard Class,MB-18085,United States,Philadelphia,Pennsylvania,19143,East,OFF-AR-10003478,19.536,3,0.2,4.884


In [5]:
# Obtener descripción de la estructura e información básica del contenido del DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11742 entries, 0 to 11741
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Row_ID          11742 non-null  int64         
 1   Order_ID        11742 non-null  object        
 2   Order_Date      11742 non-null  datetime64[ns]
 3   Ship_Date       11742 non-null  datetime64[ns]
 4   Ship_Mode       11742 non-null  object        
 5   Customer_ID     11742 non-null  object        
 6   Country/Region  11671 non-null  object        
 7   City            11742 non-null  object        
 8   State/Province  11742 non-null  object        
 9   Postal_Code     11742 non-null  object        
 10  Region          11742 non-null  object        
 11  Product_ID      11742 non-null  object        
 12  Sales           11742 non-null  object        
 13  Quantity        11742 non-null  int64         
 14  Discount        11742 non-null  float64       
 15  Pr

* El dataset tiene 11742 filas y 16 columnas
* Se observa inicialmente que hay datos nulos en la columna "Country/Region"
* Columnas como "Sales" y "Profit" deberían ser de tipo numérico

3. Limpieza de datos

* Remover duplicados

In [6]:
# Chequear si hay valores duplicados
print("Filas duplicadas:", df.duplicated().sum())

Filas duplicadas: 1547


In [7]:
# Remover duplicados
df.drop_duplicates(inplace=True)
print('Filas duplicadas:', df.duplicated().sum())
df.shape

Filas duplicadas: 0


(10195, 16)

* Manejo de datos faltantes

In [8]:
# Chequear si hay valores faltantes
df.isnull().sum().sort_values(ascending = False)

Country/Region    63
Row_ID             0
Order_ID           0
Order_Date         0
Ship_Date          0
Ship_Mode          0
Customer_ID        0
City               0
State/Province     0
Postal_Code        0
Region             0
Product_ID         0
Sales              0
Quantity           0
Discount           0
Profit             0
dtype: int64

In [9]:
# Extraigo un subset del df para ver las filas nulas de la columna "Country/Region" más su correspondiente ciudad
# Para llenar valores faltantes de acuerdo a los valores de la columna "Order_ID"
filas_pais_nulo = df[df["Country/Region"].isnull()]
subset_df = filas_pais_nulo[["Country/Region", "Order_ID"]]
print(subset_df)

      Country/Region        Order_ID
68               NaN  US-2020-110422
318              NaN  US-2020-101770
392              NaN  US-2020-102715
393              NaN  US-2020-102715
395              NaN  US-2020-102715
...              ...             ...
10196            NaN  US-2023-144694
10206            NaN  US-2023-144694
10723            NaN  US-2023-161130
11196            NaN  US-2023-148768
11252            NaN  US-2023-164917

[63 rows x 2 columns]


In [10]:
#Hallo cuales son los valores unicos de Order_ID
#Si Order_ID empieza con 'US-' la orden fue en Estados unidos, si empieza con 'CA-' fue en Canada
valores_unicos_ORDERID = subset_df["Order_ID"].unique()
print("valores correspondientes de columna Order ID:", valores_unicos_ORDERID)

valores correspondientes de columna Order ID: ['US-2020-110422' 'US-2020-101770' 'US-2020-102715' 'US-2020-156244'
 'US-2020-130918' 'US-2020-169775' 'US-2020-107573' 'US-2020-113166'
 'US-2021-143532' 'US-2021-103793' 'US-2021-101868' 'US-2021-147011'
 'US-2021-162761' 'US-2021-105571' 'US-2021-136147' 'US-2021-163965'
 'US-2021-141754' 'US-2022-122518' 'US-2022-169103' 'US-2022-160598'
 'US-2022-142902' 'US-2022-153318' 'US-2022-165827' 'US-2022-158309'
 'US-2022-135209' 'US-2023-148999' 'US-2023-161851' 'US-2023-151218'
 'US-2023-133781' 'US-2023-148810' 'US-2023-152492' 'US-2023-146878'
 'US-2023-121314' 'US-2023-144694' 'US-2023-161130' 'US-2023-148768'
 'US-2023-164917']


In [11]:
#Lleno los valores faltantes de la columna "Country/Region" con "United States" porque se comprobró con el Order ID que
#todos los datos faltantes correspondian a ordenes de Estados Unidos
df["Country/Region"].fillna("United States", inplace=True)
print("Valores nulos en la columna Country/Region:", df["Country/Region"].isnull().sum())

Valores nulos en la columna Country/Region: 0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["Country/Region"].fillna("United States", inplace=True)


* Dar formato adecuado a las columnas que lo requieren

Damos formato numerico a las columnas correspondientes:

df["Sales"] = df["Sales"].astype(float)

df["Profit"] = df["Profit"].astype(float)

Sin embargo, se encontraron errores al ejecutar esas lineas de código, lo cual sugiere que hay datos no numéricos en esas columnas y deben ser corregidos.

In [12]:
# Primero, se intenta convertir los valores de la columna a numéricos
# Si hay cadenas de texto, se producirá un error y se marcarán como no numéricas
valores_numericos = pd.to_numeric(df["Sales"], errors='coerce')

# Ahora, se filtra el DataFrame original para mostrar solo las filas no numéricas de la columna "Sales"
filas_no_numericas = df["Sales"][valores_numericos.isnull()]

# Muestra las filas no numéricas
print("Filas no numéricas en columna Sales:", filas_no_numericas)

Filas no numéricas en columna Sales: 8473    o
8474    o
8475    l
Name: Sales, dtype: object


In [13]:
# Hacemos reemplazo de los datos faltantes, teniendo en cuenta el valor unitario, la cantidad y el descuento (ver Excel)
df.at[8473, "Sales"] = 5.28
df.at[8474, "Sales"] = 198.272
df.at[8475, "Sales"] = 242.352
print("Nuevo valor de la fila 8473:", df.at[8473, "Sales"])
print("Nuevo valor de la fila 8474:", df.at[8474, "Sales"])
print("Nuevo valor de la fila 8475:", df.at[8475, "Sales"])

Nuevo valor de la fila 8473: 5.28
Nuevo valor de la fila 8474: 198.272
Nuevo valor de la fila 8475: 242.352


In [14]:
# Ahora se cambia el formato de la columna "Sales" a numérico
df["Sales"] = df["Sales"].astype(float)

In [15]:
# Se repite el mismo proceso para corregir el dato no numerico de la columna "Profit"
valores_numericos_profit = pd.to_numeric(df["Profit"], errors='coerce')
filas_no_numericas_profit = df["Profit"][valores_numericos_profit.isnull()]

# Muestra las filas no numéricas
print("Filas no numéricas en columna Profit:", filas_no_numericas_profit)

Filas no numéricas en columna Profit: 10189    nulo
Name: Profit, dtype: object


In [16]:
# Hacemos reemplazo de los datos faltantes y cambiamos formato de la columna
df.at[10189, "Profit"] = 71.928
print("Nuevo valor de la fila 10189:", df.at[10189, "Profit"])

Nuevo valor de la fila 10189: 71.928


In [17]:
# Ahora se cambia el formato de la columna "Profit" a numérico
df["Profit"] = df["Profit"].astype(float)

3. Estadística descriptiva

In [18]:
df.describe()

Unnamed: 0,Row_ID,Order_Date,Ship_Date,Sales,Quantity,Discount,Profit
count,10195.0,10195,10195,10195.0,10195.0,10195.0,10195.0
mean,5097.726336,2022-05-01 03:50:30.779793920,2022-05-03 16:30:33.369298688,4151.538,11.419814,0.156331,28.670838
min,1.0,2020-01-03 00:00:00,2020-01-07 00:00:00,0.444,1.0,0.0,-6599.978
25%,2549.5,2021-05-14 00:00:00,2021-05-19 00:00:00,17.22,2.0,0.0,1.7608
50%,5098.0,2022-06-26 00:00:00,2022-06-28 00:00:00,53.92,3.0,0.2,8.69
75%,7645.5,2023-05-14 00:00:00,2023-05-18 00:00:00,209.5,5.0,0.2,29.29385
max,10194.0,2033-11-16 00:00:00,2024-01-05 00:00:00,30000000.0,77777.0,10.0,8399.976
std,2942.843045,,,313177.5,770.26155,0.228129,232.453859


* Row_ID es una columna que puede ser eliminada ya que solo es una columna con el mismo valor del index
* Se ve que en la columna "Order_Date" el valor más alto corresponde al año 2033. Esto es un error porque los datos comprenden las fechas de ventas entre los años 2020 y 2023. Continuamos con el proceso de limpieza al encontrar nuevas inconsistencias (es un proceso iterativo)
* El valor máximo en la columna "Quantity" correspondiente a 77777 debe revisarse
* El valor máximo en la columna "Discount" es un error, debido a que los valores de esa columna van entre 0 y 1

In [19]:
# Eliminamos columna "Row_ID"
df = df.drop("Row_ID", axis = 1)
df.head()

Unnamed: 0,Order_ID,Order_Date,Ship_Date,Ship_Mode,Customer_ID,Country/Region,City,State/Province,Postal_Code,Region,Product_ID,Sales,Quantity,Discount,Profit
0,US-2020-103800,2020-01-03,2020-01-07,Standard Class,DP-13000,United States,Houston,Texas,77095,Central,OFF-PA-10000174,16.448,2,0.2,5.5512
1,US-2020-112326,2020-01-04,2020-01-08,Standard Class,PO-19195,United States,Naperville,Illinois,60540,Central,OFF-BI-10004094,3.54,2,0.8,-5.487
2,US-2020-112326,2020-01-04,2020-01-08,Standard Class,PO-19195,United States,Naperville,Illinois,60540,Central,OFF-LA-10003223,11.784,3,0.2,4.2717
3,US-2020-112326,2020-01-04,2020-01-08,Standard Class,PO-19195,United States,Naperville,Illinois,60540,Central,OFF-ST-10002743,272.736,3,0.2,-64.7748
4,US-2020-141817,2020-01-05,2020-01-12,Standard Class,MB-18085,United States,Philadelphia,Pennsylvania,19143,East,OFF-AR-10003478,19.536,3,0.2,4.884


In [26]:
# Corregimos la columna "Order_Date" para aquellos registros mayores al año 2023
filas_mayor_2023 = df[df["Order_Date"] >= "2024-01-01"]
print(filas_mayor_2023)

             Order_ID Order_Date  Ship_Date       Ship_Mode Customer_ID  \
3250   US-2021-112711 2031-07-12 2021-07-18  Standard Class    FM-14380   
3934   US-2021-139731 2031-10-15 2021-10-15        Same Day    JE-15745   
3941   US-2021-139731 2031-10-15 2021-10-15        Same Day    JE-15745   
10947  US-2023-114657 2033-11-16 2023-11-21  Standard Class    MH-18115   

      Country/Region      City State/Province Postal_Code   Region  \
3250   United States  Amarillo          Texas       79109  Central   
3934   United States  Amarillo          Texas       79109  Central   
3941   United States  Amarillo          Texas       79109  Central   
10947  United States   Yonkers       New York       10701     East   

            Product_ID     Sales  Quantity  Discount    Profit  
3250   TEC-PH-10000526   307.168         4       0.2   30.7168  
3934   FUR-CH-10002024  2453.430         5       0.3 -350.4900  
3941   TEC-AC-10004975   263.880         3       0.2   42.8805  
10947  TEC-MA

In [30]:
# Se encuentran 4 filas en la columna "Order_Date" con fecha erronea
# Se procede a corregir dichos datos
df.at[3250, "Order_Date"] = pd.to_datetime("2021-07-12")
df.at[3934, "Order_Date"] = pd.to_datetime("2021-10-15")
df.at[3941, "Order_Date"] = pd.to_datetime("2021-10-15")
df.at[10947, "Order_Date"] = pd.to_datetime("2023-11-16")

filas_mayor_2023 = df[df["Order_Date"] >= "2024-01-01"]
print(filas_mayor_2023)

Empty DataFrame
Columns: [Order_ID, Order_Date, Ship_Date, Ship_Mode, Customer_ID, Country/Region, City, State/Province, Postal_Code, Region, Product_ID, Sales, Quantity, Discount, Profit]
Index: []


* Manejo de Outliers en columnas "Quantity" y "Discount"

In [100]:
# Para columna "Quantity"
# Usamos el método Interquartile Range (IQR)
# Calculo de IQR
#Q1 = df["Quantity"].quantile(0.25)
#Q3 = df["Quantity"].quantile(0.75)
#IQR = Q3 - Q1

# Definicion de limites para los outliers
#lower_bound = Q1 - 1.5 * IQR
#upper_bound = Q3 + 1.5 * IQR

# Filtrando los outliers
#df = df[(df["Quantity"] >= lower_bound) & (df["Quantity"] <= upper_bound)]
media_Quantity = df["Quantity"].mean()
mediana_Quantity = df["Quantity"].median()
print("Media Quantity:", media_Quantity)
print("Mediana Quantity:", mediana_Quantity)

Media Quantity: 3.6550209622679177
Mediana Quantity: 3.0


In [101]:
# Remmplazamos el outlier 77777 por la mediana (más sensible a valores extremos)
df.loc[df["Quantity"] == 77777, "Quantity"] = mediana_Quantity
df.describe()

Unnamed: 0,Order_Date,Ship_Date,Sales,Quantity,Discount,Profit,Order_Year,Order_month,0rder_day,Cost
count,10018,10018,10018.0,10018.0,10018.0,10018.0,10018.0,10018.0,10018.0,10018.0
mean,2022-04-30 13:17:54.465961472,2022-05-04 12:21:16.422439424,4214.791,3.655021,0.155537,27.490945,2021.722999,7.80575,15.445199,4187.3
min,2020-01-03 00:00:00,2020-01-07 00:00:00,0.444,1.0,0.0,-6599.978,2020.0,1.0,1.0,0.5544
25%,2021-05-18 12:00:00,2021-05-23 06:00:00,16.9,2.0,0.0,1.73025,2021.0,5.0,8.0,12.27473
50%,2022-06-26 00:00:00,2022-06-29 00:00:00,51.95,3.0,0.2,8.4696,2022.0,9.0,15.0,40.48265
75%,2023-05-14 00:00:00,2023-05-18 00:00:00,204.8875,5.0,0.2,28.497,2023.0,11.0,23.0,177.5219
max,2023-12-30 00:00:00,2024-01-05 00:00:00,30000000.0,9.0,0.8,8399.976,2023.0,12.0,31.0,30000000.0
std,,,315931.9,1.98154,0.206426,227.424073,1.124403,3.294351,8.725549,315931.8


In [39]:
# Para columna "Discount"
# Se asume que los descuento van de 0 a 1
df = df[(df["Discount"] >= 0) & (df["Discount"] <= 1)]

df.describe()

Unnamed: 0,Order_Date,Ship_Date,Sales,Quantity,Discount,Profit
count,10018,10018,10018.0,10018.0,10018.0,10018.0
mean,2022-04-30 13:17:54.465961472,2022-05-04 12:21:16.422439424,4214.791,3.655021,0.155537,27.490945
min,2020-01-03 00:00:00,2020-01-07 00:00:00,0.444,1.0,0.0,-6599.978
25%,2021-05-18 12:00:00,2021-05-23 06:00:00,16.9,2.0,0.0,1.73025
50%,2022-06-26 00:00:00,2022-06-29 00:00:00,51.95,3.0,0.2,8.4696
75%,2023-05-14 00:00:00,2023-05-18 00:00:00,204.8875,5.0,0.2,28.497
max,2023-12-30 00:00:00,2024-01-05 00:00:00,30000000.0,9.0,0.8,8399.976
std,,,315931.9,1.98154,0.206426,227.424073


* Agregación de nuevas columnas para soportar el análisis

In [41]:
# Enriquecemos los datos para tener un mejor análisis, agregando columnas respectivas de año, mes, día, mes-dia de la orden y el costo
df['Order_Year'] = df['Order_Date'].dt.year
df['Order_month'] = df['Order_Date'].dt.month
df['0rder_day'] = df['Order_Date'].dt.day
df['0rder_year_month'] = df['Order_Date'].dt.strftime('%Y-%m')
df['Cost'] = df['Sales'] - df['Profit']

df.head()

Unnamed: 0,Order_ID,Order_Date,Ship_Date,Ship_Mode,Customer_ID,Country/Region,City,State/Province,Postal_Code,Region,Product_ID,Sales,Quantity,Discount,Profit,Order_Year,Order_month,0rder_day,0rder_year_month,Cost
0,US-2020-103800,2020-01-03,2020-01-07,Standard Class,DP-13000,United States,Houston,Texas,77095,Central,OFF-PA-10000174,16.448,2,0.2,5.5512,2020,1,3,2020-01,10.8968
1,US-2020-112326,2020-01-04,2020-01-08,Standard Class,PO-19195,United States,Naperville,Illinois,60540,Central,OFF-BI-10004094,3.54,2,0.8,-5.487,2020,1,4,2020-01,9.027
2,US-2020-112326,2020-01-04,2020-01-08,Standard Class,PO-19195,United States,Naperville,Illinois,60540,Central,OFF-LA-10003223,11.784,3,0.2,4.2717,2020,1,4,2020-01,7.5123
3,US-2020-112326,2020-01-04,2020-01-08,Standard Class,PO-19195,United States,Naperville,Illinois,60540,Central,OFF-ST-10002743,272.736,3,0.2,-64.7748,2020,1,4,2020-01,337.5108
4,US-2020-141817,2020-01-05,2020-01-12,Standard Class,MB-18085,United States,Philadelphia,Pennsylvania,19143,East,OFF-AR-10003478,19.536,3,0.2,4.884,2020,1,5,2020-01,14.652


### B) Tabla "Product"

1. Carga de datos

In [45]:
# Cargar datos a un Dataframe
dataset_path = "202403-Summan-PruebaTécnica-AnalistaDatos.xlsx"
df_product = pd.read_excel(dataset_path, sheet_name= "Product")

df_product.head()

Unnamed: 0,Product_ID,Category,Sub-Category,Product_Name
0,OFF-PA-10000174,Office Supplies,Paper,"Message Book, Wirebound, Four 5 1/2"" X 4"" Form..."
1,OFF-BI-10004094,Office Supplies,Binders,GBC Standard Plastic Binding Systems Combs
2,OFF-LA-10003223,Office Supplies,Labels,Avery 508
3,OFF-ST-10002743,Office Supplies,Storage,SAFCO Boltless Steel Shelving
4,OFF-AR-10003478,Office Supplies,Art,Avery Hi-Liter EverBold Pen Style Fluorescent ...


2. Exploración inicial

In [46]:
df_product.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1894 entries, 0 to 1893
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Product_ID    1894 non-null   object
 1   Category      1894 non-null   object
 2   Sub-Category  1894 non-null   object
 3   Product_Name  1894 non-null   object
dtypes: object(4)
memory usage: 59.3+ KB


* El dataset tiene 4 columnas, 1894 filas
* No hay valores nulos
* No hay que cambiar el formato de los datos 

In [47]:
# Chequear si hay duplicados
print("Filas duplicadas:", df_product.duplicated().sum())

Filas duplicadas: 0


* No hay duplicados
* Al no haber datos numéricos, no se hace identificación de outliers ni el análisis descriptivo

### C) Tabla "Customer"

1. Carga de datos

In [55]:
# Cargar datos a un Dataframe
dataset_path = "202403-Summan-PruebaTécnica-AnalistaDatos.xlsx"
df_customer = pd.read_excel(dataset_path, sheet_name= "Customer")

df_customer.head()

Unnamed: 0,Customer_ID,Customer_Name,monthly_salary,age,marital_status [1:married/ 0:Single],credit score
0,AA-10315,Alex Avila,6349,32,1,500
1,AA-10375,Allen Armold,5374,26,0,630
2,AA-10480,Andrew Allen,9611,44,1,780
3,AA-10645,Anna Andreadi,7025,43,1,450
4,AB-10015,Aaron Bergman,3331,28,1,490


2. Exploración inicial

In [57]:
df_customer.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 804 entries, 0 to 803
Data columns (total 6 columns):
 #   Column                                Non-Null Count  Dtype 
---  ------                                --------------  ----- 
 0   Customer_ID                           804 non-null    object
 1   Customer_Name                         804 non-null    object
 2   monthly_salary                        804 non-null    object
 3   age                                   804 non-null    int64 
 4   marital_status [1:married/ 0:Single]  804 non-null    object
 5   credit score                          804 non-null    int64 
dtypes: int64(2), object(4)
memory usage: 37.8+ KB


* El dataset tiene 6 columnas y 804 filas
* No hay valores nulos
* La columna "monthly_salary" no se reconoció como dato numérico, lo que puede significar que hay uno o varios datos de otro tipo
* La columna "marital_status" no se reconoció como dato numérico, lo que puede significar que hay uno o varios datos de otro tipo


3. Limpieza de datos

In [58]:
#Chequeo de duplicados
print("Filas duplicadas:", df_customer.duplicated().sum())

Filas duplicadas: 0


In [59]:
# Revisión columna "monthly_salary"
print("Valores unicos:", df_customer["monthly_salary"].unique())

Valores unicos: [6349 5374 9611 7025 3331 8511 7199 7838 6957 8601 4338 7262 3924 3157
 4903 4505 2101 9892 2676 4242 2166 8311 8500 8893 3625 5443 2259 6300
 6721 6731 3177 4014 3191 5759 9727 2696 3935 2853 9281 9559 9915 5945
 7165 8444 8034 8795 6865 7486 2982 7255 7195 7472 6855 7293 7619 9563
 8295 6944 4481 4493 6343 9983 4876 3952 8339 4310 8361 7626 8553 2093
 8059 3608 4351 4982 5704 2121 7876 8699 4036 5392 4974 9083 8390 8937
 2344 6206 6172 8502 3370 6234 2307 6609 5495 4392 9465 9111 7685 7238
 5455 9565 5603 9568 9649 9558 8104 8042 5513 3906 2007 6215 4411 3130
 9945 6767 5967 2212 5046 7553 9857 7503 5245 5128 5635 9244 8382 3188
 2350 8582 2081 7895 6194 3614 8136 2866 5708 8656 9639 9584 9908 6582
 2067 7142 8931 7749 6193 7200 7640 5819 9525 2339 3479 2509 5842 6973
 4037 4006 3335 2642 4569 5660 7454 6367 'x' 4537 6637 4722 4489 6031 5315
 5483 7577 4233 3673 5038 6089 9730 3496 8723 5032 7128 5969 7688 2463
 9198 3292 8572 9932 4576 6524 4352 8203 7493 2231 7700 3

In [68]:
# Se observa que hay un dato no numérico 'x'
# Procedemos a reemplazarlo con la mediana de los salarios
df_customer["monthly_salary"] = df_customer["monthly_salary"].replace("x", np.nan)

media_salario = df_customer["monthly_salary"].mean()
mediana_salario = df_customer["monthly_salary"].median()
print("Media salario:", media_salario)
print("Mediana salario:", mediana_salario)

df_customer["monthly_salary"] = df_customer["monthly_salary"].fillna(mediana_salario)

Media salario: 6029.302615193026
Mediana salario: 6067.0


In [75]:
# Revision columna "marital_status"
print("Valores unicos en columa marital_status:", df_customer["marital_status [1:married/ 0:Single]"].unique())

Valores unicos en columa marital_status: [1 0 'f' 'x' 'mm']


* Solo deberían haber dos opciones de datos: 1 o 0
* Por la naturaleza de la columna, se procede a eliminar aquellas filas que no tienen 0 o 1

In [76]:
df_customer_filtrado = df_customer[df_customer["marital_status [1:married/ 0:Single]"].astype(str).isin(['0', '1'])]
print("Valores unicos en columa marital_status:", df_customer_filtrado["marital_status [1:married/ 0:Single]"].unique())

Valores unicos en columa marital_status: [1 0]


4. Estadística descriptiva

In [77]:
df_customer_filtrado.describe()

Unnamed: 0,monthly_salary,age,credit score
count,799.0,799.0,799.0
mean,6030.841051,38.381727,557.534418
std,2297.359237,10.918275,148.95056
min,2005.0,26.0,300.0
25%,4203.0,32.0,420.0
50%,6067.0,38.0,560.0
75%,7966.0,44.0,690.0
max,10000.0,260.0,800.0


* El valor máximo de la columna "Age" es 260, lo cual es un error

In [80]:
# Revisión columna "age"
print("Valores unicos en columa Age:", df_customer_filtrado["age"].unique())
mediana_edad = df_customer_filtrado["age"].median()
print("Mediana edad:", mediana_edad)

Valores unicos en columa Age: [ 32  26  44  43  28  41  47  50  35  36  42  27  31  30  49  34  45  48
  46  39  33  38  37  29  40 115 260]
Mediana edad: 38.0


In [85]:
#Procedemos a reemplazar dicho dato erroneo
df_customer_filtrado.loc[df_customer_filtrado["age"] == 260, "age"] = mediana_edad
print("Valores unicos en columa Age:", df_customer_filtrado["age"].unique())

Valores unicos en columa Age: [ 32  26  44  43  28  41  47  50  35  36  42  27  31  30  49  34  45  48
  46  39  33  38  37  29  40 115]


In [86]:
df_customer_filtrado.describe()

Unnamed: 0,monthly_salary,age,credit score
count,799.0,799.0,799.0
mean,6030.841051,38.10388,557.534418
std,2297.359237,7.588441,148.95056
min,2005.0,26.0,300.0
25%,4203.0,32.0,420.0
50%,6067.0,38.0,560.0
75%,7966.0,44.0,690.0
max,10000.0,115.0,800.0


### D) Tabla "Regional_Manager"

1. Carga de datos

In [88]:
# Cargar datos a un Dataframe
dataset_path = "202403-Summan-PruebaTécnica-AnalistaDatos.xlsx"
df_manager = pd.read_excel(dataset_path, sheet_name = "Regional_Manager")

df_manager.head()

Unnamed: 0,Regional_Manager,Region
0,Sadie Pawthorne,Wes t
1,Chuck Magee,east
2,Roxanne Rodriguez,cenntral
3,Fred Suzuki,south


2. Exploración inicial

In [89]:
df_manager.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Regional_Manager  4 non-null      object
 1   Region            4 non-null      object
dtypes: object(2)
memory usage: 196.0+ bytes


In [90]:
# El unico error a corregir es la palabra "West" que tiene un espacio e inicial mayuscula cuando los demas datos no
df_manager.loc[df_manager["Region"] == "Wes t", "Region"] = "west"
df_manager.head()

Unnamed: 0,Regional_Manager,Region
0,Sadie Pawthorne,west
1,Chuck Magee,east
2,Roxanne Rodriguez,cenntral
3,Fred Suzuki,south


### E) Tabla "Returns"

1. Carga de datos

In [91]:
# Cargar datos a un Dataframe
dataset_path = "202403-Summan-PruebaTécnica-AnalistaDatos.xlsx"
df_returns = pd.read_excel(dataset_path, sheet_name = "Returns")

df_returns.head()

Unnamed: 0,Returned,Order_ID
0,Yes,US-2020-100762
1,Yes,US-2020-100762
2,Yes,US-2020-100762
3,Yes,US-2020-100762
4,Yes,US-2020-100867


2. Exploracion inicial

In [95]:
df_returns.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Returned  800 non-null    object
 1   Order_ID  800 non-null    object
dtypes: object(2)
memory usage: 12.6+ KB


* No hat valores nulos
* Las dos columnas son tipo cadena
* No se hace análisis estadistico

In [96]:
# Se chequea que la columna "Returned" contenga solo el valor "Yes"
print("Valores unicos en columa Returned:", df_returns["Returned"].unique())


Valores unicos en columa Returned: ['Yes']


### F) Exportación de los dataframes a nuevo archivo excel

In [97]:
# Exportamos los DataFrames a un nuevo archivo Excel que contendrá las mismas tablas pero despues de la limpieza
with pd.ExcelWriter("Cleaned_Dataset.xlsx", engine='xlsxwriter') as writer:
    df.to_excel(writer, sheet_name = "Sales", index = False)
    df_product.to_excel(writer, sheet_name = "Product", index = False)
    df_customer_filtrado.to_excel(writer, sheet_name = "Customer", index = False)
    df_manager.to_excel(writer, sheet_name = "Regional_Manager", index = False)
    df_returns.to_excel(writer, sheet_name = "Returns", index = False)