# **Limpieza y transformación de los datos de la tabla Walmart_Sales**

# Tabla de Contenido
- [TABLA Walmart_Sales](#tabla-Walmart_Sales)
  - [Actualización de tipo de datos](#Actualización-de-tipo-de-datos)
  - [Verificación de la integridad de los datos](#Verificación-de-la-integridad-de-los-datos)
  - [Transformación del formato de la Fecha](#Transformación-del-formato-de-la-Fecha)
  - [Creación de columna Holiday_Events](#Creación-de-columna-Holiday_Events)
  - [CPI corrección a tres dígitos enteros y el resto en decimal](#CPI-corrección-a-tres-dígitos-enteros-y-el-resto-en-decimal)
  - [Resultados y conclusiones](#Resultados-y-conclusiones)
  

<span style="font-size: 18px;">
En el análisis de los datos de la tabla Walmart_Sales, se identificaron las siguientes observaciones:

1. No hay registros duplicados. Esto se evidenció al agrupar los datos en términos de Store y Date.
1. No hay caracteres especiales en ninguna de las columnas.

A continuación, se procede  a realizar las correcciones necesarias en los datos de esta tabla para garantizar su calidad y consistencia. Esto involucra lo siguiente:

1. Consulta de información sobre las columnas, incluyendo su nombre y tipo de dato.
1. Transformar cada columna a su respectivo formato.
1. Verificación de la integridad de los datos.
1. Transformar la columna Date a DD-MM-AAAA.
1. Creación de la columna Holiday_Events.

</span>

In [74]:
-- # 1.
USE TFM;
select TOP 5 *from Walmart_Sales;

Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
1,2010-02-05,16436909,0,42.31,2.572,2110963584,8.106
1,2010-02-12,164195744,1,38.51,2.548,2112421760,8.106
1,2010-02-19,161196816,0,39.93,2.514,2112891392,8.106
1,2010-02-26,140972752,0,46.63,2.561,2113196416,8.106
1,2010-03-05,155480672,0,46.5,2.625,2113501440,8.106


In [75]:
SELECT *FROM INFORMATION_SCHEMA.COLUMNS
WHERE TABLE_NAME = 'Walmart_Sales'

TABLE_CATALOG,TABLE_SCHEMA,TABLE_NAME,COLUMN_NAME,ORDINAL_POSITION,COLUMN_DEFAULT,IS_NULLABLE,DATA_TYPE,CHARACTER_MAXIMUM_LENGTH,CHARACTER_OCTET_LENGTH,NUMERIC_PRECISION,NUMERIC_PRECISION_RADIX,NUMERIC_SCALE,DATETIME_PRECISION,CHARACTER_SET_CATALOG,CHARACTER_SET_SCHEMA,CHARACTER_SET_NAME,COLLATION_CATALOG,COLLATION_SCHEMA,COLLATION_NAME,DOMAIN_CATALOG,DOMAIN_SCHEMA,DOMAIN_NAME
TFM,dbo,Walmart_Sales,Store,1,,NO,tinyint,,,3.0,10.0,0.0,,,,,,,,,,
TFM,dbo,Walmart_Sales,Date,2,,NO,date,,,,,,0.0,,,,,,,,,
TFM,dbo,Walmart_Sales,Weekly_Sales,3,,NO,float,,,53.0,2.0,,,,,,,,,,,
TFM,dbo,Walmart_Sales,Holiday_Flag,4,,NO,bit,,,,,,,,,,,,,,,
TFM,dbo,Walmart_Sales,Temperature,5,,NO,text,2147483647.0,2147483647.0,,,,,,,iso_1,,,Modern_Spanish_100_CI_AI,,,
TFM,dbo,Walmart_Sales,Fuel_Price,6,,NO,text,2147483647.0,2147483647.0,,,,,,,iso_1,,,Modern_Spanish_100_CI_AI,,,
TFM,dbo,Walmart_Sales,CPI,7,,NO,float,,,53.0,2.0,,,,,,,,,,,
TFM,dbo,Walmart_Sales,Unemployment,8,,NO,text,2147483647.0,2147483647.0,,,,,,,iso_1,,,Modern_Spanish_100_CI_AI,,,


## **Actualización de tipo de datos**
<span style="font-size: 18px;">
Se realizó una actualización en las columnas Store, Temperature, Fuel_Price y Unemployment para cambiar su tipo de datos. Inicialmente estaban definidas como texto, lo cual limitaba su compatibilidad con diversas operaciones y conversiones directas.
</span>

In [76]:
SELECT
    MAX(LEN(CONVERT(VARCHAR, Temperature))) AS LonMaxTemp,
    MAX(LEN(CONVERT(VARCHAR, Fuel_Price))) AS LonMaxPrice,
    MAX(LEN(CONVERT(VARCHAR, Unemployment))) AS LonMaxUnemployment
FROM Walmart_Sales;

LonMaxTemp,LonMaxPrice,LonMaxUnemployment
6,5,6


In [77]:
-- # 2.
ALTER TABLE Walmart_Sales
ALTER COLUMN Temperature VARCHAR(6);

ALTER TABLE Walmart_Sales
ALTER COLUMN Temperature FLOAT;

ALTER TABLE Walmart_Sales
ALTER COLUMN Fuel_Price VARCHAR(5);

ALTER TABLE Walmart_Sales
ALTER COLUMN Fuel_Price FLOAT;

ALTER TABLE Walmart_Sales
ALTER COLUMN Unemployment VARCHAR(6);

ALTER TABLE Walmart_Sales
ALTER COLUMN Unemployment FLOAT;

ALTER TABLE Walmart_Sales
ALTER COLUMN Store INT;
ALTER TABLE Walmart_Sales
ALTER COLUMN Holiday_Flag INT;

<span style="font-size: 18px;">
Verifiquemos que la actualización sea correcta.
</span>

In [78]:
SELECT *FROM INFORMATION_SCHEMA.COLUMNS
WHERE TABLE_NAME = 'Walmart_Sales'

TABLE_CATALOG,TABLE_SCHEMA,TABLE_NAME,COLUMN_NAME,ORDINAL_POSITION,COLUMN_DEFAULT,IS_NULLABLE,DATA_TYPE,CHARACTER_MAXIMUM_LENGTH,CHARACTER_OCTET_LENGTH,NUMERIC_PRECISION,NUMERIC_PRECISION_RADIX,NUMERIC_SCALE,DATETIME_PRECISION,CHARACTER_SET_CATALOG,CHARACTER_SET_SCHEMA,CHARACTER_SET_NAME,COLLATION_CATALOG,COLLATION_SCHEMA,COLLATION_NAME,DOMAIN_CATALOG,DOMAIN_SCHEMA,DOMAIN_NAME
TFM,dbo,Walmart_Sales,Store,1,,YES,int,,,10.0,10.0,0.0,,,,,,,,,,
TFM,dbo,Walmart_Sales,Date,2,,NO,date,,,,,,0.0,,,,,,,,,
TFM,dbo,Walmart_Sales,Weekly_Sales,3,,NO,float,,,53.0,2.0,,,,,,,,,,,
TFM,dbo,Walmart_Sales,Holiday_Flag,4,,YES,int,,,10.0,10.0,0.0,,,,,,,,,,
TFM,dbo,Walmart_Sales,Temperature,5,,YES,float,,,53.0,2.0,,,,,,,,,,,
TFM,dbo,Walmart_Sales,Fuel_Price,6,,YES,float,,,53.0,2.0,,,,,,,,,,,
TFM,dbo,Walmart_Sales,CPI,7,,NO,float,,,53.0,2.0,,,,,,,,,,,
TFM,dbo,Walmart_Sales,Unemployment,8,,YES,float,,,53.0,2.0,,,,,,,,,,,


## **Verificación de la integridad de los datos.**
<span style="font-size: 18px;">
Dado que se realizó actualización del tipo de datos que reciben las columnas Store, Temperature, Fuel_Price y Unemployment. Procedemos a verificar la integridad de los datos. Es decir, vamos a ver que no existan registros Null.
</span>

In [79]:
-- # 3.
SELECT 
    COUNT(*) AS TotalFilas,
    SUM(CASE WHEN Store IS NULL THEN 1 ELSE 0 END) AS Nulls_Store,
    SUM(CASE WHEN [Date] IS NULL THEN 1 ELSE 0 END) AS Nulls_Date,
    SUM(CASE WHEN Weekly_Sales IS NULL THEN 1 ELSE 0 END) AS Nulls_Weekly_Sales,
    SUM(CASE WHEN Holiday_Flag IS NULL THEN 1 ELSE 0 END) AS Nulls_Holiday_Flag,
    SUM(CASE WHEN Temperature IS NULL THEN 1 ELSE 0 END) AS Nulls_Temperature,
    SUM(CASE WHEN Fuel_Price IS NULL THEN 1 ELSE 0 END) AS Nulls_Fuel_Price,
    SUM(CASE WHEN CPI IS NULL THEN 1 ELSE 0 END) AS Nulls_CPI,
    SUM(CASE WHEN Unemployment IS NULL THEN 1 ELSE 0 END) AS Nulls_Unemployment
FROM Walmart_Sales;

TotalFilas,Nulls_Store,Nulls_Date,Nulls_Weekly_Sales,Nulls_Holiday_Flag,Nulls_Temperature,Nulls_Fuel_Price,Nulls_CPI,Nulls_Unemployment
6435,0,0,0,0,0,0,0,0


In [80]:
-- # 3.
SELECT 
    COUNT(*) AS TotalFilas,
    SUM(CASE WHEN LTRIM(RTRIM(CAST(Store AS VARCHAR(MAX)))) = '' THEN 1 ELSE 0 END) AS Empty_Store,
    SUM(CASE WHEN LTRIM(RTRIM(CAST([Date] AS VARCHAR(MAX)))) = '' THEN 1 ELSE 0 END) AS Empty_Date,
    SUM(CASE WHEN LTRIM(RTRIM(CAST(Weekly_Sales AS VARCHAR(MAX)))) = '' THEN 1 ELSE 0 END) AS Empty_Weekly_Sales,
    SUM(CASE WHEN LTRIM(RTRIM(CAST(Holiday_Flag AS VARCHAR(MAX)))) = '' THEN 1 ELSE 0 END) AS Empty_Holiday_Flag,
    SUM(CASE WHEN LTRIM(RTRIM(CAST(Temperature AS VARCHAR(MAX)))) = '' THEN 1 ELSE 0 END) AS Empty_Temperature,
    SUM(CASE WHEN LTRIM(RTRIM(CAST(Fuel_Price AS VARCHAR(MAX)))) = '' THEN 1 ELSE 0 END) AS Empty_Fuel_Price,
    SUM(CASE WHEN LTRIM(RTRIM(CAST(CPI AS VARCHAR(MAX)))) = '' THEN 1 ELSE 0 END) AS Empty_CPI,
    SUM(CASE WHEN LTRIM(RTRIM(CAST(Unemployment AS VARCHAR(MAX)))) = '' THEN 1 ELSE 0 END) AS Empty_Unemployment
FROM Walmart_Sales;

TotalFilas,Empty_Store,Empty_Date,Empty_Weekly_Sales,Empty_Holiday_Flag,Empty_Temperature,Empty_Fuel_Price,Empty_CPI,Empty_Unemployment
6435,0,0,0,0,0,0,0,0


<span style="font-size: 18px;">
Esto es perfecto!
En la tabla no hay valores Null ni registros vacios.
</span>

## **Transformación del formato de la Fecha.**

<span style="font-size:18px;">A modo de solicitud, la fecha se transformó del formato AAAA-MM-DD al formato DD-MM-AAA.</span>

In [81]:
ALTER TABLE Walmart_Sales
ALTER COLUMN [Date] NVARCHAR(10);

In [82]:
UPDATE Walmart_Sales
SET [Date] = CONVERT(nvarchar(10), CONVERT(date, [Date], 120), 105);

In [83]:
select TOP 5 *from Walmart_Sales;

Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
1,05-02-2010,16436909,0,42.31,2.572,2110963584,8.106
1,12-02-2010,164195744,1,38.51,2.548,2112421760,8.106
1,19-02-2010,161196816,0,39.93,2.514,2112891392,8.106
1,26-02-2010,140972752,0,46.63,2.561,2113196416,8.106
1,05-03-2010,155480672,0,46.5,2.625,2113501440,8.106


In [84]:
SELECT 
    MIN(CONVERT(date, [Date], 105)) AS FechaMinima,
    MAX(CONVERT(date, [Date], 105)) AS FechaMaxima
FROM Walmart_Sales;

FechaMinima,FechaMaxima
2010-02-05,2012-10-26


## **Creación de columna Holiday_Events.**
<span style="font-size: 18px;">

Esta columna se completó asignando las clases Super Bowl, Labour Day, Thanksgiving y Christmas a las fechas correspondientes. Para el resto de los registros, se asignó la clase No aplica.

A continuación, se detallan las fechas asociadas a cada clase:

- Super Bowl: 12-Feb-2010, 11-Feb-2011, 10-Feb-2012, 8-Feb-2013.
- Labour Day: 10-Sep-2010, 9-Sep-2011, 7-Sep-2012, 6-Sep-2013.
- Thanksgiving: 26-Nov-2010, 25-Nov-2011, 23-Nov-2012, 29-Nov-2013.
- Christmas: 31-Dec-2010, 30-Dec-2011, 28-Dec-2012, 27-Dec-2013.
</span>

In [85]:
-- # 5.
ALTER TABLE Walmart_Sales
ADD Holiday_Events NVARCHAR(14);

In [86]:
UPDATE Walmart_Sales
SET Holiday_Events = 
  CASE 
    WHEN [Date] IN ('12-02-2010', '11-02-2011', '10-02-2012') THEN 'Super Bowl'
    WHEN [Date] IN ('10-09-2010', '09-09-2011', '07-09-2012') THEN 'Labour Day'
    WHEN [Date] IN ('26-11-2010', '25-11-2011', '23-11-2012') THEN 'Thanksgiving'
    WHEN [Date] IN ('31-12-2010', '30-12-2011', '28-12-2012') THEN 'Christmas'
    ELSE COALESCE(Holiday_Events, 'No aplica')
  END;

## **CPI corrección a tres dígitos enteros y el resto en decimal**
<span style="font-size: 18px;">
Dado que los valores almacenados en la columna eran números sin decimales, y según la guía se especifica que el campo CPI debe ser un valor numérico con tres cifras enteras y el resto en decimales, se realizó la corrección correspondiente.
</span>

In [153]:
UPDATE Walmart_Sales
SET CPI = STUFF(TRIM(STR(CPI, 20)), 4, 0, '.');

In [154]:
select TOP 50 *from Walmart_Sales;

Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Holiday_Events
1,05-02-2010,16436909,0,42.31,2.572,211.0963584,8.106,No aplica
1,12-02-2010,164195744,1,38.51,2.548,211.242176,8.106,Super Bowl
1,19-02-2010,161196816,0,39.93,2.514,211.2891392,8.106,No aplica
1,26-02-2010,140972752,0,46.63,2.561,211.3196416,8.106,No aplica
1,05-03-2010,155480672,0,46.5,2.625,211.350144,8.106,No aplica
1,12-03-2010,143954160,0,57.79,2.667,211.3806464,8.106,No aplica
1,19-03-2010,147251584,0,54.58,2.72,211.215632,8.106,No aplica
1,26-03-2010,140442992,0,51.45,2.732,211.018048,8.106,No aplica
1,02-04-2010,159496832,0,62.27,2.719,210.8204544,7.808,No aplica
1,09-04-2010,154541856,0,65.86,2.77,210.6228608,7.808,No aplica


## **Resultados y conclusiones**

<span style="font-size: 18px;">

La tabla "Walmart_Sale" ha sido depurada y transformada para su uso en diversos análisis exploratorios de datos. Se asegura que las columnas que almacenan valores numéricos sean del tipo BIT, INT o FLOAT. Asimismo, se garantiza la ausencia de valores faltantes o NULL.

En conclusión, los datos están completamente preparados para su utilización.
</span>