# **Exploración y reconocimiento de los datos de la tabla Store**

# Tabla de Contenido
- [TABLA STORE](#tabla-store)
  - [Columna City](#columna-city)
  - [Columna Open_Date](#Columna-open_date)
  - [Columna Zip_Code](#Columna-zip_code)
  - [Columna Phone](#Columna-phone)
  - [Columna Email](#Columna-email)
  - [Resultados y conclusiones](#Resultados-y-conclusiones)

### **TABLA STORE**
<span style="font-size: 18px;">
La exploración de los datos de la tabla  "STORE" consta de los siguientes pasos:

1. Consulta de la cantidad de registros en la tabla.
1. Visualización de la tabla.
1. Visualización de nombres de ciudades con caracteres especiales.
1. Visualización de fechas que no cumplen el formato YYYY-MM-DD HH:mm:ss.
1. Visualización de códigos ZIP con caracteres no numéricos.
1. Visualización de números de teléfonos con caracteres no numéricos.
1. Visualización de correos electrónicos con formato inválido. 
</span>




In [1]:
USE TFM;
-- # 1. 
select COUNT(*) from store;

(No column name)
45


<span style="font-size: 18px;">
Se puede observar que esta tabla tiene un total de 45 registros. Ahora veamos la tabla.
</span>

In [2]:
-- # 2.
select *from Store; 

Store_ID,City,Open_Date,Zip_Code,Phone,Email
1,San Antonio,2003-07-24 21:45:30,78015,2136875667,store1 at retail.com
2,San Antonio,2005-10-27 07:01:09,78-201,213-516-7236,store2@retail.com
3,San Antonio,2007-02-01 16:59:13,78-112,212-350-1192,store3@walmart.com
4,Houston,2004-07-17 00:28:08,77001,312-977-8178,store4@walmart.com
5,Houston,2009-04-23 01:08:37,77002,713-619-1883,store5@store.com
6,los angeles,2006-08-10 19:42:16,90001,212-721-6342,store6@store.com
7,Phoenix,2007-10-16 08:02:37,60601,713-801-8755,store7@store.com
8,san diego,2002-03-10 05:40:48,94-023,212-544-5446,store8@retail.com
9,New York,2007-07-24 04:31:20,10001,312-224-2101,store9 at store.com
10,Philadelphia,2007-05-21 13:40:13,19019,213-519-6422,store10 at walmart.com


<span style="font-size: 18px;">
En esta tabla se pueden identificar las siguientes observaciones:

1. Algunos nombres de ciudades contienen caracteres especiales.
1. En la columna "Open_Data", algunos datos no siguen el formato YYYY-MM-DD H:mm:s.
1. En la columna "Zip_Code", se encuentran comas y puntos en ciertos datos.
1. En la columna "Phone", hay registros con caracteres especiales.
1. En la columna "Email", algunos valores no cumplen con el formato válido de correo electrónico.

A continuación, analizaremos estos puntos con mayor detalle.
</span>



## **Columna City**
<span style="font-size: 18px;">
Para identificar las ciudades cuyos nombres contienen caracteres especiales, se llevaron a cabo las siguientes instrucciones: 

- <b>Búsqueda de símbolos, números y caracteres que no sean letras del alfabeto español:</b> Se utilizó la instrucción <i style="color: red;">'%[^a-zA-ZÁÉÍÓÚáéíóúÑñ]%'</i>.
- <b>Búsqueda de nombres con dos o más espacios consecutivos:</b> Se empleó la instrucción <i style="color: red;">'%  +%'</i>.
- <b>Búsqueda de nombres que comienzan con uno o más espacios consecutivos:</b> Se aplicó la instrucción <i style="color: red;">' %'</i>.
- <b>Búsqueda de nombres que terminan con uno o más espacios consecutivos:</b> Se usó la instrucción <i style="color: red;">'% '</i>.
</span>

In [3]:
-- # 3.
SELECT *
FROM Store
WHERE City LIKE '%[^a-zA-ZÁÉÍÓÚáéíóúÑñ]%' 
   OR City LIKE '%  +%'  
   OR City LIKE ' %' 
   OR City LIKE '% ';

Store_ID,City,Open_Date,Zip_Code,Phone,Email
1,San Antonio,2003-07-24 21:45:30,78015,2136875667,store1 at retail.com
2,San Antonio,2005-10-27 07:01:09,78-201,213-516-7236,store2@retail.com
3,San Antonio,2007-02-01 16:59:13,78-112,212-350-1192,store3@walmart.com
6,los angeles,2006-08-10 19:42:16,90001,212-721-6342,store6@store.com
8,san diego,2002-03-10 05:40:48,94-023,212-544-5446,store8@retail.com
9,New York,2007-07-24 04:31:20,10001,312-224-2101,store9 at store.com
11,Los Angeles,2001-04-24 19:12:27,90005,210-821-7144,store11@walmart.com
12,Philadelphia.,2001-03-21 09:54:21,19050,6024369028,store12 at example.com
13,San Antonio,2000-05-12 21:22:25,78109,215-962-1700,store13@retail.com
14,Los Angeles,2002-01-18 09:30:07,90009,619-427-9882,store14 at walmart.com


<span style="font-size: 18px;">
Se puede observar que en la columna <b>City</b> hay 32 registros que deben ser convertidos a un formato estándar, como por ejemplo:

- New York.
- Madrid.
- Los Angeles.
</span>

## **Columna Open_Date**

<span style="font-size: 18px;">
En esta columna, nuestra principal prioridad es identificar los registros que no cumplen con el formato de fecha. En este caso, la tabla está utilizando el formato YYYY-MM-DD HH:mm:ss. Sin embargo, por el momento, solo verificaremos cuáles registros no se ajustan a este formato. Para ello, hemos utilizado la siguiente instrucción:

- <b>Identificación de  registros de fechas no válidas:</b> Se implementó la instrucción <i style="color: red;"> ISDATE (Open_date) = 0</i>.
</span>

In [4]:
-- # 4.
SELECT *
FROM Store
WHERE ISDATE(Open_Date) = 0;

Store_ID,City,Open_Date,Zip_Code,Phone,Email
30,Los Angeles,20070517100103,90002,312-914-5145,store30 at example.com
38,Chicago!,20040327124123,60018,2132341880,store38@store.com
45,Los Angeles,20050928103945,90008,213 365-4037,store45 at walmart.com


<span style="font-size: 18px;">
En esta columna solo hay tres registros que no tienen formato de fecha válido.
</span>

## **Columna Zip_Code**
<span style="font-size: 18px;">
En esta columna nos centraremos en la búsqueda de datos no numéricos. Para ello, se utilizó la siguiente instrucción:

- <b>Identificación de registros con caracteres no numéricos:</b> Se implementó la instrucción  <i style="color: red;"> LIKE '%[^0-9]%'</i>.
</span>

In [5]:
-- # 5.
SELECT *
FROM Store
WHERE Zip_Code LIKE '%[^0-9]%'

Store_ID,City,Open_Date,Zip_Code,Phone,Email
2,San Antonio,2005-10-27 07:01:09,78-201,213-516-7236,store2@retail.com
3,San Antonio,2007-02-01 16:59:13,78-112,212-350-1192,store3@walmart.com
8,san diego,2002-03-10 05:40:48,94-023,212-544-5446,store8@retail.com
13,San Antonio,2000-05-12 21:22:25,78109,215-962-1700,store13@retail.com
15,San Diego,2000-02-02 18:13:56,92201,210-541-1222,store15@retail.com
16,San Antonio,2004-06-17 11:22:53,78154,2125939415,store16 at store.com
17,San Diego,2008-09-16 10:52:05,92.202,2129335488,store17@example.com
28,phoenix,2005-05-23 09:46:24,10002u,713-380-2726,store28@store.com
39,Phoenix,2006-09-07 19:46:02,90001h,2105957485,store39 at walmart.com


<span style="font-size: 18px;">
Se puede observar que en total existen 9 códigos zip que tienen caracteres no numéricos.
</span>

## **Columna Phone**
<span style="font-size: 18px;">
Aquí implementamos la misma instrucción que busca caracteres no numéricos.
</span>

In [6]:
-- # 6
SELECT *
FROM Store
WHERE Phone LIKE '%[^0-9]%'

Store_ID,City,Open_Date,Zip_Code,Phone,Email
2,San Antonio,2005-10-27 07:01:09,78-201,213-516-7236,store2@retail.com
3,San Antonio,2007-02-01 16:59:13,78-112,212-350-1192,store3@walmart.com
4,Houston,2004-07-17 00:28:08,77001,312-977-8178,store4@walmart.com
5,Houston,2009-04-23 01:08:37,77002,713-619-1883,store5@store.com
6,los angeles,2006-08-10 19:42:16,90001,212-721-6342,store6@store.com
7,Phoenix,2007-10-16 08:02:37,60601,713-801-8755,store7@store.com
8,san diego,2002-03-10 05:40:48,94-023,212-544-5446,store8@retail.com
9,New York,2007-07-24 04:31:20,10001,312-224-2101,store9 at store.com
10,Philadelphia,2007-05-21 13:40:13,19019,213-519-6422,store10 at walmart.com
11,Los Angeles,2001-04-24 19:12:27,90005,210-821-7144,store11@walmart.com


<span style="font-size: 18px;">
Aquí vemos que la gran mayoría de los números de teléfonos presentan caracteres no numéricos como son:

- "-"
- "()"
- "+"
</span>

## **Columna Email**
<span style="font-size: 18px;">
En esta columna nos centramos en identificar correos electrónicos que cumplan con el formato estándar. Es importante resaltar que esta validación se limita a verificar el cumplimiento del formato, sin garantizar la validez del correo. Para ello, se implementaron las siguientes instrucciones:

- <b>Conversión a VARCHAR de 320 caracteres :</b> Se intenta convertir cada correo a un tipo VARCHAR(320). Si la conversión falla, significa que el correo no es válido (contiene caracteres no permitidos o es NULL).
- <b>Validación de un patrón básico :</b> Se verifica que el correo contenga un patrón mínimo válido, es decir, incluya un símbolo @ y al menos un punto (.) después de este.
- <b>Comprobación de longitud máxima del correo :</b> Se asegura que la longitud total del correo no exceda los 320 caracteres, conforme a las especificaciones del estándar RFC 3696. https://datatracker.ietf.org/doc/html/rfc3696.
- <b>Validación de la longitud del dominio :</b> Se verifica que la longitud del dominio (la parte después del @) no supere los 255 caracteres, siguiendo estos pasos:
    - <b>Ubicación del símbolo @ :</b> Mediante <b>CHARINDEX('@', Email) + 1</b> se encuentra la posición del símbolo @ y se avanza un carácter para ubicar el inicio del dominio.
    - <b>Extracción del dominio :</b> Con <b> SUBSTRING(Email, CHARINDEX('@', Email) + 1, LEN(Email))</b> se extrae la parte del correo que corresponde al dominio (por ejemplo, gmail.com).
    - <b>Validación de la longitud :</b> Finalmente, se utiliza la función LEN() para comprobar que la longitud del dominio no exceda los 255 caracteres.    
</span>

In [7]:
-- # 7.
SELECT *
FROM Store
WHERE TRY_CONVERT(VARCHAR(320), Email) IS NULL
  OR Email NOT LIKE '%@%.%'
  OR LEN(Email) > 320
  OR LEN(SUBSTRING(Email, CHARINDEX('@', Email) + 1, LEN(Email))) > 255;

Store_ID,City,Open_Date,Zip_Code,Phone,Email
1,San Antonio,2003-07-24 21:45:30,78015,2136875667,store1 at retail.com
9,New York,2007-07-24 04:31:20,10001,312-224-2101,store9 at store.com
10,Philadelphia,2007-05-21 13:40:13,19019,213-519-6422,store10 at walmart.com
12,Philadelphia.,2001-03-21 09:54:21,19050,6024369028,store12 at example.com
14,Los Angeles,2002-01-18 09:30:07,90009,619-427-9882,store14 at walmart.com
16,San Antonio,2004-06-17 11:22:53,78154,2125939415,store16 at store.com
22,Chicago,2002-03-07 15:36:15,60007,210-854-1838,"store22@store,com"
23,Phoenix,2000-03-30 19:09:12,92101,602-702-1125,store23 at example.com
29,San Antonio,2003-04-10 03:59:36,78207,213-515-7007,store29#walmart.com
30,Los Angeles,20070517100103,90002,312-914-5145,store30 at example.com


<span style="font-size: 18px;">
Como se puede observar, existen 13 correos electrónicos que no cumplen con el formato estándar.
</span>

## **Resultados y conclusiones**

<span style="font-size: 18px;">
A modo de resumen tenemos los siguientes resultados:

1. La tabla <b>Store</b> tiene 45 registros y 6 columnas.
1. La columna <b>City</b> tiene 32 nombres de ciudades que deben ser convertidos a un formato estándar.
1. La columna <b>Open_Date</b> tiene 3 fechas en formato inválido.
1. La columna <b>Zip_Code</b> tiene 9 registros con caracteres no numéricos.
1. La columna <b>Phone</b> tiene 35 registros con caracteres no numéricos.
1. La columna <b>Email</b> tiene 13 correos que no cumplen con el formato estándar de un correo electrónico (nombre@dominio.es).

<b>Conclusiones:</b>

1. La columna <b>City</b> requiere que los registros se estandaricen para garantizar la consistencia de los datos.
1. Las fechas deben ser transformadas al formato DD-MM-AAAA.
1. Las columnas <b>Zip_Code</b> y <b>Phone</b> deben transformarse a formato <b>int</b> y esto incluye eliminar los caracteres no numéricos.
1. Se deben corregir los correos electrónicos con el formato inválido.

</span>