### Importamos las librerias necesarias para realizar nuestro ETL:

In [2]:
from pyspark.sql.functions import col, sum

### Realizamos la conexion a ADLS para poder acceder a los archivos reviews-estados:

In [4]:
spark.conf.set("fs.azure.account.key.datumtechstorage.dfs.core.windows.net","2IEO7wL5cOzrt/r4jBQ8WnSRCq5LHWA3ezQ33eZYVsp1W9PI+53LPQ6bz56KFnEJKwsJEPZFtDPS+AStqxFgeA==")

### Creacion de tabla `processed_files_user` para mantener el registro de los archivos ya procesados.

In [6]:
spark.sql("CREATE TABLE IF NOT EXISTS processed_files_user (file_name STRING) USING DELTA")

### Obtenemos la lista de archivos en ADLS.

In [8]:
adls_files = dbutils.fs.ls("abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/Yelp/tip.json")
#display(adls_files)

### Creamos un variable `new_files_user` que contiene los archivos que no estan en ADLS.

In [10]:
processed_files_user = spark.sql("SELECT file_name FROM processed_files_user").toPandas()["file_name"].tolist()

new_files_user = [file for file in adls_files if file.name not in processed_files_user]

### Podemos ver que archivos ya estan procesados en la tabla `processed_files_user`

In [12]:
#spark.sql("SELECT * FROM processed_files_user").show()

### Podemos ver que archivos no estan procesados aun.

In [14]:
print(new_files_user)

[FileInfo(path='abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-Alabama/', name='review-Alabama/', size=0, modificationTime=1686171641000), FileInfo(path='abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-Alaska/', name='review-Alaska/', size=0, modificationTime=1686171747000), FileInfo(path='abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-Arizona/', name='review-Arizona/', size=0, modificationTime=1686173085000), FileInfo(path='abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-Arkansas/', name='review-Arkansas/', size=0, modificationTime=1686173230000), FileInfo(path='abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-California/', name='review-California/', size=0, modificationTime=1686173422000), FileInfo(path='abfss://datumcontainer@datumtechstorage.dfs.core

In [15]:
display(new_files_user)

path,name,size,modificationTime
abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-Alabama/,review-Alabama/,0,1686171641000
abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-Alaska/,review-Alaska/,0,1686171747000
abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-Arizona/,review-Arizona/,0,1686173085000
abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-Arkansas/,review-Arkansas/,0,1686173230000
abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-California/,review-California/,0,1686173422000
abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-Colorado/,review-Colorado/,0,1686172195000
abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-Connecticut/,review-Connecticut/,0,1686172383000
abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-Delaware/,review-Delaware/,0,1686172557000
abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-District_of_Columbia/,review-District_of_Columbia/,0,1686172640000
abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/GoogleMaps/reviews-estados/review-Florida/,review-Florida/,0,1686172692000


In [16]:
#new_files_user[1][1].rstrip("/")

### Creamos la funcion `etl` que realiza todo el proceso y devuelve el dataframe en formato parquet a la tabla silver corrrespondiente a los datos ya procesados.

In [18]:

def etl(file):
    
    # Definimos las rutas:
    path_raw=f"abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/Yelp/user.parquet{file}"
    path_bronze = f"abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/Bronze/YelpBronze/user-bronze/{file}-bronze.parquet"
    path_silver = f"abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/Silver/YelpSilver/user-Silver/{file}-silver.parquet"

    # Cargamos el archivo desde ADLS. Nos quedamos solo con las columnas consideradas para el proyecto:
    df_raw = spark.read.format("parquet").option("multiline", True).load(path_raw).select('user_id','average_stars')
     
    # Guardamos el DataFrame df_raw en la tabla bronze correspondiente a los datos en crudo o poco procesados en Azure Data Lake con un formato parquet ideal para manejar altos volumenes de datos.
    df_raw.write.format("parquet").save(path_bronze)
        
    # Cargamos el archivo desde la tabla bronze en Azure Data Lake en un DataFrame.
    df_user = spark.read.format("parquet").load(path_bronze)

    # Eliminamos duplicados
    df_user = df_user.dropDuplicates()

        
    # Eliminamos valores vacíos o nulos en las columnas 
    df_user = df_user.dropna()
    # Guardamos el DataFrame df_metadata en la tabla silver correspondiente a los datos procesados en Azure Data Lake.
    return df_user.write.format("parquet").save(path_silver)
    

### Iteramos sobre cada archivo sin procesar.

In [20]:
for file in new_files_user:
    etl(file.name.rstrip("/"))

### Agregamos a la tabla `processed_files_user` los archivos ya procesados.

In [22]:
new_files_df = spark.createDataFrame([(file.name,) for file in new_files_user], ["file_name"])
new_files_df.write.format("delta").mode("append").saveAsTable("processed_files_user")

### Podemos verificar que, efectivamente esten registrados los archivos ya procesados.

In [24]:
spark.sql("SELECT * FROM processed_files_user").show()

+--------------------+
|           file_name|
+--------------------+
| review-Mississippi/|
|    review-Missouri/|
|     review-Montana/|
|    review-Nebraska/|
|      review-Nevada/|
|review-New_Hampsh...|
|  review-New_Jersey/|
|  review-New_Mexico/|
|    review-New_York/|
|review-North_Caro...|
|review-North_Dakota/|
|        review-Ohio/|
|     review-Alabama/|
|      review-Alaska/|
|     review-Arizona/|
|    review-Arkansas/|
|  review-California/|
|    review-Colorado/|
| review-Connecticut/|
|    review-Delaware/|
+--------------------+
only showing top 20 rows



#### Para comprobar que todo se haya ejecutado de manera correcta, podemos traer cualquier archivo de la tabla silver y hacer algunas verificaciones.

In [26]:
# Funcion para cargar el archivo desde la tabla correspondiente al estado de los datos en Azure Data Lake en un DataFrame.
'''def load_from(file, level):
    path= f"abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/{level}/GoogleMaps{level}/reviews-estados-{level}/{file}-{level.lower()}.parquet"
    df = spark.read.format("parquet").load(path)
    return df'''

Out[113]: 'def load_from(file, level):\n    path= f"abfss://datumcontainer@datumtechstorage.dfs.core.windows.net/{level}/GoogleMaps{level}/reviews-estados-{level}/{file}-{level.lower()}.parquet"\n    df = spark.read.format("parquet").load(path)\n    return df'

In [27]:
# Cambiando ...new_files[<valor de la fila en la tabla>][1]... podras cargar algun archivo de los ya procesados de la tabla silver.
#df = load_from(new_files[0][1].rstrip("/"), "Silver")

In [28]:
#display(df)

### Podemos verificar si hay nulos en algun archivo en la tabla silver.

In [30]:
# Funcion para el conteo de nulos del dataframe.
'''def null_counts (df):
    counts = df.select([sum(col(c).isNull().cast("integer")).alias(c) for c in df.columns])
    return counts.show()'''

Out[116]: 'def null_counts (df):\n    counts = df.select([sum(col(c).isNull().cast("integer")).alias(c) for c in df.columns])\n    return counts.show()'

In [31]:
# Vemos que columnas poseen nulos y en que cantidad.
#nulls = null_counts(df)