# 1 - ETL (Dataset original)

### 1.1 - Importación de librerias

---

Las siguientes librerias son comunes en entornos de programación en Python, especialmente en el contexto de análisis de datos y ciencia de datos.

Aquí hay una breve explicación de cada una de ellas:


* **Pandas (import pandas as pd):**

>Pandas es una biblioteca de Python que proporciona estructuras de datos flexibles y herramientas de análisis de datos. La importación as pd es una convención común para abreviar el nombre de la biblioteca y hacer que el código sea más conciso. Pandas es ampliamente utilizado para manipular y analizar conjuntos de datos tabulares.

* **JSON (import json):**

>JSON (JavaScript Object Notation) es un formato de intercambio de datos ligero y legible por humanos. La biblioteca json en Python permite la serialización y deserialización de datos en formato JSON. Puede utilizarse para leer y escribir datos en este formato.

* **AST (import ast):**

>AST (Abstract Syntax Tree) es una representación jerárquica de la estructura sintáctica de un programa en Python. La biblioteca ast permite analizar y manipular el árbol de sintaxis abstracta de un código fuente en Python. Puede ser útil para realizar análisis estático del código.

* **Expresiones Regulares (import re):**

>El módulo re proporciona operaciones de expresiones regulares en Python. Las expresiones regulares son patrones de búsqueda que se utilizan para coincidir con cadenas de texto. Son herramientas poderosas para manipular y buscar patrones específicos en cadenas de texto.

* **%load_ext autoreload y %autoreload 2:**

>Estos comandos son específicos de los cuadernos Jupyter y se utilizan para recargar automáticamente módulos antes de ejecutar una celda. %load_ext autoreload habilita la recarga automática de módulos, y %autoreload 2 configura la recarga automática para que sea más agresiva y recargue incluso las funciones de los módulos.

* **Warnings (import warnings):**

>El módulo warnings proporciona herramientas para controlar las advertencias que emite Python. En este caso, se está configurando para ignorar las advertencias, lo cual puede ser útil para evitar que las advertencias llenen la salida de la consola y distraigan durante la ejecución del código.
En resumen, estas importaciones son comunes en entornos de análisis de datos y ciencia de datos en Python, y proporcionan herramientas para manipular datos, trabajar con JSON, analizar expresiones regulares y controlar advertencias. Además, los comandos %load_ext autoreload y %autoreload 2 son específicos de los cuadernos Jupyter y se utilizan para facilitar el desarrollo interactivo.

* **TextBlob:**

>TextBlob es una biblioteca en Python que proporciona herramientas para el procesamiento de lenguaje natural (NLP). Permite realizar tareas como análisis de sentimientos, extracción de frases clave, etiquetado de partes del discurso, etc.

* **Nltk:**

>La biblioteca nltk (Natural Language Toolkit) es otra herramienta poderosa para el procesamiento de lenguaje natural en Python. Proporciona una serie de módulos y recursos para tareas como tokenización, análisis sintáctico, stemming, entre otras. En este caso, estás importando todo el módulo nltk.

* **csv:**

>csv es un módulo en Python que proporciona funcionalidades para trabajar con archivos CSV (Comma-Separated Values). Los archivos CSV son un formato común para almacenar datos tabulares, donde cada fila del archivo representa una entrada de datos y los valores están separados por comas u otro delimitador.<p/>
El módulo csv en Python proporciona funciones para leer datos desde archivos CSV y escribir datos en archivos CSV. Algunas funciones importantes incluyen csv.reader() para leer un archivo CSV y csv.writer() para escribir en un archivo CSV.




In [56]:
# Importaciones de bibliotecas necesarias
import pandas as pd  # Pandas para manipulación de datos tabulares
import json  # Módulo para trabajar con JSON
import ast  # Módulo para evaluar expresiones literales de Python
import re  # Módulo para trabajar con expresiones regulares
from textblob import TextBlob # Importa la clase TextBlob desde la biblioteca TextBlob
import nltk # Importa la biblioteca nltk (Natural Language Toolkit)
import csv # Importa el módulo csv en Python

# Habilita la recarga automática de módulos antes de ejecutar una celda
%load_ext autoreload
%autoreload 2

# Importa el módulo de advertencias y configura para ignorar todas las advertencias
import warnings
warnings.filterwarnings("ignore")

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


### 1.2 - Funciones auxiliares

---

**Verificar tipos de datos**

>Verificamos los tipos de datos que contienen las columnas de "df_games".<p> Esta función llamada verificar_tipo_datos toma un DataFrame como entrada y devuelve un nuevo DataFrame que proporciona información sobre los tipos de datos y la cantidad de valores nulos en cada columna del DataFrame de entrada. <p>Esta función proporciona un resumen útil de las características de las columnas en un DataFrame, incluidos los tipos de datos y la cantidad de valores nulos. Es especialmente útil para realizar un análisis inicial de calidad de los datos en un conjunto de datos. <p> Aquí está una descripción detallada de lo que hace:

In [5]:
def verificar_tipo_datos(df):

    #Se crea un diccionario (mi_dict) con cinco claves: "nombre_campo", "tipo_datos", "no_nulos_%", "nulos_%", y "nulos". Estas claves se utilizarán para almacenar información sobre cada columna del DataFrame.
    mi_dict = {"nombre_campo": [], "tipo_datos": [], "no_nulos_%": [], "nulos_%": [], "nulos": []}

    #Se realiza un bucle sobre todas las columnas del DataFrame df.
    for columna in df.columns:
        porcentaje_no_nulos = (df[columna].count() / len(df)) * 100
        mi_dict["nombre_campo"].append(columna)
        mi_dict["tipo_datos"].append(df[columna].apply(type).unique())
        mi_dict["no_nulos_%"].append(round(porcentaje_no_nulos, 2))
        mi_dict["nulos_%"].append(round(100-porcentaje_no_nulos, 2))
        mi_dict["nulos"].append(df[columna].isnull().sum())

        # Se calcula el porcentaje de valores no nulos en la columna actual (porcentaje_no_nulos).
        # La columna actual se agrega a la lista bajo la clave "nombre_campo".
        # Se obtiene el tipo de datos único en la columna actual y se agrega a la lista bajo la clave "tipo_datos".
        # Se agrega el porcentaje de valores no nulos a la lista bajo la clave "no_nulos_%".
        # Se agrega el porcentaje de valores nulos a la lista bajo la clave "nulos_%".
        # Se agrega la cantidad de valores nulos en la columna actual a la lista bajo la clave "nulos".

    # Se utiliza el diccionario mi_dict para crear un nuevo DataFrame llamado df_info.
    df_info = pd.DataFrame(mi_dict)

    # La función devuelve el DataFrame df_info que contiene información sobre cada columna, incluidos el nombre de la columna, el tipo de datos, el porcentaje de valores no nulos, el porcentaje de valores nulos y la cantidad de valores nulos.
    return df_info

**Verificar duplicados por columnas**

>La siguiente función proporciona una herramienta util para identificar y ordenar las filas duplicadas de un DataFrame de Pandas en función de los valores de una columna específica. En nuestro caso puede ser útil para el análisis de datos cuando se desea examinar y manejar duplicados en función de una columna particular.

In [6]:
def verifica_duplicados_por_columna(df, columna):

    # Se filtran las filas duplicadas
    duplicated_rows = df[df.duplicated(subset=columna, keep=False)]
    if duplicated_rows.empty:
        return "No hay duplicados"

    # se ordenan las filas duplicadas para comparar entre sí
    duplicated_rows_sorted = duplicated_rows.sort_values(by=columna)
    return duplicated_rows_sorted

**Convertir fecha**

>La siguiente función toma una cadena de fecha en un formato específico, intenta extraer y convertir esa fecha a un formato diferente ('YYYY-MM-DD'), y devuelve la fecha resultante o un mensaje de error si la cadena no cumple con el formato esperado.

In [7]:
def convertir_fecha(cadena_fecha):

    # Busca en la cadena de fecha un patrón que coincida con el formato "Mes día, año"
    match = re.search(r'(\w+\s\d{1,2},\s\d{4})', cadena_fecha)

    if match:
        # Si hay coincidencia, extrae la cadena de fecha
        fecha_str = match.group(1)
        try:
            # Intenta convertir la cadena de fecha a un objeto de fecha de Pandas
            fecha_dt = pd.to_datetime(fecha_str)
            # Formatea la fecha resultante en el formato 'YYYY-MM-DD' y la devuelve
            return fecha_dt.strftime('%Y-%m-%d')
        except:
            # En caso de error durante la conversión, devuelve 'Fecha inválida'
            return 'Fecha inválida'
    else:
        # Si no hay coincidencia, devuelve 'Formato inválido'
        return 'Formato inválido'

**Análisis de sentimiento**

>Esta función proporciona una forma básica de categorizar el sentimiento de un texto en positivo, negativo o neutral según la polaridad calculada por TextBlob.

In [57]:
# Definición de la función de análisis de sentimiento
def analisis_sentimiento(review):  # Verifica si la revisión es None (ninguna).

    if review is None:  # En caso afirmativo, devuelve 1, que podría ser interpretado como un sentimiento neutral.
        return 1

    analysis = TextBlob(review) # Crea una instancia de la clase TextBlob con la revisión proporcionada.
    polarity = analysis.sentiment.polarity  # Obtiene la polaridad del sentimiento del análisis TextBlob.

    if polarity < -0.2:  # Compara la polaridad con umbrales para determinar el sentimiento general.
        return 0  # Si la polaridad es menor que -0.2, se considera un sentimiento negativo y se devuelve 0.

    elif polarity > 0.2:  # Si la polaridad es mayor que 0.2, se considera un sentimiento positivo y se devuelve 2.
        return 2

    else:  # En otros casos, se devuelve 1, que podría ser interpretado como un sentimiento neutral.
        return 1

**Análisis de Ejemplos de Reviews por Sentimiento**

>La función `ejemplos_review_por_sentimiento` se utiliza para analizar y presentar ejemplos de reviews clasificados según sus sentimientos. La función toma dos listas como parámetros: reviews, que contiene las reviews, y sentiments, que contiene los valores de sentimiento asociados a cada review.<p/>
La función itera a través de tres categorías de sentimiento:

*    0 para negativo.
*    1 para neutra.
*    2 para positivo.

>A su vez  muestra los ejemplos de reviews correspondientes a cada categoría. Para cada categoría, se imprime el número de la categoría y se filtran las reviews que tienen ese valor de sentimiento. Luego, se presentan los primeros tres ejemplos de reviews de esa categoría.

In [58]:
def ejemplos_review_por_sentimiento(reviews, sentiments):

    for sentiment_value in range(3):
        print(f"Para la categoría de análisis de sentimiento {sentiment_value} se tienen estos ejemplos de reviews:")
        sentiment_reviews = [review for review, sentiment in zip(reviews, sentiments) if sentiment == sentiment_value]

        for i, review in enumerate(sentiment_reviews[:3], start=1):
            print(f"Review {i}: {review}")

        print("\n")

### 1.3 - ETL - australian_user_reviews

---

El código a continuación carga un conjunto de datos desde un archivo JSON, lo convierte en un DataFrame de Pandas y finalmente devuelve ese DataFrame como  `df_reviews`.

In [62]:
# Ruta al dataset australian_user_reviews
ruta_review = '/content/drive/MyDrive/HENRY/0_Dataset original/Australian_user_reviews.json'

# Se lee de cada línea del dataset
filas_review = []
with open(ruta_review, encoding='utf-8') as f:
    # Se itera sobre cada línea del archivo JSON
    for line in f.readlines():
        # Se utiliza ast.literal_eval para evaluar la línea como una expresión literal de Python (convirtiendo JSON a Python)
        filas_review.append(ast.literal_eval(line))

# Se convierte en dataframe
df_reviews = pd.DataFrame(filas_review)
df_reviews

Unnamed: 0,user_id,user_url,reviews
0,76561197970982479,http://steamcommunity.com/profiles/76561197970...,"[{'funny': '', 'posted': 'Posted November 5, 2..."
1,js41637,http://steamcommunity.com/id/js41637,"[{'funny': '', 'posted': 'Posted June 24, 2014..."
2,evcentric,http://steamcommunity.com/id/evcentric,"[{'funny': '', 'posted': 'Posted February 3.',..."
3,doctr,http://steamcommunity.com/id/doctr,"[{'funny': '', 'posted': 'Posted October 14, 2..."
4,maplemage,http://steamcommunity.com/id/maplemage,"[{'funny': '3 people found this review funny',..."
...,...,...,...
25794,76561198306599751,http://steamcommunity.com/profiles/76561198306...,"[{'funny': '', 'posted': 'Posted May 31.', 'la..."
25795,Ghoustik,http://steamcommunity.com/id/Ghoustik,"[{'funny': '', 'posted': 'Posted June 17.', 'l..."
25796,76561198310819422,http://steamcommunity.com/profiles/76561198310...,"[{'funny': '1 person found this review funny',..."
25797,76561198312638244,http://steamcommunity.com/profiles/76561198312...,"[{'funny': '', 'posted': 'Posted July 21.', 'l..."


Verificamos los tipos de datos con nuestra funcion `verificar_tipo_datos(df)`

In [63]:
verificar_tipo_datos(df_reviews)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,user_id,[<class 'str'>],100.0,0.0,0
1,user_url,[<class 'str'>],100.0,0.0,0
2,reviews,[<class 'list'>],100.0,0.0,0


Verificamos los duplicados por columna con nuestra funcion `verifica_duplicados_por_columna(df, 'columna')`

In [64]:
filas_duplicadas = verifica_duplicados_por_columna(df_reviews, 'user_id')
filas_duplicadas

Unnamed: 0,user_id,user_url,reviews
12888,05041129,http://steamcommunity.com/id/05041129,"[{'funny': '', 'posted': 'Posted May 18, 2015...."
5250,05041129,http://steamcommunity.com/id/05041129,"[{'funny': '', 'posted': 'Posted May 18, 2015...."
3133,111222333444555666888,http://steamcommunity.com/id/11122233344455566...,"[{'funny': '', 'posted': 'Posted December 22, ..."
3134,111222333444555666888,http://steamcommunity.com/id/11122233344455566...,"[{'funny': '', 'posted': 'Posted December 22, ..."
4139,29123,http://steamcommunity.com/id/29123,"[{'funny': '', 'posted': 'Posted March 26.', '..."
...,...,...,...
2721,xXAussieRockXx,http://steamcommunity.com/id/xXAussieRockXx,"[{'funny': '', 'posted': 'Posted July 17, 2015..."
2680,yolofaceguy,http://steamcommunity.com/id/yolofaceguy,"[{'funny': '', 'posted': 'Posted October 31, 2..."
17916,yolofaceguy,http://steamcommunity.com/id/yolofaceguy,"[{'funny': '', 'posted': 'Posted October 31, 2..."
5855,zeroblade,http://steamcommunity.com/id/zeroblade,"[{'funny': '', 'posted': 'Posted November 30, ..."


Se observan 623 filas duplicadas en la columna 'user_id':

Esto indica que en el DataFrame, se han identificado 623 filas donde el valor en la columna 'user_id' es el mismo.

Esto significa que hay registros en los cuales el mismo identificador ('user_id') aparece más de una vez.

Se revisan si los review dentro de los datos anidados de 'review' la información se encuentra duplicada": Aquí, se está sugiriendo que el análisis no se limita simplemente a la columna 'user_id'; también se está examinando la información contenida en la columna 'review', que parece ser una estructura de datos anidada.

Esta estructura puede contener información adicional relacionada con el servicio, posiblemente en forma de comentarios ('review').

O también puede ser que solo se duplica el 'user_id' porque hay más de un comentario realizado por ese usuario".

En este punto, se está considerando la posibilidad de que la duplicación pueda deberse a la presencia de múltiples comentarios realizados por el mismo usuario. Esto implica que se está prestando atención al identificador de usuario ('user_id') dentro de los datos anidados de 'review' para determinar si hay usuarios que han realizado más de un comentario.

Para concluir, la explicación describe un proceso de análisis donde se detectan duplicados en la columna 'user_id', pero también se investiga más a fondo dentro de la estructura anidada 'review' para entender si la duplicación está relacionada con la información adicional dentro de esa estructura, particularmente si hay usuarios que han realizado más de un comentario.

In [65]:
# Se revisa un usuario de ejemplo
user_id = '05041129'

# Se filtran las filas duplicadas que corresponden al usuario de ejemplo
user_reviews = filas_duplicadas[filas_duplicadas['user_id'] == user_id]['reviews']

# Se itera sobre las listas de revisiones del usuario
for review_list in user_reviews:
    # Se itera sobre cada revisión en la lista
    for review in review_list:
        # Imprime el contenido de cada revisión
        print(review['review'])

    # Imprime una línea divisoria después de imprimir todas las revisiones del usuario
    print('-' * 40)


This game to me it is so good that it is better than any of the games out their and $15 worth it
this is the best third person game ever that i have played
this will be the  number one game if it have more competitive things
----------------------------------------
This game to me it is so good that it is better than any of the games out their and $15 worth it
this is the best third person game ever that i have played
this will be the  number one game if it have more competitive things
----------------------------------------


Borramos duplicados por que vemos que son la misma review para el usuario

In [66]:
# Elimina filas duplicadas en el DataFrame df_reviews basándose en la columna 'user_id'
df_reviews = df_reviews.drop_duplicates(subset='user_id', keep='first')

# Llama a la función verifica_duplicados_por_columna para asegurarse de que no haya duplicados en la columna 'user_id'
verifica_duplicados_por_columna(df_reviews, 'user_id')


'No hay duplicados'

Vemos la columna reviews para saber que tipos de datos tiene

In [67]:
# Se observa el tipo de dato que contiene 'review'
df_reviews['reviews'][0]

[{'funny': '',
  'posted': 'Posted November 5, 2011.',
  'last_edited': '',
  'item_id': '1250',
  'helpful': 'No ratings yet',
  'recommend': True,
  'review': 'Simple yet with great replayability. In my opinion does "zombie" hordes and team work better than left 4 dead plus has a global leveling system. Alot of down to earth "zombie" splattering fun for the whole family. Amazed this sort of FPS is so rare.'},
 {'funny': '',
  'posted': 'Posted July 15, 2011.',
  'last_edited': '',
  'item_id': '22200',
  'helpful': 'No ratings yet',
  'recommend': True,
  'review': "It's unique and worth a playthrough."},
 {'funny': '',
  'posted': 'Posted April 21, 2011.',
  'last_edited': '',
  'item_id': '43110',
  'helpful': 'No ratings yet',
  'recommend': True,
  'review': 'Great atmosphere. The gunplay can be a bit chunky at times but at the end of the day this game is definitely worth it and I hope they do a sequel...so buy the game so I get a sequel!'}]

Este conjunto contiene 3 columnas y 25799 filas, sin valores nulos.

Las columnas son:

* **user_id**: es un identificador único para el usuario.
* **user_url**: es la url del perfil del usuario en streamcommunity.
* **reviews**: contiene una lista de diccionarios. Para cada usuario se tiene uno o mas diccionario con el review. Cada diccionario contiene:
    * **funny**: indica si alguien puso emoticón de gracioso al review.
    * **posted**: es la fecha de posteo del review en formato Posted April 21, 2011.
    * **last_edited**: es la fecha de la última edición.
    * **item_id**: es el identificador único del item, es decir, del juego.
    * **helpful**: es la estadística donde otros usuarios indican si fue útil la información.
    * **recommend**: es un booleano que indica si el usuario recomienda o no el juego.
    * **review**: es una sentencia string con los comentarios sobre el juego.

Transformamos la columna reviews <p> `df_reviews['reviews']`:
>Supongamos que `df_reviews` es un DataFrame de Pandas que contiene una columna llamada `reviews`, y esta columna contiene datos en formato JSON anidado.

>El formato JSON anidado es común cuando se almacenan datos estructurados, como diccionarios o listas, dentro de una columna de un DataFrame.

`pd.json_normalize(df_reviews['reviews'])`:
>json_normalize es una función de Pandas que se utiliza para normalizar datos JSON anidados.

>Normalizar en este contexto significa convertir datos JSON anidados en un formato tabular, lo que facilita el análisis y la manipulación.

`En este caso, df_reviews['reviews']`
>Se pasa como argumento a json_normalize, lo que indica que se desea normalizar los datos JSON anidados contenidos en la columna 'reviews' del DataFrame df_reviews. La salida de json_normalize será un nuevo DataFrame, que llamamos df_reviews2.

`df_reviews2.head()`:
>Muestra las primeras filas del nuevo DataFrame df_reviews2. Esto proporciona una vista previa de cómo se ha estructurado la información normalizada.

Como conclusión el código toma datos JSON anidados almacenados en la columna `reviews` de un DataFrame `(df_reviews)`, los normaliza con `json_normalize`, y luego muestra las primeras filas del nuevo DataFrame resultante `(df_reviews2)`.


La normalización puede ser útil cuando se trabaja con datos JSON anidados y se desea convertirlos en un formato tabular más manejable.

In [68]:
# Se transforma a columnas cada elemento de las listas
df_reviews2 = pd.json_normalize(df_reviews['reviews'])
df_reviews2.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,"{'funny': '', 'posted': 'Posted November 5, 20...","{'funny': '', 'posted': 'Posted July 15, 2011....","{'funny': '', 'posted': 'Posted April 21, 2011...",,,,,,,
1,"{'funny': '', 'posted': 'Posted June 24, 2014....","{'funny': '', 'posted': 'Posted September 8, 2...","{'funny': '', 'posted': 'Posted November 29, 2...",,,,,,,
2,"{'funny': '', 'posted': 'Posted February 3.', ...","{'funny': '', 'posted': 'Posted December 4, 20...","{'funny': '', 'posted': 'Posted November 3, 20...","{'funny': '', 'posted': 'Posted October 15, 20...","{'funny': '', 'posted': 'Posted October 15, 20...","{'funny': '', 'posted': 'Posted October 15, 20...",,,,
3,"{'funny': '', 'posted': 'Posted October 14, 20...","{'funny': '', 'posted': 'Posted July 28, 2012....","{'funny': '', 'posted': 'Posted June 2, 2012.'...","{'funny': '', 'posted': 'Posted June 29, 2014....","{'funny': '', 'posted': 'Posted November 22, 2...","{'funny': '', 'posted': 'Posted February 23, 2...",,,,
4,"{'funny': '3 people found this review funny', ...","{'funny': '1 person found this review funny', ...","{'funny': '2 people found this review funny', ...","{'funny': '', 'posted': 'Posted July 11, 2013....",,,,,,


Perdemos `user_id` y `user_url` pero todo esta en la misma fila y luego lo unimos


In [69]:
# Se agrega el 'user_id' y 'user_url' a las columnas separadas
df_reviews2 = pd.concat([df_reviews[['user_id', 'user_url']], df_reviews2], axis=1)
df_reviews2.head()

Unnamed: 0,user_id,user_url,0,1,2,3,4,5,6,7,8,9
0,76561197970982479,http://steamcommunity.com/profiles/76561197970...,"{'funny': '', 'posted': 'Posted November 5, 20...","{'funny': '', 'posted': 'Posted July 15, 2011....","{'funny': '', 'posted': 'Posted April 21, 2011...",,,,,,,
1,js41637,http://steamcommunity.com/id/js41637,"{'funny': '', 'posted': 'Posted June 24, 2014....","{'funny': '', 'posted': 'Posted September 8, 2...","{'funny': '', 'posted': 'Posted November 29, 2...",,,,,,,
2,evcentric,http://steamcommunity.com/id/evcentric,"{'funny': '', 'posted': 'Posted February 3.', ...","{'funny': '', 'posted': 'Posted December 4, 20...","{'funny': '', 'posted': 'Posted November 3, 20...","{'funny': '', 'posted': 'Posted October 15, 20...","{'funny': '', 'posted': 'Posted October 15, 20...","{'funny': '', 'posted': 'Posted October 15, 20...",,,,
3,doctr,http://steamcommunity.com/id/doctr,"{'funny': '', 'posted': 'Posted October 14, 20...","{'funny': '', 'posted': 'Posted July 28, 2012....","{'funny': '', 'posted': 'Posted June 2, 2012.'...","{'funny': '', 'posted': 'Posted June 29, 2014....","{'funny': '', 'posted': 'Posted November 22, 2...","{'funny': '', 'posted': 'Posted February 23, 2...",,,,
4,maplemage,http://steamcommunity.com/id/maplemage,"{'funny': '3 people found this review funny', ...","{'funny': '1 person found this review funny', ...","{'funny': '2 people found this review funny', ...","{'funny': '', 'posted': 'Posted July 11, 2013....",,,,,,


Generamos un diccionario con cada usuario que lo genera utilizando la función ***melt*** de Pandas para transformar el DataFrame `df_reviews2` de formato ancho a largo, luego se conservan las columnas `user_id` y `user_url` como identificadores únicos.


In [70]:
# Las columnas de valor se especifican mediante list(range(9)), y la nueva columna se llama 'reviews'
df_reviews2 = pd.melt(df_reviews2, id_vars=['user_id', 'user_url'],
                       value_vars=list(range(9)),
                       value_name='reviews')

# Muestra las primeras filas del DataFrame df_reviews2 después de la transformación
df_reviews2.head()


Unnamed: 0,user_id,user_url,variable,reviews
0,76561197970982479,http://steamcommunity.com/profiles/76561197970...,0,"{'funny': '', 'posted': 'Posted November 5, 20..."
1,js41637,http://steamcommunity.com/id/js41637,0,"{'funny': '', 'posted': 'Posted June 24, 2014...."
2,evcentric,http://steamcommunity.com/id/evcentric,0,"{'funny': '', 'posted': 'Posted February 3.', ..."
3,doctr,http://steamcommunity.com/id/doctr,0,"{'funny': '', 'posted': 'Posted October 14, 20..."
4,maplemage,http://steamcommunity.com/id/maplemage,0,"{'funny': '3 people found this review funny', ..."


Hay usuario que hicieron mas reviews que otros y lo podemos ver con None

In [71]:
df_reviews2[df_reviews2['user_id']=='76561197970982479']

Unnamed: 0,user_id,user_url,variable,reviews
0,76561197970982479,http://steamcommunity.com/profiles/76561197970...,0,"{'funny': '', 'posted': 'Posted November 5, 20..."
25799,76561197970982479,http://steamcommunity.com/profiles/76561197970...,1,"{'funny': '', 'posted': 'Posted July 15, 2011...."
51598,76561197970982479,http://steamcommunity.com/profiles/76561197970...,2,"{'funny': '', 'posted': 'Posted April 21, 2011..."
77397,76561197970982479,http://steamcommunity.com/profiles/76561197970...,3,
103196,76561197970982479,http://steamcommunity.com/profiles/76561197970...,4,
128995,76561197970982479,http://steamcommunity.com/profiles/76561197970...,5,
154794,76561197970982479,http://steamcommunity.com/profiles/76561197970...,6,
180593,76561197970982479,http://steamcommunity.com/profiles/76561197970...,7,
206392,76561197970982479,http://steamcommunity.com/profiles/76561197970...,8,


Eliminamos los none en reviews

In [72]:
# Se eliminan las filas con valor None
df_reviews2 = df_reviews2.dropna()
# Se verifica que solo queden el 'user_id' con la cantidad de diccionarios que le corresponde
df_reviews2[df_reviews2['user_id']=='76561197970982479']

Unnamed: 0,user_id,user_url,variable,reviews
0,76561197970982479,http://steamcommunity.com/profiles/76561197970...,0,"{'funny': '', 'posted': 'Posted November 5, 20..."
25799,76561197970982479,http://steamcommunity.com/profiles/76561197970...,1,"{'funny': '', 'posted': 'Posted July 15, 2011...."
51598,76561197970982479,http://steamcommunity.com/profiles/76561197970...,2,"{'funny': '', 'posted': 'Posted April 21, 2011..."


Convertimos cada diccionario en columna

In [73]:
# Se separan por columnas cada una de las claves de 'reviews'
df_reviews = df_reviews2['reviews'].apply(pd.Series, dtype='object')
df_reviews = df_reviews.add_prefix('reviews_')
df_reviews.head()

Unnamed: 0,reviews_funny,reviews_posted,reviews_last_edited,reviews_item_id,reviews_helpful,reviews_recommend,reviews_review
0,,"Posted November 5, 2011.",,1250,No ratings yet,True,Simple yet with great replayability. In my opi...
1,,"Posted June 24, 2014.",,251610,15 of 20 people (75%) found this review helpful,True,I know what you think when you see this title ...
2,,Posted February 3.,,248820,No ratings yet,True,A suitably punishing roguelike platformer. Wi...
3,,"Posted October 14, 2013.",,250320,2 of 2 people (100%) found this review helpful,True,This game... is so fun. The fight sequences ha...
4,3 people found this review funny,"Posted April 15, 2014.",,211420,35 of 43 people (81%) found this review helpful,True,Git gud


Concatenamos `user_id` y `user_url` de nuevo por que se perdio

In [74]:
# Se une con el 'user_id' y 'user_url'
df_reviews = pd.concat([df_reviews2[['user_id', 'user_url']], df_reviews], axis=1)
df_reviews.head()

Unnamed: 0,user_id,user_url,reviews_funny,reviews_posted,reviews_last_edited,reviews_item_id,reviews_helpful,reviews_recommend,reviews_review
0,76561197970982479,http://steamcommunity.com/profiles/76561197970...,,"Posted November 5, 2011.",,1250,No ratings yet,True,Simple yet with great replayability. In my opi...
1,js41637,http://steamcommunity.com/id/js41637,,"Posted June 24, 2014.",,251610,15 of 20 people (75%) found this review helpful,True,I know what you think when you see this title ...
2,evcentric,http://steamcommunity.com/id/evcentric,,Posted February 3.,,248820,No ratings yet,True,A suitably punishing roguelike platformer. Wi...
3,doctr,http://steamcommunity.com/id/doctr,,"Posted October 14, 2013.",,250320,2 of 2 people (100%) found this review helpful,True,This game... is so fun. The fight sequences ha...
4,maplemage,http://steamcommunity.com/id/maplemage,3 people found this review funny,"Posted April 15, 2014.",,211420,35 of 43 people (81%) found this review helpful,True,Git gud


Reemplazamos los valores faltantes por valores nulos

In [75]:
df_reviews.replace('', None, inplace=True)
df_reviews.head()

Unnamed: 0,user_id,user_url,reviews_funny,reviews_posted,reviews_last_edited,reviews_item_id,reviews_helpful,reviews_recommend,reviews_review
0,76561197970982479,http://steamcommunity.com/profiles/76561197970...,,"Posted November 5, 2011.",,1250,No ratings yet,True,Simple yet with great replayability. In my opi...
1,js41637,http://steamcommunity.com/id/js41637,,"Posted June 24, 2014.",,251610,15 of 20 people (75%) found this review helpful,True,I know what you think when you see this title ...
2,evcentric,http://steamcommunity.com/id/evcentric,,Posted February 3.,,248820,No ratings yet,True,A suitably punishing roguelike platformer. Wi...
3,doctr,http://steamcommunity.com/id/doctr,,"Posted October 14, 2013.",,250320,2 of 2 people (100%) found this review helpful,True,This game... is so fun. The fight sequences ha...
4,maplemage,http://steamcommunity.com/id/maplemage,3 people found this review funny,"Posted April 15, 2014.",,211420,35 of 43 people (81%) found this review helpful,True,Git gud


Verificamos los datos despues de desanidar

In [76]:
verificar_tipo_datos(df_reviews)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,user_id,[<class 'str'>],100.0,0.0,0
1,user_url,[<class 'str'>],100.0,0.0,0
2,reviews_funny,"[<class 'NoneType'>, <class 'str'>]",13.76,86.24,49498
3,reviews_posted,[<class 'str'>],100.0,0.0,0
4,reviews_last_edited,"[<class 'NoneType'>, <class 'str'>]",10.28,89.72,51499
5,reviews_item_id,[<class 'str'>],100.0,0.0,0
6,reviews_helpful,[<class 'str'>],100.0,0.0,0
7,reviews_recommend,[<class 'bool'>],100.0,0.0,0
8,reviews_review,"[<class 'str'>, <class 'NoneType'>]",99.95,0.05,30


Eliminamos las columnas con mas datos faltantes que vemos que son la 2 `reviews_funny` y la 4 `reviews_last_edited`

In [77]:
# Se eliminan las columnas 'reviews_funny' y 'reviews_last_edited'
df_reviews = df_reviews.drop(columns=['reviews_funny', 'reviews_last_edited'])
df_reviews.columns

Index(['user_id', 'user_url', 'reviews_posted', 'reviews_item_id',
       'reviews_helpful', 'reviews_recommend', 'reviews_review'],
      dtype='object')

Transformación de la fecha en formato YYYY-MM-DD con nuestra función `convertir_fecha`

In [78]:
df_reviews['reviews_date'] = df_reviews['reviews_posted'].apply(convertir_fecha)
df_reviews['reviews_date']

0               2011-11-05
1               2014-06-24
2         Formato inválido
3               2013-10-14
4               2014-04-15
                ...       
231291          2014-08-15
231293          2014-08-02
231419          2015-07-31
231499          2015-12-20
231501    Formato inválido
Name: reviews_date, Length: 57397, dtype: object

Hay algunos registros que quedaran como formato invalido

In [79]:
df_reviews[df_reviews['reviews_date'] == 'Formato inválido']

Unnamed: 0,user_id,user_url,reviews_posted,reviews_item_id,reviews_helpful,reviews_recommend,reviews_review,reviews_date
2,evcentric,http://steamcommunity.com/id/evcentric,Posted February 3.,248820,No ratings yet,True,A suitably punishing roguelike platformer. Wi...,Formato inválido
6,76561198079601835,http://steamcommunity.com/profiles/76561198079...,Posted May 20.,730,0 of 1 people (0%) found this review helpful,True,ZIKA DO BAILE,Formato inválido
7,MeaTCompany,http://steamcommunity.com/id/MeaTCompany,Posted July 24.,730,No ratings yet,True,BEST GAME IN THE BLOODY WORLD,Formato inválido
9,76561198156664158,http://steamcommunity.com/profiles/76561198156...,Posted June 16.,252950,0 of 1 people (0%) found this review helpful,True,love it,Formato inválido
10,76561198077246154,http://steamcommunity.com/profiles/76561198077...,Posted June 11.,440,No ratings yet,True,mt bom,Formato inválido
...,...,...,...,...,...,...,...,...
223569,76561198040184950,http://steamcommunity.com/profiles/76561198040...,Posted April 12.,394690,No ratings yet,True,I cannot say much right now due to the game no...,Formato inválido
226105,76561198046474248,http://steamcommunity.com/profiles/76561198046...,Posted March 28.,234140,No ratings yet,True,"Oh what a day .., What a lovely day to play th...",Formato inválido
228109,dmitry_who,http://steamcommunity.com/id/dmitry_who,Posted May 17.,376210,10 of 28 people (36%) found this review helpful,True,░░░░░░░░░░░█▀▀░░█░░░░░░░░░░░▄▀▀▀▀░░░░░█▄▄░░░░░...,Formato inválido
229231,76561198079507136,http://steamcommunity.com/profiles/76561198079...,Posted January 3.,730,No ratings yet,False,got VACed,Formato inválido


Eliminamos por falta de información la columna `reviews_posted` por que "...posteado el 3 de febrero no nos dice nada".

In [80]:
df_reviews = df_reviews.drop('reviews_posted', axis=1)
df_reviews.columns

Index(['user_id', 'user_url', 'reviews_item_id', 'reviews_helpful',
       'reviews_recommend', 'reviews_review', 'reviews_date'],
      dtype='object')

Examinamos los datos de la columna `reviews_review`

In [81]:
df_reviews = df_reviews.dropna(subset=['reviews_review'])
# Se verifican nulos
verificar_tipo_datos(df_reviews)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,user_id,[<class 'str'>],100.0,0.0,0
1,user_url,[<class 'str'>],100.0,0.0,0
2,reviews_item_id,[<class 'str'>],100.0,0.0,0
3,reviews_helpful,[<class 'str'>],100.0,0.0,0
4,reviews_recommend,[<class 'bool'>],100.0,0.0,0
5,reviews_review,[<class 'str'>],100.0,0.0,0
6,reviews_date,[<class 'str'>],100.0,0.0,0


Guardamos el dataset como `Australian_user_reviews_limpio.csv` en la carpeta [Dataset limpio](https://drive.google.com/drive/folders/1wLW1KnpgTIuFHboAfY5vj-1hsSvAbVGN?usp=drive_link)

In [83]:
# Especificar la ruta del directorio y el nombre del archivo CSV
directorio = '/content/drive/MyDrive/HENRY/2_Dataset_limpio'
nombre_archivo = 'Australian_user_reviews_limpio.csv'
ruta_completa = f'{directorio}/{nombre_archivo}'

# Guardar el DataFrame como un archivo CSV en la carpeta especificada
df_reviews.to_csv(ruta_completa, index=False)

print(f'Se guardó el archivo CSV en: {ruta_completa}')

Se guardó el archivo CSV en: /content/drive/MyDrive/HENRY/2_Dataset_limpio/Australian_user_reviews_limpio.csv


### 1.4 - ETL - output_steam_games

---

El código a continuación carga datos desde un archivo JSON llamado output_steam_games.json en una variable llamada df_games. <p> Leer un archivo JSON línea por línea significa procesar el contenido de un archivo JSON tomando cada línea del archivo por separado. Cada línea del archivo JSON se interpreta y se convierte en un objeto o una estructura de datos que se puede manipular en el lenguaje de programación que estás utilizando.

La mayoría de las veces, un archivo JSON se almacena en un formato que incluye múltiples objetos JSON, cada uno en una línea separada. Esto se conoce como "JSON por líneas" o "JSON Lines" (JSONL). Cada línea del archivo es un objeto JSON completo y autónomo.

In [28]:
#Se establece la ruta del archivo JSON en la variable ruta_games. Esta ruta apunta al archivo output_steam_games.json en el sistema de archivos local.
ruta_games = '/content/drive/MyDrive/HENRY/0_Dataset original/Output_steam_games.json'

# Se abre el archivo JSON y se lee línea por línea. Cada línea se convierte de JSON a un diccionario de Python utilizando json.loads(), y el diccionario resultante se agrega a la lista filas_games.
filas_games = []
with open(ruta_games) as f:
    for line in f.readlines():
        data = json.loads(line)
        filas_games.append(data)

# Se utiliza la lista de diccionarios filas_games para crear un DataFrame de pandas llamado df_games. Cada diccionario en la lista representa una fila en el DataFrame.
df_games = pd.DataFrame(filas_games)
df_games

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
120440,Ghost_RUS Games,"[Casual, Indie, Simulation, Strategy]",Colony On Mars,Colony On Mars,http://store.steampowered.com/app/773640/Colon...,2018-01-04,"[Strategy, Indie, Casual, Simulation]",http://steamcommunity.com/app/773640/reviews/?...,"[Single-player, Steam Achievements]",1.99,False,773640,"Nikita ""Ghost_RUS"""
120441,Sacada,"[Casual, Indie, Strategy]",LOGistICAL: South Africa,LOGistICAL: South Africa,http://store.steampowered.com/app/733530/LOGis...,2018-01-04,"[Strategy, Indie, Casual]",http://steamcommunity.com/app/733530/reviews/?...,"[Single-player, Steam Achievements, Steam Clou...",4.99,False,733530,Sacada
120442,Laush Studio,"[Indie, Racing, Simulation]",Russian Roads,Russian Roads,http://store.steampowered.com/app/610660/Russi...,2018-01-04,"[Indie, Simulation, Racing]",http://steamcommunity.com/app/610660/reviews/?...,"[Single-player, Steam Achievements, Steam Trad...",1.99,False,610660,Laush Dmitriy Sergeevich
120443,SIXNAILS,"[Casual, Indie]",EXIT 2 - Directions,EXIT 2 - Directions,http://store.steampowered.com/app/658870/EXIT_...,2017-09-02,"[Indie, Casual, Puzzle, Singleplayer, Atmosphe...",http://steamcommunity.com/app/658870/reviews/?...,"[Single-player, Steam Achievements, Steam Cloud]",4.99,False,658870,"xropi,stev3ns"


**Análisis y modificación de nuestro dataframe**

Se eliminan de "df_games" las filas con valores vacíos, pasando de 120.445 filas a 32.135, eliminando 88.310 filas con valores vacios.

In [29]:
df_games = df_games.dropna(how='all').reset_index(drop=True)
df_games.shape

(32135, 13)

Llamamos a la función para aplicarla a nuestro dataframe "df_games".

In [30]:
verificar_tipo_datos(df_games)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,publisher,"[<class 'str'>, <class 'float'>]",74.94,25.06,8052
1,genres,"[<class 'list'>, <class 'float'>]",89.78,10.22,3283
2,app_name,"[<class 'str'>, <class 'float'>]",99.99,0.01,2
3,title,"[<class 'str'>, <class 'float'>]",93.62,6.38,2050
4,url,[<class 'str'>],100.0,0.0,0
5,release_date,"[<class 'str'>, <class 'float'>]",93.57,6.43,2067
6,tags,"[<class 'list'>, <class 'float'>]",99.49,0.51,163
7,reviews_url,"[<class 'str'>, <class 'float'>]",99.99,0.01,2
8,specs,"[<class 'list'>, <class 'float'>]",97.92,2.08,670
9,price,"[<class 'float'>, <class 'str'>]",95.71,4.29,1377


In [31]:
df_games.head()

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,Kotoshiro,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018-01-04,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,False,761140,Kotoshiro
1,"Making Fun, Inc.","[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,http://store.steampowered.com/app/643980/Ironb...,2018-01-04,"[Free to Play, Strategy, Indie, RPG, Card Game...",http://steamcommunity.com/app/643980/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free To Play,False,643980,Secret Level SRL
2,Poolians.com,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,http://store.steampowered.com/app/670290/Real_...,2017-07-24,"[Free to Play, Simulation, Sports, Casual, Ind...",http://steamcommunity.com/app/670290/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free to Play,False,670290,Poolians.com
3,彼岸领域,"[Action, Adventure, Casual]",弹炸人2222,弹炸人2222,http://store.steampowered.com/app/767400/2222/,2017-12-07,"[Action, Adventure, Casual]",http://steamcommunity.com/app/767400/reviews/?...,[Single-player],0.99,False,767400,彼岸领域
4,,,Log Challenge,,http://store.steampowered.com/app/773570/Log_C...,,"[Action, Indie, Casual, Sports]",http://steamcommunity.com/app/773570/reviews/?...,"[Single-player, Full controller support, HTC V...",2.99,False,773570,


Verificamos si hay valores duplicados

In [32]:
verifica_duplicados_por_columna(df_games,"id")

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
13894,Bethesda Softworks,[Action],Wolfenstein II: The New Colossus,Wolfenstein II: The New Colossus,http://store.steampowered.com/app/612880/,2017-10-26,"[Action, FPS, Gore, Violent, Alternate History...",http://steamcommunity.com/app/612880/reviews/?...,"[Single-player, Steam Achievements, Full contr...",59.99,False,612880.0,Machine Games
14573,Bethesda Softworks,[Action],Wolfenstein II: The New Colossus,Wolfenstein II: The New Colossus,http://store.steampowered.com/app/612880/Wolfe...,2017-10-26,"[Action, FPS, Gore, Violent, Alternate History...",http://steamcommunity.com/app/612880/reviews/?...,"[Single-player, Steam Achievements, Full contr...",59.99,False,612880.0,Machine Games
74,,,,,http://store.steampowered.com/,,,,,19.99,False,,
30961,"Warner Bros. Interactive Entertainment, Feral ...","[Action, Adventure]",Batman: Arkham City - Game of the Year Edition,Batman: Arkham City - Game of the Year Edition,http://store.steampowered.com/app/200260,2012-09-07,"[Action, Open World, Batman, Adventure, Stealt...",,"[Single-player, Steam Achievements, Steam Trad...",19.99,False,,"Rocksteady Studios,Feral Interactive (Mac)"


Vamos a eliminar el "id" Nan, la fila que mas valores vacios tenga, es decir la fila 74 y del "id" 612880 la fila 14573. <p>
Este código elimina las filas del DataFrame df_games que tienen los índices especificados en la lista index_a_eliminar. <p> La función drop se utiliza con estos índices para realizar la eliminación. <p> Después de ejecutar este código, las filas correspondientes a los índices dados serán eliminadas del DataFrame df_games

In [33]:
# se eliminan los index duplicados
index_a_eliminar = [14573, 74, 30961]
df_games = df_games.drop(index_a_eliminar)

Luego volvemos a verificar si existen duplicados

In [34]:
# se verifica si hay dupliados
verifica_duplicados_por_columna(df_games, 'id')

'No hay duplicados'

**Transformamos la columna 'release_date'**

Este código proporciona una cuenta de la frecuencia de cada fecha de lanzamiento única presente en la columna 'release_date' del DataFrame df_games. Es útil para analizar la distribución de fechas de lanzamiento en el conjunto de datos y comprender cuántas veces aparece cada fecha.

In [35]:
df_games['release_date'].value_counts()

2012-10-16    100
2017-08-31     92
2017-09-26     89
2017-06-21     82
2017-07-25     78
             ... 
1988-04-16      1
2013-08-24      1
2011-05-07      1
2010-08-21      1
2018-10-01      1
Name: release_date, Length: 3582, dtype: int64

Crea una nueva columna llamada 'release_anio' en el DataFrame df_games.
Esta columna se rellena aplicando una función llamada obtener_anio_release a la columna existente 'release_date'.

df_games = df_games.drop('release_date', axis=1):

Elimina la columna 'release_date' del DataFrame df_games.
El argumento axis=1 indica que se está eliminando una columna en lugar de una fila.
df_games.head():

Muestra las primeras filas del DataFrame df_games después de realizar las operaciones anteriores. Esto es útil para verificar los cambios y asegurarse de que todo se haya realizado correctamente.

Este código agrega una nueva columna 'release_anio' al DataFrame df_games que contiene el año de la fecha de lanzamiento (que probablemente estaba originalmente en la columna 'release_date'). Luego, elimina la columna original 'release_date' y muestra las primeras filas del DataFrame resultante.

In [36]:
def obtener_anio_release(fecha):
    if pd.notna(fecha):
        if re.match(r'^\d{4}-\d{2}-\d{2}$', fecha):
            return fecha.split('-')[0]
    return 'Dato no disponible'

In [37]:
# Crea columna nueva con el año
df_games['release_anio'] = df_games['release_date'].apply(obtener_anio_release)

# elimina la columna 'release_date'
df_games = df_games.drop('release_date', axis=1)
df_games.head()

Unnamed: 0,publisher,genres,app_name,title,url,tags,reviews_url,specs,price,early_access,id,developer,release_anio
0,Kotoshiro,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,False,761140,Kotoshiro,2018
1,"Making Fun, Inc.","[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,http://store.steampowered.com/app/643980/Ironb...,"[Free to Play, Strategy, Indie, RPG, Card Game...",http://steamcommunity.com/app/643980/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free To Play,False,643980,Secret Level SRL,2018
2,Poolians.com,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,http://store.steampowered.com/app/670290/Real_...,"[Free to Play, Simulation, Sports, Casual, Ind...",http://steamcommunity.com/app/670290/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free to Play,False,670290,Poolians.com,2017
3,彼岸领域,"[Action, Adventure, Casual]",弹炸人2222,弹炸人2222,http://store.steampowered.com/app/767400/2222/,"[Action, Adventure, Casual]",http://steamcommunity.com/app/767400/reviews/?...,[Single-player],0.99,False,767400,彼岸领域,2017
4,,,Log Challenge,,http://store.steampowered.com/app/773570/Log_C...,"[Action, Indie, Casual, Sports]",http://steamcommunity.com/app/773570/reviews/?...,"[Single-player, Full controller support, HTC V...",2.99,False,773570,,Dato no disponible


Vemos como quedan los valores unicos para "release_anio"

In [38]:
df_games['release_anio'].unique()

array(['2018', '2017', 'Dato no disponible', '1997', '1998', '2016',
       '2006', '2005', '2003', '2007', '2002', '2000', '1995', '1996',
       '1994', '2001', '1993', '2004', '1999', '2008', '2009', '1992',
       '1989', '2010', '2011', '2013', '2012', '2014', '1983', '1984',
       '2015', '1990', '1988', '1991', '1985', '1982', '1987', '1981',
       '1986', '2021', '2019', '1975', '1970', '1980'], dtype=object)

Esta función intenta convertir un valor a un número de punto flotante y devuelve 0.0 si el valor es un NaN o si hay algún problema durante la conversión.

Este código define una función llamada reemplaza_a_flotante que toma un valor como argumento y devuelve un valor de punto flotante (float) después de intentar convertir el valor dado a un número de punto flotante. Aquí hay una explicación detallada del código:

In [39]:
def reemplaza_a_flotante(value):
    # Comprueba si el valor es un NaN (Not a Number) usando la función isna de pandas (pd)
    if pd.isna(value):
        # Si el valor es NaN, devuelve 0.0
        return 0.0
    try:
        # Intenta convertir el valor a un número de punto flotante
        float_value = float(value)
        # Si la conversión es exitosa, devuelve el valor convertido
        return float_value
    except:
        # Si hay una excepción durante la conversión (por ejemplo, si el valor no es convertible a float),
        # devuelve 0.0
        return 0.0


Aplicamos la transformación a la columna "price"

In [40]:
df_games['price'] = df_games['price'].apply(reemplaza_a_flotante)
df_games['price'].dtype

dtype('float64')

Ahora transformamos las columnas "publisher" "app name" "title" y "developer".

Este bloque de código rellena los valores nulos en las columnas especificadas con la cadena 'Sin dato disponible' y reemplaza las columnas originales con las versiones rellenadas en el DataFrame df_games.

In [41]:
# Columnas a transformar
columnas_a_completar = ['publisher', 'app_name', 'title', 'developer']
# Se rellenan los nulos
df_relleno = df_games[columnas_a_completar].fillna('Sin dato disponible')
# Se borran las columnas originales y se concatenan las rellenas con todo el dataframe
df_games = pd.concat([df_games.drop(columnas_a_completar, axis=1), df_relleno], axis=1)
df_games.head()

Unnamed: 0,genres,url,tags,reviews_url,specs,price,early_access,id,release_anio,publisher,app_name,title,developer
0,"[Action, Casual, Indie, Simulation, Strategy]",http://store.steampowered.com/app/761140/Lost_...,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,False,761140,2018,Kotoshiro,Lost Summoner Kitty,Lost Summoner Kitty,Kotoshiro
1,"[Free to Play, Indie, RPG, Strategy]",http://store.steampowered.com/app/643980/Ironb...,"[Free to Play, Strategy, Indie, RPG, Card Game...",http://steamcommunity.com/app/643980/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",0.0,False,643980,2018,"Making Fun, Inc.",Ironbound,Ironbound,Secret Level SRL
2,"[Casual, Free to Play, Indie, Simulation, Sports]",http://store.steampowered.com/app/670290/Real_...,"[Free to Play, Simulation, Sports, Casual, Ind...",http://steamcommunity.com/app/670290/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",0.0,False,670290,2017,Poolians.com,Real Pool 3D - Poolians,Real Pool 3D - Poolians,Poolians.com
3,"[Action, Adventure, Casual]",http://store.steampowered.com/app/767400/2222/,"[Action, Adventure, Casual]",http://steamcommunity.com/app/767400/reviews/?...,[Single-player],0.99,False,767400,2017,彼岸领域,弹炸人2222,弹炸人2222,彼岸领域
4,,http://store.steampowered.com/app/773570/Log_C...,"[Action, Indie, Casual, Sports]",http://steamcommunity.com/app/773570/reviews/?...,"[Single-player, Full controller support, HTC V...",2.99,False,773570,Dato no disponible,Sin dato disponible,Log Challenge,Sin dato disponible,Sin dato disponible


Este código se encarga de descomponer las listas o conjuntos anidados en la columna 'genres' en filas individuales mediante explode, elimina las filas que contienen valores nulos en 'genres' y muestra las primeras filas del DataFrame resultante.

In [42]:
df_games = df_games.explode('genres')
df_games = df_games.dropna(subset=['genres'])
df_games.head()

Unnamed: 0,genres,url,tags,reviews_url,specs,price,early_access,id,release_anio,publisher,app_name,title,developer
0,Action,http://store.steampowered.com/app/761140/Lost_...,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,False,761140,2018,Kotoshiro,Lost Summoner Kitty,Lost Summoner Kitty,Kotoshiro
0,Casual,http://store.steampowered.com/app/761140/Lost_...,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,False,761140,2018,Kotoshiro,Lost Summoner Kitty,Lost Summoner Kitty,Kotoshiro
0,Indie,http://store.steampowered.com/app/761140/Lost_...,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,False,761140,2018,Kotoshiro,Lost Summoner Kitty,Lost Summoner Kitty,Kotoshiro
0,Simulation,http://store.steampowered.com/app/761140/Lost_...,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,False,761140,2018,Kotoshiro,Lost Summoner Kitty,Lost Summoner Kitty,Kotoshiro
0,Strategy,http://store.steampowered.com/app/761140/Lost_...,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,False,761140,2018,Kotoshiro,Lost Summoner Kitty,Lost Summoner Kitty,Kotoshiro


Al considerar no usarse se eliminan las columnas "tags", "specs", "url" y "reviews_url"

In [43]:
df_games = df_games.drop(['tags', 'specs', 'url', 'reviews_url'], axis=1)
df_games.columns

Index(['genres', 'price', 'early_access', 'id', 'release_anio', 'publisher',
       'app_name', 'title', 'developer'],
      dtype='object')

Volvemos a verificar si hay datos nulos

In [44]:
# Se verifica como quedan los tipos de datos y si hay nulos
verificar_tipo_datos(df_games)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,genres,[<class 'str'>],100.0,0.0,0
1,price,[<class 'float'>],100.0,0.0,0
2,early_access,[<class 'bool'>],100.0,0.0,0
3,id,[<class 'str'>],100.0,0.0,0
4,release_anio,[<class 'str'>],100.0,0.0,0
5,publisher,[<class 'str'>],100.0,0.0,0
6,app_name,[<class 'str'>],100.0,0.0,0
7,title,[<class 'str'>],100.0,0.0,0
8,developer,[<class 'str'>],100.0,0.0,0


Procedemos a guardar el archivo limpio

In [46]:
# Especificar la ruta del directorio y el nombre del archivo CSV
directorio = '/content/drive/MyDrive/HENRY/2_Dataset_limpio'
nombre_archivo = 'Output_steam_games_limpio.csv'
ruta_completa = f'{directorio}/{nombre_archivo}'

# Guardar el DataFrame como un archivo CSV en la carpeta especificada
df_games.to_csv(ruta_completa, index=False)

print(f'Se guardó el archivo CSV en: {ruta_completa}')

Se guardó el archivo CSV en: /content/drive/MyDrive/HENRY/2_Dataset_limpio/Output_steam_games_limpio.csv


### 1.5 - ETL - australian_users_items

---

In [47]:
# Ruta al dataset australian_user_reviews
ruta_items = '/content/drive/MyDrive/HENRY/0_Dataset original/Australian_users_items.json'

# Se lee de cada línea del dataset
filas_items = []
with open(ruta_items, encoding='utf-8') as f:
    for line in f.readlines():
        filas_items.append(ast.literal_eval(line))

# Se convierte en dataframe
df_items = pd.DataFrame(filas_items)
df_items

Unnamed: 0,user_id,items_count,steam_id,user_url,items
0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
1,js41637,888,76561198035864385,http://steamcommunity.com/id/js41637,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
2,evcentric,137,76561198007712555,http://steamcommunity.com/id/evcentric,"[{'item_id': '1200', 'item_name': 'Red Orchest..."
3,Riot-Punch,328,76561197963445855,http://steamcommunity.com/id/Riot-Punch,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
4,doctr,541,76561198002099482,http://steamcommunity.com/id/doctr,"[{'item_id': '300', 'item_name': 'Day of Defea..."
...,...,...,...,...,...
88305,76561198323066619,22,76561198323066619,http://steamcommunity.com/profiles/76561198323...,"[{'item_id': '413850', 'item_name': 'CS:GO Pla..."
88306,76561198326700687,177,76561198326700687,http://steamcommunity.com/profiles/76561198326...,"[{'item_id': '11020', 'item_name': 'TrackMania..."
88307,XxLaughingJackClown77xX,0,76561198328759259,http://steamcommunity.com/id/XxLaughingJackClo...,[]
88308,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,"[{'item_id': '304930', 'item_name': 'Unturned'..."


In [48]:
verificar_tipo_datos(df_items)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,user_id,[<class 'str'>],100.0,0.0,0
1,items_count,[<class 'int'>],100.0,0.0,0
2,steam_id,[<class 'str'>],100.0,0.0,0
3,user_url,[<class 'str'>],100.0,0.0,0
4,items,[<class 'list'>],100.0,0.0,0


Examinamos la columna "items" ya que es una lista

In [49]:
df_items['items'][0]

[{'item_id': '10',
  'item_name': 'Counter-Strike',
  'playtime_forever': 6,
  'playtime_2weeks': 0},
 {'item_id': '20',
  'item_name': 'Team Fortress Classic',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '30',
  'item_name': 'Day of Defeat',
  'playtime_forever': 7,
  'playtime_2weeks': 0},
 {'item_id': '40',
  'item_name': 'Deathmatch Classic',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '50',
  'item_name': 'Half-Life: Opposing Force',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '60',
  'item_name': 'Ricochet',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '70',
  'item_name': 'Half-Life',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '130',
  'item_name': 'Half-Life: Blue Shift',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '300',
  'item_name': 'Day of Defeat: Source',
  'playtime_forever': 4733,
  'playtime_2weeks': 0},
 {'item_id': '240',
  'item_name': 'Counter-Strike: S

Normalizamos la columna items


In [50]:
df_items2 = pd.json_normalize(filas_items, record_path=['items'], meta=['steam_id','items_count','user_id', 'user_url'] )

df_items2

Unnamed: 0,item_id,item_name,playtime_forever,playtime_2weeks,steam_id,items_count,user_id,user_url
0,10,Counter-Strike,6,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
1,20,Team Fortress Classic,0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
2,30,Day of Defeat,7,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
3,40,Deathmatch Classic,0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
4,50,Half-Life: Opposing Force,0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
...,...,...,...,...,...,...,...,...
5153204,346330,BrainBread 2,0,0,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153205,373330,All Is Dust,0,0,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153206,388490,One Way To Die: Steam Edition,3,3,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153207,521570,You Have 10 Seconds 2,4,4,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...


Verificamos el tipo de dato en ese nuevo df normalizado

In [51]:
verificar_tipo_datos(df_items2)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,item_id,[<class 'str'>],100.0,0.0,0
1,item_name,[<class 'str'>],100.0,0.0,0
2,playtime_forever,[<class 'int'>],100.0,0.0,0
3,playtime_2weeks,[<class 'int'>],100.0,0.0,0
4,steam_id,[<class 'str'>],100.0,0.0,0
5,items_count,[<class 'int'>],100.0,0.0,0
6,user_id,[<class 'str'>],100.0,0.0,0
7,user_url,[<class 'str'>],100.0,0.0,0


Vemos el tema de los duplicados como estan en ese df nuevo

In [52]:
# Devuelve los duplicados
duplicados = df_items2.loc[df_items2.duplicated()]
duplicados


Unnamed: 0,item_id,item_name,playtime_forever,playtime_2weeks,steam_id,items_count,user_id,user_url
164294,20,Team Fortress Classic,5,0,76561198084006094,109,Nikiad,http://steamcommunity.com/id/Nikiad
164295,50,Half-Life: Opposing Force,0,0,76561198084006094,109,Nikiad,http://steamcommunity.com/id/Nikiad
164296,70,Half-Life,0,0,76561198084006094,109,Nikiad,http://steamcommunity.com/id/Nikiad
164297,130,Half-Life: Blue Shift,0,0,76561198084006094,109,Nikiad,http://steamcommunity.com/id/Nikiad
164298,220,Half-Life 2,198,0,76561198084006094,109,Nikiad,http://steamcommunity.com/id/Nikiad
...,...,...,...,...,...,...,...,...
4898223,213670,South Park™: The Stick of Truth™,725,0,76561198080057659,39,76561198080057659,http://steamcommunity.com/profiles/76561198080...
4898224,221910,The Stanley Parable,53,0,76561198080057659,39,76561198080057659,http://steamcommunity.com/profiles/76561198080...
4898225,261030,The Walking Dead: Season Two,253,0,76561198080057659,39,76561198080057659,http://steamcommunity.com/profiles/76561198080...
4898226,273110,Counter-Strike Nexon: Zombies,0,0,76561198080057659,39,76561198080057659,http://steamcommunity.com/profiles/76561198080...


Se ve que hay 59104 duplicados. Borramos los duplicados

In [53]:
df_items2 = df_items2.drop_duplicates(keep='first')
df_items2

Unnamed: 0,item_id,item_name,playtime_forever,playtime_2weeks,steam_id,items_count,user_id,user_url
0,10,Counter-Strike,6,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
1,20,Team Fortress Classic,0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
2,30,Day of Defeat,7,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
3,40,Deathmatch Classic,0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
4,50,Half-Life: Opposing Force,0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
...,...,...,...,...,...,...,...,...
5153204,346330,BrainBread 2,0,0,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153205,373330,All Is Dust,0,0,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153206,388490,One Way To Die: Steam Edition,3,3,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153207,521570,You Have 10 Seconds 2,4,4,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...


Borramos también la columna playtime_2week por es redundante, solo dejamos la horas total de juego

In [54]:
df_items2 = df_items2.drop('playtime_2weeks', axis=1)
df_items2.columns

Index(['item_id', 'item_name', 'playtime_forever', 'steam_id', 'items_count',
       'user_id', 'user_url'],
      dtype='object')

Ahora cargamos los datos limpios en la carpeta Dataset limpio

In [55]:
# Especificar la ruta del directorio y el nombre del archivo CSV
directorio = '/content/drive/MyDrive/HENRY/2_Dataset_limpio'
nombre_archivo = 'Australian_users_items_limpio.csv'
ruta_completa = f'{directorio}/{nombre_archivo}'

# Guardar el DataFrame como un archivo CSV en la carpeta especificada
df_items2.to_csv(ruta_completa, index=False)

print(f'Se guardó el archivo CSV en: {ruta_completa}')

Se guardó el archivo CSV en: /content/drive/MyDrive/HENRY/2_Dataset_limpio/Australian_users_items_limpio.csv


# 2 - Feature Engineering

**Cargamos nuestros dataframes para poder trabajar**

In [84]:
import csv
with open(r'/content/drive/MyDrive/HENRY/2_Dataset_limpio/Australian_user_reviews_limpio.csv', 'r') as file:
    csv_file = csv.DictReader(file)
    df_reviews = pd.DataFrame(csv_file)

In [86]:
df_reviews.sample(5)

Unnamed: 0,user_id,user_url,reviews_item_id,reviews_helpful,reviews_recommend,reviews_review,reviews_date
31665,76561197999005150,http://steamcommunity.com/id/76561197999005150,310560,3 of 4 people (75%) found this review helpful,True,It's probably the closest thing we've got to t...,2015-04-29
12855,jedjezzah,http://steamcommunity.com/id/jedjezzah,338170,1 of 1 people (100%) found this review helpful,True,"Awesome 1 shot 1 kill arena fun, just needs so...",2015-05-17
48424,juan405kpo,http://steamcommunity.com/id/juan405kpo,440,No ratings yet,True,It's simply awesome.,2014-08-23
39609,76561198013600577,http://steamcommunity.com/profiles/76561198013...,218230,No ratings yet,True,this game is amazing,2014-03-23
40780,n4afusionz,http://steamcommunity.com/id/n4afusionz,249050,No ratings yet,True,10/10 would lose my mind over again,2015-12-31


**Usamos la función `Análisis de Sentimiento` para crear la columna de análisis de sentimiento**

>Esta función tomara la columna `reviews_review` e interpretará si el review del usuario es negativa, neutra o positiva, asignando el siguiente esquema:

*    0 para negativo.
*    1 para neutra.
*    2 para positivo.


In [87]:
df_reviews['sentiment_analysis'] = df_reviews['reviews_review'].apply(analisis_sentimiento)
df_reviews.head()

Unnamed: 0,user_id,user_url,reviews_item_id,reviews_helpful,reviews_recommend,reviews_review,reviews_date,sentiment_analysis
0,76561197970982479,http://steamcommunity.com/profiles/76561197970...,1250,No ratings yet,True,Simple yet with great replayability. In my opi...,2011-11-05,1
1,js41637,http://steamcommunity.com/id/js41637,251610,15 of 20 people (75%) found this review helpful,True,I know what you think when you see this title ...,2014-06-24,1
2,evcentric,http://steamcommunity.com/id/evcentric,248820,No ratings yet,True,A suitably punishing roguelike platformer. Wi...,Formato inválido,2
3,doctr,http://steamcommunity.com/id/doctr,250320,2 of 2 people (100%) found this review helpful,True,This game... is so fun. The fight sequences ha...,2013-10-14,2
4,maplemage,http://steamcommunity.com/id/maplemage,211420,35 of 43 people (81%) found this review helpful,True,Git gud,2014-04-15,1


**Veamos algunos ejemplos**

>A continuación analizamos con la función `ejemplos_review_por_sentimiento` algunos ejemplos de como el algoritmo identificó los casos:

*    0 para negativo.
*    1 para neutra.
*    2 para positivo.

In [88]:
ejemplos_review_por_sentimiento(df_reviews['reviews_review'], df_reviews['sentiment_analysis'])

Para la categoría de análisis de sentimiento 0 se tienen estos ejemplos de reviews:
Review 1: This game is Marvellous.
Review 2: Killed the Emperor, nobody cared and got away with it. Accidentally killed a chicken and everybody decided to gang up on me. 10/10
Review 3: This Game Doesn't Work


Para la categoría de análisis de sentimiento 1 se tienen estos ejemplos de reviews:
Review 1: Simple yet with great replayability. In my opinion does "zombie" hordes and team work better than left 4 dead plus has a global leveling system. Alot of down to earth "zombie" splattering fun for the whole family. Amazed this sort of FPS is so rare.
Review 2: I know what you think when you see this title "Barbie Dreamhouse Party" but do not be intimidated by it's title, this is easily one of my GOTYs. You don't get any of that cliche game mechanics that all the latest games have, this is simply good core gameplay. Yes, you can't 360 noscope your friends, but what you can do is show them up with your bad 

**Procedemos a borrar la columna** `reviews_review`

In [90]:
df_reviews = df_reviews.drop('reviews_review', axis=1)

df_reviews.sample(5)

Unnamed: 0,user_id,user_url,reviews_item_id,reviews_helpful,reviews_recommend,reviews_date,sentiment_analysis
35527,76561198067892662,http://steamcommunity.com/profiles/76561198067...,346900,2 of 4 people (50%) found this review helpful,True,2015-04-09,2
36599,toukly,http://steamcommunity.com/id/toukly,248570,No ratings yet,False,2014-12-21,0
3837,thepedrochamp,http://steamcommunity.com/id/thepedrochamp,242920,No ratings yet,True,2015-09-14,1
18168,TerryTateCYS,http://steamcommunity.com/id/TerryTateCYS,231430,2 of 5 people (40%) found this review helpful,True,2015-02-27,2
50533,76561198049343162,http://steamcommunity.com/profiles/76561198049...,221100,No ratings yet,True,2014-01-23,1


Vemos como queda finalmente `df_reviews` con la columna de reviews solamente indicando:

*    0 para negativo.
*    1 para neutra.
*    2 para positivo.

Y procedemos a guardar nuevamente pero esta vez sin la columna `review_reviews`, en su lugar la columna `reviews` con 0, 1 y 2

In [91]:
# Especificar la ruta del directorio y el nombre del archivo CSV
directorio = '/content/drive/MyDrive/HENRY/2_Dataset_limpio'
nombre_archivo = 'Australian_user_reviews_limpio.csv'
ruta_completa = f'{directorio}/{nombre_archivo}'

# Guardar el DataFrame como un archivo CSV en la carpeta especificada
df_reviews_modificada.to_csv(ruta_completa, index=False)

print(f'Se guardó el archivo CSV en: {ruta_completa}')

Se guardó el archivo CSV en: /content/drive/MyDrive/HENRY/2_Dataset_limpio/Australian_user_reviews_limpio.csv
