In [1]:
# Coneccion entre Google Colab y el Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# **<font color="#ff5653">Funciones</font>**

En este notebook se creara el archivo donde las funciones tomaran la información.

Archivos utilizados:
 - steam_games_ETL.csv

Funcion que tomara la información:
- Recomendacion_juego

Archivos creados:
- df_f6_ml.csv
- df_f6_ml.parquet

In [3]:
# Libreria
import pandas as pd
import numpy as np
import re

### 1- Extraemos el año

Del df_steam_games extraemos el año de la columna "release_date" y lo colocamos en una nueva columna.

In [4]:
# Abrimos el archivo steam_games_limpio.csv
df_steam_games = pd.read_csv("/content/drive/MyDrive/Datasets_Steam/steam_games_ETL.csv")

In [5]:
# Suma de valores nulos de la columna "release_date"
df_steam_games['release_date'].isna().sum()

2067

In [6]:
# Funcion para extraer el año
def año_lanzamiento(fecha):
    if pd.notna(fecha):
        años = re.search(r'\b\d{4}\b', fecha)
        if años:
            return años.group()
    return np.NaN

In [7]:
# Llamamos a la funcion: solo para la columna "release_date"
año_lanzamiento = df_steam_games["release_date"].apply(año_lanzamiento)

In [8]:
año_lanzamiento.head(5)

0    2018
1    2018
2    2017
3    2017
4     NaN
Name: release_date, dtype: object

In [9]:
# Concatenamos la columna "año_lanzamiento" con el DataFrame df_steam_games
df_steam_games_año = pd.concat([df_steam_games, pd.DataFrame({"año_lanzamiento": año_lanzamiento})], axis=1)

In [None]:
df_steam_games_año.head(2)

In [11]:
# Cambiamos el nombre a la columna "id" por "item_id"
df_steam_games_año.rename(columns={"id": "item_id"}, inplace=True)

### 2- Columnas requeridas para la función:

- item_id
- title
- tags

In [12]:
columnas_x3 = ["item_id","title","tags"]

df_fml = df_steam_games_año[columnas_x3]

In [None]:
df_fml.head(2)

In [None]:
# Vemos si hay valores nulos
df_fml.isna().sum()

In [None]:
# Eliminamos duplicados
df_fml.drop_duplicates(inplace=True)

In [None]:
# Eliminamos valores nulos
df_fml.dropna(inplace=True)

In [None]:
# Vemos si hay valores nulos
df_fml.isna().sum()

In [18]:
# Acomodamos el oreden del indice debido a que eliminamos filas por los valores nulos
df_fml.reset_index(drop=True, inplace=True)

In [19]:
# Vemos tipos de datos de las variables
df_fml.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29922 entries, 0 to 29921
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   item_id  29922 non-null  float64
 1   title    29922 non-null  object 
 2   tags     29922 non-null  object 
dtypes: float64(1), object(2)
memory usage: 701.4+ KB


In [20]:
# Cambiamos el tipo de dato de la columna "title" de object a string
df_fml["title"] = df_fml["title"].astype("string")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_fml["title"] = df_fml["title"].astype("string")


In [21]:
df_fml

Unnamed: 0,item_id,title,tags
0,761140.0,Lost Summoner Kitty,"['Strategy', 'Action', 'Indie', 'Casual', 'Sim..."
1,643980.0,Ironbound,"['Free to Play', 'Strategy', 'Indie', 'RPG', '..."
2,670290.0,Real Pool 3D - Poolians,"['Free to Play', 'Simulation', 'Sports', 'Casu..."
3,767400.0,弹炸人2222,"['Action', 'Adventure', 'Casual']"
4,772540.0,Battle Royale Trainer,"['Action', 'Adventure', 'Simulation', 'FPS', '..."
...,...,...,...
29917,745400.0,Kebab it Up!,"['Action', 'Indie', 'Casual', 'Violent', 'Adve..."
29918,773640.0,Colony On Mars,"['Strategy', 'Indie', 'Casual', 'Simulation']"
29919,733530.0,LOGistICAL: South Africa,"['Strategy', 'Indie', 'Casual']"
29920,610660.0,Russian Roads,"['Indie', 'Simulation', 'Racing']"


In [22]:
# Guardamos el dataframe obtenido en formato .csv y parquet
df_fml.to_csv("df_f6_ml.csv", index=False)

In [23]:
df_fml.to_parquet("df_f6_ml.parquet", index=False)