In [1]:
import gdown
import pandas as pd
import re

In [2]:
# # Cargar el archivo CSV
# dfdata = pd.read_csv('../Databases/games_cleaned.csv')

In [3]:
fileID = '1TGjC8lvdQYi8a-YGu7KxbZL6moZalA1-'
url = f"https://drive.google.com/uc?id={fileID}"

In [4]:
output = "games_cleaned.csv"  # Nombre del archivo local donde se guardará
gdown.download(url, output, quiet=False)

# Cargar el archivo CSV en un DataFrame de pandas
dfdata = pd.read_csv(output)

Downloading...
From (original): https://drive.google.com/uc?id=1TGjC8lvdQYi8a-YGu7KxbZL6moZalA1-
From (redirected): https://drive.google.com/uc?id=1TGjC8lvdQYi8a-YGu7KxbZL6moZalA1-&confirm=t&uuid=f7a6aa8e-b1c0-4048-9bd2-6d343c29322a
To: c:\Users\javic\OneDrive\Documentos\GitHub\ProyectoDataScience\Codigos\games_cleaned.csv
100%|██████████| 333M/333M [00:09<00:00, 34.4MB/s] 


In [5]:
# Mostrar el DataFrame original
print("DataFrame original:")
# print(dfdata.head())
print(dfdata.shape)

DataFrame original:
(111452, 39)


Al tener los datos, vamos a usar Supported languages, categorias, genres y tags como variables categoricas.

In [6]:
def clean_language(lang_str):
    if pd.isna(lang_str):
        return []
    
    # Eliminar corchetes, comillas y caracteres innecesarios
    lang_str = re.sub(r"[\[\]']", '', str(lang_str))
    
    # Dividir los idiomas si hay varios
    if '\\r\\n' in lang_str:
        languages = lang_str.split('\\r\\n')
    else:
        languages = lang_str.split(',')
    
    cleaned_langs = []
    for lang in languages:
        # Limpiar cada idioma
        lang = re.sub(r'&amp;lt;.*?&amp;gt;', '', lang)  # Eliminar HTML entities
        lang = re.sub(r'\\r\\n|\\b', '', lang)  # Eliminar escape sequences
        lang = re.sub(r'\s*\([^)]*\)', '', lang)  # Eliminar texto entre paréntesis
        lang = re.sub(r'b/b$', '', lang)  # Eliminar sufijo b/b
        lang = re.sub(r'[;#_]', '', lang)  # Eliminar caracteres especiales
        lang = re.sub(r'\s+', ' ', lang)  # Reemplazar múltiples espacios por uno solo
        
        # Estandarizar nombres de idiomas
        lang = re.sub(r'Spanish\s*-\s*(Spain|Latin America)', 'Spanish', lang)
        lang = re.sub(r'Portuguese\s*-\s*(Brazil|Portugal)', 'Portuguese', lang)
        lang = re.sub(r'#lang_français|Langfrançais', 'French', lang)
        lang = re.sub(r'English Dutch  English', 'English', lang)  # Corregir duplicados
        lang = re.sub(r'English,', 'English', lang)  # Corregir errores de coma
        lang = re.sub(r'French,', 'French', lang) 
        lang = re.sub(r'Langfrançais', 'French', lang) 
        
        
        # Limpiar errores específicos
        lang = re.sub(r'Englishb/B', 'English', lang)  # Corregir 'Englishb/B'
        lang = re.sub(r'Frenchb/B', 'French', lang)  # Corregir 'Frenchb/B'
        lang = re.sub(r'Germanb/B', 'German', lang)  # Corregir 'Germanb/B'
        lang = re.sub(r'Italianb/B', 'Italian', lang)  # Corregir 'Italianb/B'
        lang = re.sub(r'Koreanb/B', 'Korean', lang)  # Corregir 'Koreanb/B'
        lang = re.sub(r'English Dutch English', 'English', lang)        
        
        # Eliminar espacios extras y convertir a título
        lang = lang.strip().title()
        
        
        if lang and lang.lower() != 'b/b':  # Solo agregar si no está vacío o es un error
            cleaned_langs.append(lang)

    
    
    return cleaned_langs


Aqui se estan quitando a mano estos datos ya que por alguna razon el codigo os estaba generando y no se encontraba forma de borrarlos en otro lado

In [7]:
# # Aplicar la limpieza a la columna de idiomas
all_languages = []
for lang_list in dfdata['Supported languages']:
    all_languages.extend(clean_language(lang_list))

# Obtener valores únicos y ordenarlos
unique_languages = sorted(set(all_languages))
unique_languages.remove('Langfrançais')
unique_languages.remove('Englishb/B, French Germanb/B, Italian, Spanish')
unique_languages.remove('Englishb/B, Frenchb/B, Italianb/B, Germanb/B, Spanishb/B, Russian, Polish, Koreanb/B, Japanese')
unique_languages.remove('Englishb/B, German, French Italian, Spanish, Russian')
unique_languages.remove('Englishb/B, German, French Polish, Spanish, Italian')



In [8]:
print("Lista de idiomas únicos después de la limpieza:")
print(unique_languages)
print(f"\nNúmero total de idiomas únicos: {len(unique_languages)}")


Lista de idiomas únicos después de la limpieza:
['Afrikaans', 'Albanian', 'Amharic', 'Arabic', 'Armenian', 'Assamese', 'Azerbaijani', 'Bangla', 'Basque', 'Belarusian', 'Bosnian', 'Bulgarian', 'Catalan', 'Cherokee', 'Croatian', 'Czech', 'Danish', 'Dari', 'Dutch', 'English', 'Estonian', 'Filipino', 'Finnish', 'French', 'Galician', 'Georgian', 'German', 'Greek', 'Gujarati', 'Hausa', 'Hebrew', 'Hindi', 'Hungarian', 'Icelandic', 'Igbo', 'Indonesian', 'Irish', 'Italian', 'Japanese', 'Kannada', 'Kazakh', 'Khmer', 'Kiche', 'Kinyarwanda', 'Konkani', 'Korean', 'Kyrgyz', 'Latvian', 'Lithuanian', 'Luxembourgish', 'Macedonian', 'Malay', 'Malayalam', 'Maltese', 'Maori', 'Marathi', 'Mongolian', 'Nepali', 'Norwegian', 'Odia', 'Persian', 'Polish', 'Portuguese', 'Punjabi', 'Quechua', 'Romanian', 'Russian', 'Scots', 'Serbian', 'Simplified Chinese', 'Sindhi', 'Sinhala', 'Slovak', 'Slovakian', 'Slovenian', 'Sorani', 'Sotho', 'Spanish', 'Swahili', 'Swedish', 'Tajik', 'Tamil', 'Tatar', 'Telugu', 'Thai', 'Tig

In [9]:
dflanguages = dfdata.copy()

In [10]:
for idioma in unique_languages:
    # Crear el nombre de la columna (en minúsculas y reemplazando espacios por guiones bajos)
    nombre_columna = f'language_{idioma.lower().replace(" ", "_")}'
    
    # Crear la columna binaria
    # Será 1 si el idioma está en la lista de idiomas soportados del juego, 0 si no
    dflanguages[nombre_columna] = dflanguages['Supported languages'].apply(lambda x: 1 if idioma in x else 0)


  dflanguages[nombre_columna] = dflanguages['Supported languages'].apply(lambda x: 1 if idioma in x else 0)
  dflanguages[nombre_columna] = dflanguages['Supported languages'].apply(lambda x: 1 if idioma in x else 0)
  dflanguages[nombre_columna] = dflanguages['Supported languages'].apply(lambda x: 1 if idioma in x else 0)
  dflanguages[nombre_columna] = dflanguages['Supported languages'].apply(lambda x: 1 if idioma in x else 0)
  dflanguages[nombre_columna] = dflanguages['Supported languages'].apply(lambda x: 1 if idioma in x else 0)


In [11]:

# Mostrar las primeras filas del DataFrame con las nuevas columnas
# print(dflanguages.head())
print("Database modificada: ")
print(dflanguages.shape)

Database modificada: 
(111452, 140)


Aqui tenemos los idiomas, pasemos a categorias

In [12]:
all_categories = []
for categ_list in dflanguages['Categories']:
    all_categories.extend(clean_language(categ_list))

In [13]:
unique_categories = sorted(set(all_categories))
unique_categories.remove('-1')
print("Lista de Categorias únicas después de la limpieza:")
print(unique_categories)
print(f"\nNúmero total de categorias únicas: {len(unique_categories)}")

Lista de Categorias únicas después de la limpieza:
['Captions Available', 'Co-Op', 'Commentary Available', 'Cross-Platform Multiplayer', 'Family Sharing', 'Full Controller Support', 'Hdr Available', 'In-App Purchases', 'Includes Level Editor', 'Includes Source Sdk', 'Lan Co-Op', 'Lan Pvp', 'Mmo', 'Mods', 'Multi-Player', 'Online Co-Op', 'Online Pvp', 'Partial Controller Support', 'Pvp', 'Remote Play On Phone', 'Remote Play On Tablet', 'Remote Play On Tv', 'Remote Play Together', 'Shared/Split Screen', 'Shared/Split Screen Co-Op', 'Shared/Split Screen Pvp', 'Single-Player', 'Stats', 'Steam Achievements', 'Steam Cloud', 'Steam Leaderboards', 'Steam Timeline', 'Steam Trading Cards', 'Steam Turn Notifications', 'Steam Workshop', 'Steamvr Collectibles', 'Tracked Controller Support', 'Tracked Motion Controller Support', 'Valve Anti-Cheat Enabled', 'Vr Only', 'Vr Support', 'Vr Supported']

Número total de categorias únicas: 42


In [14]:
dfcat = dflanguages.copy()
for categoria in unique_categories:
    # Crear el nombre de la columna (en minúsculas y reemplazando espacios por guiones bajos)
    nombre_columna = f'categoria_{categoria.lower().replace(" ", "_")}'
    
    # Crear la columna binaria
    # Será 1 si el idioma está en la lista de idiomas soportados del juego, 0 si no
    dfcat[nombre_columna] = dfcat['Categories'].apply(lambda x: 1 if categoria in x else 0)


In [15]:
print("Database modificada: ")
print(dfcat.shape)

Database modificada: 
(111452, 182)


Ahora vamos a hacerlo con tags

In [16]:
all_tags = []
for tags_list in dfcat['Tags']:
    all_tags.extend(clean_language(tags_list))

In [17]:
unique_tags = sorted(set(all_tags))
unique_tags.remove('-1')
print("Lista de Tags únicas después de la limpieza:")
print(unique_tags)
print(f"\nNúmero total de tags únicas: {len(unique_tags)}")

Lista de Tags únicas después de la limpieza:
['1980S', '1990S', '2.5D', '2D', '2D Fighter', '2D Platformer', '360 Video', '3D', '3D Fighter', '3D Platformer', '3D Vision', '4 Player Local', '4X', '6Dof', '8-Bit Music', 'Abstract', 'Action', 'Action Roguelike', 'Action Rpg', 'Action Rts', 'Action-Adventure', 'Addictive', 'Adventure', 'Agriculture', 'Aliens', 'Alternate History', 'Ambient', 'America', 'Animation & Modeling', 'Anime', 'Arcade', 'Archery', 'Arena Shooter', 'Artificial Intelligence', 'Assassin', 'Asymmetric Vr', 'Asynchronous Multiplayer', 'Atmospheric', 'Atv', 'Audio Production', 'Auto Battler', 'Automation', 'Automobile Sim', 'Base-Building', 'Baseball', 'Based On A Novel', 'Basketball', 'Batman', 'Battle Royale', 'Beat Em Up', 'Beautiful', 'Benchmark', 'Bikes', 'Birds', 'Blood', 'Bmx', 'Board Game', 'Boomer Shooter', 'Boss Rush', 'Bowling', 'Boxing', 'Building', 'Bullet Hell', 'Bullet Time', 'Capitalism', 'Card Battler', 'Card Game', 'Cartoon', 'Cartoony', 'Casual', 'Cat

In [18]:

dftags = dfcat.copy()
for tags in unique_tags:
    # Crear el nombre de la columna (en minúsculas y reemplazando espacios por guiones bajos)
    nombre_columna = f'tag_{tags.lower().replace(" ", "_")}'
    
    # Crear la columna binaria
    # Será 1 si el idioma está en la lista de idiomas soportados del juego, 0 si no
    dftags[nombre_columna] = dftags['Tags'].apply(lambda x: 1 if tags in x else 0)


  dftags[nombre_columna] = dftags['Tags'].apply(lambda x: 1 if tags in x else 0)
  dftags[nombre_columna] = dftags['Tags'].apply(lambda x: 1 if tags in x else 0)
  dftags[nombre_columna] = dftags['Tags'].apply(lambda x: 1 if tags in x else 0)
  dftags[nombre_columna] = dftags['Tags'].apply(lambda x: 1 if tags in x else 0)
  dftags[nombre_columna] = dftags['Tags'].apply(lambda x: 1 if tags in x else 0)
  dftags[nombre_columna] = dftags['Tags'].apply(lambda x: 1 if tags in x else 0)
  dftags[nombre_columna] = dftags['Tags'].apply(lambda x: 1 if tags in x else 0)
  dftags[nombre_columna] = dftags['Tags'].apply(lambda x: 1 if tags in x else 0)
  dftags[nombre_columna] = dftags['Tags'].apply(lambda x: 1 if tags in x else 0)
  dftags[nombre_columna] = dftags['Tags'].apply(lambda x: 1 if tags in x else 0)
  dftags[nombre_columna] = dftags['Tags'].apply(lambda x: 1 if tags in x else 0)
  dftags[nombre_columna] = dftags['Tags'].apply(lambda x: 1 if tags in x else 0)
  dftags[nombre_columna] = d

In [19]:
print("Database modificada: ")
print(dftags.shape)

Database modificada: 
(111452, 633)


Seguimos con Genre

In [20]:
all_genres = []
for genres_list in dftags['Genres']:
    all_genres.extend(clean_language(genres_list))

In [21]:
unique_genres = sorted(set(all_genres))
unique_genres.remove('-1')
print("Lista de Genres únicas después de la limpieza:")
print(unique_genres)
print(f"\nNúmero total de Genres únicas: {len(unique_genres)}")

Lista de Genres únicas después de la limpieza:
['360 Video', 'Accounting', 'Action', 'Adventure', 'Animation & Modeling', 'Audio Production', 'Casual', 'Design & Illustration', 'Documentary', 'Early Access', 'Education', 'Episodic', 'Free To Play', 'Game Development', 'Gore', 'Indie', 'Massively Multiplayer', 'Movie', 'Nudity', 'Photo Editing', 'Racing', 'Rpg', 'Sexual Content', 'Short', 'Simulation', 'Software Training', 'Sports', 'Strategy', 'Tutorial', 'Utilities', 'Video Production', 'Violent', 'Web Publishing']

Número total de Genres únicas: 33


In [22]:

dfgenres = dftags.copy()
for genres in unique_genres:
    # Crear el nombre de la columna (en minúsculas y reemplazando espacios por guiones bajos)
    nombre_columna = f'genre_{genres.lower().replace(" ", "_")}'
    
    # Crear la columna binaria
    # Será 1 si el idioma está en la lista de idiomas soportados del juego, 0 si no
    dfgenres[nombre_columna] = dfgenres['Genres'].apply(lambda x: 1 if genres in x else 0)


In [23]:
print("Database modificada: ")
print(dfgenres.shape)

Database modificada: 
(111452, 666)


Por ultimo lenguajes hablados

In [24]:
all_spoken = []
for spoken_list in dfgenres['Full audio languages']:
    all_spoken.extend(clean_language(spoken_list))

In [25]:
unique_spoken = sorted(set(all_spoken))
print("Lista de idiomas hablados únicos después de la limpieza:")
print(unique_spoken)
print(f"\nNúmero total de idiomas hablados únicas: {len(unique_spoken)}")

Lista de idiomas hablados únicos después de la limpieza:
['Afrikaans', 'Albanian', 'Amharic', 'Arabic', 'Armenian', 'Assamese', 'Azerbaijani', 'Bangla', 'Basque', 'Belarusian', 'Bosnian', 'Bulgarian', 'Catalan', 'Cherokee', 'Croatian', 'Czech', 'Danish', 'Dari', 'Dutch', 'English', 'Englishb/B, Frenchb/B, Italianb/B, Germanb/B, Spanishb/B, Koreanb/B, Japanese', 'Englishb/B, Germanb/B, Spanish', 'Englishb/B, Italian', 'Englishb/B, Russian', 'Estonian', 'Filipino', 'Finnish', 'French', 'Galician', 'Georgian', 'German', 'Greek', 'Gujarati', 'Hausa', 'Hebrew', 'Hindi', 'Hungarian', 'Icelandic', 'Igbo', 'Indonesian', 'Irish', 'Italian', 'Japanese', 'Kannada', 'Kazakh', 'Khmer', 'Kiche', 'Kinyarwanda', 'Konkani', 'Korean', 'Kyrgyz', 'Latvian', 'Lithuanian', 'Luxembourgish', 'Macedonian', 'Malay', 'Malayalam', 'Maltese', 'Maori', 'Marathi', 'Mongolian', 'Nepali', 'Norwegian', 'Odia', 'Persian', 'Polish', 'Portuguese', 'Punjabi', 'Quechua', 'Romanian', 'Russian', 'Scots', 'Serbian', 'Simplifie

In [26]:
dfFinalClean = dfgenres.copy()
for spoken in unique_spoken:
    # Crear el nombre de la columna (en minúsculas y reemplazando espacios por guiones bajos)
    nombre_columna = f'Spoken_{spoken.lower().replace(" ", "_")}'
    
    # Crear la columna binaria
    # Será 1 si el idioma está en la lista de idiomas soportados del juego, 0 si no
    dfFinalClean[nombre_columna] = dfFinalClean['Full audio languages'].apply(lambda x: 1 if spoken in x else 0)


  dfFinalClean[nombre_columna] = dfFinalClean['Full audio languages'].apply(lambda x: 1 if spoken in x else 0)
  dfFinalClean[nombre_columna] = dfFinalClean['Full audio languages'].apply(lambda x: 1 if spoken in x else 0)
  dfFinalClean[nombre_columna] = dfFinalClean['Full audio languages'].apply(lambda x: 1 if spoken in x else 0)
  dfFinalClean[nombre_columna] = dfFinalClean['Full audio languages'].apply(lambda x: 1 if spoken in x else 0)
  dfFinalClean[nombre_columna] = dfFinalClean['Full audio languages'].apply(lambda x: 1 if spoken in x else 0)
  dfFinalClean[nombre_columna] = dfFinalClean['Full audio languages'].apply(lambda x: 1 if spoken in x else 0)
  dfFinalClean[nombre_columna] = dfFinalClean['Full audio languages'].apply(lambda x: 1 if spoken in x else 0)
  dfFinalClean[nombre_columna] = dfFinalClean['Full audio languages'].apply(lambda x: 1 if spoken in x else 0)


In [27]:
print("Database modificada: ")
print(dfFinalClean.shape)

Database modificada: 
(111452, 770)


In [32]:
# Función para extraer el número más grande de la cadena
def extract_max_owners(owners_str):
    if isinstance(owners_str, str) and '-' in owners_str:
        return int(owners_str.split('-')[1])  # Devuelve el número más grande
    return None  # Devuelve None si no es un string válido

# Aplicar la función a la columna 'estimated owners'
dfFinalClean['Estimated owners'] = dfFinalClean['Estimated owners'].apply(extract_max_owners)

In [29]:
columna_a_eliminar = 'Supported languages'  # Reemplaza esto con el nombre de la columna que deseas eliminar

# Eliminar la columna
dfFinalClean = dfFinalClean.drop(columns=[columna_a_eliminar])
columna_a_eliminar = 'Full audio languages'  # Reemplaza esto con el nombre de la columna que deseas eliminar

# Eliminar la columna
dfFinalClean = dfFinalClean.drop(columns=[columna_a_eliminar])
columna_a_eliminar = 'Tags'  # Reemplaza esto con el nombre de la columna que deseas eliminar

# Eliminar la columna
dfFinalClean = dfFinalClean.drop(columns=[columna_a_eliminar])
columna_a_eliminar = 'Genres'  # Reemplaza esto con el nombre de la columna que deseas eliminar

# Eliminar la columna
dfFinalClean = dfFinalClean.drop(columns=[columna_a_eliminar])
columna_a_eliminar = 'Categories'  # Reemplaza esto con el nombre de la columna que deseas eliminar

# Eliminar la columna
dfFinalClean = dfFinalClean.drop(columns=[columna_a_eliminar])

In [30]:
def extract_year(release_str):
    if isinstance(release_str, str) and len(release_str) >= 4:
        year_str = release_str[-4:]  # Obtener los últimos cuatro caracteres
        return int(year_str)  # Convertir a entero
    return None  # Devolver None si no es un string válido o no tiene suficientes caracteres

# Aplicar la función a la columna 'release_date'
dfFinalClean['Release date'] = dfFinalClean['Release date'].apply(extract_year)

In [31]:
# dfFinalClean.to_csv('gamesWCategoricas.csv', index=False)