<p style="text-align: center;">
    <a>
        <img src="./sonic.jpeg" width="200" style="float: right;" />
    </a>
</p>

# Sistema de información estructurado y semi-estructurado.

### Instituto Tecnologico de Toluca

### Numeros de  Control: 
* 21280622
* 21281153
* 21281281

### Proyecto hecho por : 
* Mario Perez Hernandez 
* Jair Garduño Arsate
* Jefte Donovan Garcia Gonzalez


# Introducción al Proyecto

En este proyecto, exploramos y analizamos un sistema de información estructurado y semi-estructurado utilizando datos del conjunto de videojuegos disponible en [Kaggle](https://www.kaggle.com/datasets/sagayaabinesh/videogames/data). El objetivo principal es demostrar cómo se puede transformar, almacenar y manipular información proveniente de fuentes estructuradas (como archivos CSV y bases de datos relacionales) y semi-estructuradas (como archivos XML).

A través de este trabajo, se busca:

- Comprender la importancia de los sistemas de información en la gestión y análisis de datos.
- Aplicar técnicas para convertir datos entre diferentes formatos.
- Utilizar herramientas como pandas, SQLite y XML en Python para el procesamiento de datos.
- Analizar el conjunto de datos de ventas de videojuegos para extraer información relevante y patrones de interés.

Este enfoque permite visualizar el ciclo completo de manejo de datos, desde la adquisición hasta la transformación y almacenamiento en distintos formatos, resaltando la versatilidad y utilidad de los sistemas de información en la actualidad.

A continuacion la generacion de la base de datos en base a codigo python:

# Codigo de creacion

In [1]:
import sqlite3
import pandas as pd

# Crear/conectar a la base de datos 'videojuegos.db'
conn = sqlite3.connect('videojuegos.db')

# Leer el archivo CSV
df = pd.read_csv("dataset/vgsales.csv")

# Guardar el DataFrame en la base de datos como tabla 'datos'
df.to_sql('datos', conn, if_exists='replace', index=False)

# Cerrar la conexión
conn.close()

## ¿Por qué se eligió esta base de datos?

Esta base de datos fue seleccionada porque contiene información estructurada y detallada sobre ventas de videojuegos a nivel mundial, incluyendo variables clave como nombre, plataforma, año, género, editor, y ventas por región. Esto la convierte en una fuente ideal para analizar patrones de consumo, tendencias históricas y diferencias regionales, además de permitir la aplicación de técnicas de procesamiento tanto en sistemas estructurados (bases de datos relacionales) como semi-estructurados (XML). Su riqueza y variedad de datos la hacen adecuada para demostrar la versatilidad de los sistemas de información en el análisis y gestión de datos reales.

## Preguntas para Casos de Uso

1. **¿Cuáles son los videojuegos más vendidos a nivel global y por región?**  
    Permite identificar títulos exitosos y analizar tendencias de consumo en diferentes mercados.

2. **¿Qué géneros de videojuegos predominan en las ventas globales y regionales?**  
    Ayuda a comprender las preferencias de los usuarios según la región y orientar estrategias de desarrollo o marketing.

3. **¿Cómo han evolucionado las ventas de videojuegos a lo largo de los años?**  
    Facilita el análisis de tendencias históricas y la identificación de periodos de auge o declive en la industria.

4. **¿Qué plataformas han sido las más exitosas en términos de ventas?**  
    Permite evaluar el impacto de diferentes consolas y orientar decisiones de lanzamiento de nuevos títulos.

5. **¿Qué editoras han publicado la mayor cantidad de juegos exitosos?**  
    Ayuda a identificar líderes del mercado y posibles socios estratégicos.

6. **¿Existen diferencias significativas en las ventas de videojuegos entre regiones como Norteamérica, Europa y Japón?**  
    Permite adaptar estrategias de localización y distribución.


A continuacion se creara su base de datos en formato XML, que contendrá la información de los videojuegos y sus ventas. Este formato es adecuado para representar datos estructurados y semi-estructurados, facilitando su análisis y manipulación.

## Codigo XML para la Base de Datos de Videojuegos

<p>Este código convierte un archivo CSV llamado <code>vgsales.csv</code> en un archivo XML llamado <code>vgsales.xml</code>. A continuación se explica cada parte del proceso:</p>
<ul>
    <li><strong>Importación de librerías:</strong> Se importan <code>pandas</code> para manipular datos y <code>xml.etree.ElementTree</code> para crear el archivo XML.</li>
    <li><strong>Lectura del archivo CSV:</strong> Se lee el archivo <code>vgsales.csv</code> usando <code>pandas.read_csv</code>, almacenando los datos en un DataFrame llamado <code>df</code>.</li>
    <li><strong>Creación del elemento raíz:</strong> Se crea el elemento raíz del XML llamado <code>&lt;vgsales&gt;</code>.</li>
    <li><strong>Conversión de filas a elementos XML:</strong> Se itera sobre cada fila del DataFrame. Por cada fila, se crea un elemento <code>&lt;game&gt;</code>. Luego, para cada columna, se crea un subelemento con el nombre de la columna y el valor correspondiente de la fila.</li>
    <li><strong>Escritura del archivo XML:</strong> Se crea un árbol XML con el elemento raíz y se escribe en el archivo <code>vgsales.xml</code> con codificación UTF-8 y declaración XML.</li>
    <li><strong>Mensaje de confirmación:</strong> Se imprime un mensaje indicando que el archivo XML se generó correctamente.</li>
</ul>
<p>Este proceso es útil para transformar datos tabulares en un formato jerárquico como XML, facilitando su integración con otros sistemas o aplicaciones que requieran este formato.</p>
<p>A continuación se propone el código ejecutable para crear el XML.</p>


In [7]:
import pandas as pd
import xml.etree.ElementTree as ET
from xml.dom import minidom

# Leer el archivo CSV
df = pd.read_csv('dataset/vgsales.csv')

# Crear el elemento raíz
root = ET.Element("vgsales")

# Agrupar por plataforma y género
for platform, platform_df in df.groupby('Platform'):
    platform_elem = ET.SubElement(root, "platform", name=str(platform))
    for genre, genre_df in platform_df.groupby('Genre'):
        genre_elem = ET.SubElement(platform_elem, "genre", name=str(genre))
        for _, row in genre_df.iterrows():
            game_elem = ET.SubElement(genre_elem, "game")
            for col in df.columns:
                value = row[col]
                # Convertir NaN a cadena vacía
                if pd.isna(value):
                    value = ""
                ET.SubElement(game_elem, col).text = str(value)

# Convertir el árbol de elementos en una cadena de texto XML
xml_string = ET.tostring(root, encoding='utf-8')

# Usar minidom para embellecer el XML
dom = minidom.parseString(xml_string)
pretty_xml_string = dom.toprettyxml(indent="  ")

# Guardar el XML en un archivo
with open("vgsales.xml", "w", encoding="utf-8") as f:
    f.write(pretty_xml_string)

print("El archivo XML 'vgsales.xml' se ha generado correctamente.")

El archivo XML 'vgsales.xml' se ha generado correctamente.
