# Documentaci√≥n del C√≥digo
## Autor: Andres Rosso

Este script conecta a una base de datos SQLite, carga datos de una tabla en un DataFrame de Pandas, crea una nueva columna concatenando varias columnas de texto, y luego muestra las primeras filas del DataFrame resultante.

## Librer√≠as Utilizadas

- `dash`: Framework para crear aplicaciones web interactivas en Python.
- `plotly.express`: Utilizado para crear gr√°ficos interactivos.
- `pandas`: Utilizado para la manipulaci√≥n de datos en DataFrames.
- `gensim`: Utilizado para el procesamiento de texto y modelado de t√≥picos.
- `nltk`: Utilizado para la tokenizaci√≥n, eliminaci√≥n de stopwords y lematizaci√≥n.
- `sqlite3`: Utilizado para conectarse y operar con bases de datos SQLite.

## Preprocesamiento del Texto con NLTK

Antes de procesar los datos, el script se asegura de que los recursos necesarios de NLTK est√°n disponibles mediante las descargas de los paquetes `stopwords`, `punkt`, y `wordnet`. Estos se utilizan para eliminar palabras vac√≠as (stopwords), tokenizar el texto, y lematizar las palabras.

## Conexi√≥n a la Base de Datos SQLite

### `connect_to_db(db_path)`
Establece una conexi√≥n con la base de datos SQLite especificada.

- **Par√°metros:**
  - `db_path` (str): Ruta al archivo de la base de datos SQLite.
  
- **Retorna:**
  - `conn` (sqlite3.Connection): Objeto de conexi√≥n a la base de datos.

### `load_table_to_dataframe(conn, table_name)`
Carga una tabla desde la base de datos SQLite en un DataFrame de Pandas.

- **Par√°metros:**
  - `conn` (sqlite3.Connection): Objeto de conexi√≥n a la base de datos.
  - `table_name` (str): Nombre de la tabla a cargar.
  
- **Retorna:**
  - `df` (pandas.DataFrame): DataFrame que contiene los datos de la tabla especificada.

## Creaci√≥n de la Columna 'TEXT'

### `create_text_column(df)`
Crea una nueva columna llamada 'TEXT' en el DataFrame, concatenando las columnas `title`, `meta_description`, `description`, y `body`.

- **Par√°metros:**
  - `df` (pandas.DataFrame): DataFrame que contiene las columnas a concatenar.
  
- **Retorna:**
  - `df` (pandas.DataFrame): DataFrame con la nueva columna 'TEXT'.

## Ejecuci√≥n del Script

1. **Ruta de la base de datos:** 
   - Especifica la ruta de la base de datos SQLite en la variable `db_path`.

2. **Conexi√≥n a la base de datos:**
   - Se conecta a la base de datos utilizando la funci√≥n `connect_to_db`.

3. **Carga de la tabla:**
   - La tabla especificada en `table_name` se carga en un DataFrame mediante la funci√≥n `load_table_to_dataframe`.

4. **Creaci√≥n de la columna 'TEXT':**
   - Se crea una nueva columna llamada 'TEXT' que concatena las columnas `title`, `meta_description`, `description`, y `body` usando la funci√≥n `create_text_column`.

5. **Cierre de la conexi√≥n:**
   - Se cierra la conexi√≥n a la base de datos.

6. **Visualizaci√≥n del DataFrame resultante:**
   - Se imprimen las columnas del DataFrame y las primeras filas para inspecci√≥n.

## Notas

- El script est√° dise√±ado para manejar textos, especialmente cuando se trabaja con grandes vol√∫menes de art√≠culos u otros documentos textuales.
- La columna 'TEXT' es √∫til para an√°lisis de texto o para alimentar modelos de procesamiento de lenguaje natural (NLP).
- Aseg√∫rate de que la base de datos y las columnas especificadas existen y est√°n correctamente formateadas antes de ejecutar el script.

In [3]:
import sqlite3

def explore_sqlite_db(db_path):
    # Connect to the SQLite database
    conn = sqlite3.connect(db_path)
    cursor = conn.cursor()

    # Query to get the list of tables
    cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
    tables = cursor.fetchall()

    # Print the list of tables and details
    print("Tables in the database:")
    for table in tables:
        table_name = table[0]
        print(f"\nTable: {table_name}")

        # Query to get the table schema
        cursor.execute(f"PRAGMA table_info({table_name});")
        columns = cursor.fetchall()

        # Print column names and types
        print("Fields:")
        for col in columns:
            print(f" - {col[1]} ({col[2]})")

        # Display some data from the table
        print("\nSample Data:")
        cursor.execute(f"SELECT * FROM {table_name} LIMIT 5;")
        rows = cursor.fetchall()

        # Print the rows
        if rows:
            col_names = [description[1] for description in columns]
            print(f"Columns: {', '.join(col_names)}")
            for i, row in enumerate(rows):
                for j, field in enumerate(row):
                    print(col_names[j] + ': ')
                    print(field)
                    print('\n')
        else:
            print("No data available.")
    
    # Close the connection
    conn.close()

# Usage example with your specific path
db_path = r"../data/articles.sqlite"
explore_sqlite_db(db_path)


Tables in the database:

Table: article
Fields:
 - id (INTEGER)
 - url (VARCHAR)
 - title (VARCHAR)
 - meta_description (VARCHAR)
 - description (VARCHAR)
 - date (VARCHAR)
 - tags (VARCHAR)
 - author (VARCHAR)
 - body (VARCHAR)
 - status (VARCHAR)

Sample Data:
Columns: id, url, title, meta_description, description, date, tags, author, body, status
id: 
1


url: 
https://www.elespectador.com/salud/no-es-una-son-tres-las-reformas-a-la-salud-que-ya-se-radicaron-en-el-congreso/


title: 
No es una, son tres las reformas a la salud que ya se radicaron en el Congreso 


meta_description: 
A la propuesta del Gobierno se suma una de la oposici√≥n y otra m√°s de organizaciones de pacientes.


description: 
El debate en las comisiones s√©ptimas del legislativo ya tiene en fila tres proyectos de reforma del sistema de salud que proponen cosas muy diferentes y que seguramente enfrentar√°n a los partidos pol√≠ticos.


date: 
16 de febrero de 2023 - 12:00 p.¬†m.


tags: 
Reforma a la salud, Premiu