In [3]:
import os
import pandas as pd

def pregunta_01():
    """
    La información requerida para este laboratio esta almacenada en el
    archivo "files/input.zip" ubicado en la carpeta raíz.
    Descomprima este archivo.

    Como resultado se creara la carpeta "input" en la raiz del
    repositorio, la cual contiene la siguiente estructura de archivos:


    ```
    train/
        negative/
            0000.txt
            0001.txt
            ...
        positive/
            0000.txt
            0001.txt
            ...
        neutral/
            0000.txt
            0001.txt
            ...
    test/
        negative/
            0000.txt
            0001.txt
            ...
        positive/
            0000.txt
            0001.txt
            ...
        neutral/
            0000.txt
            0001.txt
            ...
    ```

    A partir de esta informacion escriba el código que permita generar
    dos archivos llamados "train_dataset.csv" y "test_dataset.csv". Estos
    archivos deben estar ubicados en la carpeta "output" ubicada en la raiz
    del repositorio.

    Estos archivos deben tener la siguiente estructura:

    * phrase: Texto de la frase. hay una frase por cada archivo de texto.
    * sentiment: Sentimiento de la frase. Puede ser "positive", "negative"
      o "neutral". Este corresponde al nombre del directorio donde se
      encuentra ubicado el archivo.

    Cada archivo tendria una estructura similar a la siguiente:

    ```
    |    | phrase                                                                                                                                                                 | target   |
    |---:|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------|
    |  0 | Cardona slowed her vehicle , turned around and returned to the intersection , where she called 911                                                                     | neutral  |
    |  1 | Market data and analytics are derived from primary and secondary research                                                                                              | neutral  |
    |  2 | Exel is headquartered in Mantyharju in Finland                                                                                                                         | neutral  |
    |  3 | Both operating profit and net sales for the three-month period increased , respectively from EUR16 .0 m and EUR139m , as compared to the corresponding quarter in 2006 | positive |
    |  4 | Tampere Science Parks is a Finnish company that owns , leases and builds office properties and it specialises in facilities for technology-oriented businesses         | neutral  |
    ```


    """

    # Crear la carpeta output si no existe
    print("Estructura de directorios:")
    print(os.listdir('.'))
    if os.path.exists('train'):
        print("Contenido de train:", os.listdir('train'))
    if os.path.exists('test'):
        print("Contenido de test:", os.listdir('test'))


    # Asegurarnos que existe el directorio de salida
    os.makedirs('files/output', exist_ok=True)
    
    # Procesar tanto train como test
    for dataset in ['train', 'test']:
        data = []
        
        # Procesar cada categoría de sentimiento
        for sentiment in ['positive', 'negative', 'neutral']:
            folder_path = os.path.join(dataset, sentiment)
            
            # Verificar si la carpeta existe
            if not os.path.exists(folder_path):
                print(f"Advertencia: No se encontró {folder_path}")
                continue
            
            # Leer todos los archivos .txt en la carpeta
            for file in os.listdir(folder_path):
                if file.endswith('.txt'):
                    file_path = os.path.join(folder_path, file)
                    
                    try:
                        with open(file_path, 'r', encoding='utf-8') as f:
                            content = f.read().strip()
                            data.append({
                                'phrase': content,
                                'target': sentiment
                            })
                    except Exception as e:
                        print(f"Error leyendo {file_path}: {str(e)}")
        
        # Crear DataFrame y guardar como CSV
        if data:  # Solo si hay datos
            df = pd.DataFrame(data)
            output_path = f'files/output/{dataset}_dataset.csv'
            df.to_csv(output_path, index=False)
            print(f"Archivo {output_path} generado con {len(df)} registros")
        else:
            print(f"No se encontraron datos para {dataset}")
    
    return

print(pregunta_01())

Estructura de directorios:
['.git', '.github', '.gitignore', '.mypy_cache', '.pytest_cache', '.venv', '.vscode', 'Ayuda.ipynb', 'files', 'homework', 'homework.egg-info', 'README.md', 'requirements.txt', 'setup.bat', 'setup.py', 'setup.sh', 'tests']
Advertencia: No se encontró train\positive
Advertencia: No se encontró train\negative
Advertencia: No se encontró train\neutral
No se encontraron datos para train
Advertencia: No se encontró test\positive
Advertencia: No se encontró test\negative
Advertencia: No se encontró test\neutral
No se encontraron datos para test
None


In [6]:
import os
import pandas as pd

def pregunta_01():
    """
    Procesa archivos de texto en carpetas train/test y genera CSVs con las frases y sentimientos.
    """
    
    # Verificar estructura de directorios (solo para diagnóstico)
    print("\nVerificando estructura de directorios...")
    print("Contenido actual:", os.listdir('.'))
    if os.path.exists('train'):
        print("\nContenido de train/:", os.listdir('train'))
        if os.path.exists('train/positive'):
            print("Archivos en train/positive:", len(os.listdir('train/positive')))
        if os.path.exists('train/negative'):
            print("Archivos en train/negative:", len(os.listdir('train/negative')))
        if os.path.exists('train/neutral'):
            print("Archivos en train/neutral:", len(os.listdir('train/neutral')))
    
    if os.path.exists('test'):
        print("\nContenido de test/:", os.listdir('test'))
        if os.path.exists('test/positive'):
            print("Archivos en test/positive:", len(os.listdir('test/positive')))
        if os.path.exists('test/negative'):
            print("Archivos en test/negative:", len(os.listdir('test/negative')))
        if os.path.exists('test/neutral'):
            print("Archivos en test/neutral:", len(os.listdir('test/neutral')))

    # Crear carpeta output si no existe
    os.makedirs('files/output', exist_ok=True)

    # Procesar train y test
    for dataset in ['train', 'test']:
        data = []
        
        for sentiment in ['positive', 'negative', 'neutral']:
            folder_path = os.path.join(dataset, sentiment)
            
            if not os.path.exists(folder_path):
                print(f"\n¡Atención! No se encontró {folder_path}")
                continue
                
            print(f"\nProcesando {folder_path}...")
            
            for filename in sorted(os.listdir(folder_path)):
                if filename.endswith('.txt'):
                    filepath = os.path.join(folder_path, filename)
                    
                    try:
                        with open(filepath, 'r', encoding='utf-8') as f:
                            phrase = f.read().strip()
                            data.append({
                                'phrase': phrase,
                                'target': sentiment  # Usamos 'target' como pide el test
                            })
                    except Exception as e:
                        print(f"Error al leer {filepath}: {str(e)}")
                        continue
        
        # Crear DataFrame y guardar CSV
        if data:
            df = pd.DataFrame(data)
            output_path = f'files/output/{dataset}_dataset.csv'
            df.to_csv(output_path, index=False)
            print(f"\n✅ Archivo {output_path} creado con éxito")
            print(f"Registros totales: {len(df)}")
            print("Muestra de datos:")
            print(df.head(3))
        else:
            print(f"\n❌ No se encontraron datos para {dataset}")
    
    return

print(pregunta_01())


Verificando estructura de directorios...
Contenido actual: ['.git', '.github', '.gitignore', '.mypy_cache', '.pytest_cache', '.venv', '.vscode', 'Ayuda.ipynb', 'files', 'homework', 'homework.egg-info', 'README.md', 'requirements.txt', 'setup.bat', 'setup.py', 'setup.sh', 'tests']

¡Atención! No se encontró train\positive

¡Atención! No se encontró train\negative

¡Atención! No se encontró train\neutral

❌ No se encontraron datos para train

¡Atención! No se encontró test\positive

¡Atención! No se encontró test\negative

¡Atención! No se encontró test\neutral

❌ No se encontraron datos para test
None


In [7]:
# Ejecuta esto en tu entorno
import pandas as pd
train_df = pd.read_csv('files/output/train_dataset.csv')
print(f"\nTrain dataset shape: {train_df.shape}")
print(train_df['target'].value_counts())

test_df = pd.read_csv('files/output/test_dataset.csv')
print(f"\nTest dataset shape: {test_df.shape}")
print(test_df['target'].value_counts())

EmptyDataError: No columns to parse from file

In [8]:
import os
import pandas as pd

def pregunta_01():
    # 1. Configurar rutas correctas
    input_base = 'files/input'
    output_dir = 'files/output'
    
    # 2. Verificar estructura
    print("\nVerificando estructura...")
    print("Contenido de files/input:", os.listdir(input_base))
    
    # 3. Crear directorio de salida
    os.makedirs(output_dir, exist_ok=True)
    
    # 4. Procesar train y test
    for dataset in ['train', 'test']:
        data = []
        dataset_path = os.path.join(input_base, dataset)
        
        if not os.path.exists(dataset_path):
            print(f"\n¡Error! No existe {dataset_path}")
            continue
            
        print(f"\nProcesando {dataset_path}...")
        
        for sentiment in ['positive', 'negative', 'neutral']:
            sentiment_path = os.path.join(dataset_path, sentiment)
            
            if not os.path.exists(sentiment_path):
                print(f"¡Atención! No se encontró {sentiment_path}")
                continue
                
            print(f"Leyendo archivos en {sentiment_path}...")
            
            for filename in sorted(os.listdir(sentiment_path)):
                if filename.endswith('.txt'):
                    filepath = os.path.join(sentiment_path, filename)
                    
                    try:
                        with open(filepath, 'r', encoding='utf-8') as f:
                            phrase = f.read().strip()
                            data.append({
                                'phrase': phrase,
                                'target': sentiment
                            })
                    except Exception as e:
                        print(f"Error leyendo {filepath}: {str(e)}")
        
        # Guardar CSV
        if data:
            df = pd.DataFrame(data)
            output_path = os.path.join(output_dir, f'{dataset}_dataset.csv')
            df.to_csv(output_path, index=False)
            print(f"✅ {output_path} creado con {len(df)} registros")
            print("Muestra de datos:")
            print(df.head(2))
        else:
            print(f"❌ No se procesaron datos para {dataset}")
    
    return

print(pregunta_01())


Verificando estructura...
Contenido de files/input: ['test', 'train']

Procesando files/input\train...
Leyendo archivos en files/input\train\positive...
Leyendo archivos en files/input\train\negative...
Leyendo archivos en files/input\train\neutral...
✅ files/output\train_dataset.csv creado con 1811 registros
Muestra de datos:
                                              phrase    target
0  Both operating profit and net sales for the th...  positive
1  The company 's scheduled traffic , measured in...  positive

Procesando files/input\test...
Leyendo archivos en files/input\test\positive...
Leyendo archivos en files/input\test\negative...
Leyendo archivos en files/input\test\neutral...
✅ files/output\test_dataset.csv creado con 453 registros
Muestra de datos:
                                              phrase    target
0  Operating profit rose to EUR 13.1 mn from EUR ...  positive
1  Consolidated net sales increased 16 % to reach...  positive
None


In [9]:
# Ejecuta esto en tu entorno
import pandas as pd
train_df = pd.read_csv('files/output/train_dataset.csv')
print(f"\nTrain dataset shape: {train_df.shape}")
print(train_df['target'].value_counts())

test_df = pd.read_csv('files/output/test_dataset.csv')
print(f"\nTest dataset shape: {test_df.shape}")
print(test_df['target'].value_counts())


Train dataset shape: (1811, 2)
target
neutral     1117
positive     458
negative     236
Name: count, dtype: int64

Test dataset shape: (453, 2)
target
neutral     274
positive    112
negative     67
Name: count, dtype: int64
