In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Cargar el archivo CSV
csv_file = "dataset.csv"
df = pd.read_csv(csv_file)

# Crear una nueva columna 'category' inicializada como vacía
df['category'] = None

# Realizar la división estratificada por género usando train_test_split
for genre in df['genre'].unique():
    # Filtrar las filas correspondientes al género actual
    genre_mask = df['genre'] == genre
    genre_df = df[genre_mask]
    
    # Dividir en radical (80%) y moderate (20%) usando train_test_split
    radical, moderate = train_test_split(genre_df.index, test_size=0.2, random_state=42, stratify=genre_df['genre'])
    
    # Asignar las etiquetas 'radical' y 'moderate'
    df.loc[radical, 'category'] = 'radical'
    df.loc[moderate, 'category'] = 'moderate'

# Reorganizar las columnas para que 'category' esté antes de 'subset'
cols = list(df.columns)
subset_index = cols.index('subset')
cols.insert(subset_index, cols.pop(cols.index('category')))
df = df[cols]

# Guardar el archivo CSV actualizado
output_file = "stratify.csv"
df.to_csv(output_file, index=False)

print("Proceso completado. El archivo actualizado se ha guardado en:", output_file)

Proceso completado. El archivo actualizado se ha guardado en: stratify.csv


In [2]:

# Imprimir la distribución de los datos
print("Distribución de los datos por género y categoría:")
distribution = df.groupby(['genre', 'category']).size().unstack(fill_value=0)
print(distribution)

# Calcular la proporción de radical vs moderate para cada género
distribution['total'] = distribution['radical'] + distribution['moderate']
distribution['radical_pct'] = (distribution['radical'] / distribution['total']) * 100
distribution['moderate_pct'] = (distribution['moderate'] / distribution['total']) * 100

print("\nProporciones de radical y moderate (%):")
print(distribution[['radical_pct', 'moderate_pct']])

Distribución de los datos por género y categoría:
category                    moderate  radical
genre                                        
Abstract Expressionism           557     2225
Action painting                   20       78
Analytical Cubism                 22       88
Art Nouveau Modern               867     3467
Baroque                          848     3392
Color Field Painting             323     1292
Contemporary Realism              97      384
Cubism                           447     1788
Early Renaissance                279     1112
Expressionism                   1348     5388
Fauvism                          187      747
High Renaissance                 269     1074
Impressionism                   2612    10448
Mannerism Late Renaissance       256     1023
Minimalism                       268     1069
Naive Art Primitivism            481     1924
New Realism                       63      251
Northern Renaissance             511     2041
Pointillism                   

In [3]:
import pandas as pd

df = pd.read_csv("stratify.csv")

num_rows = len(df)

chunks = 4
chunk_size = num_rows // chunks

for i in range(chunks):
    start = i * chunk_size
    end = (i + 1) * chunk_size if i < chunks - 1 else num_rows
    df_chunk = df.iloc[start:end]
    df_chunk.to_csv(f"parte_{i+1}.csv", index=False)

print("CSV dividido en 4 partes con éxito.")


CSV dividido en 4 partes con éxito.
