In [None]:
import pandas as pd # type: ignore
import os
import numpy as np # type: ignore

In [None]:
# Directorio que contiene los archivos Excel
directory_path = "HOJAS_DE_INDEXACION"

# Obtener una lista de todos los archivos en el directorio
lista_archivos_excel = [f for f in os.listdir(directory_path) if f.endswith('.xlsx')]

# Lista para almacenar los DataFrames
lista_dataframes = []

# Iterar sobre la lista de archivos y leer cada uno en un DataFrame
for archivo in lista_archivos_excel:
    ruta_completa = os.path.join(directory_path, archivo)
    if os.path.exists(ruta_completa):
        df = pd.read_excel(ruta_completa)
        lista_dataframes.append(df)
    else:
        print(f"El archivo {ruta_completa} no existe")

# Concatenar todos los DataFrames en uno solo
df_crudo = pd.concat(lista_dataframes, ignore_index=True)

# Mostrar el DataFrame final
print("DataFrame final:")
print(df_crudo.head())

# Guardar el DataFrame final en un archivo Excel (opcional)
df_crudo.to_excel("data_sin_limpiar.xlsx", index=False)

In [None]:
# Información del dataframe
df_crudo.info()

In [None]:
# Eliminar filas con valores nulos en la columna 'Num_problema'
df_sin_nulos = df_crudo.dropna(subset=['Num_problema'])

# Resetear los índices
df_sin_nulos.reset_index(drop=True, inplace=True)

# Revisando el DataFrame sin nulos en la Columna "Num_problema"
df_sin_nulos.head()

In [None]:
# Información del dataframe
df_sin_nulos.info()

In [None]:
# Revisando si hay preguntas String
conteo_string = df_sin_nulos['String'].value_counts(dropna=False)
conteo_string

In [None]:
df_sin_nulos = df_sin_nulos.copy()

indices_a_eliminar = df_sin_nulos[(df_sin_nulos['String'] == 'B') | (df_sin_nulos['String'] == 'C')].index

df_sin_nulos.drop(indices_a_eliminar, inplace=True)

In [None]:
df_sin_nulos.head()

In [None]:
df_sin_nulos.info()

In [None]:
# Obteniendo solo las columnas requeridas
columnas_no_requeridas = ['String', 'TER','OBSERVACIÓN','Unnamed: 11']
data = df_sin_nulos.drop(columns = columnas_no_requeridas)
data.head()

In [None]:
# Nuevos nombres para todas las columnas
nuevos_nombres = [
    'NUM_PROBLEMA', 'COD_PROFESOR',
    'COD_CURSO', 'NO_TEMA',
    'NRO_SUBTEMA', 'NO_NIVEL',
    'CLAVE', 'TIPO_PREG'
    ]

# Cambiar los nombres de las columnas
data.columns = nuevos_nombres

# Mostrar los resultados
data.head()

In [None]:
# Casteando columnas

# Identificar columnas que son de tipo float
columnas_float = data.select_dtypes(include=['float64']).columns

# Cambiar el tipo de dato de las columnas float a integer
data[columnas_float] = data[columnas_float].astype('Int64')

# Identificar columnas que son de tipo float
columnas_float = data.select_dtypes(include=['Int64']).columns

# Cambiar el tipo de dato de las columnas float a integer
data[columnas_float] = data[columnas_float].astype('object')

# revisando dataframe casteado
data.head(100)

In [None]:
data.info()

In [None]:
tema = '00'
subtema = '00'
nivel = '0'
clave = 'X'
tipo = 'X'

data.loc[data['NO_TEMA'].isna(), 'NO_TEMA'] = tema
data.loc[data['NRO_SUBTEMA'].isna(), 'NRO_SUBTEMA'] = subtema
data.loc[data['NO_NIVEL'].isna(), 'NO_NIVEL'] = nivel
data.loc[data['CLAVE'].isna(), 'CLAVE'] = clave
data.loc[data['TIPO_PREG'].isna(), 'TIPO_PREG'] = tipo
data.info()

In [None]:
filtro = data['NRO_SUBTEMA'].isna()
data[filtro]

In [None]:
data.info()

In [None]:
# Definir una función para eliminar espacios de cualquier valor
def strip_spaces(value):
    if isinstance(value, str):
        return value.strip()
    elif isinstance(value, (int, float)):
        return value
    elif pd.isna(value):
        return value
    else:
        return str(value).strip()

In [None]:
# Aplicar la función a cada elemento del DataFrame
data = data.map(strip_spaces)

# Mostrar el DataFrame resultante
data.head()

In [None]:
data.info()

In [None]:
# Casteando columnas
print()
# Identificar columnas que son de tipo float
columnas_float = data.select_dtypes(include=['float64']).columns

# Cambiar el tipo de dato de las columnas float a integer
data[columnas_float] = data[columnas_float].astype('Int64')

# revisando dataframe casteado
data.head()

In [None]:
# Completando ceros en la columna 'NUM_PROBLEMA' hasta que tenga 6 dígitos

data['NUM_PROBLEMA'] = data['NUM_PROBLEMA'].astype(str).str.zfill(6)
data.head()

In [None]:
# Concatenado las columnas 'NO_TEMA' y 'NRO_SUBTEMA'
data['COD_TEMARIO'] = data['NO_TEMA'].astype(str).str.zfill(2) + '.' + data['NRO_SUBTEMA'].astype(str).str.zfill(2)

# Mostrando DataFrame
data.head()

In [None]:
# Creando una nueva columna con el código string del curso

diccionario_significados = {
    1: 'AR', 2: 'AL', 3: 'GM',
    4: 'TR', 5: 'RM', 6: 'RV',
    7: 'FI', 8: 'QU', 9: 'BI',
    10: 'AN', 11: 'LE', 12: 'LI',
    13: 'IN', 14: 'HP', 15: 'HU',
    16: 'GF', 17: 'EC', 18: 'CI',
    19: 'PS', 20: 'FL'
}

data['CURSO'] = data['COD_CURSO'].map(diccionario_significados)

data.head()

In [None]:
# Creando la columna de reemplazo

data['REEMPLAZO'] = '@' + data[['NUM_PROBLEMA', 'CURSO','COD_TEMARIO', 'NO_NIVEL', 'CLAVE', 'TIPO_PREG']].astype('str').apply(" - ".join, axis=1)
data.head()

In [None]:
sin_duplicados_reemplazo = data.drop_duplicates(subset = ['REEMPLAZO'], keep='first')

In [None]:
sin_duplicados_reemplazo.info()

In [None]:
sin_duplicados_reemplazo.duplicated('NUM_PROBLEMA').sum()

In [None]:
# Identificar filas duplicadas en base a la columna 'columna1'
duplicados = sin_duplicados_reemplazo[sin_duplicados_reemplazo.duplicated(subset=['NUM_PROBLEMA'], keep=False)]

# Resetear los índices del DataFrame de duplicados
duplicados.reset_index(drop=True, inplace=True)

# Visualizando el nuevo data frame
duplicados.head()

In [None]:
# Información del Dataframe duplicados
duplicados.info()

In [None]:
duplicados_por_problema = duplicados['NUM_PROBLEMA'].value_counts()
duplicados_por_problema

In [None]:
filtro = duplicados['NUM_PROBLEMA'] == '003321'
duplicados[filtro]

In [None]:
columnas_fijas = ['NUM_PROBLEMA', 'REEMPLAZO']

matriz = duplicados[columnas_fijas]

matriz.head()

In [None]:
# Asegurarse de que 'matriz' no es una copia antes de modificarla
matriz = matriz.copy()

# Crear un índice adicional para los valores de la columna 'Valor'
matriz.loc[:, 'idx'] = matriz.groupby('NUM_PROBLEMA').cumcount()

# Pivotar el DataFrame
matriz_duplicados = matriz.pivot(index='NUM_PROBLEMA', columns='idx', values='REEMPLAZO')

# Renombrar las columnas si es necesario
matriz_duplicados.columns = [f'DUPLICADO_{i+1}' for i in matriz_duplicados.columns]

# Resetear el índice para convertir el índice 'ID' en una columna
matriz_duplicados.reset_index(inplace=True)

# Mostrar el DataFrame pivotado
matriz_duplicados.head()

In [None]:
# Definir una función para comparar los valores en una fila
def comparar_fila(row):
    if row.nunique() == 1:
        return 'IGUALES'
    else:
        return 'DIFERENTES'
    
# Seleccionar todas las columnas excepto 'ID' para la comparación
columnas_a_comparar = matriz_duplicados.columns.difference(['NUM_PROBLEMA'])

columnas_a_comparar

In [None]:
# Aplicar la función a cada fila del DataFrame para las columnas de interés
matriz_duplicados['COMPARACION'] = matriz_duplicados[columnas_a_comparar].apply(comparar_fila, axis=1)

In [None]:
matriz_duplicados.head()

In [None]:
matriz_duplicados['COMPARACION'].value_counts()

In [None]:
cruce = pd.merge(sin_duplicados_reemplazo, matriz_duplicados, on='NUM_PROBLEMA', how='outer')
cruce.head()

In [None]:
proporcion = cruce['COMPARACION'].value_counts(dropna = False)
proporcion

In [None]:
# Mask

diferentes = cruce['COMPARACION'] == 'DIFERENTES'

In [None]:
duplicados_diferentes = cruce[diferentes]
duplicados_diferentes.head()

In [None]:
duplicados_diferentes.info()

In [None]:
duplicados_diferentes.to_excel("duplicados_diferentes.xlsx", index = False)

In [None]:
unicos = ~ diferentes
registros_unicos = cruce[unicos]

registros_unicos.head()

In [None]:
registros_unicos.info()

In [None]:
valor_unico = 'UNICO'

registros_unicos.loc[:, 'COMPARACION'] = valor_unico

registros_unicos.head()

In [None]:
registros_unicos.info()

In [None]:
registros_unicos.to_excel("registros_unicos.xlsx", index = False)

In [None]:
from extractor_final import extraer

extraer()

In [None]:
# Cargar el archivo Excel
no_indexada = pd.read_excel("extraccion.xlsx")

# Remover caracteres no numéricos y espacios en blanco
no_indexada['PROBLEMA'] = no_indexada['PROBLEMA'].astype(str).str.strip().str.replace(r'\D', '', regex=True)

# Filtrar valores numéricos y conservar ceros iniciales
df_filtrada = no_indexada[no_indexada['PROBLEMA'].str.isdigit()].copy()

# Resetear el índice del DataFrame filtrado
df_filtrada.reset_index(drop=True, inplace=True)

# Guardar el DataFrame filtrado en un nuevo archivo Excel (opcional)
ruta_de_salida = "codigos_no_indexados.xlsx"  # Reemplaza con la ruta correcta para guardar el archivo
df_filtrada.to_excel(ruta_de_salida, index=False)

In [None]:
df_filtrada.head()

In [None]:
df_filtrada.info()

In [None]:
df_filtrada.drop_duplicates(inplace = True)

df_filtrada.head()

In [None]:
df_filtrada.info()

In [None]:
seis_digitos = df_filtrada[df_filtrada['PROBLEMA'].str.match(r'^\d{6}$')]
seis_digitos.head()

In [None]:
seis_digitos.info()

In [None]:
seis_digitos = seis_digitos.copy()

seis_digitos.rename(columns={'PROBLEMA': 'NUM_PROBLEMA'}, inplace=True)

seis_digitos.head()

In [None]:
full_data_6= pd.merge(registros_unicos, seis_digitos, on='NUM_PROBLEMA', how='outer')

In [None]:
full_data_6.head(100)

In [None]:
full_data_6.info()

In [None]:
curso = input("ingrese el curso")

relleno = '@' + full_data_6['NUM_PROBLEMA'] + ' - ' + curso + ' - ' + '00.00' + ' - ' + '0' + ' - ' + 'X' + ' - ' + 'X'

full_data_6.loc[full_data_6['REEMPLAZO'].isna(), 'REEMPLAZO'] = relleno

full_data_6.head()

In [None]:
full_data_6.reset_index(drop=True, inplace=True)
full_data_6.head()

In [None]:
filtro = full_data_6['COMPARACION'] != 'UNICO'

data_con_seis = full_data_6[filtro]

data_con_seis.head()

In [None]:
data_con_seis.info()

In [None]:
filtro = df_filtrada['PROBLEMA'].str.match(r'^\d{6}$')

data_hasta_5 = df_filtrada[~ filtro]

data_hasta_5.head()

In [None]:
data_hasta_5 = data_hasta_5.copy()

data_hasta_5['REEMPLAZO'] = '@' + data_hasta_5['PROBLEMA']

data_hasta_5.head()

In [None]:
data_hasta_5.rename(columns={'PROBLEMA': 'NUM_PROBLEMA'}, inplace=True)

data_hasta_5.head()

In [None]:
# Concatenar los DataFrames en base a las columnas 'ID' y 'NUM_PROBLEMA'
df_final = pd.merge(full_data_6, data_hasta_5, on=['NUM_PROBLEMA', 'REEMPLAZO'], how='outer')

# Resetear el índice del DataFrame concatenado
df_final.reset_index(drop=True, inplace=True)

# Mostrando del DataFrame
df_final.head(100)

In [None]:
df_final.info()

In [None]:
df_final.to_excel('data_final.xlsx', index = False)

In [None]:
input("DALE GOOO!!!!")

## PRIMER REEMPLAZO

In [None]:
from pathlib import Path  # core python module
import win32com.client  # type: ignore # pip install pywin32

# Path settings
current_dir = Path(__file__).parent if "__file__" in locals() else Path.cwd()
input_dir = current_dir / "INPUT"
output_dir = current_dir / "OUTPUT"
output_dir.mkdir(parents=True, exist_ok=True)


# Creando el diccionario
diccionario = full_data_6[['NUM_PROBLEMA', 'REEMPLAZO']].set_index('NUM_PROBLEMA')['REEMPLAZO'].to_dict()


word_app = win32com.client.DispatchEx("Word.Application")
word_app.Visible = False
word_app.DisplayAlerts = False


for doc_file in Path(input_dir).rglob("*.doc*"):

    for word, replacement in diccionario.items():
        
        find_str = word
        replace_with = replacement 
        wd_replace = 2  # 2=replace all occurences, 1=replace one occurence, 0=replace no occurences
        wd_find_wrap = 1  # 2=ask to continue, 1=continue search, 0=end if search range is reached

        # Open each document and replace string
        word_app.Documents.Open(str(doc_file))
        # API documentation: https://learn.microsoft.com/en-us/office/vba/api/word.find.execute
        word_app.Selection.Find.Execute(
            FindText=find_str,
            ReplaceWith=replace_with,
            Replace=wd_replace,
            Forward=True,
            MatchCase=True,
            MatchWholeWord=False,
            MatchWildcards=True,
            MatchSoundsLike=False,
            MatchAllWordForms=False,
            Wrap=wd_find_wrap,
            Format=True,
        )

    # Save the new file
    output_path = output_dir / f"{doc_file.stem}_replaced{doc_file.suffix}"
    word_app.ActiveDocument.SaveAs(str(output_path))
    word_app.ActiveDocument.Close(SaveChanges=False)
word_app.Application.Quit()

## SEGUNDO REEMPLAZO

from pathlib import Path
import win32com.client  # type: ignore # pip install pywin32

# Path settings
current_dir = Path(__file__).parent if "__file__" in locals() else Path.cwd()
input_dir = current_dir / "OUTPUT"
output_dir = current_dir / "REEMPLAZO_TOTAL"
output_dir.mkdir(parents=True, exist_ok=True)

# Creando el diccionario
diccionario = data_mala_final[['NUM_PROBLEMA', 'REEMPLAZO']].set_index('NUM_PROBLEMA')['REEMPLAZO'].to_dict()

# Iniciar la aplicación de Word
word_app = win32com.client.DispatchEx("Word.Application")
word_app.Visible = False
word_app.DisplayAlerts = False

for doc_file in Path(input_dir).rglob("*.doc*"):
    # Abrir cada documento
    doc = word_app.Documents.Open(str(doc_file))
    
    for word, replacement in diccionario.items():
        # Condición para omitir números que comiencen con "@"
        if not word.startswith('@'):
            find_str = word
            replace_with = replacement 
            wd_replace = 2  # 2=replace all occurences, 1=replace one occurence, 0=replace no occurences
            wd_find_wrap = 1  # 2=ask to continue, 1=continue search, 0=end if search range is reached

            # Reemplazar texto en el documento
            word_app.Selection.Find.Execute(
                FindText=find_str,
                ReplaceWith=replace_with,
                Replace=wd_replace,
                Forward=True,
                MatchCase=True,
                MatchWholeWord=False,
                MatchWildcards=True,
                MatchSoundsLike=False,
                MatchAllWordForms=False,
                Wrap=wd_find_wrap,
                Format=True,
            )

    # Guardar el nuevo archivo
    output_path = output_dir / f"{doc_file.stem}_final{doc_file.suffix}"
    doc.SaveAs(str(output_path))
    doc.Close(SaveChanges=False)

# Cerrar la aplicación de Word
word_app.Application.Quit()