In [1]:
import re

import numpy as np
import pandas as pd

import warnings
warnings.filterwarnings('ignore')

import unicodedata

### Tareas.xlsx -> Tareas-limpio.xlsx(Proyectos)

In [2]:
print("\n=== INICIO DE LIMPIEZA DE TAREAS ===")

# 1. Carga inicial
print("\n1. CARGANDO ARCHIVO DE TAREAS")
print("----------------------------")
try:
    df_tareas = pd.read_excel('../Sucia/Tareas.xlsm', engine="openpyxl")
    print("‚úì Archivo cargado exitosamente")
    print(f"- Filas iniciales: {df_tareas.shape[0]}")
    print(f"- Columnas iniciales: {df_tareas.shape[1]}")
    print("\nColumnas disponibles:")
    for col in df_tareas.columns:
        print(f"- {col}")
except Exception as e:
    print(f"‚ùå Error al cargar archivo: {e}")
    raise




=== INICIO DE LIMPIEZA DE TAREAS ===

1. CARGANDO ARCHIVO DE TAREAS
----------------------------
‚úì Archivo cargado exitosamente
- Filas iniciales: 1294
- Columnas iniciales: 15

Columnas disponibles:
- PROYECTO
- TAREA
- DESCRIPCION
- SECCION
- FECHA
- PERIODICIDAD
- ORDEN
- RESPONSABLE
- CODPROY
- CODTAREA
- ETIQUETA
- CODIGO
- TIPO
- ORDEN.1
- CODCLI2


In [3]:
# 2. Verificaci√≥n inicial de nulos
print("\n2. VERIFICACI√ìN INICIAL DE NULOS")
print("------------------------------")
nulos_iniciales = df_tareas[['CODIGO', 'PROYECTO']].isnull().sum()
print("Nulos por columna:")
for columna, cantidad in nulos_iniciales.items():
  print(f"- {columna}: {cantidad} nulos")


2. VERIFICACI√ìN INICIAL DE NULOS
------------------------------
Nulos por columna:
- CODIGO: 8 nulos
- PROYECTO: 0 nulos


In [4]:
df_tareas = df_tareas.dropna(subset=['CODIGO'])

In [None]:
# 4. Limpieza de PROYECTO
print("\n4. LIMPIEZA DE PROYECTO")
print("---------------------")
# Funci√≥n para limpiar texto
def strip_accents(text):
  if pd.isna(text):
      return text
  return ''.join(c for c in unicodedata.normalize('NFD', str(text))
                if unicodedata.category(c) != 'Mn')

# Aplicar limpieza a PROYECTO
df_tareas['PROYECTO'] = df_tareas['PROYECTO'].apply(strip_accents)
print("‚úì Acentos removidos de la columna PROYECTO")


4. LIMPIEZA DE PROYECTO
---------------------
‚úì Acentos removidos de la columna PROYECTO


In [6]:
# 5. Selecci√≥n final de columnas
print("\n5. SELECCI√ìN DE COLUMNAS")
print("----------------------")
columnas_finales = ['CODIGO', 'PROYECTO']
df_tareas = df_tareas[columnas_finales]
print(f"Columnas seleccionadas: {', '.join(columnas_finales)}")



5. SELECCI√ìN DE COLUMNAS
----------------------
Columnas seleccionadas: CODIGO, PROYECTO


In [7]:
# 6. Guardado de archivo
print("\n6. GUARDANDO ARCHIVO LIMPIO")
print("-------------------------")
try:
  df_tareas.to_excel("../Limpia/Tareas-limpio.xlsx", index=False)
  print("‚úì Archivo guardado exitosamente en '../Limpia/Tareas-limpio.xlsx'")
  
  # Verificaci√≥n final
  print("\nEstado final del DataFrame:")
  print(f"- Filas: {df_tareas.shape[0]}")
  print(f"- Columnas: {df_tareas.shape[1]}")
  print("\nMuestra de datos limpios:")
  print(df_tareas.sample(min(5, len(df_tareas))))
  
  print("\nVerificaci√≥n final de nulos:")
  nulos_finales = df_tareas.isnull().sum()
  for columna, cantidad in nulos_finales.items():
      print(f"- {columna}: {cantidad} nulos")
except Exception as e:
  print(f"‚ùå Error al guardar archivo: {e}")

print("\n=== FIN DE LIMPIEZA DE TAREAS ===")


6. GUARDANDO ARCHIVO LIMPIO
-------------------------


‚úì Archivo guardado exitosamente en '../Limpia/Tareas-limpio.xlsx'

Estado final del DataFrame:
- Filas: 1286
- Columnas: 2

Muestra de datos limpios:
       CODIGO               PROYECTO
548   80191.0     Ruta Martin Sabado
1034  21955.0    Clientes Especiales
618   81155.0  Ruta Alejandro Martes
327   12993.0       Ruta Hugo Jueves
455   21615.0  Ruta Martin Miercoles

Verificaci√≥n final de nulos:
- CODIGO: 0 nulos
- PROYECTO: 0 nulos

=== FIN DE LIMPIEZA DE TAREAS ===


In [8]:
df_tareas.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1286 entries, 0 to 1293
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   CODIGO    1286 non-null   float64
 1   PROYECTO  1286 non-null   object 
dtypes: float64(1), object(1)
memory usage: 30.1+ KB


In [9]:
valores_unicos = df_tareas['PROYECTO'].unique()

# Imprimir los valores √∫nicos
print(valores_unicos)

['Ruta Dario Lunes' 'Ruta Dario Martes' 'Ruta Dario Miercoles'
 'Ruta Dario Jueves' 'Ruta Dario Viernes' 'Ruta Dario Sabado'
 'Ruta Hugo Lunes' 'Ruta Hugo Martes' 'Ruta Hugo Miercoles'
 'Ruta Hugo Jueves' 'Ruta Hugo Viernes' 'Ruta Hugo Sabado'
 'Ruta Martin Lunes' 'Ruta Martin Martes' 'Ruta Martin Miercoles'
 'Ruta Martin Jueves' 'Ruta Martin Viernes' 'Ruta Martin Sabado'
 'Ruta Alejandro Lunes' 'Ruta Alejandro Martes' 'Ruta Alejandro Miercoles'
 'Ruta Alejandro Jueves' 'Ruta Alejandro Viernes' 'Ruta Alejandro Sabado'
 'üóû Visitas periodicas Martin' 'üóû Visitas Periodicas Dario'
 'üóû Visitas periodicas Alejandro' 'Clientes Especiales' 'üí≤Creditos Hugo'
 'üí≤Creditos Martin' 'üí≤Creditos Dario' 'üí≤Creditos Alejandro'
 'üí≤Creditos Administracion']
