In [1]:
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.model_selection import train_test_split
from sklearn.metrics import silhouette_score, davies_bouldin_score
import matplotlib.pyplot as plt
import unidecode

In [3]:
data = pd.read_csv("../data/clean_data.csv", index_col=0)

In [4]:

# Descargar recursos necesarios para NLTK
nltk.download('stopwords')
nltk.download('punkt')

# Función para preprocesar y limpiar el texto
def preprocess_text(text):
    # Eliminar caracteres especiales y puntuaciones
    text = re.sub(r'[^\w\s]', '', text)
    
    # Convertir el texto a minúsculas
    text = unidecode.unidecode(text.lower())
    
    # Tokenizar el texto (dividir en palabras)
    words = nltk.word_tokenize(text)
    
    # Eliminar palabras irrelevantes (stopwords)
    stop_words = set(stopwords.words('spanish'))
    words = [word for word in words if word not in stop_words]
    
    return ' '.join(words)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\dhumb\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\dhumb\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [5]:
data["descripcion_limpia"] = data["descripcion_solicitud"].apply(preprocess_text)

In [6]:
data.to_csv("../data/clean_data_py.csv", index=False)

In [7]:
data

Unnamed: 0_level_0,fecha_de_ingreso,dependencia,organo_de_gobierno,descripcion_solicitud,estatus,medio_entrada,otros_datos,fecha_limite_de_respuesta,respuesta,texto_de_la_respuesta,pais,estado,fecha_respuesta,descripcion_limpia
folio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
'100000000106,2006-10-31 10:46:03,Jefatura de Gobierno,Administración Pública Central,En la administraciòn 20002006 del Gobierno del...,Terminada,Electrónica,,2006-11-15,Notificación de no competencia,,Mexico,Distrito Federal,,administracion 20002006 gobierno distrito fede...
'100000000107,2007-01-09 00:00:00,Jefatura de Gobierno,Administración Pública Central,Indiqueme cuantas veces se sometió a la mesa d...,Terminada,Electrónica,,2007-01-22,Notificación de no competencia,,,,2007-01-04 19:24:00,indiqueme cuantas veces sometio mesa asuntos l...
'100000000108,2008-01-02 15:19:33,Jefatura de Gobierno,Administración Pública Central,disculpen soloquisiera saber como va el proces...,Terminada,Electrónica,,2008-01-21,Notificación de no competencia,,,,2008-01-18 19:51:31,disculpen soloquisiera saber va proceso introd...
'100000000109,2009-01-03 01:33:06,Jefatura de Gobierno,Administración Pública Central,1. Se solicita copia simple de todas las pauta...,Terminada,Electrónica,,2009-02-24,Prepare y entregue información con pago.,La información se encuentra a su disposición e...,Mexico,Distrito Federal,2009-02-18 19:43:16,1 solicita copia simple todas pautas publicita...
'100000000110,2010-01-02 20:18:26,Jefatura de Gobierno,Administración Pública Central,Requiero1. Cuántos regalos llegaron a la Ofici...,Terminada,Electrónica,,2010-02-22,Recibe la notificación de entrega,Hacemos de su conocimiento que su solicitud de...,Mexico,Distrito Federal,2010-02-22 17:17:08,requiero1 cuantos regalos llegaron oficina jef...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
'92880522000043,2022-12-14 13:44:06,Servicio de Medios Públicos,"Organismos desconcentrados, descentralizados, ...",SOLICITUD DE INFORMACIÓNFavor de proporcionar ...,En proceso con prórroga,Electrónica,,2023-01-19,Ampliación de plazo,AMPLIACIÓN DE PLAZO: Se anexa oficio SMPCDMX/D...,,,,solicitud informacionfavor proporcionar medio ...
'92880522000044,2022-12-14 17:49:55,Servicio de Medios Públicos,"Organismos desconcentrados, descentralizados, ...",Solicito conocer cuál fue el costo de grabació...,Terminada,Electrónica,https://twitter.com/Claudiashein/status/160287...,2022-12-28,Notoria incompetencia por la totalidad de la i...,Por este medio se da respuesta de la solicitud...,,,,solicito conocer costo grabacion produccion ed...
'92880522000045,2022-12-15 14:05:19,Servicio de Medios Públicos,"Organismos desconcentrados, descentralizados, ...",El motivo del siguiente correo electrónico bus...,Terminada,Manual,,2022-12-28,Entrega de información vía plataforma nacional...,Por este medio se envía respuesta de Folio 092...,,,,motivo siguiente correo electronico busca escl...
'92880522000046,2022-12-21 16:36:11,Servicio de Medios Públicos,"Organismos desconcentrados, descentralizados, ...","Solicito Organigrama del 2020, 2021 y 2022, as...",En proceso,Electrónica,,2023-01-18,Registro de la solicitud,,,,,solicito organigrama 2020 2021 2022 asi curric...
