In [1]:
import pandas as pd
import nltk
import os
import re
from nltk.probability import FreqDist
from nltk.corpus import stopwords

In [2]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\drago\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

<h3>Directorio de trabajo y manejo inicial de archivos</h3>

In [3]:
os.chdir('C:/Users/drago/Downloads/SS/proyecto/baseDatos')

In [4]:
files_csv = os.listdir()

<p>Unificación de archivos (concatenación)</p>

In [5]:
df = pd.DataFrame()
for i in files_csv:
    file = pd.read_csv(i)
    df = pd.concat([df, file])

<p>Copia del data frame original con su único campo</p>

In [6]:
df_text = df['texto']

In [7]:
df_text

0                                     Escuchar artículo
1     Las autoridades del estado de Colima informaro...
2                                              VER NOTA
3     Las fosas fueron descubiertas en un terreno ub...
4     Los hallazgos derivaron de trabajos de investi...
                            ...                        
17                                                    5
18     © Copyright, Grupo Multimedia Lauman, SAPI de CV
19                                                  NaN
20    Autoridades descubren 14 fosas clandestinas en...
21                                                 NONE
Name: texto, Length: 2417, dtype: object

<p>Conversión de cada uno de los elementos del data frame a string para poder aplicar la función lower case</p>

In [8]:
df_text = [str(x) for x in df_text]

In [9]:
df_text = [x.lower() for x in df_text]

In [10]:
df_text

['escuchar artículo',
 'las autoridades del estado de colima informaron este jueves 29 de diciembre del hallazgo de restos humanos, correspondientes a 22 cuerpos, que fueron localizados en veinte fosas clandestinas en el municipio de tecomán.',
 'ver nota',
 'las fosas fueron descubiertas en un terreno ubicado en la comunidad de madrid, aproximadamente a 23 kilómetros al norte de tecomán y a 31 kilómetros al sur de la capital colimense.',
 'los hallazgos derivaron de trabajos de investigación por parte de personal de la fiscalía general del estado, quienes realizaron las tareas de reconocimiento, busqúeda y posterior inspección del terreno en cuestión.',
 'la fiscalía especializada en desaparición de personas inició una carpeta de investigación por los hallazgos, y también solicitó una orden de cateo y de exhumación en el predio señalado, donde por un período de más tres semanas las autoridades realizaron trabajos para encontrar los restos humanos.',
 '“elementos de esta institución re

<h3>Tratamiento básico del texto (tokenización)</h3>

In [11]:
pattern = r'''(?x)                 # set flag to allow verbose regexps
              (?:[A-Z]\.)+         # abbreviations, e.g. U.S.A.
              | \w+(?:-\w+)*       # words with optional internal hyphens
              | \$?\d+(?:\.\d+)?%? # currency and percentages, e.g. $12.40, 82%
              | \.\.\.             # ellipsis
              | [][.,;"'?():-_`]   # these are separate tokens; includes ], [
'''

In [12]:
corpus = [nltk.regexp_tokenize(x, pattern) for x in df_text]

<p>Adelgazamiento de la lista</p>

In [13]:
corpus_flatten = [x for iten in corpus for x in iten]
corpus_flatten

['escuchar',
 'artículo',
 'las',
 'autoridades',
 'del',
 'estado',
 'de',
 'colima',
 'informaron',
 'este',
 'jueves',
 '29',
 'de',
 'diciembre',
 'del',
 'hallazgo',
 'de',
 'restos',
 'humanos',
 ',',
 'correspondientes',
 'a',
 '22',
 'cuerpos',
 ',',
 'que',
 'fueron',
 'localizados',
 'en',
 'veinte',
 'fosas',
 'clandestinas',
 'en',
 'el',
 'municipio',
 'de',
 'tecomán',
 '.',
 'ver',
 'nota',
 'las',
 'fosas',
 'fueron',
 'descubiertas',
 'en',
 'un',
 'terreno',
 'ubicado',
 'en',
 'la',
 'comunidad',
 'de',
 'madrid',
 ',',
 'aproximadamente',
 'a',
 '23',
 'kilómetros',
 'al',
 'norte',
 'de',
 'tecomán',
 'y',
 'a',
 '31',
 'kilómetros',
 'al',
 'sur',
 'de',
 'la',
 'capital',
 'colimense',
 '.',
 'los',
 'hallazgos',
 'derivaron',
 'de',
 'trabajos',
 'de',
 'investigación',
 'por',
 'parte',
 'de',
 'personal',
 'de',
 'la',
 'fiscalía',
 'general',
 'del',
 'estado',
 ',',
 'quienes',
 'realizaron',
 'las',
 'tareas',
 'de',
 'reconocimiento',
 ',',
 'busqúeda',
 '

<h3>Estadística básica de las palabras</h3>

<p>Frecuencia de las palabras</p>

In [14]:
fdist = FreqDist(corpus_flatten)
fdist

FreqDist({'de': 5107, ',': 4435, '.': 2715, 'la': 2506, 'en': 2198, 'el': 1719, 'y': 1576, 'que': 1354, 'a': 1104, 'los': 1028, ...})

<h3>Limpieza del texto</h3>

<p>Palabras basura</p>

In [15]:
stop_words = list(stopwords.words('spanish'))
stop_words

['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con',
 'no',
 'una',
 'su',
 'al',
 'lo',
 'como',
 'más',
 'pero',
 'sus',
 'le',
 'ya',
 'o',
 'este',
 'sí',
 'porque',
 'esta',
 'entre',
 'cuando',
 'muy',
 'sin',
 'sobre',
 'también',
 'me',
 'hasta',
 'hay',
 'donde',
 'quien',
 'desde',
 'todo',
 'nos',
 'durante',
 'todos',
 'uno',
 'les',
 'ni',
 'contra',
 'otros',
 'ese',
 'eso',
 'ante',
 'ellos',
 'e',
 'esto',
 'mí',
 'antes',
 'algunos',
 'qué',
 'unos',
 'yo',
 'otro',
 'otras',
 'otra',
 'él',
 'tanto',
 'esa',
 'estos',
 'mucho',
 'quienes',
 'nada',
 'muchos',
 'cual',
 'poco',
 'ella',
 'estar',
 'estas',
 'algunas',
 'algo',
 'nosotros',
 'mi',
 'mis',
 'tú',
 'te',
 'ti',
 'tu',
 'tus',
 'ellas',
 'nosotras',
 'vosotros',
 'vosotras',
 'os',
 'mío',
 'mía',
 'míos',
 'mías',
 'tuyo',
 'tuya',
 'tuyos',
 'tuyas',
 'suyo',
 'suya',
 'suyos',
 'suyas',
 'nuestro',
 'nuestra',
 'nuestros',
 'nuestras',
 'vuestro'

<p>Limpieza de signos de puntuación y otras palabras más</p>

In [16]:
new_stop_words = ['!', '()', '-', '[', ']', '{', '}', ';', ':', '"', '<>', '.', '/', '?', '@', '#', '$', '%', '^', '&', '*', '_', '~', ',', '¿', '¡', 'nan', '(', ')']
for i in new_stop_words:
    stop_words.append(i)

<p>Limpieza de las palabras basura</p>

In [17]:
clean_text = [x for x in corpus_flatten if x not in stop_words]

<p>Frecuencia de las palabras del texto limpio</p>

In [20]:
freq_new = FreqDist(clean_text)
freq_new.most_common(5)

[('fosas', 368),
 ('personas', 316),
 ('cuerpos', 273),
 ('clandestinas', 194),
 ('búsqueda', 168)]

In [19]:
len(corpus_flatten), len(clean_text)

(72512, 35066)