### CREACIÓN DE CLASE PARA LECTURA DE ARCHIVOS DE TEXTO EDITORIALES.
-----------------

Queremos crear una clase que permita abrir y realizar un estudio de las palabras de los textos que se encuentran dentro de ficheros de tipo .txt, ya que el cliente es una empresa editorial.

Esta clase debe cumplir una serie de requisitos:

- Debe abrir el fichero en python, como un único *string*. Este método tiene que ser capaz de abrir cualquier tipo de fichero y que este ubicado en cualquier ubicación de nuestros ordenadores. 

- Debe tener la opción de poder leer un número "X" de palabras del texto.

- Debe tener la opción de poder leer un número "X" de líneas del texto, en este caso mediante un *input* que le pregunte al usuario cuántas líneas quiere leer.

- Debe tener la opción de poder leer solo el contenido del libro, sin las páginas iniciales. Se le debe indicar cuales son las páginas del contenido del libro.

- Se debe poder extraer el número de veces que aparece determinada palabra en el libro, sin importar si están en minúscula o mayúscula.

In [1]:
import os

In [2]:
class Estudio_textos:

    def __init__(self, ruta, fichero):
        '''
        Define el método constructor.
        Parámetro: ruta del archivo, nombre del archivo.
        Return: No tiene return, pero los parámetros que crea serán utilizados en los métodos de la clase.
        '''
        self.ruta = ruta
        self.fichero = fichero


    def apertura_ficheros(self):
        '''
        Este método abre el archivo que se solicita, lee su contenido y lo devuelve en forma de lista, y transforma esta lista en un string.
        Parámetro: No recibe. Se usan los atributos de instancia.
        Return: devuelve el contenido del fichero en un único string.
        '''
        with open (f'{self.ruta}/{self.fichero}', mode = 'r', encoding = 'latin-1') as fichero_txt:
            lista_apertura = fichero_txt.readlines()
            string_apertura = ''.join(lista_apertura)
            return string_apertura
                

    def lectura_palabras(self, num_palabras_leer):
        '''Lee un número de palabras del texto, el que se le indique como argumento.
        Parámetro: número de palabras que se desean leer.
        Return: Esas palabras.
        '''
        if type(num_palabras_leer) is not int:
            print('Prueba otra vez, debes introducir un número que no tenga decimales')
        
        else:
            with open (f'{self.ruta}/{self.fichero}', mode = 'r', encoding = 'latin-1') as fichero_txt:
                lectura_fichero = fichero_txt.readlines() #devuelve una lista de strings con las líneas del texto
                string_lectura_fichero = ''.join(lectura_fichero)
                lista_palabras = string_lectura_fichero.split() #separa el string en palabras. Se hace esto porque se necesitan palabras y no líneas.
                return lista_palabras[0:num_palabras_leer]
        

    def lectura_lineas(self):
        '''Lee un número de líneas del texto, el que el usuario le indique dentro de un input.
        Parámetro: Este método no recibe parámetros, se consigue con un input.
        Return: Esas palabras.
        '''
        with open (f'{self.ruta}/{self.fichero}', mode = 'r', encoding = 'latin-1') as fichero_txt:
            lectura_lineas = fichero_txt.readlines() #devuelve una lista de strings con las líneas del texto. Como queremos trabajar con lineas, no se hace join.

        num_lineas_leer = input('¿Cuántas líneas quieres leer?')

        try:
            if num_lineas_leer == 'Todas' or num_lineas_leer == 'todas':
                lineas_leer_todo = lectura_lineas[0:-1]
                return ''.join(lineas_leer_todo) #Se realiza join para que devuelva un único string.

            if type(int(num_lineas_leer)) is int:
                lineas_leer = lectura_lineas[0:int(num_lineas_leer)]
                return ''.join(lineas_leer) #Se realiza join para que devuelva un único string.
                    
        except:
            print('Prueba otra vez, debes escribir un número sin decimales, o "Todas", si quieres leer todas las líneas')


    def contenido_libro(self, linea_inicio, linea_final):
        '''Devuelve el contenido del libro dentro del archivo, comprendido entre dos líneas.
        Parámetros: dos: la línea en la que debe empezar el contenido y la línea en la que debe acabar.
        Return: Contenido del libro.
        '''        
        with open (f'{self.ruta}/{self.fichero}', mode = 'r', encoding = 'latin-1') as fichero_txt:
            lectura_contenido = fichero_txt.readlines()

        try: # usamos try porque index puede devolver error y queremos evitarlo.
            texto_libro = lectura_contenido[linea_inicio:linea_final] #se buscan las líneas de la lista por medio de sus índices
            return texto_libro
        
        except:
            print('Prueba otra vez, revisa las líneas que quieres añadir')


    def extraccion_palabra(self, palabra):
        '''Busca cuántas veces aparece en el texto una palabra concreta.
        Parámetro: La palabra que debe buscar.
        Return: Las veces que sale esa palabra.
        '''
        with open (f'{self.ruta}/{self.fichero}', mode = 'r', encoding = 'latin-1') as fichero_txt:
            sacar_palabras = fichero_txt.readlines()
            string_sacar_palabras = ''.join(sacar_palabras)

        num_veces = string_sacar_palabras.count(palabra.lower())
        num_veces += string_sacar_palabras.count(palabra.title()) #se unifican las palabras que empiezan por mayus y minus
        return num_veces

In [3]:
quijote = Estudio_textos()
apertura_txt_result = quijote.apertura_ficheros("../data/", "quijote.txt")
apertura_txt_result[0:100]

'Project Gutenberg Etext of Don Quijote, by Cervantes, in Spanish\n\n#2 in our series by Cervantes\n\n\n\nW'

In [4]:
quijote = Estudio_textos("data/", "quijote.txt")
apertura_generica_result = quijote.apertura_ficheros()
apertura_generica_result[0:100]

'Project Gutenberg Etext of Don Quijote, by Cervantes, in Spanish\n\n#2 in our series by Cervantes\n\n\n\nW'

In [5]:
quijote = Estudio_textos("data/", "quijote.txt")
lectura_palabras_result = quijote.lectura_palabras(20)
lectura_palabras_result

['Project',
 'Gutenberg',
 'Etext',
 'of',
 'Don',
 'Quijote,',
 'by',
 'Cervantes,',
 'in',
 'Spanish',
 '#2',
 'in',
 'our',
 'series',
 'by',
 'Cervantes',
 'We',
 'will',
 'be',
 'presenting']

In [6]:
quijote = Estudio_textos("data/", "quijote.txt")
lectura_lineas_result = quijote.lectura_lineas()
lectura_lineas_result

'Project Gutenberg Etext of Don Quijote, by Cervantes, in Spanish\n\n#2 in our series by Cervantes\n'

In [7]:
quijote = Estudio_textos("data/", "quijote.txt")
lectura_contenido_result = quijote.contenido_libro(1780, 74276)
lectura_contenido_result[:10]

['En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho\n',
 '\n',
 'tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua,\n',
 '\n',
 'rocín flaco y galgo corredor. Una olla de algo más vaca que carnero,\n',
 '\n',
 'salpicón las más noches, duelos y quebrantos los sábados, lantejas los\n',
 '\n',
 'viernes, algún palomino de añadidura los domingos, consumían las tres\n',
 '\n']

In [8]:
quijote = Estudio_textos("data/", "quijote.txt")

num_veces_quijote = quijote.extraccion_palabra('quijote')
print(num_veces_quijote)
num_veces_alonso = quijote.extraccion_palabra('alonso')
print(num_veces_alonso)
num_veces_don_quijote = quijote.extraccion_palabra('don quijote')
print(num_veces_don_quijote)

print('--------')

num_veces_quijote_mayus = quijote.extraccion_palabra('Quijote')
print(num_veces_quijote_mayus)
num_veces_alonso_mayus = quijote.extraccion_palabra('Alonso')
print(num_veces_alonso_mayus)
num_veces_don_quijote_mayus = quijote.extraccion_palabra('Don Quijote')
print(num_veces_don_quijote_mayus)


2171
10
76
--------
2171
10
76
