En esta evaluación tendremos que crearnos una clase. Estamos trabajando para una editorial y tienen muchos ficheros de tipo .txt. Quieren hacer un estudio de palabras de los textos que tienen, para ello nos piden que nos creemos una clase que:

- Reciba dos parámetros en el método constructor: 

    - La ruta donde se encuentra el fichero
    - El nombre y la extensión del fichero que quieren abrir. 

- Tenga un método que nos abra el fichero en python, como un único *string*. Este método tiene que ser capaz de abrir cualquier tipo de fichero y que este ubicado en cualquier ubicación de nuestros ordenadores. 

- Tenga un método que lea un número "X" de palabras del texto. En este caso, el número de palabras que queremos leer debe ser un parámetro de este método. En este código deberemos incluir:
    - Que si nos pasan como valor de número de palabras un número que no sea *integer*, nos salga un mensaje por pantalla que nos avise que la operación no se pueden hacer ya que necesitamos que sea un número *integer*. 

- Similar que en el paso anterior, crea un método que nos permita leer "X" lineas del texto. En este caso, el número de lineas que quiere leer el usuario no debe ser un parámetro del método. Tendremos que:

    - Crear un *input* en el método que le pregunte al usuario cuántas líneas quiere leer

    - Que tenga un control de errores por si el valor que nos pasa el usuario no es correcto, como por ejemplo un valor decimal. 

    - Además tenemos que tener en cuenta en el código que puede que el usuario quiera leer todas las líneas del archivo. Incluye en el programa el código necesario para que si el usuario nos indica que quiere leer todas las líneas el programa lo pueda hacer.  

    **BONUS** En vez de devolver el resultado como una lista de *string* devuelvelo como un único *string*. 

- En este punto de la evaluación ya os habréis dado cuenta que en este fichero las primeras lineas no corresponden al quijote. Pero entonces... ¿en qué punto empieza el libro del quijote? En concreto, el libro está comprendido entre la lineas 1780 y 74276. Crea un método que solo nos devuelva el contenido del libro, sin la introducción inicial. 


-  Crea un último método en la clase que nos permita extraer las veces que aparece determinada palabra en el libro. Para eso este método deberá: 

    - Recibir la palabra o palabras que quiere buscar el usuario en el texto. 
    - Devolver el número de veces que aparece dicha palabra. 
    - Para confirmar que vuestro código, deberéis buscar las siguientes palabras como ejemplos de este método: 

        - Quijote, debemos tener en cuenta que aparezca en mayúscula o en minúscula, es decir, "Quijote" o "quijote"

        - Alonso,  debemos tener en cuenta que aparezca en mayúscula o en minúscula, es decir, "Quijote" o "quijote"

        - Don Quijote, debemos tener en cuenta que aparezca en mayúscula o en minúscula, es decir, "Quijote" o "quijote"
    
- **Nota**: Puede que tengáis algunos problemas para abrir el fichero, esto es por el `encoding` que tiene. Para solucionar este problema deberéis usar un encoding = "latin-1"

- **Nota**: El fichero de `quijote.txt` debe encontrarse en una carpeta llamada `data`, diferente de donde se encuentra este fichero jupyter con la resolución.

In [7]:
import os
import re
import xml.etree.ElementTree as ET #Necesitaríamos esta librería si quisiéramos trabajar con un archivo xml. En este caso no la necesitaremos.

In [8]:
class Estudio_textos:

    def __init__(self, ruta, fichero):
        '''
        Define el método constructor.
        Parámetro: ruta del archivo, nombre del archivo.
        Return: No tiene return, pero los parámetros que crea serán utilizados en los métodos de la clase.
        '''
        self.ruta = ruta
        self.fichero = fichero


    def apertura_txt(self):
        '''
        Define un método para los archivos txt, para posteriormente trabajar en el método apertura_ficheros que se solicita en la evaluacion.
        Este método abre el archivo que se solicita, lee su contenido y lo devuelve en forma de lista, y transforma esta lista en un string.
        Parámetro: No recibe. Se usan los atributos de instancia.
        Return: devuelve el contenido del fichero en un único string.
        '''
        with open (f'{self.ruta}/{self.fichero}', mode = 'r', encoding = 'latin-1') as fichero_txt:
            lista_apertura = fichero_txt.readlines()
            string_apertura = ''.join(lista_apertura)
            return string_apertura
    

    def apertura_xml(self):
        '''
        Define un método para los archivos xml.
        Este método abre el archivo que se solicita, y devuelve el elemento raíz del archivo. 
        Parámetro: No recibe. Se usan los atributos de instancia.
        Return: devuelve el elemento principal.
        '''
        tree = ET.parse(f'{self.ruta}/{self.fichero}') #Abriría el fichero xml
        root = tree.getroot() #Sacaría el elemento principal


    def apertura_ficheros(self):
        '''Con los dos métodos creados previamente, decide cuál es el fichero que se debe abrir.
        Para ello busca el formato de archivo mediante regex, y ejecuta el que coincida.
        Parámetro: No recibe. Se usan los atributos de instancia.
        Return: la apertura del archivo correspondiente.
         '''
        if ''.join(re.findall('\.txt$', self.fichero)) == '.txt':
            return self.apertura_txt()

        if ''.join(re.findall('\.xml$', self.fichero)) == '.xml':
            return self.apertura_xml()
                

# A partir de este momento, se planteará la clase para archivos txt ya que es el tipo de archivo con el que se debe trabajar en este caso.

    def lectura_palabras(self, num_palabras_leer):
        '''Lee un número de palabras del texto, el que se le indique como argumento.
        Parámetro: número de palabras que se desean leer.
        Return: Esas palabras.
         '''
        if type(num_palabras_leer) is not int:
            print('Prueba otra vez, debes introducir un número que no tenga decimales')
        
        else:
            with open (f'{self.ruta}/{self.fichero}', mode = 'r', encoding = 'latin-1') as fichero_txt:
                lectura_fichero = fichero_txt.readlines() #devuelve una lista de strings con las líneas del texto
                string_lectura_fichero = ''.join(lectura_fichero)
                lista_palabras = string_lectura_fichero.split() #separa el string en palabras. Se hace esto porque se necesitan palabras y no líneas.
                return lista_palabras[0:num_palabras_leer]
        
  
    def lectura_lineas(self):
        '''Lee un número de líneas del texto, el que el usuario le indique dentro de un input.
        Parámetro: Este método no recibe parámetros, se consigue con un input.
        Return: Esas palabras.
         '''
        with open (f'{self.ruta}/{self.fichero}', mode = 'r', encoding = 'latin-1') as fichero_txt:
            lectura_lineas = fichero_txt.readlines() #devuelve una lista de strings con las líneas del texto. Como queremos trabajar con lineas, no se hace join.

        num_lineas_leer = input('¿Cuántas líneas quieres leer?')

        try:
            if num_lineas_leer == 'Todas' or num_lineas_leer == 'todas':
                lineas_leer_todo = lectura_lineas[0:-1]
                return ''.join(lineas_leer_todo) #Se realiza join para que devuelva un único string como indica el ejercicio bonus.

            if type(int(num_lineas_leer)) is int:
                lineas_leer = lectura_lineas[0:int(num_lineas_leer)]
                return ''.join(lineas_leer) #Se realiza join para que devuelva un único string como indica el ejercicio bonus.
                    
        except:
            print('Prueba otra vez, debes escribir un número sin decimales, o "Todas", si quieres leer todas las líneas')


    def contenido_libro(self, linea_inicio, linea_final):
        '''Devuelve el contenido del libro dentro del archivo, comprendido entre dos líneas.
        Parámetros: dos: la línea en la que debe empezar el contenido y la línea en la que debe acabar.
        Return: Contenido del libro.
         '''        
        with open (f'{self.ruta}/{self.fichero}', mode = 'r', encoding = 'latin-1') as fichero_txt:
            lectura_contenido = fichero_txt.readlines()

        try: # usamos try porque index puede devolver error y queremos evitarlo.
            texto_libro = lectura_contenido[linea_inicio:linea_final] #se buscan las líneas de la lista por medio de sus índices
            return texto_libro
        except:
             print('Prueba otra vez, revisa las líneas que quieres añadir')


    def extraccion_palabra(self, palabra):
        '''Busca cuántas veces aparece en el texto una palabra concreta.
        Parámetro: La palabra que debe buscar.
        Return: Las veces que sale esa palabra.
         '''
        with open (f'{self.ruta}/{self.fichero}', mode = 'r', encoding = 'latin-1') as fichero_txt:
            sacar_palabras = fichero_txt.readlines()
            string_sacar_palabras = ''.join(sacar_palabras)

        num_veces = string_sacar_palabras.count(palabra.lower())
        num_veces += string_sacar_palabras.count(palabra.title()) #se unifican las palabras que empiezan por mayus y minus
        return num_veces

In [9]:
quijote = Estudio_textos("data/", "quijote.txt")
apertura_txt_result = quijote.apertura_txt()
apertura_txt_result[0:100]

'Project Gutenberg Etext of Don Quijote, by Cervantes, in Spanish\n\n#2 in our series by Cervantes\n\n\n\nW'

In [10]:
quijote = Estudio_textos("data/", "quijote.txt")
apertura_generica_result = quijote.apertura_ficheros()
apertura_generica_result[0:100]

'Project Gutenberg Etext of Don Quijote, by Cervantes, in Spanish\n\n#2 in our series by Cervantes\n\n\n\nW'

In [11]:
quijote = Estudio_textos("data/", "quijote.txt")
lectura_palabras_result = quijote.lectura_palabras(20)
lectura_palabras_result

['Project',
 'Gutenberg',
 'Etext',
 'of',
 'Don',
 'Quijote,',
 'by',
 'Cervantes,',
 'in',
 'Spanish',
 '#2',
 'in',
 'our',
 'series',
 'by',
 'Cervantes',
 'We',
 'will',
 'be',
 'presenting']

In [12]:
quijote = Estudio_textos("data/", "quijote.txt")
lectura_lineas_result = quijote.lectura_lineas()
lectura_lineas_result

'Project Gutenberg Etext of Don Quijote, by Cervantes, in Spanish\n\n#2 in our series by Cervantes\n\n\n\nWe will be presenting two versions of this, one in HTML and one\n\nin "Plain Upper ASCII Spanish."\n\n'

In [13]:
quijote = Estudio_textos("data/", "quijote.txt")
lectura_contenido_result = quijote.contenido_libro(1780, 74276)
lectura_contenido_result

['En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho\n',
 '\n',
 'tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua,\n',
 '\n',
 'rocín flaco y galgo corredor. Una olla de algo más vaca que carnero,\n',
 '\n',
 'salpicón las más noches, duelos y quebrantos los sábados, lantejas los\n',
 '\n',
 'viernes, algún palomino de añadidura los domingos, consumían las tres\n',
 '\n',
 'partes de su hacienda. El resto della concluían sayo de velarte, calzas de\n',
 '\n',
 'velludo para las fiestas, con sus pantuflos de lo mesmo, y los días de\n',
 '\n',
 'entresemana se honraba con su vellorí de lo más fino. Tenía en su casa una\n',
 '\n',
 'ama que pasaba de los cuarenta, y una sobrina que no llegaba a los veinte,\n',
 '\n',
 'y un mozo de campo y plaza, que así ensillaba el rocín como tomaba la\n',
 '\n',
 'podadera. Frisaba la edad de nuestro hidalgo con los cincuenta años; era de\n',
 '\n',
 'complexión recia, seco de carnes, enjuto de rostro, gra

In [14]:
quijote = Estudio_textos("data/", "quijote.txt")

num_veces_quijote = quijote.extraccion_palabra('quijote')
print(num_veces_quijote)
num_veces_alonso = quijote.extraccion_palabra('alonso')
print(num_veces_alonso)
num_veces_don_quijote = quijote.extraccion_palabra('don quijote')
print(num_veces_don_quijote)

print('--------')

num_veces_quijote_mayus = quijote.extraccion_palabra('Quijote')
print(num_veces_quijote_mayus)
num_veces_alonso_mayus = quijote.extraccion_palabra('Alonso')
print(num_veces_alonso_mayus)
num_veces_don_quijote_mayus = quijote.extraccion_palabra('Don Quijote')
print(num_veces_don_quijote_mayus)


2171
10
76
--------
2171
10
76
