In [1]:
import os
import re

Ejemplo de uso: Estamos trabajando para una editorial y tienen muchos ficheros de tipo .txt

Creamos una clase que:

- Recibe dos parámetros en el método constructor: 1. La ruta donde se encuentra el fichero, 2. El nombre y la extensión del fichero que quieren abrir. 

- Tiene un método que nos abre el fichero en python, y obtiene un único *string* con el contenido del archivo. Debemos proporcionarle la ruta en la que está situado el archivo para que podamos abrirlo independientemente de dónde esté situado.

- Tiene un método que nos abre el fichero en python, y obtiene un único *string* con un número de palabras determinado del contenido del archivo. Debemos proporcionarle el número de palabras como parámetro. Si pasamos el número como tipo distinto a *integer*, nos saldrá un mensaje de error

- Tiene un método que nos abre el fichero en python, y obtiene un único *string* con todas o bien con un número determinado de LÍNEAS del contenido del archivo. El número de líneas se nos pide como *input*. Si pasamos el número como tipo distinto a *integer*, nos saldrá un mensaje de error. El método nos devuelve el texto como un único *string*.

- Tiene un método específico que obtiene un *string* con el contenido principal del archivo, sin la introducción inicial ni el epílogo. Debemos proporcionar de qué línea a qué linea se encuentra el texto principal (el texto principal en el archivo *quijote.txt* está a partir de la línea 1780 y hasta la 74276)

- Tiene un método que nos permite extraer cuántas veces aparece un determinado *string* en el contenido del archivo. El *string* se nos pide como *input* y el método nos devuelve el número de coincidencias. No distingue entre mayúsculas y minúsculas

In [24]:

class Libro:
    """
    Representa un archivo.
    Attributes:
    ruta (str): Ruta
    encod (str): Encoding
    """ 
    
    def __init__(self, ruta, encod): 
        """
        Inicializa en objeto de tipo Archivo
        Args:
        ruta (str): Ruta del archivo en nuestro ordenador
        encod (str): Encoding necesario para que el archivo reconozca los caracteres especiales
        """
             
        self.ruta = ruta
        self.encod = encod
        
        
        
    def openfile(self):
        """
        Nos permite abrir un archivo y obetener su contenido
        Args:
        
        Returns: 
        texto_completo (str): Un string con el contenido del archivo
        """
              
        with open (self.ruta, encoding = self.encod) as f:
            texto_completo = f.read()            
            
        return texto_completo
           
        
        
    def getwords(self, palabras):
        self.palabras = palabras
        """
        Nos permite abrir un archivo y obtener un número específico de palabras
        Args:
        num_words(int): número de palabras
        Returns: 
        texto_seleccion (str): Un string con el número de palabras especificado
        """
        
        try:            
            texto_completo = self.openfile()
            lista_limpia = re.sub('\n', ' ', texto_completo)
            lista_dividida = re.split(' +', lista_limpia)
            lista_seleccion = lista_dividida[:self.palabras]
            texto_seleccion = ' '.join(lista_seleccion)            
            return texto_seleccion
                           
        except TypeError:
            print('Debes introducir un número entero')
        
            
                    
    def getlines(self): 
        """
        Nos permite abrir un archivo y obtener todas o un número específico de líneas
        Args:
        
        Returns: 
        texto_seleccion (str): Un string con el número de líneas especificado
        """ 
        texto_completo = self.openfile()        
        
        choice = int(input("""Elige una opcion:
                           1. Leer el libro entero
                           2. Leer un numero de lineas"""))
        if choice == 1:            
            return texto_completo                      
                       
        elif choice == 2:
            try:            
                lineas = int(input('¿Cuantas lineas quieres leer?'))                
                lista_dividida = re.split('\n', texto_completo)
                lista_seleccion = lista_dividida[:lineas]
                texto_seleccion = '\n'.join(lista_seleccion)
                return texto_seleccion                                    
            except ValueError:
                        print('Introduce un numero entero')
                        self.getlines()
        else:
            self.getlines()
            
              
            
    def dropintro(self, linea_ini, linea_fin):
        self.linea_ini = linea_ini
        self.linea_fin = linea_fin
        """
        Nos permite abrir un archivo y obtener desde un numero específico de líneas hasta otro
        Args:
        linea_ini(int): numero de linea donde se inicia el texto principañ
        linea_fin(int): numero de linea donde finaliza el texto principal
        Returns: 
        texto_seleccion (str): Un string con el número de líneas especificado
        """ 
        texto_completo = self.openfile()
        lista_dividida = re.split('\n', texto_completo)
        lista_seleccion = lista_dividida[self.linea_ini:self.linea_fin+1]
        texto_seleccion = '\n'.join(lista_seleccion)
        return texto_seleccion
            
            
            
    def searchwords(self):
        """
        Nos permite saber cuantas veces se repite una frase o una palabra en el contenido de un archivo sin distinguir mayusculas o minusculas
        Args:
         
        Returns: 
        recuento (int): numero de coincidencias
        """ 
        texto_completo = self.openfile().lower()
              
        palabra = input('¿Que palabra quieres buscar?')
        busqueda = re.findall(palabra.lower(), texto_completo)
        recuento = len(busqueda)
        
        return recuento         
                         
        

In [25]:
encoding_archivo = 'latin-1'
ruta_archivo = 'data/quijote.txt'

libro1 = Libro(ruta_archivo, encoding_archivo)

In [None]:
lectura1 = libro1.openfile()
print(lectura1)

In [None]:
lectura2 = libro1.getwords(80)
print(lectura2)

In [None]:
lectura3 = libro1.getlines()
print(lectura3)

In [None]:
lectura4 = libro1.dropintro(1780, 74277)
print(lectura4)

In [None]:
recuento1 = libro1.searchwords()
recuento1