# Manejo de archivos de texto

Ya en la clase 4 vimos cómo manejar archivos csv mediante la biblioteca Pandas y vimos que también existen métodos para abrir otros tipos de archivos muy utilizados como JSON y Excel, pero también existen formas nativas de Python de manejar archivos de forma manual en caso de que se requiera leer un tipo de archivo particular.

## Funciones de lectura y escritura de archivos

El método [`open`](https://docs.python.org/3/library/functions.html#open) sirve para abrir o crear un archivo, nos devuelve un identificador de archivo al que podemos aplicarle operaciones como leer o escribir una línea.

```Python
<identificador de archivo> = open(<ruta al archivo>, mode=<modo>)
```
El `mode` puede alguno de los siguientes tipos (por default va a ser `r`):

|`mode`| Descripción|
|---|---|
| `r` | Abrir para lectura |
| `w` | Abrir para escritura (Si el archivo ya existe, se borrarán los contenidos) |
| `x` | Abrir para escritura (Si el archivo ya existe dará error) |
| `a` | Abrir para escritura (Si el archivo ya existe el contenido nuevo irá al final del archivo) |
| `+` | Abrir para escritura y lectura |
| `b` | Modo binario |
| `t` | Modo texto (default) |

Una vez que ya hayamos terminado de trabajar con nuestro archivo siempre es importante cerrarlo de forma explícita ya que existen casos en los que el archivo pueda corromperse si no se hace esto, sobretodo si trabajamos en un notebook.
Para esto, utilizamos la función `close` del identificador.

```Python
<identificador de archivo>.close()
```

Alternativamente, también podemos utilizar la instrucción `with` que nos creará un bloque donde podemos trabajar con el archivo y este se cerrará de forma automática al finalizar:
```Python
with open(<ruta al archivo>, mode=<modo>) as <identificador de archivo>:
  ...instrucciones...


```
Si leemos un archivo en modo lectura no podemos escribir en el, y viceversa.

## Ejemplo de manejo de un archivo
Imagine que queremos contar todas las veces que aparece una palabra en un archivo de texto.


In [None]:
palabra_a_buscar = "d’artagnan"
cantidad = 0
archivo_mosqueteros = open("materiales/three_musketeers.txt", mode='r')
for linea in archivo_mosqueteros:
    palabras = linea.lower().strip().split()
    for palabra in palabras:
        if palabra == palabra_a_buscar:
            cantidad += 1
archivo_mosqueteros.close()
print(cantidad)

In [None]:
palabra_a_buscar = "d’artagnan"
cantidad = 0
with open("materiales/three_musketeers.txt", mode='r') as archivo_mosqueteros:
    for linea in archivo_mosqueteros:
        palabras = linea.lower().strip().split()
        for palabra in palabras:
            if palabra == palabra_a_buscar:
                cantidad += 1

print(cantidad)

# with open("materiales/three_musketeers.txt", mode='r') as archivo_mosqueteros:
#     lectura = archivo_mosqueteros.read(1)
#     print(lectura)
#     lectura = archivo_mosqueteros.read(2)
#     print(lectura)
#     lectura = archivo_mosqueteros.read(3)
#     print(lectura)

# with open("materiales/three_musketeers.txt", mode='r') as archivo_mosqueteros:
#     lineas = archivo_mosqueteros.readlines()
#     for linea in lineas:
#         print(linea[0])




Ahora imagine que queremos crear un diccionario que contenga todas las palabras que aparecen en el texto y cuántas veces aparecen:

In [None]:
diccionario_ejemplo = {"llave1": 5}

cantidad = diccionario_ejemplo.get("llave2", 0)
print(cantidad)
diccionario_ejemplo["llave2"] = cantidad + 1

print(diccionario_ejemplo["llave2"])

# diccionario_ejemplo.get("llave10", 0)

In [None]:
conteo_palabras = dict()

with open("materiales/three_musketeers.txt", mode='r') as archivo_mosqueteros:
    for linea in archivo_mosqueteros:
        palabras = linea.lower().strip().split()
        for palabra in palabras:
            cantidad = conteo_palabras.get(palabra, 0)
            conteo_palabras[palabra] = cantidad + 1

conteo_palabras = dict(sorted(conteo_palabras.items(), key=lambda x:x[1], reverse=True))
print(conteo_palabras)

Si quisiéramos escribir este diccionario a un archivo podríamos hacer lo siguiente:

In [None]:
# with open("materiales/conteo.txt", 'w') as archivo_conteo:
#     for palabra in conteo_palabras:
#         archivo_conteo.write(f"{palabra}: {conteo_palabras[palabra]}\n")   # \n significa "Agregue un enter"

In [None]:
with open("conteo.csv", 'w') as archivo_conteo:
    archivo_conteo.write("Palabra,Cantidad\n")
    for palabra in conteo_palabras:
        archivo_conteo.write(f"{palabra},{conteo_palabras[palabra]}\n")

Cabe mencionar que en la vida real si quisieramos hacer análisis de texto la mejor solución sería utilizar una biblioteca como [NLTK](https://www.nltk.org/).

# Programación Orientada a Objetos

La programación orientada a objetos es un paradigma de programación que se centra en la idea de objetos que representan tanto datos como comportamientos (que el objeto puede hacer o se le puede hacer al objeto).

Por ejemplo, si deseamos modelar un perro tenemos:

- Atributos
  - El nombre
  - El color
  - Edad
  - La persona encargada
- Comportamientos
  - Ladrar
  - Pasear
  - Comer
  - Cumplir Años
  - Alguien lo puede adoptar

A este modelo le llamamos "Clase" y diferentes instancias de la Clase les llamamos "Objetos" o "Instancias" de la clase.

En Python esto se haría de la siguiente forma:

In [None]:
class Perro:
    def __init__(self, mi_nombre, mi_color, mi_edad, mi_encargado): # Son dos guiones bajos _ _ init _ _
        self.nombre = mi_nombre
        self.color = mi_color
        self.edad = mi_edad
        self.encargado = mi_encargado

    def ladrar(self):
        print("Guau guau")

    def pasear(self):
        print("pat pat pat")

    def comer(self):
        print("monch monch monch")

    def cumplir_años(self):
        self.edad = self.edad + 1

    def adoptar(self, nuevo_encargado):
        self.encargado = nuevo_encargado

    def presentarse(self):
        print(f"Hola soy {self.nombre}, soy de color {self.color}, tengo {self.edad} años y estoy a cargo de: {self.encargado}")

Aquí vemos algunos detalles:

- Para denotar a la clase utilizamos la palabra clave `class` seguido del nombre de la clase. (En Python es convención utilizar nombres en mayúscula para nombrar las clases).
- Todas las funciones definidas dentro de la clase reciben un argumento llamado `self`, este argumento representa a una instancia de la clase en particular.
- Tenemos una función `__init__` (dos guiones bajos de ambos lados), esta función lo que hace es definir e inicializar los atributos del objeto.
- Si queremos utilizar o asignar nuevos valores a los atributos de la clase debemos de utilizar el `self`.

Para definir instancias de la clase hacemos lo siguiente:

In [None]:
perro1 = Perro("Clifford", "Rojo", 7, "Emily")
perro2 = Perro("Pongo", "Blanco con Negro", 10, "Roger")

perro1.presentarse()
perro1.ladrar()

perro2.presentarse()
perro2.pasear()

perro2.adoptar("Anita")
perro2.presentarse()

perro1.cumplir_años()
perro1.presentarse()


Note que en estos casos no tuvimos que pasar de forma explícita el argumento `self`. La forma en que estamos llamando a los métodos de cada instancia:

```
<instancia>.<método>()
```
Hace que de forma implícita se pase el la instancia como el `self` en cada función.

## Ejemplo con archivos FASTA

En bioinformática y en bioquímica el formato [FASTA](https://en.wikipedia.org/wiki/FASTA_format) se utiliza para representar secuencias de nucleótidos o aminoácidos, donde estos se representan con una letra.
Cada secuencia empieza con el símbolo `>`, luego el nombre y la descripción y en la siguiente línea sigue la secuencia:
```
>100d_A mol:na length:10  DNA/RNA (5'-R(*CP*)-D(*CP*GP*GP*CP*GP*CP*CP*GP*)-R(*G)-3')
CCGGCGCCGG
```
El archivo `pdb_seqres.txt` tomado del [Protein Data Bank](https://www.rcsb.org) contiene en la descripción el nombre de la secuencia, el tipo de secuencia (N/A o Proteína), la longitud de la cadena y una representación del ADN/ARN.

Cree una clase que guarde el nombre, el tipo, la representación y la secuencia.
Adicionalmente tiene que tener métodos que reconstruya la entrada en formato FASTA, la longitud y cuántos nucleótidos o aminoácidos de cierto tipo hay.

El paquete [`biopython`](https://biopython.org/) ya tiene formas de leer este tipo de archivos.
