# Clase 4

### Python open()
La función `open()` de Python nos retorna los contenidos de archivos como objetos de Python. Sus parametros principales son:
- file_name: ruta completa del archivo que queremos leer
- mode: este parametro especifica en que modo sera leido el archivo
    - “r”: Solo lectura(read-only), este es el valor por defecto
    - “w”: Este se usa para escribir sobre el archivo o lo crea si el archivo no existe
    - “a”: Se utiliza para hacer "append" al archivo, si el archivo no existe crea uno nuevo
    - “x”: Se utiliza para crear archivos
    - “t”: This string is used to handle files in text mode. By default, the open() function uses the text mode.

#### Creamos un archivo 

In [None]:
nuevo_archivo = open("bioinformatica.txt", "x")

#### Leemos un archivo en modo escritura

In [None]:
archivo = open("bioinformatica.txt", "w")

## Utilizamos la funcion write para escribir
archivo.write("Bioinformatica USAC")
## Utilizamos la funcion close() para cerrar el archivos, 
## a partir de aca ya no se puede escribir en el archivo
archivo.close()

### Revisando el contenido de el archivo

In [None]:
archivo = open("bioinformatica.txt","r")
print(archivo.read())

### Ejercicio
leer el archivo `pubmed-33053381.txt` y extraer el abstract

##### Metodos de Strings
- split(): Divide una cadena de texto en una lista de subcadenas, utilizando un delimitador especificado. Por ejemplo, "Hola,mundo".split(",") devolverá ["Hola", "mundo"].
- strip(): Elimina los espacios en blanco al principio y al final de una cadena. Por ejemplo, " Hola, mundo ".strip() devolverá "Hola, mundo", eliminando los espacios adicionales.

In [None]:
"PMID- 33053381".split("-")

In [None]:
with open("pubmed-33053381.txt", 'r') as file:
    # Iterate through each line in the file
    for line in file:
        # Process each line as needed
        
        

## XML
Permite almacenar datos de forma compatible entre múltiples sistemas(bases de datos, aplicaciones)

- XML es extensible: se puede extender a muchas areas de interés, se pueden crear formatos XML para codificar datos bioinformáticos.
- XML provee documentación: debido a que esta estructurado, es facil validar esa estructura
- XML se puede leer por humanos y máquinas



In [None]:
from xml.dom.minidom import parse, parseString, Node

```
<?xml version="1.0" encoding="UTF-8"?>
<Sequence>
    <accession>NM-171533</accession>
    <organism>
        <name>Caenorhabditis elegans</name>
        <description> Is a free-living transparent nematode about 1 mm in length[7] 
        that lives in temperate soil environments.</description>
    </organism>
    <sequence-data>
    agcacatgacatgagcagtgccccaaatgatgactgtgagatcgacaaggg
    aacaccttctaccgcttcactttttacaacgctgatgctcagtcaaccatcttcttct
    acagctgttttacagtgtacatattgtggaagctcgtgcacatcttcccaattgca
    aacatgtttattctg
    </sequence-data>
</Sequence>
```

<img src="xml.png">

Documentacion oficial (https://docs.python.org/3/library/xml.dom.html#dom-element-objects)

In [None]:
document = parse("caenorhabditis_elegans.xml")

In [None]:
document

In [None]:
print(document.version)
print(document.encoding)
print(document.standalone)

### Raiz del documento
Utilizamos la propiedad `documentElement` para obtener la raiz de el documento

In [None]:
document.documentElement

In [None]:
document.documentElement.tagName

Para encontrar un elemento por el nombre del tag utilizamos la función `getelementById`

In [None]:
sequence = document.documentElement

In [None]:
for hijo in sequence.childNodes:
    print(hijo)

In [None]:
organism = sequence.getElementsByTagName("organism")

In [None]:
organism[0].childNodes

In [None]:
for hijo in organism[0].childNodes:
    print(hijo)

In [None]:
organism[0].attributes

In [None]:
for hijo in organism[0].childNodes:
    if hijo.nodeType == Node.ELEMENT_NODE:
        print(hijo.childNodes[0].nodeValue)

In [None]:
#Intalamos nuevas librerias solo correrlo 1 vez
!pip install xmltodict

In [None]:
import xmltodict

In [None]:
with open("caenorhabditis_elegans.xml", "rb") as file:
    Sequence=xmltodict.parse(file)

In [None]:
print(Sequence)

In [None]:
Sequence['Sequence']['organism']['name']

In [None]:
Sequence.items()

**Ejercicio**: Imprimir el nombre y la descripción utilizado el diccionario
Investigar la funcion items del diccionario(esto viene en el examen!!)

In [None]:
## Tu codigo aqui: 
for key, valor in Sequence["Sequence"].items():
    if type(valor) == dict:
        for k, v in valor.items():
            print(key+"-->"+k+"-->"+str(v))
    else:
        print(key+"-->"+str(valor))

In [None]:
type(Sequence)

## JSON 
- Es muy comprensible para el humano por su formato
- Es tan fácil de comprender que se describe solo debido a su formato
- Los archivos JSON tienen tipos de datos:
    - String
    - Number
    - Boolean
    - Null
    - Object
    - Array


In [None]:
import json

In [None]:
data = {
    "nombre": "bioinformatica",
    "hora_inicio": 7,
    "hora_fin": 10
}

In [None]:
with open("data_file.json", "w") as write_file:
    json.dump(data, write_file)

In [None]:
### Cargando un archivo
with open("caenorhabditis_elegans.json", "r") as read_file:
    data = json.load(read_file)
    
print(data)

## CSV (Comma-Separated Values)
Para los archivos CSV vamos a utilizar pandas ya que es la forma mas facil de manejar este tipo de datos.

Es importante leer la documentacion de pandas con respecto a esta función ya que tiene multiples parametros.
[pandas documentation](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

In [None]:
import pandas as pd

In [None]:
covid_vacunacion = pd.read_csv("country_vaccinations.csv")

In [None]:
covid_vacunacion.head(10)

In [None]:
covid_vacunacion.info()

In [None]:
covid_vacunacion.describe()

**Ejercicio** El archivo `diabetes2.csv` no tiene un header, se encuentra unicamente la data, hay que cargar el archivo y utilizar la lista `columnas`, ver en la documentacion, que parametros utilizar para cargar la data correctamente:

In [None]:
columnas = ["Pregnancies","Glucose","BloodPressure","SkinThickness",
            "Insulin","BMI","DiabetesPedigreeFunction","Age","Outcome"]

In [None]:
import pandas as pd

In [None]:
## Tu codigo aqui: 
data = pd.read_csv("diabetes2.csv", header=None, names=columnas)

In [None]:
data