## Importar datos a Python

Ahora que sabemos cómo trabajar con datos, es hora de aprender a importar datos de fuentes y archivos externos a Python.

## Objetivos de aprendizaje
 - Importar archivos txt
 - Importar archivos csv
 - Importar archivos mat
 - Crear solicitudes de API.

## Importar archivos `txt`

Ocurre más a menudo de lo que deseamos, pero de vez en cuando todavía tenemos que lidiar con archivos `.txt`, por lo que necesitamos saber cómo importarlos. Podemos hacer esto con la ayuda de la función `open()`.  Es importante especificar en qué modo quieres abrir el archivo. Hay muchas opciones diferentes, pero todas son bastante intuitivas:

- `w`: Escribe el archivo
- `a`: Anexa el archivo
- `r`: Lee el archivo

Utilizala ayuda de la función `open()` incorporada. Las opciones de modo son:

- `r`: Abre el archivo en modo de solo lectura. Comienza a leer desde el principio del archivo y es el modo predeterminado para la función open().
- `rb`: Abre el archivo como de solo lectura en formato binario y comienza a leer desde el principio del archivo. Si bien el formato binario se puede usar para diferentes propósitos, generalmente se usa cuando se trata de cosas como imágenes, videos, etc.
- `r+`: Abre un archivo para lectura y escritura, colocando el puntero al principio del archivo.
- `w`: se abre en modo de solo escritura. El puntero se coloca al principio del archivo y esto sobrescribirá cualquier archivo existente con el mismo nombre. Crea un nuevo archivo si no existe uno con el mismo nombre.
- `wb`: Abre un archivo de solo escritura en modo binario.
- `w+`: Abre un archivo para escritura y lectura.
- `wb+`: Abre un archivo para escribir y leer en modo binario.
- `a`: Abre un archivo para agregarle nueva información. El puntero se coloca al final del archivo. Se crea un nuevo archivo si no existe uno con el mismo nombre.
- `ab`: Abre un archivo para agregarlo en modo binario.
- `a+`: Abre un archivo para agregar y leer.
- `ab+`: Abre un archivo para agregarlo y leerlo en modo binario.

### Escribir un archivo `txt`

In [1]:
my_string = "Hello, Python!"

with open("new_file.txt", mode="w") as file:
    file.write(my_string)

- Usamos el comando `with` aquí para evitar la conexión abierta al archivo. Trata de verlo como si fuera una declaración `while`: "mientras abrimos el archivo y guardamos el objeto de E/S resultante en el archivo de variables, estamos escribiendo el archivo. Cuando finaliza `file.write()`, cerramos la conexión con el expediente".

- Ten en cuenta que si el archivo con ese nombre no existe, Python lo creará. Si el archivo ya existe, Python sobrescribirá los datos existentes en el archivo con los nuevos datos. Si no desea borrar los datos, sino agregar nuevas líneas al archivo, debe usar el modo agregar.

### Agregar inofrmación al archivo `txt`

In [2]:
my_string = " How are you doing today, Python?"

with open("new_file.txt", mode="a") as file:
    file.write(my_string)

Para agregar texto al archivo, usamos el modo de agregar `(mode='a')`. En este caso, Python agregará una nueva cadena al final del archivo. Lo único que ha cambiado aquí es el modo, seguimos usando el método `.write()`.

### Lectura de archivos `txt`

In [3]:
#Metodo #1
with open("new_file.txt", mode="r") as file:
    output = file.read()

print(output)

Hello, Python! How are you doing today, Python?


In [14]:
my_string =  "This is line one,"  + "\nandthis is line two" 
with open("new_file2.txt", mode="a") as file:
    file.write(my_string)


In [15]:

with open("new_file2.txt", mode="r") as file:
    output = file.readlines()

print(output)

['This is line one,\n', 'andthis is line two']


####  Ejercicio #1

- Escribe la cadena en un archivo `txt`
- Agregue el archivo para agregar otra cadena. ¡Nota! Si usa el método `"w"` en lugar de `"a"`, la nueva cadena sobrescribirá los datos existentes en el archivo.  
- Leer en el archivo (debe especificar el método apropiado)

    ~~~python
    neuro = "Neuroscience (or neurobiology) is the scientific study \
    of the nervous system."

    # write the file
    with open('neuroscience.txt', mode=___) as file:
        file.write(neuro)

    neuro_cont = " It is a multidisciplinary science that combines \
    physiology, anatomy, molecular biology, developmental biology, \
    cytology, computer science and mathematical modeling to \
    understand the fundamental and emergent properties of neurons \
    and neural circuits."

    # add new string to the file (append mode)
    with open('neuroscience.txt', mode=___) as file:
        file.write(neuro_cont)

    # read the file and save the output
    with ___('___', mode=___) as ___:
        imported = ___.read()

    print(imported)
    ~~~


#### Ejercicio 2.
Guarda guardar una lista, no una cadena. Esto se vuelve un poco complicado. Queremos guardar un archivo txt con cada valor de la lista en la nueva línea. Esto puede ser posible escribiendo cada valor por separado en un bucle `for` y agregando una cadena `"\n" ` a cada valor, que es responsable de crear una nueva línea en el archivo.


<center><img src="./imagenes/ejemploTXT.png" width="200px"/></center>



Sin embargo, ahora, si volvemos a leer el archivo en Python usando el método read(), guardará el resultado como una cadena, que se verá así:

Podemos usar el método `.readlines()` que devolverá la lista con las cadenas de cada línea de archivo. El único problema es que todos los valores tienen el signo de nueva línea "\n" al final (['malignant\n', 'malignant\n', 'benign\n', 'malignant\n', 'malignant\n', 'benigno\n', 'benigno\n', 'benigno\n']). ¿Puedes arreglarlo?

~~~python
outcomes =  ['malignant', 'malignant', 'benign', 'malignant',
             'malignant', 'benign', 'benign', 'benign']

#Guarda el string a un archivo de texto
with open('outcome.txt', mode='w') as file:
    for val in outcomes:       # write each value from the list at a new line
        file.write(val + "\n") # adding "\n" creates a new line in a file

# importa el archivo a un string
___ ___('___', mode=___) as ___:
    outcomes_str = ___.___()

# importar el archivo a una lista
with open('outcome.txt', mode='r') as file:
    outcomes_list = file.readlines()

print("Imported string:")
print(outcomes_str)

print("Imported list:")
print(outcomes_list)

# clean the values in a list
outcomes_list = list(___) 
print("\nFixed list:")
print(outcomes_list)
~~~

## Importar archivos `csv`

- Un archivo de valores separados por comas (CSV) es un archivo de texto delimitado que usa una coma para separar los valores. 
- Cada línea del archivo es un registro de datos. Cada registro consta de uno o más campos, separados por comas. 

- El uso de la coma como separador de campo es el origen del nombre de este formato de archivo. Un archivo CSV generalmente almacena datos tabulares (números y texto) en texto sin formato, en cuyo caso cada línea tendrá la misma cantidad de campos.

**Fuente:** [Wikipedia](https://en.wikipedia.org/wiki/Comma-separated_values)


#### Lectura de archivos CSV con `numpy`


In [None]:
import numpy as np
frmi_smpl = np.loadtxt(fname="fmri_sample.csv", delimiter=",")
frmi_smpl.shape

#### Escritura de archivos `CSV` con `numpy`

In [None]:
np.savetxt(fname="one_subject.csv", X=frmi_smpl[0,:], delimiter=",")

#### Lectura de archivos `CSV/EXCEL` con `pandas` (1)

In [None]:
oasis_df = pd.read_csv(filepath_or_buffer="oasis_cross-sectional.csv", sep=",") # CSV files
display(oasis_df.head())

In [None]:
oasis_df = pd.read_excel(io="oasis_cross-sectional.csv", sheet_name=0) # Excel files
display(oasis_df.head())

#### Lectura de archivos `CSV/EXCEL` con `pandas` (2)
- URL que contenga el archivo


In [None]:
URL = "https://raw.githubusercontent.com/ruslan-kl/py-for-neuro/binder/exercises/data/oasis_cross-sectional.csv"
dementia_df = pd.read_csv(filepath_or_buffer=URL)

- Archivo comprimido

dementia_df = pd.read_csv(filepath_or_buffer="oasis_cross-sectional.zip")


In [None]:
dementia_df.to_csv(path_or_buf="dementia_df.csv", sep=",", index=True) # CSV file

dementia_df.to_excel( # Excel file
    excel_writer="dementia_df.xslx",
    sheet_name='Main Data',
    index=False)

#### Ejercicio #3
Ejercicio. conjunto de datos de resonancia magnética funcional
- Cargue los datos del experimento fMRI. Ruta al archivo "ejercicios/datos/fmri_datos.csv". Tenga en cuenta que las columnas de un archivo están separadas por `;`.
- Cree un nuevo DataFrame parietal_df con observaciones de la región parietal (`df["region"] == "parietal"`);
- Guarde el marco de datos resultante como un archivo de Excel.

~~~python
import pandas as pd

# Lee el archivo
df = pd.___(___)
display(df.head())

# Utiliza la región parietal
parietal_df = ___
# Guarda la información como un archiv Excel
___.___("parietal_sample.xlsx")
~~~

## Importar archivos `mat`


- MATLAB es un lenguaje de programación multiparadigma patentado y un entorno de computación numérica desarrollado por MathWorks. MATLAB permite la manipulación de matrices, el trazado de funciones y datos, la implementación de algoritmos, la creación de interfaces de usuario y la interfaz con programas escritos en otros lenguajes.

- Podemos cargar archivos `MAT` en Python con la ayuda del paquete `SciPy`. Estamos interesados en la función `loadmat()` dentro del módulo `io`.

In [None]:
from scipy.io import loadmat
h1_data = loadmat(file_name="H1_neuron.mat", squeeze_me=True)
h1_data

La función `squeeze_me` es responsable de squeezing las dimensiones de la matriz unitaria. Por ejemplo, si la variable en  MATLAB se almacenó en una forma (5,1,1), si establecemos establecer squeeze_me=True la importará con la forma (5,) a Python.

El objeto resultante es un diccionario. Cada clave representa una variable guardada de MATLAB. Además, hay tres claves adicionales con la información del archivo. rho es un vector que da la secuencia de spikes de eventos o no eventos en los tiempos muestreados (cada 2 ms). Cuando un elemento de rho es uno, esto indica la presencia de un spike en el momento correspondiente, mientras que un valor cero indica que no hay pico. La variable stim da la secuencia de valores de estímulo en los tiempos muestreados.

#### Ejercicio #4
 Tasa de disparo de la neurona H1

- Cargue en el archivo MAT H1_neuron.mat que contiene datos de la respuesta de una neurona H1 de mosca a un estímulo de movimiento visual de ruido blanco aproximado. Ruta al archivo: "path/datos/H1_neuron.mat";
- Haga un gráfico de los valores de un estímulo (gráfico de líneas) y agregue líneas verticales para esos puntos de tiempo cuando ocurrió el pico. Use solo las primeras 250 observaciones para esta gráfica.

~~~python
from scipy.io import loadmat
import matplotlib.pyplot as plt
import numpy as np

# import the file
h1_data = ___("path/data/H1_neuron.mat", squeeze_me=True)

# amount of timepoints to keep
n = 250
# slice of an `rho` array
spikes = ___
# slice of an `stim` array
stimulus = ___
# time points for the slice
timepoints = ___
# select only those when spike occurred
timepoints = ___

plt.figure(figsize=(10,5), facecolor="white")
plt.vlines(
    x=timepoints,        # time points when spike occurred
    ymin=stimulus.min(), # lower end of a line
    ymax=stimulus.max(), # upper end of a line
    linewidth=1,
    label="Spike")
# plot stimulus values
plt.plot(stimulus, label="Stimulus")
plt.legend()
plt.title("Fly H1 neuron response to\napproximate white-noise visual motion stimulus")
plt.xlabel('Time step')
plt.ylabel('Stimulus value, mV')
plt.show()
~~~

## Importar archivos `JSON`

- JSON (Notación de objetos de JavaScript) es un formato de archivo estándar abierto y un formato de intercambio de datos que utiliza texto legible por humanos para almacenar y transmitir objetos de datos que consisten en pares de valor de atributo y tipos de datos de matriz (o cualquier otro valor serializable).
-  Es un formato de datos muy común, con una amplia gama de aplicaciones.

**Fuente** [Wikipedia](https://en.wikipedia.org/wiki/JSON)

Los archivos JSON son útiles para la especificación de parámetros. Por ejemplo, todos los conjuntos de datos en el sitio web de OpenNeuro tienen un archivo JSON con la descripción. Ejemplo de dicho archivo de datos de Pavlov, Y. G. y Kotchoubey, B. (2021):


<center><img src="./imagenes/JSON_image.png" width="400px"/></center>

La estructura del archivo siempre tiene un formato de `"key-value"`. Para este ejemplo, tenemos parámetros de conjunto de datos como nombre, autores y versión. Los valores pueden ser cadenas, listas u otro objeto clave-valor anidado.

~~~python
import json
#Lectura
with open(file="path/to/the/file.json", mode="r") as file:
    output = json.load(fp=file)
#Escritura
with open(file="path/to/the/file.json", mode="w") as file:
    json.dump(obj=<object to write>, fp=file)
~~~

[Documentacion JSON](https://docs.python.org/3/library/json.html)

#### Ejercicio 5
Guarde un diccionario como un archivo JSON "dataset_description.json".

- Lea el archivo que acaba de guardar.
- Guarde el nombre del primer autor en una variable first_author_name accediendo a él a través de la variable de salida (no lo escriba simplemente).

Tenga en cuenta que en este ejemplo el valor de la clave `Authors` es una lista con dos diccionarios.

~~~python
import json
import pprint

dataset_description = {
    "Name": "Our cool data set",
    "Authors": [
        {
            "Name": "Bob",
            "Institution": "X"
        },
        {
            "Name": "Ben",
            "Institution": "Y"
        }
    ],
    "Version": "0.0.1"
}

# write JSON file
with open(file="dataset_description.json", mode=___) as file:
    json.dump(obj=dataset_description, fp=file)

# read JSON file
____:
    output = json.load(fp=___)

pprint.pprint(output)

# get the name of the first author
first_author_name = ___
print(f"\nFirst author is {first_author_name}")
~~~

## API Requests


<center><img src="./imagenes/API.png" width="400px"/></center>

**Fuente:** [DEV comunity](https://dev.to/austinbrownopspark/an-overview-of-apis-and-rest-1093)

## Elementos básicos de una API

- Acceso: ¿tienes permiso para acceder?
- Solicitud: ¿Qué quieres conseguir?
- Respuesta: los datos resultantes

## API abiertas desde el espacio
Open Notify es un proyecto de código abierto para proporcionar una interfaz de programación simple para algunos de los increíbles datos de la NASA.

[Open Notify website](http://open-notify.org/)

[SS Current Location API](http://open-notify.org/Open-Notify-API/ISS-Location-Now/)

In [None]:
import requests

URL = "http://api.open-notify.org/iss-now.json"
response = requests.get(URL)
print(response.status_code)
print(response.content)
print(response.json())

## Importar archivos pickled