# Curso: Introducción a la importación de datos en Python


## Leer un archivo de texto (**`.txt`**)


Para verificar cualquier archivo de texto sin formato, puede usar la función de apertura básica de Python para abri una conexión con el archivo.

Para hacerlo, asigna el nombre del archivo a una varibale como una cadena, pasa el nombre del archiovo a la función open y también le pasa el modo de argumento es igual a **`'r'`**, lo que asegura que solo podamos leerlo (no nos gustarias escribirlo accidentalmente.), asgine el texto del archivo a un texto variable aplicando el métodod e lectura a la conexión con el archivo.

Después de hacer esto, asegúrese de cerrar la conexión con el archivo usando el comando `file.close()`. Luego puede imprimir el archivo en la consola y verificarlo usando el comando `print(text)`.



In [16]:
filename = './datasets/seaslug.txt'

file = open(filename, mode = 'r')

text = file.read()

print(text)

file.close()  # Cerrar siempre el archivo luego de terminar de manipularlo





## Escribir en un archivo

Si quisieras abrir un archivo en orden para escribirle, le pasaría el modo de argumento igual a **`'w'`**.

In [13]:
filename = './datasets/seaslug.txt'

file = open(filename, mode = 'w')

file.close()


## Administrador de contexto `with`


Puede evitar tener que cerrar la conexión con el archivo utilizando una sentencia `with`. Esto le permite crear un contexto en el que puede ejecutar comandos con el archivo abierto. Una vez fuera de esta cláusula/contexto, el archivo ya no está abierto y, por este motivo, se denomina Administrador de contexto.


Lo que está haciendo aquí se llama "vincular" una variable en la construcción del administrador de contexto; mientras aún esté dentro de esta construcción, el archivo variable estará vinculado a `open(filename, 'r')`.

Es una buena practica usar la declaración `with` ya que nunca tendrá que preocuparse por cerrar los archivos nuevamente.

In [18]:
with open('./datasets/seaslug.txt', 'r') as file:
    print(file.read())

Recuerde el alma dormida
Avive el seso y despierte
Contemplando
CÃ³mo se pasa la vida,
CÃ³mo se viene la muerte,
Tan callando,
CuÃ¡n presto se va el placer,
CÃ³mo, despuÃ©s de acordado
Da dolor,
CÃ³mo, a nuestro parecer,
Cualquier tiempo pasado
Fue mejor.




# La importancia de los archivos planos en la ciencia de datos


## Archivos planos

Ahora que sabe cómo importar archivos de texto sin formato, vamos a ver archivos planos, como "titanic.csv", en el que cada fil es un pasajero único a bordo y la columna es una caracteristica del atributo, como género, cabina y "sobrevivió o no".


---

Los archivos planos son archivos de texto básico que contienen registros, es decir, datos de tabla, sin relaciones estructuradas. Esto contrasta con una base de datos relacional, por ejemplo, en la que se pueden relacionar columnas de tablas distintas. Para ser aún más precisos, los archivos planos consisten en registros, donde un registro se refiere a una fila de campos o atributos, cada uno de los cuales contiene como máximo un elemento de información.

## Header

También es esencial tener en cuenta que un archivo plano pueda tener un encabezado, como en el "titanic.csv", que es una fila que ocurre como la primera fila, y describe el contenido de las columnas de datos o establecer cuáles son los atributos o características correspondientes en cada columnas.

Será importante saber si su archivo tiene o no un encabezado, ya que puede alterar la importación de datos.

La razón por la que los archivos planos son tan importantes en la ciencia de datos es que a los cientificos de datos realmente les gusta pensar en registris o filas de atributos.


## Extensión del archivo

Ahora es posible que haya notado que la extensión del archivo es `.csv`. CSV es un acrónimo de valor separado por comas y significa exactamente lo que dice. Los valores de cada fila están separados por comas.


Otra extensión común para un archivo plano es `.txt`, lo que significa un archivo de texto. Los valores en archivos sin formato se pueden separar por caracteres o secuencias de caracteres distintos que las comas, como un tabulador, y el carácter o caracteres en cuestión se denomina **delimitador**.



## Archivo delimitado por tabulador


Vea aquí un ejemplo de un archivo delimitado por tabuladores. Los datos consisten en el famoso reconodimiento de dígitos MNIST imagenes, donde cada fila contiene los valores de píxeles de una imagen determinada. 

Tenga en cuenta que todos los campos en los datos MNIST son numéricos mientras que en el "titanic.csv" también contenía cadenas.

<img src=".\img_3\1.png" width="350px" height="350px">

<img src=".\img_3\2.png" width="150px" height="350px">


## Como importamos estos archivos?

Si consiste completamente en números y queremos almacenarlos como una matriz numpy, podríamos usar numpy.

Si, en cambio, queremos almacenar los datos en un marco de datos (DataFrame), podríamos usar pandas.

La mayoria de las veces, utilizará una de estas opciones.

# Importación de archivos planos usando NumPy


¿Qué sucede si ahora desea importar un archivo plano y asignarlo a una variable?

Si todos los datos son numéricos, puede usar el paquete numpy para importar los datos como una matriz numpy.

¿Por qué querriamos hacer esto?

## ¿Por qué Numpy?

En primero lugar, las matrices numpy son el estándar de Python para almacenar datos numéricos. Son eficientes, rápidos y limpios.

En segundo lugar, las matrices numpy suelen ser esenciales para otros paquetes, comoscikit-learn, un popular paquete de aprendizaje automatico para Python.

Numpy en si tiene una serie de funcionalidades integradas que hacen que sea mucho más fácil y eficiente para nosotros importar datos como matrices.


Ingrese las funciones Numpy `loadtxt()` y `genfromtxt()`.


## Importar archivo planos usando NumPy

Para usar cualquiera de estos, primero debemos importar NumPy. Luego llamamos a `loadtxt()` y le pasamos el nombre del archivo como primer argumento, junto con el delimitador, como segundo argumento. Tenga en cuenta que el delimitador predeterminado es cualquier espacio en blanco, por lo que normalmente necesitaremos especificarlo explícitamente.

In [10]:
import numpy as np

filename = './datasets/MNIST.txt'

data = np.loadtxt(filename, delimiter = ',')

data

array([[1., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.],
       ...,
       [2., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [5., 0., 0., ..., 0., 0., 0.]])


## Personalización de la importación de Numpy

Hay una serie de argumentos adicionales que tal vez desee especificar.

Si, por ejemplo, sus datos consisten en números y su encabezado tiene cadenas, como en el MNIST datos de dígitos, querrá omitir la primer fila llamando a `loadtxt` con el argumento `skiprows = 1`. 

In [33]:
import numpy as np

filename = './datasets/MNIST.txt'

data = np.loadtxt(filename, delimiter = ',', skiprows = 1) #skiprows = [1], , usecols= [0,1]

print(data)

[[0. 0. 0. ... 0. 0. 0.]
 [1. 0. 0. ... 0. 0. 0.]
 [4. 0. 0. ... 0. 0. 0.]
 ...
 [2. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [5. 0. 0. ... 0. 0. 0.]]



Si solo desea la primera y la tercera columna de los datos, querrá establecer `usecols = [0,2]`.

<img src=".\img_3\4.png" width="150px" height="350px">


### Importar matriz compuesta de cadenas

También puede importar diferentes tipos de datos en matrices NumPy: por ejemplo, establecer el argumento `dtype = str` garantizará que todas las entradas se importen como cadenas.

**`data = np.loadtxt(filename, delimiter = ',', dtype = str)`**


## Tipos de datos Mixtos

`loadtxt` es excelente para casos básicos, pero tiende a fallar cuando tenemos tipos de datos mixtos, por ejemplo, columnas que consisten en flotadores y columnas que consisten en cadenas, como vimos en el conjunto de datos Titanic.

# Importar archivos planos usando Pandas



## Qué necesit un cientifico de datos:

Tener "una estructura de datos etiquetas [bi]dimensionales con columnas de tipos potencialmente diferentes" en los que puede realizar fácilmente una gran cantiad de cosas de tipo Data Sceincey: manipular, dividr, remodelar, agrupar, unir, fusionar, realizar estadísticas de una manera amigable con los valores faltantes, manejar series de tiempo.

La necesitad de tal estructura de datos, entre otras cuestiones, llevó a Wws McKinney a desarrollar la bibilioteca pandas para Python. Nada hablas más del proyecto de pandas que la propia documentación: "Python durante mucho tiempo ha sido excelente para la recopilación y preparación de datos, pero no tanto para el análisis y modelado de datos. Pandas ayuda a llenar este vacío, permitíendole llevar a cabo todo su análisis de datos y flujo de trabajo en Python sin tener que cambiar a un lenguaje más especifico de dominio como R".


La estructura de datos más relevante para el flujo de trabajo de análisis y manipulación de datos que ofrece pandas es el marco de datos y es el análogo Pythonic del marco de datos de R.



## Manipulando DataFrames Con Pandas


La manipulación de marco de datos en pandas puede ser útil en todos los pasos del método cientifico de datos, desde el análisis exploratorio de datos hasta la disputa de datos, el preprocesamiento, la construcción de modelos y la visualización. 

Aquí veremos su gran utilidad en la importación de archivos planos, incluso en la forma en que trata con datos faltantes, comentarios juntos con muchos otros problemas que afectan a los cientificos de datos en funcionamiento. Por todas estas razones, ahora es estándar y la mejor práctica en Data Science para usar pandas para importar archivos planos como DataFrames.



## Importar usando Pandas

Para usar pandas, primero debe importarlo. Entonces, si deseamos importar un CSV en el caso más básico, todo lo que tenemos que hacer es llamar a la función `read_csv()` y proporciones un solo argumento, el nombre del archivo. Habiendo asignado el DataFrame a una variable, podemos verificar las primeras 5 filas del DataFrame, incluido el encabezado, con el comando `.head()`.

Tambien podemos convertir fácilmente el DataFrame en una matriz numpy llamando al atributo `.values` en el DataFrame.

In [4]:
import pandas as pd

df = pd.read_csv(r'.\datasets\titanic_sub.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,male,35.0,0,0,373450,8.05,,S


Tambien podemos convertir fácilmente el DataFrame en una matriz numpy llamando al atributo `.values` en el DataFrame.



In [7]:
df.values # Me devuelve un arreglo bidimensional de numpy

array([[1, 0, 3, ..., 7.25, nan, 'S'],
       [2, 1, 1, ..., 71.2833, 'C85', 'C'],
       [3, 1, 3, ..., 7.925, nan, 'S'],
       ...,
       [889, 0, 3, ..., 23.45, nan, 'S'],
       [890, 1, 1, ..., 30.0, 'C148', 'C'],
       [891, 0, 3, ..., 7.75, nan, 'Q']], dtype=object)

### Argumentos de `read_csv()`

Complete **`sep`**(la pandasversión de delim) **`comment`** los **`na_values`** argumentos de pd.read_csv(). **`comment`** toma los caracteres que aparecen después de los comentarios en el archivo, que en este caso es '#'. **`na_values`** toma una lista de cadenas para reconocer como NA/ NaN, en este caso la cadena 'Nothing'. **`sep`** es el argumento donde se declara el delimitador que podria ser `','`, `'\t'`, etc.

# Introducción a otros tipos de archivos


## Otros tipos de archivos

* **`Hojas de calculo Excel`**
* **`Archivos MATLAB`** 
* **`Archivos SAS`**
* **`Archivos Stata`**
* **`Archivos HDF5`**

Los archivos HDF5 se están convirtiendo en una forma más frecuente de almacenar grandes conjuntos de datos, ya que demostrado por el hecho de que los investigadores de LIGO lo utilizan para almacenar sus datos.


## Archivos Decapado

Este es un tipo de archivo nativo de Python. El concepto de decapado de un archivo está motivado por lo siguiente: si bien puede ser fácil guardar una matriz numpy o un DataFrame de pandas en un archivo plano, hay muchos otros tiposd e datos, como diccionarios y listas, para loas que no es obvio cómo almacenarlos.


Si desea que sus archivos sean legibles por humanos, es posible que desee guardarlos como archivos de texto de una manera inteligente (los JSON, son apropiados para los diccionarios de Python). Sin embargo, si simplemente desea poder importarlos a Python, puede serializarlos. Todo esto significa convertir el objeto en una secuencia de bytes o flujo de bytes.


---

## Importar archivos Decapados


Como lo ha hecho antes, al abrir un archivo de este tipo, querrá especificar que es de solo lectura; Tambien quiero especificar que es un archivo binario, lo que significa que es legible por computadora y no por humanos.

Para especificar solo lectura y binario, querrá pasar la cadena `'rb'` como segundo argumento de `open()`.

In [7]:
import pickle

with open('./datasets/avoplotto.pkl', 'rb') as file:
    data = pickle.load(file)

data

Unnamed: 0,date,type,year,avg_price,size,nb_sold
0,2015-12-27,conventional,2015,0.95,small,9626901.09
1,2015-12-20,conventional,2015,0.98,small,8710021.76
2,2015-12-13,conventional,2015,0.93,small,9855053.66
3,2015-12-06,conventional,2015,0.89,small,9405464.36
4,2015-11-29,conventional,2015,0.99,small,8094803.56
...,...,...,...,...,...,...
1009,2018-02-04,organic,2018,1.53,extra_large,1703.52
1010,2018-01-28,organic,2018,1.61,extra_large,1270.61
1011,2018-01-21,organic,2018,1.63,extra_large,1490.02
1012,2018-01-14,organic,2018,1.59,extra_large,1580.01


## Importar Hojas de cálculo Excel


Un archivo de Excel generalmente consta de varias hojas. Hay muchas formas de importar archivos Excel y usted use pandas para hacerlo porque produce DataFrame de forma nativa, lo cual es excelente para su práctica como cientifico de datos.

## Importar y mostrar lista con los nombres de las hojas

Como puede ver en este ejemplo, puede usar la función `ExcelFile()` para asignar un archivo de Excel a una variable de datos.

Como un archivo de Excel consta de hojas, lo primero que debe hacer es averiguar cuáles son las hojas. Esto es sencillo con el comado (atributo) `.sheet_names`.

In [13]:
import pandas as pd


file = './datasets/Earlwood_Air_Data.xls'

data = pd.ExcelFile(file)
print(data.sheet_names)  # Me muestra los nombres de las diferentes hojas que contiene el archivo Excel


['worksheet1']


## Mostrar una hoja en espeficico de un archivo Excel

Para luego cargar una hoja en particular como un DataFrame, solo necesita aplicar el método `.parse()` al objeto `data` con un solo argumento, que es el nombre como una cadena o el índice como un flotante de la hoja que desea carga: Pandas es lo suficientemente inteligennte como para saber si le está diciendo el nombre de la hoja o el índice.

In [18]:
df1 = data.parse('worksheet1')  # Usando el nombre de la hoja como String
df1.head(2)

Unnamed: 0,Date,Time,EARLWOOD WDR 1h average [°],EARLWOOD TEMP 1h average [°C],EARLWOOD WSP 1h average [m/s],EARLWOOD NO 1h average [pphm],EARLWOOD NO2 1h average [pphm],EARLWOOD CO 1h average [ppm],EARLWOOD OZONE 1h average [pphm],EARLWOOD OZONE 4h rolling average [pphm],EARLWOOD PM10 1h average [µg/m³],EARLWOOD PM2.5 1h average [µg/m³],EARLWOOD HUMID 1h average [%],EARLWOOD SD1 1h average [°],EARLWOOD CO 8h rolling average [ppm]
0,01/01/2017,01:00,152.3,22.6,0.4,0.0,0.4,,2.0,2.1,23.6,7.0,87.2,49.01,
1,01/01/2017,02:00,134.0,22.6,0.3,,,,,2.2,21.0,6.6,87.2,46.56,


In [20]:
df2 = data.parse(0)  # Usando el índice de la hoja, (inicia en 0 como en una lista)

df2.head(2)

Unnamed: 0,Date,Time,EARLWOOD WDR 1h average [°],EARLWOOD TEMP 1h average [°C],EARLWOOD WSP 1h average [m/s],EARLWOOD NO 1h average [pphm],EARLWOOD NO2 1h average [pphm],EARLWOOD CO 1h average [ppm],EARLWOOD OZONE 1h average [pphm],EARLWOOD OZONE 4h rolling average [pphm],EARLWOOD PM10 1h average [µg/m³],EARLWOOD PM2.5 1h average [µg/m³],EARLWOOD HUMID 1h average [%],EARLWOOD SD1 1h average [°],EARLWOOD CO 8h rolling average [ppm]
0,01/01/2017,01:00,152.3,22.6,0.4,0.0,0.4,,2.0,2.1,23.6,7.0,87.2,49.01,
1,01/01/2017,02:00,134.0,22.6,0.3,,,,,2.2,21.0,6.6,87.2,46.56,


# Importación de archivos SAS/Stata usando pandas

Existen muchos paquetes de software estadístico y, aunque es posible que no necesite hacerlo todo el tiempo. Será importante para usted, como cienfico de datos en activo, poder importar estos archivos a su entorno de Python.


## Archivos SAS y Stata


Los ejemplo más comunes son SAS, que es un acrónimo de "Statistical Analysis System" y Stata, es una contracción de "Statistics" y "Data".

El primero se usa mucho en análisis de negocios y bioestadística, mientras que este último es popular en la investigación académica de la ciencias sociales, como la economia y la epidemiología.


## Archivos SAS

Los archivos SAS son importante porque SAs es un paquete de software que realiza analítica avanada, análisis multivariante, inteligencia empresarial, gestión de datos, análisis predictivo y es un estándar para que los estadísticos realicen análisis computacional.


## Importar un Archivo SAS

Los archivos SAS más comunes tiene la extensión `.sas7bdat` y `.sas7bcat`, que son archivos de conjunto de datos y archivos de catálogos respectivamente.

Aprendera a importar los primeros como DataFrame usando la función `SAS7BDAT` del paquete `sas7bdat`.

En este caso, puede vincular el archivo de variables a una conexión con el archivo "sales.sas7bdat" en un administrador de contexto. Dentro de este contexto, puede asignar a una variable df_sas el resultado de aplicar el método `.to_data_frame` al archivo.

In [37]:
pip install sas7bdat  # Instalar libreria SAS7BDAT


Note: you may need to restart the kernel to use updated packages.


ERROR: Invalid requirement: '#'


In [40]:
import pandas as pd

from sas7bdat import SAS7BDAT

with SAS7BDAT('./datasets/sales.sas7bdat') as file:
    df_sas = file.to_data_frame()

df_sas.head()
    

Unnamed: 0,YEAR,P,S
0,1950.0,12.9,181.899994
1,1951.0,11.9,245.0
2,1952.0,10.7,250.199997
3,1953.0,11.3,265.899994
4,1954.0,11.2,248.5


# Importar Archivos Stata


Los archivos Stata tienen extensión `.dta` y podemos importarlos usando pandas. Simplemente pasamos el nombre del archivo a la función `read_stata` y lo asignamos a una variable.

In [41]:
import pandas as pd

data = pd.read_stata('./datasets/disarea.dta')

data.head()

Unnamed: 0,wbcode,country,disa1,disa2,disa3,disa4,disa5,disa6,disa7,disa8,...,disa16,disa17,disa18,disa19,disa20,disa21,disa22,disa23,disa24,disa25
0,AFG,Afghanistan,0.0,0.0,0.76,0.73,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.02,0.0,0.0
1,AGO,Angola,0.32,0.02,0.56,0.0,0.0,0.0,0.56,0.0,...,0.0,0.4,0.0,0.61,0.0,0.0,0.99,0.98,0.61,0.0
2,ALB,Albania,0.0,0.0,0.02,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.16
3,ARE,United Arab Emirates,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,ARG,Argentina,0.0,0.24,0.24,0.0,0.0,0.23,0.0,0.0,...,0.0,0.0,0.0,0.0,0.05,0.0,0.0,0.01,0.0,0.11


# Importación de archivos HDF5

 
##  Archivos HDF5

En el mundo de Python, el consenso está convergiendo rápidamente en la versión de formato de datos jerárquicos 5, o "HDF5", como el mecanismo estándar para almacenar grandes cantidades de datos numéricos.


* **De qué tamaño estamos hablando aquí?**


Ahora es relativamente común tratar con conjuntos de datos de cientos de gigabytes o inclusos terabytes de tamaño; HDF5 en sí mismo puede escalar hasta exabytes.



Exploremos con un ejemplo concreto de LIGO, el proyecto del Observatorio de ondas gravitacionales con interferómetro láser.


## Importar Archivo HDF5


Primero importar el paquete h5py y luego importar el archivo usando `h5py.File()`, recordando usar `"r"` para especificar solo lectura. 

Imprimir el tipo de datos revela que estamos tratando con un archivo `h5py`.

In [10]:
import h5py
import numpy as np

filename = './datasets/L-L1_LOSC_4_V1-1126259446-32.hdf5'

data = h5py.File(filename, 'r') # 'r' es para leer

print(type(data))

<class 'h5py._hl.files.File'>


## La estructura del Archivo HDF5


Pero, ¿cuál es la estructura de este archivo?

Puede explorar su estructura jerárquica como lo haría con un diccionario de Python usando el método de `.keys()`.

In [6]:
for key in data.keys():
    print(key)

meta
quality
strain


Ves que hay tres claves, meta, calidad y tensión. Cada uno de estos es un grupo HDF. Puede pensar en estos grupos como diccionarios.

La documentación de LIGO nos dice que 'meta' contiene metadatos para el archivo, 'calidad' contiene información sobre la calidad de los datos y 'tensión' contiene 'datos de tensión del inferómetro', la principal medida realizada por LIGO, los datos de interés. 

Si supiera qué datos y metadatos deberían estar en cada grupo, podría acceder a ellos directamente. Sin embargo, si no, debido a la naturaleza jerárquica de la estructura de archivos, es fácil de explorar.

Por ejemplo:

Digamos que desea averiguar qué tipo de metadatos hay, podría imprimir fácilmente las claves.

In [8]:
for key in data['meta'].keys():
    print(key)

Description
DescriptionURL
Detector
Duration
GPSstart
Observatory
Type
UTCstart


Ahora que conoce las claves, puede acceder a cualquier metadato de su interés. Si está interesado en 'Description' y 'Detector', puede pasar estas claves para la función `np.array()` para convertir los valores en una matriz Numpy.

In [16]:
print(np.array(data['meta']['Description']),  np.array(data['meta']['Detector']))

b'Strain data time series from LIGO' b'L1'


Verá que los datos en el archivo son "Serie temporal de datos de tensión de LIGO" y que el detector utilizado fue "L1".


# Importación de Archivos MATLAB


MATLAB, que significa Matrix Laboratory, es un ambiente de computación numérica que es un estándar de la industria en las disciplinas de la ingenieria y la ciencia. Esto se debe en parte a sus poderosas capacidades de matriz y álgebra lineal, en parte a su naturaleza propietaria y en parte a lo difícil que le resulta al mundo académico deshacerse de los viejo hábitos.

Independientemente de las razones de su uso generalizado, el hecho es que una gran cantidad de la gente usa MATLAB y guarda sus datos como archivos `.mat`, el formato de archivo nativo de MATLAB. 

* **¿Cómo puedes importarlos a Python?

Afortunadamente para nosotros, la biblioteca estándar `scipy` tiene funciones `loadmat` y `savemat`, que nos permite leer y escribir archivos `.mat`, respectivamente.


## Qué hay en un archivo `.mat`?

* **¿Qué hay exactamente en un archivo `.mat`?**

Para responder esto, veamos el IDE de MATLAB.

En particular, consulte el espacio de trabajo de MATLAB donde se almacenan todas sus variables. Este espacio de trabajo puede contener cadenas, flotantes, vectores y matrices, entre muchos otros objetos.

Un archivo `.mat` es simplemente una colección de dicho objetos.

## Importar un archivo `.mat`

Ahora bien, esto significa que al importar un archivo `.mat` en Python, debe esperar ver una serie de diferentes variables y objetos.

En este código, primero importo `scipy.io` y luego cargo el archivo `ja_data2.mat`. Verificar qué tipo de objeto da como resultado me dice que es un diccionario.

La forma en que este diccionario se relaciona con un espacio de trabajo e MATLAB es sencilla: Las claves del diccionario de Python son los nombres de las variables de MATLAB y los valores del diccionario de Python son los objetos que se asignan a las variables.

* **Llaves:** Nombre de variables de MATLAB.

* **Valores:** Objetos que se le asignan a las variables.

En el ejemplo anterior,

In [18]:
import scipy.io

filename = './datasets/ja_data2.mat'

mat = scipy.io.loadmat(filename)

print(type(mat))

<class 'dict'>


In [27]:
print(mat)

{'__header__': b'MATLAB 5.0 MAT-file, Platform: PCWIN64, Created on: Tue Nov 24 17:35:19 2015', '__version__': '1.0', '__globals__': [], 'rfpCyt': array([[  0.        , 238.62933333, 238.62264151, ..., 250.17403315,
        249.05801105, 251.3489011 ],
       [  0.        , 291.7718254 , 292.006     , ..., 269.99239544,
        271.32044199, 271.26086957],
       [  0.        , 252.45212766, 253.34851138, ..., 225.76428571,
        224.02909091, 226.38103757],
       ...,
       [  0.        ,   0.        ,   0.        , ...,   0.        ,
          0.        ,   0.        ],
       [  0.        , 373.45756458, 377.05420561, ...,   0.        ,
          0.        ,   0.        ],
       [  0.        , 415.25079365,   0.        , ..., 407.76514032,
        402.54331865, 409.40528634]]), 'rfpNuc': array([[  0.        , 183.34256055, 187.84859155, ..., 200.62101911,
        198.79566563, 201.73566879],
       [  0.        , 191.7195122 , 189.11340206, ..., 183.73829787,
        187.359183

In [37]:
print(mat['__header__'], '\n\n')


print(mat['CYratioCyt'])

b'MATLAB 5.0 MAT-file, Platform: PCWIN64, Created on: Tue Nov 24 17:35:19 2015' 


[[0.         1.53071547 1.54297013 ... 1.34990123 1.35329984 1.34922173]
 [0.         1.28605578 1.29385656 ... 1.31307311 1.30039694 1.30563938]
 [0.         1.32731222 1.32884617 ... 1.24887565 1.24506205 1.25825831]
 ...
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         1.44552606 1.42862357 ... 0.         0.         0.        ]
 [0.         1.45794466 0.         ... 1.1229479  1.12224652 1.1486481 ]]


# Introducción a las bases de datos relacionales


## ¿Qué es una base de datos relacional?

Es un tipo de base de datos que se basa en el modelo de datos relacional, descripto por primer vez por Ted Codd a finales de la década de 1960.

## Ejemplo: Base de datos Northwind 


Base de datos de Northwind Traders, una base de datos sntética que contiene datos de ventas de una empresa ficticia.


<img src=".\img_3\5.png" width="650px" height="350px">

En primer lugar, una base de datos consta de tablas. Aquí puede ver 3 tablas de la base de datos Northwind: 

* Ordenes
* Clientes
* Empleados

**Entonces, ¿qué es una tabla?**

Una tabla generalmente representa un tipo de entidad. Como "Orden"


## La tabla de "ordenes"

<img src=".\img_3\6.png" width="550px" height="350px">

Tenga en cuenta que esta tabla se parece mucho a un DataFrame. Ese es el punto. En una tabla de base de datos relacional, cada fila o registro representa una instancia del tipo de entidad: en este caso, cada fila es una Orden. Cada columna representa un atributo de cada instancia, como "OrderDate" en el caso de "Orders".

En este sentido, una tabla es completamente análoga a un DataFrame. Es esencial que cada fila contenga un identificador único, conocido como `clave principal`, que podemos usar para acceder explícitamente a la fila en cuestión.

En nuestra tabla de "Ordenes", puede ver que la clave es "OrderID" la primera columna. Pero recuerde que una base de datos consta de muchas tablas.

Lo realmente genial de las bases de datos relacionales no es simplemente que tienen un mónton de tablas, lo es que las tablas están enlazadas.

<img src=".\img_3\7.png" width="550px" height="350px">

Cómo funcionan este enlace es ultra-intuitivo: vea que la tabla de "Ordenes" tiene una columna llamada "CustomerID" como otra llamada "EmployeeID". Estas columnas corresponden precisamente a las claves primaria en las tablas "Clientes" y "Empleados", respectivamente.

Entonces, dado que un Pedido, puede buscar inmediatamente los detalles del Cliente o Empleado relevante. Esto es genial porque significa que no necesita almacenar todos los detalles del Cliente, como el nombre, apellido, empresa con cada pedido que hacer: solo tienes que buscarlo en la tabla "Clientes". Esto ahorra una cantidad increible de espacio.



## Modelo Relacional


Como se indicó anteriormente, el modelo de base de datos relacional fue propuesto originalmente por "Ted Codd" y ha sido ampliamente adoptado. Hay mucho en la teoría, pero está más claramente resumido en las 12 reglas de Codd, también conodidas como los 12 Mandamientos de Codd, que desarrolló a principios de 1980 para combatir lo que él veía como una dilución de su visión original de base de datos relacional.

Las 12 reglas de Codd en realidad consisten en 13 reglas pero tienen un índice cero, es decir, la primer regla tiene un índice cero.


Estas 13 reglas se definieron para describir qué es una base de datos relacional.  

El Sistema de Gestión debe cumplir para ser considerado relacional.


## Sistemas de gestión de bases de datos relacionales

Entre los más populare e tales sistemas están PostgreSQL, Mysql y SQLite, todos los cuales utilizan el lenguaje de consulta SQL. De echo, SQL en sí mismo es en realidad un acrónimo para el lenguaje (Language) de consulta (Query) estructurado (Structured), que describe cómo te comunicas con una base de datos para acceder y actualizar la información que contiene.

El término "Consultad" es realmente una forma elegante de decir obtener datos de la base de datos.

# Creando un motor de base de datos en Python


Lo que realmente queremos hacer es obtener datos de nuestra base de datos utilizando SQL o el lenguaje de consulta estructurado.

## Crear un motor de base de datos

Usaremos una base de datos SQLite como ejemplo porque SQLite es rápido y simple mientras que contien suficiente funcionalidad para presentarle todos los conceptos necesarios para consultar una base de datos.


Hay muchos paquetes que podríamos usar para acceder a una base de datos SQLite como sqlite3 y SQLAlchemy.

Usaremos SQLAlchemy, ya que funciona con mucho otros sistemas de administración de bases de datos relacionales, como POSTgres y MySQL.


Para conectarse a "Chinook.sqlite", necesitamos importar la función relevante `create_engine()` del paquete SQLAlchemy.

Luego usamos la función `create_engine()` para iniciar un motor SQL que comunicará nuestras consultas a la base de datos. El único argumento requerido de `create_engine()` es una cadena que indica el tipo de base de datos a la que se está conectando y el nombre de la base de datos. A continuación, para consultar la base de datos, debemos conectarnos al motor para hacerlo. Pero antes de hacer esto, nos gustaria saber el nombre de las tablas que contiene.

In [6]:
from sqlalchemy import create_engine

engine = create_engine('sqlite:///./datasets/Chinook.sqlite')



## Obtener nombres de las tablas

Para ello, aplique el método `table_names()` al motor de objetos. Esto devolverá una lista de los nombre de las tablas que luego puede imprimir en la consola.

In [7]:
table_names = engine.table_names()
print(table_names)

['Album', 'Artist', 'Customer', 'Employee', 'Genre', 'Invoice', 'InvoiceLine', 'MediaType', 'Playlist', 'PlaylistTrack', 'Track']


  table_names = engine.table_names()


# Consultando bases de datos relacionales en Python

Ahora que ha descubierto cómo crear un motor de base de datos y enumerar las tablas de la base de datos en cuestión, es hora de conectarse al motor y consultar la base de datos.

Una vez más, el término "consultar" es solo una forma elegante de decir obtener datos de la base de datos.


## Consultas basicas de SQL


El "Hola mundo" de consultas SQL es 'SELECT * FROM Table_Nane', donde 'Table_name' es el nombre de cualquiera de las tablas en la base de datos.

Esta consulta devuelve todas las columnas de todas las filas de la tabla de interés.

`SELECT * FROM Table_name`

Por ejemplo, podría consultar la base de datos Northwind con `SELECT * FROM Orders` y esto devolvería todas la columnas de todas las filas de la tabla "Ordenes". El Asterisco (`*`) después de SELECT significa "todas las columnas".

Esta es una consulta SQL y necesitamos descubrir cómo hacer dicha consulta usando Python, SQLAlchemy y, de hecho, también usaremos pandas para almacenar los resultados de nuestras consultas.

## Flujo de trabajo de las consultas SQL

El flujo de trabajo será el siguiente:

Importara los paquetes y funciones requeridos, creará el motor, se concetará a él, consultara la base de datos, guardara los resultados de la consulta en un DataFrame y cerrara la conexión.


* 1) **Importara paquetes y funciones**
* 2) **Creará el motor de base de datos**
* 3) **Se conectará al motor**
* 4) **Consultara la base de datos**
* 5) **Guardara los resultados en un DataFrame**
* 6) **Cerrara la conexión**


## Su primero consulta SQL

Cree el motor usando la función `create_engine()`. Para conectarse a la base de datos después de crear el motor, cree un objeto de conexión aplicando el método `.connect()` al motor.

Para consultar la base de datos, aplique el método de ejecución a la conexión `con` y pásele un solo argumento, la consulta SQL relevante; Esto creara un objeto de resultado de SQLAlchemy que asignamos a la variable `rs`.

Para convertir el objeto de resultado `rs` en un DataFrame, aplicamos el método `fetchall()` a `rs` y guárdelo como un DataFrame usando la función de pandas `.DataFrame()`. `fetchall()` obtiene todas las filas, como era de esperar. 

Para cerrar la conexión, ejecute `con.close()`.



In [2]:
# Paso N° 1
from sqlalchemy import create_engine
import pandas as pd

# Paso N° 2
engine = create_engine('sqlite:///./datasets/Chinook.sqlite')

# Paso N°3
con = engine.connect()

# Paso N° 4
rs = con.execute('SELECT * FROM Album')

# Paso N° 5

df = pd.DataFrame(rs.fetchall())

# Paso N° 6
con.close()

## Imprimir los resultados de la consulta

A continuacion puede imprimir el encabezado del DataFrame, como hemos hecho antes, como prueba de cordura: todas las filas se ven bien pero los nombres de las columnas no son correctos (Podria aparecerme con números como en los índices.).

In [5]:
df.head()

Unnamed: 0,AlbumId,Title,ArtistId
0,1,For Those About To Rock We Salute You,1
1,2,Balls to the Wall,2
2,3,Restless and Wild,2
3,4,Let There Be Rock,1
4,5,Big Ones,3


## Establecer los nombres de las columnas del DataFrame

Para solucionar los nombres de las columnas, antes de cerrar conexión, puede configurar los nombre de las columnas del DataFrame ejecutando `df.columns = rs.keys()`.

In [9]:
# Paso N° 1
from sqlalchemy import create_engine
import pandas as pd

# Paso N° 2
engine = create_engine('sqlite:///./datasets/Chinook.sqlite')

# Paso N°3
con = engine.connect()

# Paso N° 4
rs = con.execute('SELECT * FROM Album')

# Paso N° 5

df = pd.DataFrame(rs.fetchall())

df.columns = rs.keys()

# Paso N° 6
con.close()

In [11]:
df.head()

Unnamed: 0,AlbumId,Title,ArtistId
0,1,For Those About To Rock We Salute You,1
1,2,Balls to the Wall,2
2,3,Restless and Wild,2
3,4,Let There Be Rock,1
4,5,Big Ones,3


## Ejemplo con la tabla 'Artist':

In [3]:
# Paso N° 1
from sqlalchemy import create_engine
import pandas as pd

# Paso N° 2
engine = create_engine('sqlite:///./datasets/Chinook.sqlite')

# Paso N°3
con = engine.connect()

# Paso N° 4
rs = con.execute('SELECT * FROM Artist')

# Paso N° 5

df = pd.DataFrame(rs.fetchall())

df.columns = rs.keys()

# Paso N° 6
con.close()

In [4]:
df.head()

Unnamed: 0,ArtistId,Name
0,1,AC/DC
1,2,Accept
2,3,Aerosmith
3,4,Alanis Morissette
4,5,Alice In Chains


## Usar un Administrador de contexto

Una última nota: de forma análoga a lo que vio anteriormente al abrir archivos de texto sin formato, puede usar la construcción del administrador de contexto para abrir una conexión, lo que le ahorrá el problema de cerra la conexión más tarde, o ahorrarle la molestia de olvidarse de cerrarla. 

Hay otras dos diferencias que puede haber notados entre este y el código anterior: en primero lugar, ya no tener `SELECT *` en la consulta SQL; ahora tengo nombres de columnas de la tabla "Ordenes"; todo lo que hace es importar esas columnas particulares y no otras muesntras que `SELECT *` importa todas las columnas; en segundo lugar, en lugar de aplicar el método `fetchall()` a los resultados `rs`, aplico el método `fetchmany()` con el tamaño del argumento igual a 5; esto importara 5 filas en lugar de todas las filas.

In [12]:
# Forma N° 1

from sqlalchemy import create_engine
import pandas as pd

engine = create_engine('sqlite:///./datasets/Chinook.sqlite')

In [18]:
# Forma N° 2

with engine.connect() as con:
    
    rs = con.execute('SELECT AlbumId, Title FROM Album')
    
    df = pd.DataFrame(rs.fetchmany(size = 5))
    
    df.columns = rs.keys()

In [20]:
df.head(3)

Unnamed: 0,AlbumId,Title
0,1,For Those About To Rock We Salute You
1,2,Balls to the Wall
2,3,Restless and Wild


# Consultar bases de datos relacionales directamente con pandas

Después de crear un motor de base de datos puede obtener los resultados de cualquier línea particular usando 4 líneas de código: conectando, ejecutando una consulta, pasando los resultados a un dataframe y nombrando las columnas: 4 líneas de código es bastante bueno, pero puede hacerlo mejor.

## La forma pandas de hacer consultas

De hecho, puede hacerlo en 1 línea, utilizando la función pandas `read_sql_query` y pasándole 2 argumentos. 

El primer argumento será la consulta que desea realizar, el segundo argumento el motor al que desea conectarse. Y, por lo tanto, puede lograr lo mismo que este código ejecutando esta única línea.

In [22]:
# Forma N° 1

from sqlalchemy import create_engine
import pandas as pd

engine = create_engine('sqlite:///./datasets/Chinook.sqlite')

# -----------------------------------

# Forma N° 2

with engine.connect() as con:
    
    rs = con.execute('SELECT AlbumId, Title FROM Album')
    
    df = pd.DataFrame(rs.fetchmany(size = 5))
    
    df.columns = rs.keys()

In [23]:
df = pd.read_sql_query('SELECT * FROM Album', engine)

# Consulta avanzada: explotación de las relaciones entre tablas


## Las tablas están vinculadas

Como vimos anteriormente, la tabla "Ordenes" de la base de datos Northwind Traders tiene una columna llamada "CustomerID" y una columna llamada "EmployeeID", columnas que corresponden precisamente a las claves primarias en las tablas "Clientes" y "Empleados", respectivamente. Esto significa que, dada una Orden, puede buscar inmediatamente el detalle del Cliente o Empleado relevante en la tabla correspondiente.

<img src=".\img_3\8.png" width="550px" height="350px">


## Unir tablas

Ahora, ¿qué sucede si desea incorporar dicha información en su consulta?

Por ejemplo, si desea consultar la tabla "Ordenes" e incluir, para cada Pedido, ¿información sobre el Cliente correspondiente a la tabla "Cliente?"

Digamos que quería, para cada Orden, obtener el ID de pedido y el CompanyName del Cliente. OrderID vive en la tabla "Ordenes" mientras que CompanyName vive en la tabla "Clientes".


<img src=".\img_3\9.png" width="450px" height="350px">


SQL tiene una manera muy inteligente de hacer esto: se llama JOIN porque lo que realmente estás haciendo es unir dos tablas, en este caso, las tablas de "Ordenes" y "Clientes". Específicamente es una UNION INTERNA.


## INNER JOIN en Python (pandas)


Como son las columnas "CustomerID" de las tablas "Ordenes" y "Clientes" las que corresponden a cada una, querrá UNIRSE a las tablas EN estas columnas y eso precisamente lo que hace el siguiente código.

La notación de punto seguida de nombre de la columna es simplemente seleccionar una columna de una tabla.

La tabla de la que estamos seleccionando es "Album INNER JOIN Artist on Album.ArtistId = Artist.ArtistId" y estoy seleccionando la columna AlbumId, Title, y Name de esta nueva tabla. 

In [7]:
from sqlalchemy import create_engine
import pandas as pd

engine = create_engine('sqlite:///./datasets/Chinook.sqlite')

df = pd.read_sql_query('SELECT AlbumId, Title,Name FROM Album INNER JOIN Artist on Album.ArtistId = Artist.ArtistId', engine)

df.head()

Unnamed: 0,AlbumId,Title,Name
0,1,For Those About To Rock We Salute You,AC/DC
1,2,Balls to the Wall,Accept
2,3,Restless and Wild,Accept
3,4,Let There Be Rock,AC/DC
4,5,Big Ones,Aerosmith


# Curso: Intermedio Importar datos en Python


# Importación de archivos planos desde la web

