<center>
  <h1>Introducción a Pandas - Fuentes de Datos</h1>
  <h2>I302 - Aprendizaje Automático y Aprendizaje Profundo</h2>
  <h4>Universidad de San Andrés </h4>
</center>

Pandas nos permite cargar los datos en un DataFrame de múltiples fuentes.

### Bibliotecas necesarias

In [1]:
import pandas as pd
import numpy as np
import json

## CSV

Los archivos CSV (del inglés comma-separated values) son un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las que las columnas se separan por comas (u otro caracter como espacio, punto y coma, etc.) y las filas por saltos de línea. Algunos CSV usan a la primera linea como nombre de las columnas.

Pandas nos permite leer esto archivos usando la función `read_csv()`:

In [2]:
# Si la primera fila no tiene los nombres de las columnas, el argumento header=None, evita tomar a la primera linea como nombre
csvDF1 = pd.read_csv('./iris.data.csv', header=None)
csvDF1.head()

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [3]:
csvDF2 = csvDF1.rename(columns={0: 'sepalLength', 1: 'sepalWidth', 2: 'petalLength', 3: 'petalWidth', 4: 'class'})
csvDF2.head()

Unnamed: 0,sepalLength,sepalWidth,petalLength,petalWidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [4]:
# En cambio, si la primera fila es el nombre de las columnas, no es necesario el argumento header
csvDF3 = pd.read_csv('./samson.csv')
csvDF3.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2000-01-04,6000.0,6110.0,5660.0,6110.0,4623.467773,74195000
1,2000-01-05,5800.0,6060.0,5520.0,5580.0,4222.414063,74680000
2,2000-01-06,5750.0,5780.0,5580.0,5620.0,4252.682129,54390000
3,2000-01-07,5560.0,5670.0,5360.0,5540.0,4192.147949,40305000
4,2000-01-10,5600.0,5770.0,5580.0,5770.0,4366.187012,46880000


## TXT

Archivos de texto que mantenga una estructuración de tabla tambien se pueden leer usando `read_csv()`. Hay situaciones que la tabla esta con texto previo o posterior. En esos casos se puede indicarle a Pandas que evite esas lineas.

In [5]:
txtDF1 = pd.read_csv("./Samson.txt", sep=" ", header=0)
txtDF1.head()

Unnamed: 0,Date,Open,High,Low,Close,AdjClose,Volume
0,2000-01-04,6000.0,6110.0,5660.0,6110.0,4623.467773,74195000
1,2000-01-05,5800.0,6060.0,5520.0,5580.0,4222.414063,74680000
2,2000-01-06,5750.0,5780.0,5580.0,5620.0,4252.682129,54390000
3,2000-01-07,5560.0,5670.0,5360.0,5540.0,4192.147949,40305000
4,2000-01-10,5600.0,5770.0,5580.0,5770.0,4366.187012,46880000


## JSON

JSON es un formato de texto sencillo para el intercambio de datos. Se trata de un subconjunto de la notación literal de objetos de JavaScript, aunque, debido a su amplia adopción como alternativa a XML, se considera un formato independiente del lenguaje.

Es muy común encontrarlo, Python nos provee de una liberia nativa para su lectura, pero, tambien podemos usar Pandas, aunque tenga algunas restricciones del formato que debe tener el archivo JSON. Para su lectura con pandas utilizamos `read_json()`

In [6]:
jsonDF1 = pd.read_json('./Samson.json')
jsonDF1.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2000-01-04,6000,6110,5660,6110,4623.467773,74195000
1,2000-01-05,5800,6060,5520,5580,4222.414063,74680000
2,2000-01-06,5750,5780,5580,5620,4252.682129,54390000
3,2000-01-07,5560,5670,5360,5540,4192.147949,40305000
4,2000-01-10,5600,5770,5580,5770,4366.187012,46880000


## Parquet

Apache Parquet es un formato de archivo en columnas con optimizaciones para acelerar las consultas. Es un formato de archivo mucho más eficaz que el archivo CSV o JSON. Proporciona esquemas eficientes de compresión y codificación de datos con rendimiento mejorado para manejar datos complejos de forma masiva.

Es muy utilizado y Pandas nos provee la función `read_parquet()` que permite leer estor archivos (se debe tener instalado la libreria fastparquet o pyarrow para que funciones)

In [7]:
parquetDF1 = pd.read_parquet('./Samson.parquet')
parquetDF1.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2000-01-04,6000.0,6110.0,5660.0,6110.0,4623.467773,74195000
1,2000-01-05,5800.0,6060.0,5520.0,5580.0,4222.414063,74680000
2,2000-01-06,5750.0,5780.0,5580.0,5620.0,4252.682129,54390000
3,2000-01-07,5560.0,5670.0,5360.0,5540.0,4192.147949,40305000
4,2000-01-10,5600.0,5770.0,5580.0,5770.0,4366.187012,46880000


### Pickle

Los pickles de Python representan un objeto Python como una cadena de bytes que podemos almacenarlos en un archivo. En estos archivos podemos guardar DataFrames, y los podemos volver a recuperar usando *read_pickle()*:

In [8]:
pickleDF1 = pd.read_pickle('./Samson.pickle')
pickleDF1.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2000-01-04,6000,6110,5660,6110,4623.467773,74195000
1,2000-01-05,5800,6060,5520,5580,4222.414063,74680000
2,2000-01-06,5750,5780,5580,5620,4252.682129,54390000
3,2000-01-07,5560,5670,5360,5540,4192.147949,40305000
4,2000-01-10,5600,5770,5580,5770,4366.187012,46880000
