>[Carga de datos en Panda](#scrollTo=nelHfwuqPmDH)

>[Leer y escribir datos en formato de texto](#scrollTo=BWuTIsOpoywz)

>>[Funciones](#scrollTo=vcc8_MSHtmtm)

>>[Trabajando con valores faltantes](#scrollTo=NseoQfuAPzpQ)

>>[Leer archivos de texto en partes](#scrollTo=lELr76GBRh1n)

>>[Escribiendo Datos en formato texto](#scrollTo=r31ppoPyT6vS)

>>[Formato CSV](#scrollTo=cRWqIex1hjLb)

>>[JSON Data](#scrollTo=Fumt3vFx_CnF)

>>[XML y HTML Web Scrapping](#scrollTo=RAFNinVHUZVx)

>>[Formato HDF5](#scrollTo=The4cD8zbg4-)

>>[Lectura desde archivos Microsoft Excel](#scrollTo=OOyHUIhxddJW)

>>[Interactuando con APIs](#scrollTo=fTfC_zNBgRGY)

>>[Interactuando con Base de Datos](#scrollTo=PdIyYXWNhY18)



# Carga de datos en Panda

Como hemos discutido, acceder a los datos será el primer paso para proceder con su análisis. 

La entrada y salida de de datos generalmente se puede dividir en las siguientes categorías:


*   Leer archivos de texto u otro formato (csv, tabulado, etc)
*   Cargar datos desde una base de datos
*   Interactuar con recursos de red como puede ser una página web o una interface API.

<img src = "https://pics.me.me/thumb_less-hate-more-panda-22-funny-panda-pictures-22-funny-45056622.png">




# Leer y escribir datos en formato de texto

Pandas posee muchas herramientas para leer archivos tabulados e insertarlos en un objeto DataFrame. 



## Funciones 

Aquí algunas funciones ampliamente utilizadas for Pandas que serán de utilidad para el desarrollo de las actividades.




Función | Descripción
--- | ---
**read_csv** | Cargue datos delimitados de un archivo, URL u objeto similar a un archivo; usar coma como delimitador predeterminado
**read_table** | Cargue datos delimitados de un archivo, URL u objeto similar a un archivo; use tab ('\ t') como delimitador predeterminado
**read_fwf** | 	Leer datos en formato de columna de ancho fijo, (es decir, sin delimitadores
**read_clipboard** | Versión de read_table que lee datos del portapapeles; útil para convertir tablas de páginas web
**read_excel** | Leer datos tabulares de un archivo Excel XLS o XLSX
**read_hdf** | Leer archivos HDF5 escritos por pandas
**read_html**| Leer todas las tablas encontradas en un documento HTML dado
**read_json**	| Leer datos de una representación de cadena JSON (JavaScript Object Notation)
**read_msgpack**|Leer datos de pandas codificados con el formato binario MessagePack
**read_pickle**|Leer un objeto arbitrario almacenado en formato Python pickle
**read_sas**|Leer un conjunto de datos almacenado en uno de los formatos de almacenamiento personalizados del sistema SAS
**read_sql**|Lea los resultados de una consulta SQL (usando SQLAlchemy) como un DataFrame de pandas
**read_stata**|Leer un conjunto de datos del formato de archivo Stata
**read_feather**|Lea el formato de archivo binario Feather





Los argumentos opcionales para estas funciones pueden caer en alguna de estas categorías:


**1. Indexación**

Puede tratar una o más columnas como el DataFrame devuelto, y si desea obtener nombres de columna del archivo, o no obtenerlos y utilizar índices numéricos simplemente.

**2. Inferencia de tipos y conversión de datos**

Esto incluye las conversiones de valores definidos por el usuario y el tratamiento personalizado que se le quiera dar a los valores faltantes.

**3. Análisis de fecha y hora**

Incluye la capacidad de combinación, incluida la combinación de información de fecha y hora distribuidas en varias columnas, en una sola columna en el resultado.

**4. Chunking e Iteración**

Soporte para iterar sobre fragmentos de archivos muy grandes.

**5. Problemas de datos sucios/ruido**

Saltar filas o un pie de página, comentarios u otras cosas menores como datos numéricos con miles separados por comas.

In [None]:
import pandas as pd
df = pd.read_csv('./sample_data/california_housing_train.csv')
df

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.40,19.0,7650.0,1901.0,1129.0,463.0,1.8200,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.9250,65500.0
...,...,...,...,...,...,...,...,...,...
16995,-124.26,40.58,52.0,2217.0,394.0,907.0,369.0,2.3571,111400.0
16996,-124.27,40.69,36.0,2349.0,528.0,1194.0,465.0,2.5179,79000.0
16997,-124.30,41.84,17.0,2677.0,531.0,1244.0,456.0,3.0313,103600.0
16998,-124.30,41.80,19.0,2672.0,552.0,1298.0,478.0,1.9797,85800.0


In [None]:
pd.read_table('./sample_data/california_housing_train.csv', sep=',') # También podemos usar read_table con un delimitador

Podemos eliminar los headers utilizando el parámetro correspondiente **header=none**

In [None]:
df = pd.read_csv('./sample_data/california_housing_train.csv', header=None, names=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i'])
df

In [None]:
df2 = df.drop(index=0) #Eliminamos la primera fila que nos había quedado con los headers originales 
df2

Podemos crear índices jerárquicos desde multiples columnas o nombres

In [None]:
df3 = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/Herarchical_index.csv')
df3 

Unnamed: 0,key1,key2,value1,value2
0,one,a,1,2
1,one,b,3,4
2,one,c,5,6
3,one,d,7,8
4,two,a,9,10
5,two,b,11,12
6,two,c,13,14
7,two,d,15,16


In [None]:
df_parsed = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/Herarchical_index.csv',
                        index_col=['key1', 'key2'])
df_parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


En algunas situaciones nos encontraremos con archivos que no están delimitados por comas. En dichos casos, podemos pasar expresiones regulares (regular expressions) como delimitadores de la función **read_table**. En el siguiente caso importaremos un archivo con "espacios en blanco" como delimitador  

In [None]:
df4 = pd.read_table('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/file_spaces.txt', sep='\s+') #Le pasamos el delimitador
df4

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


¿Qué sucede cuando nos encontramos con archivos que poseen datos innecesarios? 

In [None]:
df5 = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/file_comments.csv')
df5

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,# hey!
a,b,c,d,message
# Deseo complicarte un poco las cosas,,,,
# deberás poder resolver este problema..necesitas eliminarme y a mis hermanos comentarios para proseguir,,,,
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [None]:
df5 = pd.read_csv ('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/file_comments.csv', skiprows=[0,2,3])
df5

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


## Trabajando con valores faltantes

El manejo de valores perdidos es una parte importante y frecuentemente matizada del proceso de análisis de archivos. Los datos que faltan generalmente no están presentes o están marcados por algún valor de referencia. 

Por defecto, Pandas usa un conjunto de referencia comunes, como NA y NULL:

In [None]:
df6 = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/missing_values.csv')
df6

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [None]:
pd.isnull(df6)

También podemos agregar valores de referencia y anidarlos como diccionarios por columnas y filas. 

In [None]:
sentinels = {'message': ['foo', 'NA'], 'something': ['two']}
pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/missing_values.csv', na_values=sentinels)


Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


## Leer archivos de texto en partes

Cuando procesamos archivos muy grandes o descubres el conjunto correcto de argumentos para procesar correctamente un archivo grande, es posible que solo desees leer en una pequeña parte de un archivo o iterar a través de fragmentos más pequeños del mismo.

Antes de mirar un archivo grande, hacemos que la configuración de visualización de pandas sea más compacta:

In [None]:
pd.options.display.max_rows = 10

In [None]:
df7 = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/big_file.csv')
df7

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [None]:
df7 = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/big_file.csv', nrows=5) #Definimos número de filas
df7

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


Para poder leer un archivo en diferentes trozos, se debe especificar el parámetro **chunksize** como el número de filas.

In [None]:
chunk = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/big_file.csv', chunksize=1000)
chunk

<pandas.io.parsers.readers.TextFileReader at 0x7f0eefb62150>

Al leer un archivo especificando un chunksize, podremos iterar sobre el resultado, moviendonos sobre cada bloque de tamaño "chunksize" que se lea en el archivo.

En el siguiente ejemplo, iteraremos sobre el objeto chunk, y por cada pedacito de chunk iremos sumando la cantidad de veces que se repita cada valor 'key' en la serie "tot" que inicializa vacía.

In [None]:
tot = pd.Series([]) # Creamos un objeto serie
for piece in chunk: #iteramos
    tot = tot.add(piece['key'].value_counts(), fill_value=0) #vamos agregando los valores de chunk en la serie

tot = tot.sort_values(ascending=False)
tot[:10] # Mostramos los primeros 10

  """Entry point for launching an IPython kernel.


E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

## Escribiendo Datos en formato texto

Los datos pueden ser exportados en formato de texto delimitado por comas (CSV).

Por ejemplo consideremos el siguiente archivo de lectura. Tanto los DataFrame como las Series permiten exportar el resultado con el método **.to_csv**


In [None]:

import pandas as pd
data = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/missing_values.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


Usando el método Dataframe a CSV podemos escribir datos a archivos delimitados por coma.



In [None]:
data.to_csv ('./sample_data/missing_values_out.csv')

In [None]:
!cat './sample_data/missing_values_out.csv'

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


Podemos utilizar otros delimitadores utilizando el método Python **sys.stdout** para imprimir el resultado por consola.

In [None]:
import sys
data.to_csv(sys.stdout, sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


Adicionalmente, se puede especificar nulos en aquellos valores faltantes.

In [None]:
data.to_csv(sys.stdout, na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


## Formato CSV

Los archivos CSVs suelen venir en diferentes formatos. Se puede definir un formato con diferente delimitadores, convención de cadenas, o terminadores de lineas mediante la implementación de una sublcase. 



In [None]:
import csv
class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ','
    quotechar = '"'
    quoting = csv.QUOTE_MINIMAL

f = open('./sample_data/missing_values_out.csv')
reader = csv.reader(f, dialect=my_dialect)

for line in reader:
  print(line)





['something', 'a', 'b', 'c', 'd', 'message']
['one', '1', '2', '3.0', '4', '']
['two', '5', '6', '', '8', 'world']
['three', '9', '10', '11.0', '12', 'foo']


Para escribir archivos delimitados de forma manual puedes usar el método **csv.writer**. Accepta los mismo tipos de archivos, dialectos y opciones de formato que el método **csv.reader**


In [None]:
with open('./sample_data/missing_values_out.csv', 'w') as f:
    writer = csv.writer(f, dialect=my_dialect)
    writer.writerow(('one', 'two', 'three'))
    writer.writerow(('1', '2', '3'))
    writer.writerow(('4', '5', '6'))
    writer.writerow(('7', '8', '9'))
  

In [None]:
!cat './sample_data/missing_values_out.csv'

one,two,three
1,2,3
4,5,6
7,8,9


## JSON Data

JSON (abreviatura de JavaScript Object Notation) se ha convertido en uno de los formatos estándar para enviar datos por solicitud HTTP entre navegadores web y otras aplicaciones. 

Es un formato de datos mucho más libre que un formulario de texto tabular como CSV, pero tiene una sintaxis predefinida.

Al trabajar con archivos en format JSON puedes utilizar infinidad de herramientas para evaluar la correcta redacción del código, por ejemplo [JSON Formatter](https://jsonformatter.curiousconcept.com/) 
Aquí hay un ejemplo:

```
{
   "nombre":"Wes",
   "lugares_donde_vivio":[
      "United States",
      "Spain",
      "Germany"],

   "mascotas":null,
   "hermanos":[
      {
         "nombre":"Willy",
         "edad":30,
         "mascotas":[
            "Zeus",
            "Zuko"]
      },
      {
         "nombre":"Wonka",
         "edad":38,
         "mascotas":[
            "Sixes",
            "Stache",
            "Cisco"]
      
      }
   
    ]
}

```




In [None]:
obj = """
{"nombre": "Wes",
 "lugares_donde_vivio": ["United States", "Spain", "Germany"],
 "mascotas": null,
 "hermanos": [{"nombre": "Willy", "edad": 30, "mascotas": ["Zeus", "Zuko"]},
              {"nombre": "Wonka", "edad": 38,
               "mascotas": ["Sixes", "Stache", "Cisco"]}]
}
"""


{"nombre": "Wes",
 "lugares_donde_vivio": ["United States", "Spain", "Germany"],
 "mascotas": null,
 "hermanos": [{"nombre": "Willy", "edad": 30, "mascotas": ["Zeus", "Zuko"]},
              {"nombre": "Wonka", "edad": 38,
               "mascotas": ["Sixes", "Stache", "Cisco"]}]
}



JSON es casi un código de Python válido con la excepción de su valor nulo y algunos otros matices (como no permitir las comas finales al final de las listas).

Los tipos básicos son objetos, matrices, cadenas, números, booleanos y nulos. 
Todas las claves en un objeto deben ser cadenas. Hay varias bibliotecas de Python para leer y escribir datos JSON. 

Usaremos **json** aquí, ya que está integrado en la biblioteca estándar de Python. Para convertir una cadena JSON a Python, usa **json.loads**:

In [None]:
import json
resultado = json.loads(obj) # importamos el objeto con los datos en formato json
resultado

{'hermanos': [{'edad': 30, 'mascotas': ['Zeus', 'Zuko'], 'nombre': 'Willy'},
  {'edad': 38, 'mascotas': ['Sixes', 'Stache', 'Cisco'], 'nombre': 'Wonka'}],
 'lugares_donde_vivio': ['United States', 'Spain', 'Germany'],
 'mascotas': None,
 'nombre': 'Wes'}

El método **json.dumps** convierte un objeto Python a JSON

In [None]:
asjson = json.dumps(resultado)

Convertir un objeto JSON o una lista de objetos en un DataFrame o alguna estructura depende del desarrollador. 

Convenientemente, puede pasar una lista de diccionarios (que anteriormente eran objetos JSON) al constructor DataFrame y seleccionar un subconjunto de los campos de datos:

In [None]:
hermanos = pd.DataFrame(resultado['hermanos'], columns=['nombre', 'edad'])
hermanos

Unnamed: 0,nombre,edad
0,Willy,30
1,Wonka,38


Asimismo puedes leer un archivo en formato JSON y convertirlo directamente a un objeto DataFrame mediante el método **pd.read_json**

In [None]:
data = pd.read_json('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/ejemplo.json')
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


## XML y HTML Web Scrapping

Python tiene muchas librerías para leer y escribir datos en formatos HTML y XML. Los ejemplos incluyen **lxml**, **Beautiful Soup** y **html5lib**. Si bien **lxml** es comparativamente mucho más rápido en general, las otras bibliotecas pueden manejar mejor los archivos HTML o XML con formato incorrecto.

Pandas tiene una función incorporada, **read_html**, que usa librerías como **lxml** y **Beautiful Soup** para analizar automáticamente tablas de archivos HTML como objetos DataFrame. 



Para demostrar cómo funciona esto, descargaremos un archivo HTML  de la agencia gubernamental de la FDIC de los Estados Unidos que muestra las quiebras bancarias.


In [None]:
tablas = pd.read_html('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/informacion_fdic.html')
len(tablas)

[                             Bank Name             City  ST   CERT  \
 0                          Allied Bank         Mulberry  AR     91   
 1         The Woodbury Banking Company         Woodbury  GA  11297   
 2               First CornerStone Bank  King of Prussia  PA  35312   
 3                   Trust Company Bank          Memphis  TN   9956   
 4           North Milwaukee State Bank        Milwaukee  WI  20364   
 ..                                 ...              ...  ..    ...   
 542                 Superior Bank, FSB         Hinsdale  IL  32646   
 543                Malta National Bank            Malta  OH   6629   
 544    First Alliance Bank & Trust Co.       Manchester  NH  34264   
 545  National State Bank of Metropolis       Metropolis  IL   3815   
 546                   Bank of Honolulu         Honolulu  HI  21029   
 
                    Acquiring Institution        Closing Date  \
 0                           Today's Bank  September 23, 2016   
 1              

In [None]:
tablas[0].head()

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"


**XML (eXtensible Markup Language)** es otro formato común de datos estructurados que admite datos jerárquicos y anidados con metadatos. 

Anteriormente, se mostró la función **pandas.read_html**, que usa lxml o Beautiful Soup debajo del capó para analizar datos de HTML. 

XML y HTML son estructuralmente similares, pero XML es más general, permitiendo utilizar las etiquetas que el desarrollador desee en lugar de tener que atarse a etiquetas preestablecidas. 

En el siguiente ejemplo tomaremos un DataSet del *New York Metropolitan Transportation Authority (MTA)* que publica información sobre los servicios de Bus y Trenes.

In [None]:
from urllib.request import urlopen #Importamos Librería de manejo de URL 
from xml.etree.ElementTree import parse #Importamos Librería de gestión de formato XML 
from lxml import objectify


var_url = urlopen("https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/mta_performance.xml")
xmldoc = objectify.parse(var_url)
root = xmldoc.getroot()
data = []

skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ',
               'DESIRED_CHANGE', 'DECIMAL_PLACES']





**root.INDICATOR** devuelve un generador para cada elemento <INDICADOR> XML. Para cada entrada, podemos obtener dicho diccionario de los tags como YTD_ACTUAL. 


In [None]:
for elt in root.INDICATOR:  # Iteramos sobre el archivo XML y los diferentes Tags
    el_data = {}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data) # Agregamos contenidos en la variable data

perf = pd.DataFrame(data) # Convertimos data a un DataFrame
perf.head()


Unnamed: 0,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,INDICATOR_UNIT,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,%,95.0,96.9,95.0,96.9
1,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,%,95.0,96.0,95.0,95.0
2,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,%,95.0,96.3,95.0,96.9
3,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,%,95.0,96.8,95.0,98.3
4,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,%,95.0,96.6,95.0,95.8


## Formato HDF5

HDF5 es un formato de archivo ampliamente utilizado  destinado a almacenar grandes cantidades de datos científicos. Está disponible como una biblioteca C y tiene interfaces disponibles en muchos otros lenguajes, incluidos Java, Julia, MATLAB y Python.

"HDF" en HDF5 significa Hierarchical Data Format (formato jerárquico de datos).. 

Cada archivo HDF5 puede almacenar múltiples conjuntos de datos y metadatos compatibles. En comparación con formatos más simples, HDF5 admite la compresión sobre la marcha con una variedad de modos de compresión, lo que permite que los datos con patrones repetidos se almacenen de manera más eficiente. 

Entonces HDF5 puede ser una buena opción para trabajar con conjuntos de datos muy grandes que no caben en memoria, ya que puede leer y escribir eficientemente pequeñas secciones de conjuntos mucho más grandes.

Pandas proporciona una interfaz de alto nivel que simplifica el almacenamiento de objetos Series y DataFrame en dicho formato. La clase HDFStore funciona como un diccionario y maneja los detalles de bajo nivel:

In [None]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'a': np.random.randn(100)})


In [None]:
almacenamiento = pd.HDFStore('./sample_data/mydata.h5')
almacenamiento['obj1'] = df
almacenamiento

<class 'pandas.io.pytables.HDFStore'>
File path: ./sample_data/mydata.h5

In [None]:
almacenamiento['obj1'] #Los objetos almacenados en HDF5 pueden ser obtenidos mediante el mismo dict

Unnamed: 0,a
0,1.168377
1,-1.070367
2,-0.879063
3,-1.308869
4,-0.099605
...,...
95,-0.177014
96,1.924576
97,0.212393
98,-0.442360


HDFStore soporta dos tipos de esquema de almaceiamiento **Fijo** y **Tabla**, siendo el último más lento, pero soporta operaciones de consulta usando sintaxis booleana.


In [None]:
almacenamiento.put('obj2', df, format='table')
almacenamiento.select('obj2', where=['index >= 10 and index <= 15'])

Unnamed: 0,a
10,0.320571
11,1.262556
12,0.632169
13,2.208039
14,-0.021169
15,1.047713


La función **pandas.read_hdf** provee un shortcut a estas herramientas 


In [None]:
df.to_hdf('./sample_data/mydata.h5', 'obj3', format='table') #Almacenamos la información con formato "tabla"
pd.read_hdf('./sample_data/mydata.h5', 'obj3', mode='r+')


Y tambien podremos aplicar filtrado booleano agregando el parámetro where:

In [None]:
pd.read_hdf('./sample_data/mydata.h5', 'obj3', mode='r+', where=['index < 5'])

Unnamed: 0,a
0,-0.017164
1,-0.905609
2,-0.226702
3,-0.977376
4,0.797816


## Lectura desde archivos Microsoft Excel

Pandas también admite la lectura de datos tabulares almacenados en archivos Excel 2003 (y superiores) utilizando la clase **ExcelFile** o la función **pandas.read_excel**. Internamente, estas herramientas utilizan los paquetes complementarios **xlrd** y **openpyxl** para leer archivos XLS y XLSX, respectivamente. 

In [None]:
xlsx = pd.ExcelFile('https://github.com/al34n1x/DataScience/blob/master/3.Pandas/sample.xlsx?raw=true')
df = pd.read_excel(xlsx, 'Sheet1')

Para escribir datos Pandas a formato Excel debes primero crear un ExcelWriter, luego escribir los datos utilizando objetos Pandas a métodos excel




In [None]:
writer = pd.ExcelWriter('./sample_data/sample_output.xlsx')
df.to_excel(writer,'sheet1')
writer.save()

## Interactuando con APIs

Muchos sitios web tienen API públicas que proporcionan datos a través de JSON o algún otro formato. Hay varias formas de acceder a estas API desde Python; Un método fácil de usar es el paquete **requests**:

In [None]:
import requests
'''
La siguiente API nos da los últimos 30 issues de Pandas en Github.
Podemos utilizar un método GET HTTP para poder hacernos de la información
'''
url = 'https://api.github.com/repos/pandas-dev/pandas/issues' 
resp = requests.get(url)
resp

<Response [200]>

In [None]:
datos = resp.json() #datos sera una lista de un único elemento, donde se almacenará un Dataframe
datos[0]['title']

'DOC: Improve reshape\\concat'

In [None]:
issues = pd.DataFrame(datos, columns=['number', 'title',
                  'labels', 'state'])
issues

## Interactuando con Base de Datos

En un entorno empresarial, es posible que la mayoría de los datos no se almacenen en archivos de texto o Excel. Las bases de datos relacionales basadas en SQL (como Oracle, SQL Server, PostgreSQL y MySQL) se usan ampliamente, y muchas bases de datos alternativas se han vuelto bastante populares. 

Cargar datos de SQL en un DataFrame es bastante sencillo, y Pandas tiene algunas funciones para simplificar el proceso. 

In [None]:
import sqlite3

#Creamos una tabla en una base de datos sqlite3

query = """
    CREATE TABLE test 
    ( a VARCHAR(20), 
      b VARCHAR(20),
      c REAL, 
      d INTEGER
    );"""

con = sqlite3.connect('mydata.sqlite')
con.execute(query)



<sqlite3.Cursor at 0x7f567656dab0>

In [None]:
con.commit()

In [None]:
datos = [('Buenos Aires', 'La Plata', 1.25, 6),
              ('Mendoza', 'Ciudad de Mendoza', 2.6, 3),
              ('San Luis', 'San Luis', 1.7, 5)]


query = "INSERT INTO test VALUES(?, ?, ?, ?)"

con.executemany(query, datos)
con.commit()

In [None]:
cursor = con.execute('select * from test')
filas = cursor.fetchall()
filas

[('Buenos Aires', 'La Plata', 1.25, 6),
 ('Mendoza', 'Ciudad de Mendoza', 2.6, 3),
 ('San Luis', 'San Luis', 1.7, 5)]

Esto es un poco molesto, asumimos que el desarrollador no prefiere repetir estos pasos cada vez que consulta la base de datos. 

Es por eso que el proyecto **SQLAlchemy** es un popular kit de herramientas Python SQL que abstrae muchas de las diferencias comunes entre las bases de datos SQL. 
Pandas tiene una función **read_sql** que le permite leer datos fácilmente desde una conexión SQLAlchemy general. 

In [None]:
import sqlalchemy as sqla
db = sqla.create_engine('sqlite:///mydata.sqlite')
'''
Hacemos un query a la base de datos seleccionando todo 
en la tabla test y se lo asignamos al DataFrame df
'''
df = pd.read_sql('select * from test where b = \'La Plata\' ', db)
df

Unnamed: 0,a,b,c,d
0,Buenos Aires,La Plata,1.25,6
