# Data Loading, Storage,

In [1]:
import numpy as np
import pandas as pd

# Reading and Writing Data in Text Format

pandas presenta una serie de funciones para leer datos tabulares como un objeto DataFrame

se dara una descripción general de la mecánica de estas funciones, que están destinadas a convertir datos de texto en un DataFrame. Los argumentos opcionales para estas funciones pueden caer en algunas categorías:

Indexación

    se puede tratar una o más columnas como el DataFrame devuelto, y si desea obtener nombres de columna del archivo, el usuario, o no obtenerlos.

Inferencia de tipos y conversión de datos

    Esto incluye las conversiones de valores definidos por el usuario y la lista personalizada de marcadores de valores faltantes.

Análisis de fecha y hora

    Incluye la capacidad de combinación, incluida la combinación de información de fecha y hora distribuida en varias columnas en una sola columna en el resultado.

Iterando

    Soporte para iterar sobre fragmentos de archivos muy grandes.

Problemas de datos sucios

    Saltar filas o un pie de página, comentarios u otras cosas menores como datos numéricos con miles separados por comas.

Debido a lo desordenado que pueden ser los datos en el mundo real, algunas de las funciones de carga de datos (especialmente read_csv) se han vuelto muy complejas en sus opciones con el tiempo. Es normal sentirse abrumado por la cantidad de parámetros diferentes (read_csv tiene más de 50 al momento de escribir esto). La documentación de los pandas en línea tiene muchos ejemplos sobre cómo funciona cada uno de ellos, por lo que si tiene dificultades para leer un archivo en particular, puede haber un ejemplo lo suficientemente similar como para ayudarlo a encontrar los parámetros correctos.

Algunas de estas funciones, como pandas.read_csv, realizan inferencia de tipos, porque los tipos de datos de columna no forman parte del formato de datos. Eso significa que no necesariamente tiene que especificar qué columnas son numéricas, enteras, booleanas o de cadena. Otros formatos de datos, como HDF5, Feather y msgpack, tienen los tipos de datos almacenados en el formato.

Las fechas de manejo y otros tipos personalizados pueden requerir un esfuerzo adicional. Comencemos con un pequeño archivo de texto separado por comas (CSV)

Como esto está delimitado por comas, podemos usar read_csv para leerlo en un DataFrame

In [2]:
# sintaxis para leer archivo csv pd.read_csv("<direccion archivo>")
archivo_csv = pd.read_csv('examples/ex1.csv')

In [3]:
archivo_csv

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [4]:
type(archivo_csv)

pandas.core.frame.DataFrame

También podríamos haber usado read_table y especificado el delimitador

In [7]:
pd.read_table('examples/ex1.csv', sep=',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


Para leer este archivo, tiene un par de opciones. Puede permitir que los pandas asignen nombres de columna predeterminados, o puede especificar nombres usted mismo

In [10]:
pd.read_csv('examples/ex2.csv', header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [12]:
pd.read_csv('examples/ex2.csv', names=['col1', 'col2',' col3', 'col4', 'message'])

Unnamed: 0,col1,col2,col3,col4,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


# Reading Text Files in Pieces

Cuando procese archivos muy grandes o descubra el conjunto correcto de argumentos para procesar correctamente un archivo grande, es posible que solo desee leer en una pequeña parte de un archivo o iterar a través de fragmentos más pequeños del archivo.

Antes de mirar un archivo grande, hacemos que la configuración de visualización de los pandas sea más compacta

In [13]:
result = pd.read_csv('examples/ex6.csv')

In [14]:
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


Si solo desea leer una pequeña cantidad de filas (evitando leer el archivo completo), especifique eso con nrows

In [16]:
pd.read_csv('examples/ex6.csv', nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


# Writing Data to Text Format
Los datos también se pueden exportar a un formato delimitado. Consideremos uno de los archivos CSV leídos antes

In [17]:
data = pd.read_csv('examples/ex5.csv')

In [18]:
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


Con el método to_csv de DataFrame, podemos escribir los datos en un archivo separado por comas

In [19]:
# guardar en un archivo csv <dataframe>.to_csv("<direccion donde guardar>")
data.to_csv('resultado.csv')

In [20]:
with open('resultado.csv') as f:
    for line in f:
        print(line)

,something,a,b,c,d,message

0,one,1,2,3.0,4,

1,two,5,6,,8,world

2,three,9,10,11.0,12,foo



Se pueden usar otros delimitadores, por supuesto (escribiendo en sys.stdout para que imprima el resultado del texto en la consola)

In [21]:
import sys

In [22]:
data.to_csv(sys.stdout, sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


Los valores faltantes aparecen como cadenas vacías en la salida. Es posible que desee denotarlos por algún otro valor centinela

In [23]:
data.to_csv(sys.stdout, na_rep='valor_vacio')

,something,a,b,c,d,message
0,one,1,2,3.0,4,valor_vacio
1,two,5,6,valor_vacio,8,world
2,three,9,10,11.0,12,foo


Sin otras opciones especificadas, se escriben las etiquetas de fila y columna. Ambos pueden ser deshabilitados

In [24]:
data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


También puede escribir solo un subconjunto de las columnas y en el orden que elija

In [25]:
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'], na_rep="no_existe_valor")

a,b,c
1,2,3.0
5,6,no_existe_valor
9,10,11.0


# JSON Data

JSON (abreviatura de JavaScript Object Notation) se ha convertido en uno de los formatos estándar para enviar datos por solicitud HTTP entre navegadores web y otras aplicaciones. Es un formato de datos mucho más libre que un formulario de texto tabular como CSV. Aquí hay un ejemplo

In [26]:
obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

JSON es un código Python casi válido con la excepción de su valor nulo nulo y algunos otros matices (como no permitir las comas finales al final de las listas). Los tipos básicos son objetos (dictos), matrices (listas), cadenas, números, booleanos y nulos. Todas las claves en un objeto deben ser cadenas. Hay varias bibliotecas de Python para leer que JSON es un código de Python casi válido con la excepción de su valor nulo nulo y algunos otros matices (como no permitir las comas finales al final de las listas). Los tipos básicos son objetos (dictos), matrices (listas), cadenas, números, booleanos y nulos. Todas las claves en un objeto deben ser cadenas. Hay varias bibliotecas de Python para leer.

In [27]:
import json

In [28]:
result = json.loads(obj)

In [30]:
type(result)

dict

In [31]:
result

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

json.dumps, por otro lado, convierte un objeto Python nuevamente a JSON

In [33]:
asjson = json.dumps(result)

In [34]:
type(asjson)

str

Pandas.read_json puede convertir automáticamente conjuntos de datos JSON en arreglos específicos en una serie o un marco de datos. Por ejemplo

In [39]:
with open('examples/example.json') as f:
    for line in f:
        print(line)

[{"a": 1, "b": 2, "c": 3},

 {"a": 4, "b": 5, "c": 6},

 {"a": 7, "b": 8, "c": 9}]



Las opciones predeterminadas para pandas.read_json suponen que cada objeto en la matriz JSON es una fila en la tabla

In [40]:
data = pd.read_json('examples/example.json')

In [41]:
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


Si se necesita exportar datos de pandas a JSON, una forma es usar los métodos to_json en Series y DataFrame

In [42]:
print(data.to_json())

{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},"c":{"0":3,"1":6,"2":9}}


In [43]:
print(data.to_json(orient='records'))

[{"a":1,"b":2,"c":3},{"a":4,"b":5,"c":6},{"a":7,"b":8,"c":9}]
