6 - Carga de datos, Almacenamiento y Formatos de Archivos
=========================================================

#### IPN

#### 20/nov/2020

-   [Lectura y escritura de datos en formato de
    texto](#lectura-y-escritura-de-datos-en-formato-de-texto)
    -   [Lectura de Archivos de Texto, en
        Segmentos](#lectura-de-archivos-de-texto-en-segmentos)
    -   [Escritura de Datos en Formato de
        Texto](#escritura-de-datos-en-formato-de-texto)
    -   [Escritura de Datos en Formato de
        Texto](#escritura-de-datos-en-formato-de-texto-1)
    -   [Datos JSON](#datos-json)
    -   [XML y HTML](#xml-y-html)
-   [Formatos de datos binarios](#formatos-de-datos-binarios)
    -   [Formato HDF5](#formato-hdf5)
    -   [Archivos de Microsoft Excel](#archivos-de-microsoft-excel)
-   [Interacción con APIs para web](#interacción-con-apis-para-web)
-   [Interacción con bases de datos](#interacción-con-bases-de-datos)
-   [Bibliografía](#bibliografía)

 

 

 

NOTA: *Los archivos examples y datasets se pueden obtener del sitio
<a href="https://github.com/wesm/pydata-book" class="uri">https://github.com/wesm/pydata-book</a>*

 

Acceder a los datos es un primer paso necesario para usar la mayoría de
las herramientas de este curso. Nos enfocaremos en la entrada y salida
de datos usando pandas, aunque hay numerosas herramientas en otras
bibliotecas para ayudar con la lectura y escritura de datos en varios
formatos. La entrada y salida generalmente se dividen en algunas
categorías principales:

-   Leer archivos de texto y otros formatos en disco más eficientes
-   Cargar datos de bases de datos
-   Interactuar con fuentes de red como APIs de web.

 

 

Lectura y escritura de datos en formato de texto
------------------------------------------------

 

pandas presenta una serie de funciones para leer datos tabulares como un
objeto DataFrame. La siguiente tabla resume algunos de ellos, aunque es
probable que `read_csv` y `read_table` sean los más utilizados.

 

#### Funciones de pandas para Entrada/Salida

| *Función*               | *Descripción*                                                                   |
|:------------------------|:--------------------------------------------------------------------------------|
| `pandas.read_clipboard` | Lee el texto del portapapeles y lo pasa a `read_csv`.                           |
| `pandas.read_csv`       | Lea un archivo de valores separados por comas (csv) en el DataFrame.            |
| `pandas.read_excel`     | Lea un archivo Excel en un DataFrame de pandas.                                 |
| `pandas.read_feather`   | Carga un objeto con formato feather desde la ruta del archivo.                  |
| `pandas.read_fwf`       | Lea una tabla de líneas formateadas de ancho fijo en el DataFrame.              |
| `pandas.read_hdf`       | Lee del almacenamiento, ciérralo si lo abrimos.                                 |
| `pandas.read_html`      | Lee tablas HTML en una lista de objetos DataFrame.                              |
| `pandas.read_json`      | Convierte una cadena JSON en objeto pandas.                                     |
| `pandas.read_pickle`    | Carga el objeto pandas en formato pickle (o cualquier objeto) desde un archivo. |
| `pandas.read_sas`       | Lee los archivos SAS almacenados como archivos de formato XPORT o SAS7BDAT.     |
| `pandas.read_sql`       | Lee la tabla de consulta o base de datos SQL en un DataFrame.                   |
| `pandas.read_stata`     | Lee el archivo Stata en un DataFrame.                                           |
| `pandas.read_table`     | Lea el archivo delimitado general en un DataFrame.                              |

 

Estas funciones convierten datos de texto en un DataFrame. Los
argumentos opcionales para estas funciones pueden clasificarse en las
siguientes categorías:

-   ***Indexación***. Como DataFrame retornado puede obtener una o más
    columnas, y si desea puede obtener nombres de columna del archivo,
    obtener el usuario, o nada.

-   ***Inferencia de tipos y conversión de datos*** Esto incluye las
    conversiones de valores definidos por el usuario y la lista
    personalizada de marcadores de valores faltantes.

-   ***Análisis de fecha y hora*** Incluye la capacidad de combinación,
    incluida la combinación de información de fecha y hora distribuida
    en varias columnas en una sola columna en el resultado.

-   ***Iteración*** Soporte para iterar sobre fragmentos de archivos muy
    grandes.

-   ***Problemas de datos no-limpios*** Saltar filas o un pie de página,
    comentarios u otras cosas menores como datos numéricos con miles
    separados por comas.

 

Debido a lo desordenado que pueden ser los datos en el mundo real,
algunas de las funciones de carga de datos (especialmente `read_csv`) se
han vuelto muy complejas en sus opciones. Es normal sentirse abrumado
por la cantidad de parámetros diferentes (`read_csv` tiene más de 50 al
momento de escribir esto). La documentación de pandas en línea tiene
muchos ejemplos sobre cómo funciona cada uno de ellos, por lo que si
tiene dificultades para leer un archivo en particular, puede haber un
ejemplo lo suficientemente similar como para ayudarlo a encontrar los
parámetros correctos.

Algunas de estas funciones, como `pandas.read_csv`, realizan *inferencia
de tipos*, porque los tipos de datos de columna no forman parte del
formato de datos. Esto significa que no necesariamente tenemos que
especificar qué columnas son numéricas, enteras, booleanas o de cadena.
Otros formatos de datos, como HDF5, Feather y msgpack, tienen los tipos
de datos almacenados en el formato.

El manejo de fechas y otros tipos personalizados pueden requerir un
esfuerzo adicional. Comencemos con un pequeño archivo de texto separado
por comas (CSV):


In [None]:
  !cat "./examples/ex1.csv"

In [None]:
Aquí utilizamos el comando de Linux `cat` para imprimir el contenido sin
formato del archivo en la pantalla. En Windows usamos:

 

``` p
In [3]: !type "C: … \examples\ex1.csv"
a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo
```

 

Como el archivo está delimitado por comas, podemos usar `read_csv` para
leerlo en un DataFrame:

 

In [None]:

In [4]: df = pd.read_csv("/media/linux/Gateway/Documents and Settings/DavidJ/Documents/Python/CURSO_DE_PYTHON/LIBROS/O'Reilly/pydata-book-2nd-edition/examples/ex1.csv")

In [5]: df
Out[5]: 
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


In [None]:
 

También podríamos haber usado `read_table` y especificado el
delimitador:

In [None]:
import pandas as pd
import numpy as np

In [None]:
 
df = pd.read_table("./examples/ex1.csv") 

Aquí utilizamos el comando de Linux `cat` para imprimir el contenido sin
formato del archivo en la pantalla. En Windows usamos:

 

``` p
In [3]: !type "C: … \examples\ex1.csv"
a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo
```

 

Como el archivo está delimitado por comas, podemos usar `read_csv` para
leerlo en un DataFrame:

 

In [None]:
df = pd.read_csv("./examples/ex1.csv")

In [None]:
df

También podríamos haber usado `read_table` y especificado el
delimitador:

 

In [None]:
pd.read_table("./examples/ex1.csv", sep=',')
  

In [None]:
Un archivo no siempre tendrá una fila de encabezado. Consideremos este
archivo:

 

In [None]:
 
!cat "./examples/ex2.csv"
 

 

Para leer este archivo, tenemos un par de opciones. Podemos permitir que
pandas asigne nombres de columna predeterminados, o podemos especificar
los nombres:

 

In [None]:
pd.read_csv("./examples/ex2.csv", header=None)

In [None]:
 pd.read_csv("./examples/ex2.csv", names=['a', 'b', 'c', 'd', 'message'])

Supongamos que se desea que la columna `message` sea el índice del
DataFrame retornado. Podemos indicar que desea la columna en el índice 4
o nombrada `message` usando el argumento `index_col`:

 

Supongamos que se desea que la columna `message` sea el índice del
DataFrame retornado. Podemos indicar que desea la columna en el índice 4
o nombrada `message` usando el argumento `index_col`:

 

 

In [None]:
names = ['a', 'b', 'c', 'd', 'message']

In [None]:
pd.read_csv("./examples/ex2.csv", names=names, index_col='message')

En el caso de que deseemos formar un índice jerárquico a partir de
varias columnas, pasamos una lista de números o nombres de columna:


In [None]:
 !cat "./examples/csv_mindex.csv"

En el caso de que deseemos formar un índice jerárquico a partir de
varias columnas, pasamos una lista de números o nombres de columna:

 

In [None]:
parsed = pd.read_csv("./examples/csv_mindex.csv", index_col=['key1', 'key2'])

In [None]:
parsed

En algunos casos, puede que una tabla no tenga un delimitador fijo,
usando espacios en blanco o algún otro patrón para separar los campos.
Consideremos un archivo de texto que se ve así:

 


In [None]:
  list(open("./examples/ex3.txt"))

Los campos aquí están separados por una cantidad variable de espacios en
blanco. En estos casos, podemos pasar una expresión regular como
delimitador para `read_table`. Esto se puede expresar con la expresión
regular `\s+`, entonces tenemos:

 
 

In [None]:
resultado = pd.read_table("./examples/ex3.txt", sep='\s+') #pd.read_table

In [None]:
resultado

Como había un nombre de columna menos que el número de filas de datos,
`read_table` infiere que la primera columna debería ser el índice del
DataFrame en este caso especial.

Las funciones del analizador tienen muchos argumentos adicionales para
manejar la amplia variedad de formatos de archivo. Por ejemplo, podemos
omitir la primera, tercera y cuarta fila de un archivo con `skiprows`:

 

In [None]:
!cat "./examples/ex4.csv"

In [None]:
  pd.read_csv("./examples/ex4.csv", skiprows=[0, 2, 3])

El manejo de valores perdidos es una parte importante y sutil del
proceso de análisis de archivos. Los datos faltantes generalmente no
están presentes (cadena vacía) o están marcados por algún valor
*centinela*. Por “default”, los pandas usan un conjunto de centinelas
comunes, como `NA` y `NULL`:

 
 

In [None]:
!cat "./examples/ex5.csv"

In [None]:
resultado = pd.read_csv("./examples/ex5.csv")

In [None]:
resultado

In [None]:
pd.isnull(resultado)

La opción `na_values` puede tomar una lista o un conjunto de cadenas
para considerar los valores faltantes:

 

In [None]:
resultado = pd.read_csv("./examples/ex5.csv", na_values=['NULL'])

In [None]:
resultado

Se pueden especificar diferentes centinelas de `NA` para cada columna:

 
 

In [None]:
centinelas = {'message': ['foo', 'NA'], 'something': ['two']}

In [None]:
pd.read_csv("./examples/ex5.csv", na_values = centinelas)

 

La siguiente tabla enumera algunas opciones de uso frecuente en
`pandas.read_csv` y `pandas.read_table`.

 

 

#### Algunos argumentos de la función `read_csv/read_table`

<table style="width:99%;">
<colgroup>
<col style="width: 23%" />
<col style="width: 76%" />
</colgroup>
<thead>
<tr class="header">
<th style="text-align: left;"><em>Argumento</em></th>
<th style="text-align: left;"><em>Descripción</em></th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td style="text-align: left;">chunksize</td>
<td style="text-align: left;">Retorna el objeto TextFileReader para la iteración.</td>
</tr>
<tr class="even">
<td style="text-align: left;">comment</td>
<td style="text-align: left;">Indica que el resto de la línea no debe analizarse.</td>
</tr>
<tr class="odd">
<td style="text-align: left;">converters</td>
<td style="text-align: left;">Dict de funciones para convertir valores en ciertas columnas. Las claves pueden ser enteros o etiquetas de columna.</td>
</tr>
<tr class="even">
<td style="text-align: left;">date_parser</td>
<td style="text-align: left;">Función que se utiliza para convertir una secuencia de columnas de cadena en un arreglo de instancias de fecha y hora.</td>
</tr>
<tr class="odd">
<td style="text-align: left;">dayfirst</td>
<td style="text-align: left;">Fechas en formato DD/MM, formato internacional y Europeo.</td>
</tr>
<tr class="even">
<td style="text-align: left;">encoding</td>
<td style="text-align: left;">Codificación a usar para UTF al leer/escribir (ej. “Utf-8”). Lista de codificaciones estándar de Python.</td>
</tr>
<tr class="odd">
<td style="text-align: left;">filepath_or_buffer</td>
<td style="text-align: left;">Cualquier ruta de cadena válida es aceptable. La cadena podría ser una URL</td>
</tr>
<tr class="even">
<td style="text-align: left;">header</td>
<td style="text-align: left;">Número(s) de fila para usar como nombres de columna y el inicio de los datos.</td>
</tr>
<tr class="odd">
<td style="text-align: left;">index_col</td>
<td style="text-align: left;">Columnas(s) a usar como etiquetas de fila del DataFrame, ya sea como nombre de cadena o índice de columna. Si se da una secuencia de int/str, se usa un MultiIndex.</td>
</tr>
<tr class="even">
<td style="text-align: left;">iterator</td>
<td style="text-align: left;">Retorna el objeto TextFileReader para iterar u obtener fragmentos con get_chunk().</td>
</tr>
<tr class="odd">
<td style="text-align: left;">keep_date_col</td>
<td style="text-align: left;">Si True y parse_dates especifica la combinación de varias columnas, mantenga las columnas originales.</td>
</tr>
<tr class="even">
<td style="text-align: left;">names</td>
<td style="text-align: left;">Lista de nombres de columna para usar. Si el archivo contiene una fila de encabezado, debe pasar explícitamente header = 0 para anular los nombres de columna. No se permiten duplicados en esta lista.</td>
</tr>
<tr class="odd">
<td style="text-align: left;">na_values</td>
<td style="text-align: left;">Cadenas adicionales para reconocer como NA / NaN.</td>
</tr>
<tr class="even">
<td style="text-align: left;">nrows</td>
<td style="text-align: left;">Número de filas de archivo para leer. Útil para leer piezas de archivos grandes.</td>
</tr>
<tr class="odd">
<td style="text-align: left;">parse_dates</td>
<td style="text-align: left;">El comportamiento es el siguiente:<br />
<strong><em>- booleano</em></strong>. Si es verdadero -&gt; intenta analizar el índice.<br />
<strong><em>- lista de int o nombres</em></strong>. p.ej. Si [1, 2, 3] -&gt; intenta analizar las columnas 1, 2, 3 cada una como una columna de fecha separada.<br />
lista de listas p.ej. Si [[1, 3]] -&gt; combina las columnas 1 y 3 y analiza como una sola columna de fecha.<br />
<strong><em>- dict</em></strong>, p. e. {‘Foo’: [1, 3]} -&gt; analiza las columnas 1, 3 como fecha y resultado de la llamada ‘foo’</td>
</tr>
<tr class="even">
<td style="text-align: left;">Sep o delimiter</td>
<td style="text-align: left;">Delimitador a utilizar.</td>
</tr>
<tr class="odd">
<td style="text-align: left;">skiprows</td>
<td style="text-align: left;">Números de línea para omitir (índice 0) o número de líneas para omitir (int) al comienzo del archivo.</td>
</tr>
<tr class="even">
<td style="text-align: left;">skipfooter</td>
<td style="text-align: left;">Número de líneas en la parte inferior del archivo que se omitirá (no se admite con motor = “c”).</td>
</tr>
<tr class="odd">
<td style="text-align: left;">squeeze</td>
<td style="text-align: left;">Si los datos analizados solo contienen una columna, retorna una Serie.</td>
</tr>
<tr class="even">
<td style="text-align: left;">thousands</td>
<td style="text-align: left;">Separador de millares.</td>
</tr>
<tr class="odd">
<td style="text-align: left;">verbose</td>
<td style="text-align: left;">Indique el número de valores de NA colocados en columnas no numéricas.</td>
</tr>
</tbody>
</table>

 

 

 

### Lectura de Archivos de Texto, en Segmentos

 

Cuando procesamos archivos muy grandes o queremos encontrar el conjunto
adecuado de argumentos para procesar correctamente un archivo grande, es
posible que solo deseemos leer una pequeña parte del archivo o iterar a
través de fragmentos más pequeños del archivo.

Antes de mirar un archivo grande, hacemos que la configuración de
visualización de pandas sea más compacta:

 
 

In [None]:
pd.options.display.max_rows = 10

 

Ahora tenemos:

 

In [None]:
resultado = pd.read_csv( "./examples/ex6.csv")

In [None]:
resultado

Para leer una pequeña cantidad de filas usamos `nrows`:

In [None]:
pd.read_csv("./examples/ex6.csv", nrows=5)

Para leer un archivo en segmentos especifique `chunksize` como un número
de filas:
 

In [None]:
chunker = pd.read_csv("./examples/ex6.csv", chunksize=1000)

In [None]:
chunker

El objeto TextParser retornado por `read_csv` permite iterar sobre las
partes del archivo de acuerdo con el tamaño de `chunksize`. Por ejemplo,
podemos iterar sobre `ex6.csv`, agregando los recuentos de valores en la
columna `key`’ de la siguiente manera:

 

 

In [None]:
chunker = pd.read_csv("./examples/ex6.csv", chunksize=1000)

In [None]:
tot = pd.Series([],dtype=float)

In [None]:
for piece in chunker:
    ...:     tot = tot.add(piece['key'].value_counts(), fill_value=0)
    ...:     

In [None]:
tot = tot.sort_values(ascending=False)

 

Tenemos entonces:

 

 

In [None]:
tot[:10]

 

TextParser también está equipado con un método `get_chunk` que permite
leer segmentos de un tamaño arbitrario.

 

 

 

### Escritura de Datos en Formato de Texto

 

Los datos también se pueden exportar a un formato con diferente
delimitador. Consideremos uno de los archivos CSV leídos anteriormente:

 

In [None]:
data = pd.read_csv("./examples/ex5.csv")

In [None]:
data

 

Con el método `to_csv` de DataFrame, podemos escribir los datos en un
archivo separado por comas:

 

 

In [None]:
data.to_csv("./examples/out.csv")

In [None]:
In [19]: !cat "./examples/out.csv"

 

Por supuesto podemos usar otros delimitadores escribiendo en
`sys.stdout` para que imprima el texto en la consola:

 
 

In [None]:
import sys

In [None]:
data.to_csv(sys.stdout, sep='|')

 

Los valores faltantes aparecen como cadenas vacías en la salida. Es
posible que desee denotarlos por algún otro valor centinela:

 
 

In [None]:
data.to_csv(sys.stdout, na_rep='NULL')

 

Si no se especifican otras opciones, se escriben las etiquetas de fila y
columna. Ambas pueden deshabilitarse:

 
 

In [None]:
data.to_csv(sys.stdout, index=False, header=False)

También podemos escribir solo un subconjunto de las columnas, y en el
orden deseado:

In [None]:
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])

Series también tiene un método `to_csv`:

In [None]:
dates = pd.date_range('1/1/2000', periods=7)

In [None]:
ts = pd.Series(np.arange(7), index=dates)

In [None]:
ts.to_csv("./examples/tseries.csv", header = False)

In [None]:
!cat "./examples/tseries.csv"

 

 

### Escritura de Datos en Formato de Texto

 

Es posible cargar la mayoría de las formas de datos tabulares del disco
utilizando funciones como `pandas.read_table`. Sin embargo en algunos
casos es necesario algún procesamiento manual. No es raro recibir un
archivo con una o más líneas mal formadas que confundan a `read_table`.
Para ilustrar las herramientas básicas, consideremos un pequeño archivo
CSV:

 



In [None]:
!cat "./examples/ex7.csv"

 

Para cualquier archivo con un delimitador de un solo carácter, podemos
usar el módulo interno de Python `csv`. Para usarlo, pasamos cualquier
archivo abierto u objeto similar a un archivo a `csv.reader`:

 
 

In [None]:
import csv

In [None]:
f = open("./examples/ex7.csv")

In [None]:
lector = csv.reader(f)

 

Iterar a través de lector como un archivo produce tuplas de valores con
cualquier carácter de comillas eliminado:

 
 

In [None]:
for line in lector:
   ...:     print(line)
   ...:     

A partir de ahí, podemos hacer los arreglos necesarios para poner los
datos en la forma deseada. Veamos esto paso a paso. Primero, leemos el
archivo en una lista de líneas:

 
 

In [None]:
with open("./examples/ex7.csv") as f:      
   ...:     líneas = list(csv.reader(f))

 

 

Luego, dividimos las líneas en la línea de encabezado y las líneas de
datos:

 
 

In [None]:
header, values = líneas[0], líneas[1:]

 

 

Luego podemos crear un diccionario de columnas de datos utilizando una
comprensión del diccionario y la expresión `zip (* values)`, que
transpone filas a columnas:

 
 

In [None]:
data_dict = {h: v for h, v in zip(header, zip(*values))}

In [None]:
data_dict

In [None]:
Los archivos CSV vienen en muchos sabores diferentes. Para definir un
nuevo formato con un delimitador diferente, una convención de comillas o
un terminador de línea diferente, definimos una subclase simple de
`csv.Dialect`:

 
 

In [None]:
class my_dialect(csv.Dialect):    #solo texto
 ...:   lineterminator = '\n'
 ...:   delimiter = ';'
 ...:   quotechar = '"'
 ...:   quoting = csv.QUOTE_MINIMAL

reader = csv.reader(f, dialect=my_dialect)                 # texto

 

 

También podemos proporcionar parámetros de dialecto CSV individuales a
csv.reader sin tener que definir una subclase:

 
 

reader = csv.reader(f, delimiter='|')  # solo texto

 

### Datos JSON

 

JSON (abreviatura de JavaScript Object Notation) se ha convertido en uno
de los formatos estándar para enviar datos por solicitud HTTP entre
navegadores web y otras aplicaciones. Es un formato de datos mucho más
libre que una forma tabular de texto como CSV. Por ejemplo:

 
 

 

 

 

#### Opciones para dialectos CSV

| *Argumento*        | *Descripción*                                                                                                                                                                                                                                                                                                            |
|:-------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| `delimiter`        | Cadena de un carácter utilizada para separar campos. El valor de “default” es `','`.                                                                                                                                                                                                                                     |
| `doublequote`      | Controla cómo se deben citar las instancias de *quotechar* que aparecen dentro de un campo. Cuando es `True`, el carácter se duplica. Cuando es `False`, el *escapechar* se usa como prefijo del *quotechar*. Por “default” es `True`.                                                                                   |
| `escapechar`       | Cadena de un carácter utilizada por el escritor para escapar del *delimiter* si la cita se establece en `QUOTE_NONE` y del *quotechar* si *doublequote* es `False`. Al leer, el *escapechar* elimina cualquier significado especial del siguiente carácter. Su valor de “default” es `None`, lo que desactiva el escape. |
| `lineterminator`   | La cadena utilizada para terminar las líneas producidas por el escritor. El valor de “default” es `'\r\n'`.                                                                                                                                                                                                              |
| `quotechar`        | Cadena de un carácter utilizada para citar campos que contienen caracteres especiales, como el *delimiter* o *quotechar*, o que contienen caracteres de nueva-línea. El valor de “default” es `‘ ” ’`.                                                                                                                   |
| `quoting`          | Controla cuándo las citas deben ser generadas por el escritor y reconocidas por el lector. Puede tomar cualquiera de las constantes `QUOTE_*` y el valor de “default” es `QUOTE_MINIMAL`.                                                                                                                                |
| `skipinitialspace` | Cuando es `True`, se ignora el espacio en blanco que sigue inmediatamente al *delimiter*. El valor de “default” es `False`.                                                                                                                                                                                              |
| `strict`           | Cuando es `True`, genera la excepción `Error` en una entrada CSV incorrecta. El valor de “default” es `False`.                                                                                                                                                                                                           |

 

Para archivos con delimitadores mas complicados o de caracteres
múltiples, no es posible utilizar el módulo csv. En esos casos, tenemos
que usar seccionamiento de líneas y otra limpieza utilizando el método
de cadena `split` o el método de expresión regular `re.split`.

Para escribir manualmente archivos delimitados, podemos usar
`csv.writer` el cual acepta un objeto de archivo abierto y grabable y
las mismas opciones de dialecto y formato que `csv.reader`:

 
 

In [None]:
... p                                                      # solo texto
writer.writerow(('one', 'two', 'three')) 
 ...: writer.writerow(('1', '2', '3')) 
 ...: writer.writerow(('4', '5', '6')) 
 ...: writer.writerow(('7', '8', '9')) 
...

In [None]:
obj = """
    ...:        {"name": "Wes",
    ...:         "places_lived": ["United States", "Spain", "Germany"],
    ...:         "pet": null,
    ...:         "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
    ...:                {"name": "Katie", "age": 38,  "pets": ["Sixes", "Stache", "Cisco"]}] 
    ...:}
    ...: """
    

 

JSON es un código de Python casi válido con la excepción de su valor
nulo `null` y algunos otros matices (como no permitir las comas finales
al final de las listas). Los tipos básicos son objetos (dicts), arreglos
(listas), cadenas, números, booleanos y nulos. Todas las claves en un
objeto deben ser cadenas. Hay varias bibliotecas de Python para leer y
escribir datos JSON. Usaremos `json`, ya que es interno en la biblioteca
estándar de Python. Para convertir una cadena JSON a Python usamos
`json.loads`:

 
 

In [None]:
import json

In [None]:
result = json.loads(obj)

In [None]:
result

 

Por otro lado `json.dumps` convierte un objeto Python de nuevo a JSON:

 

In [None]:
a_json = json.dumps(result)

 

 

Depende del usuario cómo convertir un objeto JSON o una lista de objetos
en un DataFrame u otra estructura de datos para su análisis.
Convenientemente, es posible pasar una lista de dicts (que anteriormente
eran objetos JSON) al constructor DataFrame y seleccionar un subconjunto
de los campos de datos.

 

In [None]:
siblings = pd.DataFrame(result['siblings'], columns=['name', 'age'])

In [None]:
siblings

 

`pandas.read_json` puede convertir automáticamente conjuntos de datos
JSON en arreglos específicos en una Serie o un DataFrame. Por ejemplo:

 
 

In [None]:
!cat "./examples/example.json"

 

Las opciones de “default” para `pandas.read_json` suponen que cada
objeto en el arreglo JSON es una fila en la tabla:

 
 

In [None]:
data = pd.read_json("./examples/example.json")

In [None]:
data

Una forma de exportar datos de pandas a JSON, es usar los métodos
`to_json` en Series y DataFrame:

 

In [None]:
print(data.to_json())

In [None]:
print(data.to_json(orient='records'))

[{"a":1,"b":2,"c":3},{"a":4,"b":5,"c":6},{"a":7,"b":8,"c":9}]

 

 

 

 

### XML y HTML

 

Python tiene muchas bibliotecas para leer y escribir datos en los
omnipresentes formatos HTML y XML. Los ejemplos incluyen lxml, Beautiful
Soup y html5lib. Mientras que lxml es comparativamente mucho más rápido
en general, las otras bibliotecas pueden manejar mejor los archivos HTML
o XML que tengan formato incorrecto.

pandas tiene una función interna, `read_html`, que usa bibliotecas como
lxml y Beautiful Soup para analizar automáticamente las tablas de los
archivos HTML como objetos DataFrame. Para mostrar cómo funciona esto,
el autor descargó un archivo HTML (utilizado en la documentación de los
pandas) de la agencia gubernamental de la FDIC de los Estados Unidos que
muestra quiebras bancarias. Primero, es necesario instalar algunas
bibliotecas adicionales utilizadas por `read_html`:

 
 
conda install lxml
pip install beautifulsoup4 html5lib
 

 

La función `pandas.read_html` tiene varias opciones, pero por “default”
busca e intenta analizar todos los datos tabulares contenidos en

tags\`. El resultado es una lista de objetos DataFrame:

 

 

In [None]:
tablas = pd.read_html("./examples/fdic_failed_bank_list.html")


In [None]:
fallas = tablas[0]

In [None]:
fallas

In [None]:
fallas.head()

In [None]:
Out[30]: 
                      Bank Name  ...       Updated Date
0                   Allied Bank  ...  November 17, 2016
1  The Woodbury Banking Company  ...  November 17, 2016
2        First CornerStone Bank  ...  September 6, 2016
3            Trust Company Bank  ...  September 6, 2016
4    North Milwaukee State Bank  ...      June 16, 2016

[5 rows x 7 columns]
```

 

Para obtener todas las columnas hacer:

 

 

In [None]:
pd.set_option('display.max_column',None)

In [None]:
fallas.head()

In [None]:
Out[32]: 
                      Bank Name             City  ST   CERT  \
0                   Allied Bank         Mulberry  AR     91   
1  The Woodbury Banking Company         Woodbury  GA  11297   
2        First CornerStone Bank  King of Prussia  PA  35312   
3            Trust Company Bank          Memphis  TN   9956   
4    North Milwaukee State Bank        Milwaukee  WI  20364   

                 Acquiring Institution        Closing Date       Updated Date  
0                         Today's Bank  September 23, 2016  November 17, 2016  
1                          United Bank     August 19, 2016  November 17, 2016  
2  First-Citizens Bank & Trust Company         May 6, 2016  September 6, 2016  
3           The Bank of Fayette County      April 29, 2016  September 6, 2016  
4  First-Citizens Bank & Trust Company      March 11, 2016      June 16, 2016  
```

 

Debido a que `fallas` tienen muchas columnas, pandas inserta un carácter
de salto de línea `\`.

Aquí podríamos proceder a realizar algunos análisis y limpieza de datos,
como calcular el número de quiebras bancarias por año:

 
 

In [None]:
close_timestamps = pd.to_datetime(fallas['Closing Date']) 

In [None]:
close_timestamps.dt.year.value_counts()

In [None]:
Out[34]: 
2010    157
2009    140
2011     92
2012     51
2008     25
2013     24
2014     18
2002     11
2015      8
2016      5
2004      4
2001      4
2007      3
2003      3
2000      2
Name: Closing Date, dtype: int64
```

 

 

 

#### Analizando XML con lxml.objectify

 

XML (eXtensible Markup Language) es otro formato común de datos
estructurados, que admite datos jerárquicos y anidados con metadatos.

La función `pandas.read_html`, mostrada anteriormente usa lxml o
Beautiful Soup para analizar datos de HTML. XML y HTML son
estructuralmente similares, pero XML es más general. Mostraremos un
ejemplo de cómo usar lxml para analizar datos de un formato XML más
general.

La Autoridad de Transporte Metropolitano de Nueva York (MTA) publica una
serie de datos sobre sus servicios de autobús y tren. Aquí veremos los
datos de rendimiento, que están contenidos en un conjunto de archivos
XML. Cada servicio de tren o autobús tiene un archivo diferente que
contiene datos mensuales como una serie de registros XML que se ven así:

 

``` p
<INDICATOR>
  <INDICATOR_SEQ>373889</INDICATOR_SEQ>
  <PARENT_SEQ></PARENT_SEQ>
  <AGENCY_NAME>Metro-North Railroad</AGENCY_NAME>
  <INDICATOR_NAME>Escalator Availability</INDICATOR_NAME>
  <DESCRIPTION>Percent of the time that escalators are operational
  systemwide. The availability rate is based on physical observations performed
  the morning of regular business days only. This is a new indicator the agency
  began reporting in 2009.</DESCRIPTION>
  <PERIOD_YEAR>2011</PERIOD_YEAR>
  <PERIOD_MONTH>12</PERIOD_MONTH>
  <CATEGORY>Service Indicators</CATEGORY>
  <FREQUENCY>M</FREQUENCY>
  <DESIRED_CHANGE>U</DESIRED_CHANGE>
  <INDICATOR_UNIT>%</INDICATOR_UNIT>
  <DECIMAL_PLACES>1</DECIMAL_PLACES>
  <YTD_TARGET>97.00</YTD_TARGET>
  <YTD_ACTUAL></YTD_ACTUAL>
  <MONTHLY_TARGET>97.00</MONTHLY_TARGET>
  <MONTHLY_ACTUAL></MONTHLY_ACTUAL>
</INDICATOR>
```

 

Usando `lxml.objectify`, analizamos el archivo y obtenemos una
referencia al nodo raíz del archivo XML con `getroot`:

 
 

In [None]:
from lxml import objectify

In [None]:
path = "./datasets/mta_perf/Performance_MNR.xml"

In [None]:
parsed = objectify.parse(open(path))

In [None]:
root = parsed.getroot()

 

 

`root.INDICATOR` retorna un generador que produce cada elemento
`<INDICATOR>XML`. Para cada registro, podemos completar un dict de
nombres de etiquetas (como `YTD_ACTUAL`) a valores de datos (excluyendo
algunas etiquetas):

 
 

In [None]:
datos = []

In [None]:
skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ', 'DESIRED_CHANGE', 'DECIMAL_PLACES']

In [None]:
for elt in root.INDICATOR:
    ...:     el_data = {}
    ...:     for child in elt.getchildren():
    ...:         if child.tag in skip_fields:
    ...:             continue
    ...:         el_data[child.tag] = child.pyval
    ...:     datos.append(el_data)
    ...:     

 

Por último, convertimos esta lista de dicts en un DataFrame:

 
 

In [None]:
In [67]: 

In [None]:
perf = pd.DataFrame(datos)

In [None]:
perf.head()

In [None]:
Out[68]: 
            AGENCY_NAME                        INDICATOR_NAME  \
0  Metro-North Railroad  On-Time Performance (West of Hudson)   
1  Metro-North Railroad  On-Time Performance (West of Hudson)   
2  Metro-North Railroad  On-Time Performance (West of Hudson)   
3  Metro-North Railroad  On-Time Performance (West of Hudson)   
4  Metro-North Railroad  On-Time Performance (West of Hudson)   

                                         DESCRIPTION  PERIOD_YEAR  \
0  Percent of commuter trains that arrive at thei...         2008   
1  Percent of commuter trains that arrive at thei...         2008   
2  Percent of commuter trains that arrive at thei...         2008   
3  Percent of commuter trains that arrive at thei...         2008   
4  Percent of commuter trains that arrive at thei...         2008   

   PERIOD_MONTH            CATEGORY FREQUENCY INDICATOR_UNIT YTD_TARGET  \
0             1  Service Indicators         M              %         95   
1             2  Service Indicators         M              %         95   
2             3  Service Indicators         M              %         95   
3             4  Service Indicators         M              %         95   
4             5  Service Indicators         M              %         95   

  YTD_ACTUAL MONTHLY_TARGET MONTHLY_ACTUAL  
0       96.9             95           96.9  
1         96             95             95  
2       96.3             95           96.9  
3       96.8             95           98.3  
4       96.6             95           95.8  
```

 

Los datos XML pueden ser mucho más complicados que este ejemplo. Cada
etiqueta también puede tener metadatos. Consideremos una etiqueta de
enlace HTML, que también es XML válido:

 
 

In [None]:
from io import StringIO

In [None]:
tag = '<a href="http://www.google.com">Google</a>'

In [None]:
root = objectify.parse(StringIO(tag)).getroot()

 

 

Ahora podemos acceder a cualquiera de los campos (como `href` ) en la
etiqueta o el texto del enlace:

 
 

In [None]:
 root

In [None]:
Out[72]: <Element a at 0x7f2574505680>

In [None]:
In [73]:

In [None]:
root.get('href')

In [None]:
Out[73]: 'http://www.google.com'

In [None]:
In [74]:

In [None]:
root.text

Formatos de datos binarios
--------------------------

 

Una de las formas más fáciles de almacenar datos   —también conocida
como *serialización*—   de manera eficiente en formato binario es usar
la serialización interna de Python, `pickle` . Todos los objetos pandas
tienen un método `to_pickle` que escribe los datos en el disco en
formato pickle:

 
 

In [None]:
frame = pd.read_csv("./examples/ex1.csv")

frame

In [None]:
Out[76]: 
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo

In [None]:
frame.to_pickle("./examples/frame_pickle")

 

Podemos leer cualquier objeto “pickle” almacenado en un archivo usando
directamente el módulo interno pickle, o usando `pandas.read_pickle`:

*ADVERTENCIA.- El módulo `pickle` no es seguro. Solo utilícelo para
de-serializar datos en los que confía.*

 
 

In [None]:
pd.read_pickle("./examples/frame_pickle")

In [None]:
Out[82]: 
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo

 
pandas tiene soporte interno para dos formatos más de datos binarios:
HDF5 y MessagePack. Es conveniente explorar diferentes formatos de
archivo para ver qué tan rápido son y qué tan bien funcionan para el
análisis. Algunos otros formatos de almacenamiento para pandas o datos
NumPy incluyen:

-   *Bcolz*       Un formato binario compresible orientado a columnas,
    basado en la biblioteca de compresión Blosc.

-   *Feather*    Un formato de archivo orientado a columnas. Feather
    utiliza el formato de memoria en columna de Apache Arrow.

 

 

 

### Formato HDF5

 

HDF5 es un formato de archivo util para almacenar grandes cantidades de
datos científicos. Está disponible como una biblioteca C y tiene
interfaces disponibles en muchos otros lenguajes, incluidos Java, Julia,
MATLAB y Python. “HDF” en HDF5 significa *“hierarchical data format”*.
Cada archivo HDF5 puede almacenar múltiples conjuntos de datos y
metadatos de soporte. En comparación con formatos más simples, HDF5
admite la compresión sobre la marcha con una variedad de modos de
compresión, lo que permite que los datos con patrones repetidos se
almacenen de manera más eficiente. HDF5 puede ser una buena opción para
trabajar con conjuntos de datos muy grandes que no caben en la memoria,
ya que puede leer y escribir eficientemente pequeñas secciones de
conjuntos mucho más grandes.

Si bien es posible acceder directamente a los archivos HDF5 utilizando
las bibliotecas PyTables o h5py, pandas proporciona una interfaz de alto
nivel que simplifica el almacenamiento de objetos Series y DataFrame. La
clase `HDFStore` funciona como un dict y maneja los detalles de bajo
nivel:

 

 

In [None]:
frame = pd.DataFrame({'a': np.random.randn(100)})

In [None]:
store = pd.HDFStore("./examples/misdatos.h5")

In [None]:
store['obj1'] = frame

In [None]:
store['obj1_col'] = frame['a']

In [None]:
store

In [None]:
Out[87]: 
<class 'pandas.io.pytables.HDFStore'>
File path: ... /examples/misdatos.h5
```

Los objetos contenidos en el archivo HDF5 se pueden recuperar con la
misma API tipo dict:

In [None]:
store['obj1']

In [None]:
Out[88]: 
           a
0   1.095631
1  -0.657863
2  -1.247815
3  0.697702
4  -0.790224
..       ...
95 -0.294331
96 -0.286762
97 -0.055261
98 -0.395597
99 -0.187181

[100 rows x 1 columns]
```

 

`HDFStore` admite dos esquemas de almacenamiento, `'fixed'` y `'table'`.
Este último generalmente es más lento, pero admite operaciones de
consulta utilizando una sintaxis especial:

In [None]:
store.put('obj2', frame, format='table')

In [None]:
 store.select('obj2', where=['index >= 10 and index <= 15'])

In [None]:
In [91]: 

In [None]:
store.close()

 

`put` es una versión explícita del método `store['obj2'] = frame` pero
nos permite establecer otras opciones como el formato de almacenamiento.

La función `pandas.read_hdf` ofrece un acceso directo a estas
herramientas:

 

In [None]:
frame.to_hdf("./examples/misdatos.h5", 'obj3', format='table')

In [None]:
pd.read_hdf("./examples/misdatos.h5", 'obj3', where=['index < 5'])

Si está procesando datos almacenados en servidores remotos, como Amazon
S3 o HDFS, puede ser más adecuado usar un formato binario diferente
diseñado para almacenamiento distribuido como Apache Parquet. Python
para Parquet y otros formatos de almacenamiento similares aún están en
desarrollo.

Dado que muchos problemas de análisis de datos son acotados en E/S (en
lugar de acotados en CPU), el uso de una herramienta como HDF5 puede
acelerar enormemente sus aplicaciones.

HDF5 no es una base de datos. Es más adecuado para conjuntos de datos de
escribe una vez y lee muchas veces. Si bien los datos se pueden agregar
a un archivo en cualquier momento, si varios escritores lo hacen
simultáneamente, el archivo puede corromperse.

 

 

 

### Archivos de Microsoft Excel

 

pandas también admite la lectura de datos tabulares almacenados en
archivos Excel 2003 (y superiores) utilizando la clase `ExcelFile` o la
función `pandas.read_excel`. Internamente, estas herramientas usan los
paquetes complementarios `xlrd` y `openpyxl` para leer archivos XLS y
XLSX, respectivamente. Es posible que deba instalarlos manualmente con
pip o conda.

Para usar `ExcelFile`, cree una instancia pasando una ruta a un archivo
`xls` o `xlsx`:

 

 

In [None]:
xlsx = pd.ExcelFile("./examples/ex1.xlsx")


Los datos almacenados en una hoja se pueden leer en DataFrame con
`parse`:


In [None]:
pd.read_excel(xlsx, 'Sheet1')

 

Si estamos leyendo varias hojas en un archivo, entonces es más rápido
crear el `ExcelFile`, pero también podemos simplemente pasar el nombre
del archivo a `pandas.read_excel`:

 
 

In [None]:
frame = pd.read_excel("./examples/ex1.xlsx", 'Sheet1')

In [None]:
frame

Para escribir datos de pandas en formato Excel, primero debemos crear un
ExcelWriter`, luego escribir datos con el método`to\_excel\` de los
objetos pandas:

 
 

In [None]:
writer = pd.ExcelWriter("./examples/ex2-nuevo.xlsx")

In [None]:
frame.to_excel(writer, 'Sheet1') 

In [None]:
writer.save()



También podemos pasar una ruta de archivo a `to_excel` y evitar
`ExcelWriter`:

 
 

In [None]:
frame.to_excel("./examples/ex2-nuevo.xlsx")

Interacción con APIs para web
-----------------------------

 

Muchos sitios web tienen API públicas que proporcionan datos a través de
JSON o algún otro formato. Hay varias formas de acceder a estas API
desde Python; un método fácil de usar es el `requests package`.

Para encontrar las últimas 30 entradas de GitHub para pandas en GitHub,
podemos hacer una solicitud `GET HTTP` utilizando la biblioteca
`requests`:

 
 

In [None]:
import requests

In [None]:
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'

In [None]:
url = 'https://api.thecatapi.com/v1/images/search'

In [None]:
resp = requests.get(url)

In [None]:
resp

 

El método `json` del objeto Response retornará un diccionario que
contiene objetos JSON convertidos a objetos nativos de Python:

 
 

In [None]:
data = resp.json() 

In [None]:
data

In [None]:
Out[108]: 'REF: share more methods in ExtensionIndex '
```

 

Cada elemento en data es un diccionario que contiene todos los datos
encontrados en una página de problemas de GitHub (excepto por los
comentarios). Podemos pasar data directamente a DataFrame y extraer
campos de interés:

 
 

In [None]:
issues = pd.DataFrame(data, columns=['number', 'title', 'state'])
 

In [None]:
issues = pd.DataFrame(data)

 

In [None]:
issues.url

In [None]:
rekp=requests.get(url)

In [None]:
rekp

In [None]:
Out[8]: 
    number                                              title  \
0    37980                                      DOC: Fix typo   
1    37979  Should FilePathorBuffer use os.PathLike instea...   
2    37977  BUG: CategoricalIndex.where nulling out non-ca...   
3    37974         BUG: fix astype conversion string -> float   
4    37973                      BLD: set inplace in setup.cfg   
5    37972  TST: add nullable array frame constructor dtyp...   
6    37971                        PERF: IntervalArray.argsort   
7    37967  BUG: Limited available color name list when us...   
8    37966                                   Read csv headers   
9    37965  BUG: Make DTI/TDI/PI argsort match their under...   
10   37964  BUG: Bug in setitem raising ValueError when se...   
11   37963  BUG: Some string methods treat "." as regex, o...   
12   37962                   „case-when“ function is missing?   
13   37958          BUG: DataFrame.to_html ignores formatters   
14   37957             STYLE: fail on pd.testing direct usage   
15   37956  ENH: Add argument "multiprocessing" to DataFra...   
16   37955  ENH: Add argument "multiprocessing" to pd.read...   
17   37954  BUG: df.__setitem__ can be 10x slower than pd....   
18   37950      ENH: 2D compat for DTA tz_localize, to_period   
19   37949            ENH: IntervalIndex as groups in groupby   
20   37947  Slow autocompletion in python/ipython console ...   
21   37941  ENH: An argument for .query() that returns all...   
22   37939  QST: how to run Pandas tests involving Numba o...   
23   37937  BUG: Concat automatically sorts index when axi...   
24   37935  BUG: json_normalize() upcasts column with miss...   
25   37933             ENH: make closed part of IntervalDtype   
26   37932     BUG: loc.setitem with expansion expanding rows   
27   37931                       BUG: loc.setitem corner case   
28   37930   INT: include NA values in Categorical.categories   
29   37929         API: make CategoricalDtype.__eq__ stricter   

                                               labels state  
0                                                  []  open  
1                                                  []  open  
2                                                  []  open  
3   [{'id': 1817503692, 'node_id': 'MDU6TGFiZWwxOD...  open  
4   [{'id': 129350, 'node_id': 'MDU6TGFiZWwxMjkzNT...  open  
5   [{'id': 1465286368, 'node_id': 'MDU6TGFiZWwxND...  open  
6                                                  []  open  
7   [{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...  open  
8                                                  []  open  
9                                                  []  open  
10  [{'id': 2822098, 'node_id': 'MDU6TGFiZWwyODIyM...  open  
11  [{'id': 1741841389, 'node_id': 'MDU6TGFiZWwxNz...  open  
12  [{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...  open  
13                                                 []  open  
14  [{'id': 106935113, 'node_id': 'MDU6TGFiZWwxMDY...  open  
15  [{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...  open  
16  [{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...  open  
17  [{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...  open  
18  [{'id': 13098779, 'node_id': 'MDU6TGFiZWwxMzA5...  open  
19  [{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...  open  
20                                                 []  open  
21  [{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...  open  
22  [{'id': 1954720290, 'node_id': 'MDU6TGFiZWwxOT...  open  
23  [{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...  open  
24  [{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...  open  
25  [{'id': 31404521, 'node_id': 'MDU6TGFiZWwzMTQw...  open  
26  [{'id': 2822098, 'node_id': 'MDU6TGFiZWwyODIyM...  open  
27  [{'id': 2822098, 'node_id': 'MDU6TGFiZWwyODIyM...  open  
28  [{'id': 78527356, 'node_id': 'MDU6TGFiZWw3ODUy...  open  
29  [{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...  open  
```

 

 

 

Interacción con bases de datos
------------------------------

 

En un entorno empresarial, la mayoría de los datos no están almacenados
en archivos de texto o Excel. Las bases de datos relacionales basadas en
SQL (como SQL Server, PostgreSQL y MySQL) se usan ampliamente, y muchas
bases de datos alternativas se han vuelto bastante populares. La
elección de la base de datos generalmente depende del rendimiento, la
integridad de los datos y las necesidades de escalamiento de una
aplicación.

Cargar datos de SQL en un DataFrame es bastante sencillo, y pandas tiene
algunas funciones para simplificar el proceso. Como ejemplo, crearémos
una base de datos SQLite usando el controlador interno de Python
`sqlite3`:

 
 

In [None]:
import sqlite3

In [None]:
query = """
    ...: CREATE TABLE test(a VARCHAR(20), b VARCHAR(20), c REAL, d INTEGER);
    ...: """

In [None]:
con = sqlite3.connect('mydata.sqlite')
  

In [None]:
con.execute(query)
 

In [None]:
<sqlite3.Cursor at 0x7f8388906340>

  

In [None]:
con.commit()

Insertamos algunas filas de datos:

 
 

In [None]:
data = [('Atlanta', 'Georgia', 1.25, 6),
    ...:         ('Tallahassee', 'Florida', 2.6, 3),
    ...:         ('Sacramento', 'California', 1.7, 5)]



In [None]:
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"

In [None]:
con.executemany(stmt, data)

In [None]:
 Out[17]:<sqlite3.Cursor at 0x7f838897fe30>

In [None]:
con.commit()

 

 

La mayoría de los controladores Python de SQL (PyODBC, psycopg2,
MySQLdb, pymssql, etc.) devuelven una lista de tuplas al seleccionar
datos de una tabla:

 
 

In [None]:
cursor = con.execute('select * from test') 

In [None]:
rows = cursor.fetchall()

In [None]:
rows

 

Podemos pasar la lista de tuplas al constructor DataFrame, pero también
necesitamos los nombres de columna, contenidos en el atributo
`description` del cursor:

 
 

In [None]:
cursor.description

In [None]:
Out[22]: 
(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [None]:
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

In [None]:
Out[23]: 
             a           b     c  d
0      Atlanta     Georgia  1.25  6
1  Tallahassee     Florida  2.60  3
2   Sacramento  California  1.70  5
```

 

pandas tiene una función `read_sql` que permite leer datos fácilmente
desde una conexión SQLAlchemy. Aquí, nos conectaremos a la misma base de
datos SQLite con SQLAlchemy y leeremos datos de la tabla creada
anteriormente:

 
 

In [None]:
import sqlalchemy as sqla

In [None]:
db = sqla.create_engine('sqlite:///mydata.sqlite')

In [None]:
pd.read_sql('select * from test', db)

In [None]:
Out[28]: 
             a           b     c  d
0      Atlanta     Georgia  1.25  6
1  Tallahassee     Florida  2.60  3
2   Sacramento  California  1.70  5
```

 

Con frecuencia, el primer paso en el proceso de análisis de datos es
obtener acceso a los datos. Hemos analizado una serie de herramientas
útiles en este capítulo que deberán ayudar al respecto. En los próximos
capítulos profundizaremos en el manejo de datos, la visualización de
datos y el análisis de series de tiempo.

 

 

Bibliografía
------------

 

\[1\] *Python for Data Analysis, Data Wrangling with Pandas, NumPy, and
IPython, Wes McKinney, 2nd. edition, 2018.*

\[2\]
*<a href="https://docs.python.org/3/" class="uri">https://docs.python.org/3/</a>*

\[3\]
*<a href="https://docs.python.org/3/tutorial/index.html" class="uri">https://docs.python.org/3/tutorial/index.html</a>*

\[4\]
*<a href="https://numpy.org/doc/stable/" class="uri">https://numpy.org/doc/stable/</a>*

\[5\]
*<a href="https://pandas.pydata.org/" class="uri">https://pandas.pydata.org/</a>*

 

 

------------------------------------------------------------------------