Conversión de formatos usando pandas
=======

* *60 min* | Última modificación: Julio 04, 2019.

**Bibliografía**.

> [pandas 0.18.1 documentation](http://pandas.pydata.org/pandas-docs/stable/index.html)  
[10 Minutes to pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html) 

**Preparación de datos**

In [1]:
## importa la librería
import pandas
import numpy as np
pandas.set_option('display.notebook_repr_html', False)

## Conversión de un formato a otro

### Creación de un archivo en disco duro con una tabla para el ejemplo

In [2]:
## crea el DataFrame
## los DataFrame en Pandas son diccionarios
df = pandas.DataFrame( {'index': list(range(1,6)),
                        'name': ['A', 'B', 'C', 'D', 'E'],
                        'value': [3.03, 5.14, 0.40, 1.13, 8.25]})
df

   index name  value
0      1    A   3.03
1      2    B   5.14
2      3    C   0.40
3      4    D   1.13
4      5    E   8.25

### Almacenamiento del archivo en disco

In [3]:
df.to_csv(
    'data.csv',     # el nombre del archivo
    index = False)  # imprime los nombres de las filas?
!cat data.csv

index,name,value
1,A,3.03
2,B,5.14
3,C,0.4
4,D,1.13
5,E,8.25


### Ejemplo de conversión de csv a json

In [4]:
pandas.read_csv('data.csv').to_json('data.json')
!cat data.json

{"index":{"0":1,"1":2,"2":3,"3":4,"4":5},"name":{"0":"A","1":"B","2":"C","3":"D","4":"E"},"value":{"0":3.03,"1":5.14,"2":0.4,"3":1.13,"4":8.25}}

In [5]:
!rm data.csv data.json

## Lectura y escritura de archivos usando Pandas

| [pandas.DataFrame](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html) 

In [6]:
## crea el DataFrame
## los DataFrame en Pandas son diccionarios
df = pandas.DataFrame( {'index': list(range(1,6)),
                        'name': ['A', 'B', 'C', 'D', 'E'],
                        'value': [3.03, 5.14, 0.40, 1.13, 8.25]})

### Formato nativo de Python con Pandas

| [pandas.DataFrame](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)  
| [pandas.DataFrame.to_pickle](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_pickle.html)  
| [pandas.to_pickle](http://pandas.pydata.org/pandas-docs/stable/io.html#io-pickle)  
| [pandas.read_pickle](http://pandas.pydata.org/pandas-docs/stable/io.html#io-pickle)

In [7]:
## pandas.DataFrame
df.to_pickle('files/data.pickle')

In [8]:
pandas.read_pickle('files/data.pickle')

   index name  value
0      1    A   3.03
1      2    B   5.14
2      3    C   0.40
3      4    D   1.13
4      5    E   8.25

### Archivos delimitados por caracteres con Pandas

| [pandas.DataFrame.to_csv](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html)  
| [pandas.DataFrame.from_csv](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.from_csv.html)  
| [pandas.to_csv](http://pandas.pydata.org/pandas-docs/stable/io.html#io-store-in-csv)  
| [pandas.read_csv](http://pandas.pydata.org/pandas-docs/stable/io.html#io-read-csv-table)

In [9]:
## escribe el archivo
df.to_csv('files/data.csv',   # el nombre del archivo
          index = False)      # imprime los nombres de las filas?

## verifica el archivo creado
print(open('files/data.csv', 'r').read())

index,name,value
1,A,3.03
2,B,5.14
3,C,0.4
4,D,1.13
5,E,8.25



In [10]:
pandas.read_csv('files/data.csv')

   index name  value
0      1    A   3.03
1      2    B   5.14
2      3    C   0.40
3      4    D   1.13
4      5    E   8.25

In [11]:
## opciones mas importantes
pandas.read_csv('files/data.csv',  # el archivo
                    sep = ',',         # separador de campos
                    thousands = None,  # separador de miles para números
                    decimal = '.')     # separador de los decimales para números


   index name  value
0      1    A   3.03
1      2    B   5.14
2      3    C   0.40
3      4    D   1.13
4      5    E   8.25

En español: ';' como separador de campos y ',' como separador decimal. 

In [12]:
## escribe el archivo
df.to_csv('files/data.csv2',     # nombre del archivo
           sep = ';',            # separador de campos
           decimal = ',',        # caracter decimal
           index = False)        # imprime indice de las filas?

## verifica el archivo creado
print(open('files/data.csv2', 'r').read())

index;name;value
1;A;3,03
2;B;5,14
3;C;0,4
4;D;1,13
5;E;8,25



In [13]:
## lee el archivo
pandas.read_csv('files/data.csv2',
                 sep = ';',
                 thousands = None,
                 decimal = ',')

   index name  value
0      1    A   3.03
1      2    B   5.14
2      3    C   0.40
3      4    D   1.13
4      5    E   8.25

### Formato de ancho fijo con Pandas

| [pandas.read_fwf](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_fwf.html)

In [14]:
# crea un archivo separado por multiples espacios en blanco.
# los nombres de las columnas están separados por comas.
text = """indexnames      valuescodes
    1john wick    2.13   10
    2mark twin    3.14   11
    3louis ng     4.34   12
    4dan brown    2.31   13
    5ann marie    4.98   14"""

with open('files/data.txt', 'w') as f:
    f.write(text)
    
## verifica el archivo creado
print(open('files/data.txt', 'r').read())

indexnames      valuescodes
    1john wick    2.13   10
    2mark twin    3.14   11
    3louis ng     4.34   12
    4dan brown    2.31   13
    5ann marie    4.98   14


In [15]:
pandas.read_fwf('files/data.txt', 
                colspecs = 'infer', 
                widths = [5, 9, 8, 5])

   index      names  values  codes
0      1  john wick    2.13     10
1      2  mark twin    3.14     11
2      3   louis ng    4.34     12
3      4  dan brown    2.31     13
4      5  ann marie    4.98     14

### JSON con Pandas

| [pandas.DataFrame.to_json](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_json.html)  
| [pandas.to_json](http://pandas.pydata.org/pandas-docs/stable/io.html#io-json-writer)  
| [pandas.read_json](http://pandas.pydata.org/pandas-docs/stable/io.html#io-json-reader)  
| `JSON` en [wikipedia](https://en.wikipedia.org/wiki/JSON)

In [16]:
## escribe el DataFrame al archivo
df.to_json('files/data.json')

## verifica el archivo creado
print(open('files/data.json', 'r').read())

{"index":{"0":1,"1":2,"2":3,"3":4,"4":5},"name":{"0":"A","1":"B","2":"C","3":"D","4":"E"},"value":{"0":3.03,"1":5.14,"2":0.4,"3":1.13,"4":8.25}}


In [17]:
## lo recupera 
pandas.read_json('files/data.json')

   index name  value
0      1    A   3.03
1      2    B   5.14
2      3    C   0.40
3      4    D   1.13
4      5    E   8.25

### HTML con Pandas

| [pandas.DataFrame.to_html](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_html.html)   
| [pandas.to_html](http://pandas.pydata.org/pandas-docs/stable/io.html#io-html)  
| [pandas.read_html](http://pandas.pydata.org/pandas-docs/stable/io.html#io-read-html) 

In [18]:
## convierte el DataFrame a HTML
df.to_html('files/data.html',
           index = False)

## verifica el archivo creado
print(open('files/data.html', 'r').read())

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th>index</th>
      <th>name</th>
      <th>value</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>1</td>
      <td>A</td>
      <td>3.03</td>
    </tr>
    <tr>
      <td>2</td>
      <td>B</td>
      <td>5.14</td>
    </tr>
    <tr>
      <td>3</td>
      <td>C</td>
      <td>0.40</td>
    </tr>
    <tr>
      <td>4</td>
      <td>D</td>
      <td>1.13</td>
    </tr>
    <tr>
      <td>5</td>
      <td>E</td>
      <td>8.25</td>
    </tr>
  </tbody>
</table>


In [19]:
pandas.read_html('files/data.html')

[   index name  value
 0      1    A   3.03
 1      2    B   5.14
 2      3    C   0.40
 3      4    D   1.13
 4      5    E   8.25]

### Excel con Pandas

| [pandas.DataFrame.to_excel](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_excel.html)  
| [pandas.to_excel](http://pandas.pydata.org/pandas-docs/stable/io.html#io-excel-writer)  
| [pandas.read_excel](http://pandas.pydata.org/pandas-docs/stable/io.html#io-excel-reader) 

In [20]:
df.to_excel('files/data.xlsx',
            index = False)

In [21]:
pandas.read_excel('files/data.xlsx')

   index name  value
0      1    A   3.03
1      2    B   5.14
2      3    C   0.40
3      4    D   1.13
4      5    E   8.25

### HDF5 con Pandas

| [pandas.DataFrame.to_hdf](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_hdf.html)  
| [pandas.to_hdf](http://pandas.pydata.org/pandas-docs/stable/io.html#io-hdf5)  
| [pandas.read_hdf](http://pandas.pydata.org/pandas-docs/stable/io.html#io-hdf5)

In [22]:
## escribe el archivo a disco
df.to_hdf('files/data.h5', 
          key = 'G1')

In [23]:
## lectura
pandas.read_hdf('files/data.h5',
                key = 'G1')

   index name  value
0      1    A   3.03
1      2    B   5.14
2      3    C   0.40
3      4    D   1.13
4      5    E   8.25

In [24]:
pandas.read_hdf('files/data.h5')

   index name  value
0      1    A   3.03
1      2    B   5.14
2      3    C   0.40
3      4    D   1.13
4      5    E   8.25

### STATA con Pandas

| [pandas.DataFrame.to_stata](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_stata.html)  
| [pandas.to_stata](http://pandas.pydata.org/pandas-docs/stable/io.html#io-stata-writer)  
| [pandas.read_stata](http://pandas.pydata.org/pandas-docs/stable/io.html#io-stata-reader)  

In [25]:
## escribe el archivo
df.to_stata('files/data.dta')

## lee el archivo
pandas.read_stata('files/data.dta')

   level_0  index name  value
0        0      1    A   3.03
1        1      2    B   5.14
2        2      3    C   0.40
3        3      4    D   1.13
4        4      5    E   8.25

### SAS con Pandas

| [pandas.read_sas](http://pandas.pydata.org/pandas-docs/stable/io.html#io-sas-reader)

In [26]:
### pendiente 

### SQL con Pandas

| [pandas.DataFrame.to_sql](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_sql.html)  
| [pandas.to_sql](http://pandas.pydata.org/pandas-docs/stable/io.html#io-sql)  
| [pandas.read_sql](http://pandas.pydata.org/pandas-docs/stable/io.html#io-sql) 

In [27]:
# pandas.DataFrame.to_sql(name = df, con = 'files/data.dbf')

### Lectura de PDFs

 [`PyPDF2`](https://pythonhosted.org/PyPDF2/)  
Instalación:

     pip install PyPDF2


In [28]:
import PyPDF2
#pdfFileObj = open('files/data.pdf', 'rb')
#pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
#pageObj = pdfReader.getPage(0)
#pageObj.extractText()

### Lectura de Matlab y Octave

| [sio.loadmat](http://docs.scipy.org/doc/scipy/reference/tutorial/io.html)   
| [sio.savemat](http://docs.scipy.org/doc/scipy/reference/tutorial/io.html)

In [29]:
import scipy.io as sio
sio.savemat('files/data', {'df': df})
sio.loadmat('files/data')

{'__header__': b'MATLAB 5.0 MAT-file Platform: posix, Created on: Thu Dec 19 22:10:21 2019',
 '__version__': '1.0',
 '__globals__': [],
 'df': array([[(array([[None]], dtype=object), array([[None]], dtype=object), array([[None]], dtype=object))]],
       dtype=[('index', 'O'), ('name', 'O'), ('value', 'O')])}

### Lectura de XBASE

In [30]:
# import dbfread
# 
# for x in dbfread.DBF('files/data.dbf'):
#    print(x)