# Acceso a datos, guardado y formato de archivos

`Pandas` ofrece enlaces con numerosos tipos de datos, teniendo funciones integradas especializadas en cada tipo.
Toda la documentación está en http://pandas.pydata.org/pandas-docs/stable/io.html.

- `read_csv` - Datos delimitados en un archivo, URL ú objeto de tipo archivo. Se usa la coma `','` como separador por defecto pero es configurable. 
- `read_table` - Igual pero con `'\t` como delimitador por defecto.
- `read_fwf` - Lee datos con anchura de columnas fijada sin delimitadores. 
- `read_clipboard` - Versión de `read_table` que lee datos de la clipboard. Es útil para convertir datos de páginas web.
- `read_excel, ExcelFile` - Lee un excel pudiendo seleccionar diferentes hojas, el segundo comando carga el excel para acceder a diferentes partes .

Las opciones fundamentales de las funciones de carga son:
- **Indexado:** qué columnas de los datos cargados son usadas como índices. 
- **Inferencia del tipo de datos y conversión de datos:**: conversiones personalizadas ó sustituciones de valores faltantes y sus marcadores. La inferencia ineligente de tipos de datos es una de las cualidades más importantes e interesantes de Pandas.
- **Filtrado de fechas:** Incluye capacidad de combinado de fechas y tiempo y agrupamiento de información de variaes columnas en una. 
- **Iteradores:** soporte para iteradores que lean secciones de archivos grandes secuencialmente. 
- ** Suciedad en los datos:** saltar filas iniciales, notas al pie de página, comentarios, cambio de indicadores de centenas en los números.

*********
*****
***
Opciones en las funciones:
- `path` - String indicando la ubicación del archivo en el sistema ó la URL. 
- `sep, delimiter` -  Carácter ó expresión usada para dividr los campos en cada fila.
- `header` -  Número de la fila que será tomada para los nombres de las columnas. Es 0 por defecto, se puede establecer `None` si no hay encabezado.
- `index_col` - Número de columna ó nombre a usar para establecer el índice de filas. Puede ser única ó una lista ordenada con varias (multiíndice).
- `names` - Lista de nombres de las columnas, se combina con `header=None`.
- `skiprows`- Número de filas a saltar al principio del documento ó lista con las posiciones las filas. 
- `na_values` - Secuencia de valores que serán interpretados como `NaN` .
- `comment` - Carácter para separar comentarios al final de las líneas. 
- `parse_dates` - Booleano que establece si se debe intentar transformar las fechas a formato datetime. Es falso por defecto. Si es cierto intenta transformar sobre todas las columnas, también se le puede proporcionar una lista con los nombres de columnas. Si se proporciona una tupla con nombres de columnas, combina posiciones de las columnas para componer la fecha.
- `keep_date_col` - Si se mezclan columnas para generar fechas, se mantienen las columnas originales. True por defecto. 
- `converters` - Diccionario que contiene nombres de columnas y funciones a aplicar. 
- `dayfirst` - Si se están transformando fechas potencialmente ambiguas, usar el formato internacional **June 7,2016**. Falso por defecto .
- `date_parser` - Proporciona la función personalizada creda para transformar fechas.
- `nrows` - Número de filas a leer desde el principio. 
- `chunksize` - Para iterar, tamaño de los accesos al archivo. 
- `skip_footer` - Número de líneas a ignorar al final de la fila. 
- `verbose` - Imprime varias salidas de información sobre las transformaciones como el número de valores faltantes. 
columns
- `encoding` - Codificación de texto para unicode. Por ejemplo `utf-8`. 
- `squeeze` -  Booleano que establece que si los datos recibidos sólo contienen una columna, genera una Series en vez de un DataFrame
- `thousands` - Separator for thousands, e.g. ',' or '.'

In [1]:
import pandas as pd
import numpy as np

In [2]:
#recordamos que el directorio de trabajo por defecto en un Juypyter Notebook es el directorio donde reside
%pwd 

'/home/infinitemonkeys/Documents/A Python DataScience/Sesión 2 - Pandas/notebooks'

Descargamos el contenido de una carpeta de GitHub en la carpeta del notebook para poder acceder a los `.csv`, para ello podemos usar la función **git**. Lo necesitamos para clonar la carpeta con ejemplos .csv en https://github.com/Guillermogsjc/pydata-book/tree/master/ch06

In [3]:
!git clone https://github.com/Guillermogsjc/pydata-book

fatal: destination path 'pydata-book' already exists and is not an empty directory.


In [4]:
#podemos observar con el comando Unix cat en qué consiste un archivo, en Windows usar el comando type
!cat ex1.csv 

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [5]:
# !type ex1.csv 

In [6]:
?pd.read_csv

In [7]:
pd.read_csv('ex1.csv')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [8]:
pd.read_csv('ex1.csv',header=None) #sin encabezado

Unnamed: 0,0,1,2,3,4
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo


In [9]:
pd.read_csv('ex1.csv',index_col='a') #usando una determinada columna como índice de filas

Unnamed: 0_level_0,b,c,d,message
a,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


También podemos usar `read_table` especificando el separador:

In [10]:
df=pd.read_table('ex1.csv', sep=',')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [11]:
df.dtypes #observamos los datos inferidos, son adecuados

a           int64
b           int64
c           int64
d           int64
message    object
dtype: object

Podemos establecer algunos de los datatypes manualmente usando un diccionario y la opción `dtype`:

In [12]:
cargatipos=pd.read_table('ex1.csv', sep=',',dtype={'a':np.int32,'b':np.float64,'c':str})
cargatipos

Unnamed: 0,a,b,c,d,message
0,1,2.0,3,4,hello
1,5,6.0,7,8,world
2,9,10.0,11,12,foo


In [13]:
cargatipos.dtypes

a            int32
b          float64
c           object
d            int64
message     object
dtype: object

Si cargamos un archivo sin encabezado:

In [14]:
!cat ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [15]:
pd.read_csv('ex2.csv',header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [16]:
#podemos añadir los encabezados y se pueden crear multíndices
pd.read_csv('ex2.csv',names=['a','b', 'c', 'd', 'message'],index_col=['a','b'])

Unnamed: 0_level_0,Unnamed: 1_level_0,c,d,message
a,b,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [17]:
!cat csv_mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [18]:
pd.read_csv('csv_mindex.csv', index_col=['key1', 'key2'])

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [19]:
#este archivo no tiene separación por comas
!cat ex3.txt

            A         B         C
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382  1.100491


In [20]:
list(open('ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

El comando anterior abre el archivo y crea una lista con la información. Vemos que los delimitadores de final de fila son \n y los separadores son espacios en blanco. Esto se define como `\s+` en `read_table`

In [21]:
pd.read_table('ex3.txt',sep='\s+')

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [22]:
!cat ex4.csv

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

En este caso hay líneas que hay que eliminar porque los datos están sucios con comentarios. Usamos el comando `skiprows`

In [23]:
pd.read_csv('ex4.csv')

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,# hey!
a,b,c,d,message
# just wanted to make things more difficult for you,,,,
# who reads CSV files with computers,anyway?,,,
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [24]:
pd.read_csv('ex4.csv',skiprows=[0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### Establecemos los indicadores de valores faltantes

Pandas denota los valores faltantes con `NaN`. Es necesario especificar en la entrada qué valores serán considerados como tales.

In [25]:
!cat ex5.csv

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo

In [26]:
datos=pd.read_csv('ex5.csv',na_values='NA')
datos

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [27]:
datos.isnull()

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


Podemos considerar valores faltantes varios tipos de entrada:

In [28]:
pd.read_csv('ex5.csv',na_values=['NA',3.0,'foo'])

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,


Se puede personalizar el tipo de datos faltantes para cada columna a través de un diccionario:

In [29]:
datos

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [30]:
centinelas = {'message': ['foo', 'NA'], 'something': ['two']}
pd.read_csv('ex5.csv',na_values=centinelas)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


### Leer por trozos los archivos

In [31]:
frame=pd.read_csv('ex6.csv',verbose=True)
frame.head(3)

Tokenization took: 2.14 ms
Type conversion took: 3.27 ms
Parser memory cleanup took: 0.00 ms


Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G


In [32]:
frame.shape #observamos que es una tabla grande

(10000, 5)

In [33]:
frame.info() #podemos saber sus características como variable

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 5 columns):
one      10000 non-null float64
two      10000 non-null float64
three    10000 non-null float64
four     10000 non-null float64
key      10000 non-null object
dtypes: float64(4), object(1)
memory usage: 390.7+ KB


In [34]:
pd.read_csv('ex6.csv', nrows=5,verbose=True) #leemos sólo las 5 primeras filas

Tokenization took: 0.00 ms
Type conversion took: 0.15 ms
Parser memory cleanup took: 0.00 ms


Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


In [35]:
frame.key.value_counts()[:15]

E    368
X    364
L    346
O    343
Q    340
M    338
J    337
F    335
K    334
H    330
V    328
I    327
U    326
P    324
A    320
Name: key, dtype: int64

Creamos un `chunker` para acceder a la tabla por trozos:

In [36]:
chunker=pd.read_csv('ex6.csv', chunksize=1000)
chunker

<pandas.io.parsers.TextFileReader at 0x7f65421433c8>

El acceso a trozos nos permite ir aplicando funciones en partes de la tabla y agregando sus valores, siempre y cuando esto tenga sentido. Esto es útil si trabajamos, por ejemplo, con datos cuyo tamaño sale de memoria RAM.

In [37]:
tot = pd.Series([])

#el siguiente bucle va calculando para cada trozo de 1000 filas las cantidades de cada elemento que hay
#y suma en cada paso de la iteración
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)

tot = tot.sort_values(ascending=False).astype('int')
tot[:15]

E    368
X    364
L    346
O    343
Q    340
M    338
J    337
F    335
K    334
H    330
V    328
I    327
U    326
P    324
D    320
dtype: int64

# Guardado de archivos

Con el comando `to_csv` transformamos los archivos a .csv con diferentes opciones.

In [39]:
datos=pd.read_csv('ex5.csv')
datos

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [40]:
datos.to_csv('out.csv')

In [41]:
!cat out.csv

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


Si queremos que no genera la primera columna de índices:

In [42]:
datos.to_csv('out.csv',index=False)

In [43]:
!cat out.csv

something,a,b,c,d,message
one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


Si queremos introducir un determinado separador:

In [45]:
datos.to_csv('out.csv',sep='#')

In [46]:
!cat out.csv

#something#a#b#c#d#message
0#one#1#2#3.0#4#
1#two#5#6##8#world
2#three#9#10#11.0#12#foo


También podemos hacer guardado y carga de Series

In [53]:
obj=pd.Series([1.7,2.9,3.7,4.2,5.3,6.4,7],index=['L','M','X','J','V','S','D'])
obj

L    1.7
M    2.9
X    3.7
J    4.2
V    5.3
S    6.4
D    7.0
dtype: float64

In [54]:
obj.to_csv('out.csv')

In [55]:
!cat out.csv

L,1.7
M,2.9
X,3.7
J,4.2
V,5.3
S,6.4
D,7.0


Cargamos la Series del csv

In [56]:
pd.Series.from_csv('out.csv')

L    1.7
M    2.9
X    3.7
J    4.2
V    5.3
S    6.4
D    7.0
dtype: float64

# Datos HDF5

Para minimizar tiempos de carga y descarga de tablas se pueden guardar en formato HDF5, este ocupa mucho más que un csv convencional pero los tiempos de acceso son significativamente menores.

In [60]:
datos=pd.read_csv('ex6.csv')
print(datos.shape)
datos.head(3)

(10000, 5)


Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G


In [63]:
hdf = pd.HDFStore('almacen.h5')
hdf.put('datos', datos, data_columns=True)
hdf.close()
hdf

<class 'pandas.io.pytables.HDFStore'>
File path: almacen.h5
File is CLOSED

In [65]:
pd.read_hdf('almacen.h5', 'datos').head()

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


Además de lo visto hasta aquí, `Pandas` incorpora funciones para realizar las tareas:
- Formatos no stándard en los que hemos de formar diccionarios para interpretar las tablas.
- Datos JSON.
- XML, HTML y *web scraping*
- Acceso y grabado en Excel.
- Datos binarios
- Bases de datos SQL y MongoDB 