# **Obtención y preparación de datos**

# OD22. Lectura de Archivos

## <font color='blue'>**Herramientas de Entrada/Salida (I/O)**</font>

**Pandas** nos entrega un conjunto de funciones de lectura (*readers*) de alto nivel a las que por ejemplo se puede acceder como **pandas.read_csv()**, las que generalmente devuelven un objeto pandas. Las funciones de escritura (*writers*) correspondientes son métodos a los que se puede acceder popr ejemplo como **DataFrame.to_csv()**.

A continuación se muestra una tabla que contiene los *readers* y *writers* disponibles.


|   Tipo de Formato   | Descripción de la Data |  Reader  |  Writer |
| -------             | :-----                 |  :-----: | :-----: |
| text   |  CSV |  read_csv | to_csv |
| text |  Fixed-Width Text File| read_fwf |  |
| text   |  JSON | read_json | to_json |
| text   |  HTML |  read_html | to_html |
| text    |  Local clipboard|  read_clipboard | to_clipboard |
|    |  MS Excel |  read_excel | to_excel |
| binary   |  OpenDocument |  read_excel |  |
| binary |  HDF5 Format| read_hdf | to_hdf |
| binary   |  Feather Format | read_feather | to_feather |
| binary   |  Parquet Format |  read_parquet | to_parquet |
| binary    |  ORC Format|  read_orc | |
| binary   |  Msgpack |  read_msgpack | to_msgpack |
| binary |  Stata| read_stata | to_stata |
| binary   |  SAS | read_sas |  |
| binary   |  SPSS |  read_spss |  |
| binary    | Python Pickle Format|  read_pickle | to_pickle |
| SQL   |  SQL |  read_sql | to_sql |
| SQL    | Google BigQuery|  read_gbq | to_gbq |

El detalle de cada una de las funciones se encuentra en el siguiente <a href="https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html">link</a>.

## <font color='blue'>**CSV y Archivos de Texto**</font>

La función principal para leer archivos de texto (también conocidos como archivos planos) es **read_csv()**.

### Argumentos Básicos

Acepta los siguientes argumentos comunes:

* **filepath_or_buffer** (varios): una **ruta a un archivo** (str, pathlib.Path o py._path.local.LocalPath), **URL** (incluidas las ubicaciones http, ftp y S3) o cualquier objeto con un método **read()** (como un archivo abierto o StringIO).

* **sep** (str, por defecto ',' para read_csv(), \t para read_table()): delimitador a utilizar. Si **sep** es None, se utilizará y detectará automáticamente el separador mediante la herramienta de rastreo incorporada de Python, **csv.Sniffer**. Además, los separadores de más de 1 carácter y diferentes de **'\s+'** se interpretarán como expresiones regulares. Los delimitadores de expresiones regulares tienden a ignorar los datos entre comillas.

* **delimiter** (str, por defecto *None*): nombre alternativo de argumento para *sep*.

* **delim_whitespace** (boolean, por defecto *False*):Especifica si se utilizarán espacios en blanco (por ejemplo, ' ' o '\t') como delimitador. Equivalente a establecer **sep = '\s+'**. Si esta opción se establece en *True*, no se debe pasar nada para el parámetro *delimiter*.

### Ubicación de Columnas e Índices y Nombres

Otros argumentos importantes:

* **header** (int o lista de ints, por defecto *'infer'*): número(s) de fila(s) para usar como nombres de columnas y el inicio de los datos. El comportamiento predeterminado es inferir los nombres de las columnas. Si no se pasan nombres, el comportamiento es idéntico a **header = 0** y los nombres de las columnas se infieren de la primera línea del archivo, si los nombres de las columnas se pasan explícitamente, el comportamiento es idéntico al **header = None**. Se debe pasar explícitamente **header = 0** para poder reemplazar nombres.existentes. El encabezado puede ser una lista de entradas que especifican ubicaciones de filas para un *MultiIndex* en las columnas, por ejemplo [0, 1, 3]. Se omitirán las filas intermedias que no estén especificadas (2 en este ejemplo). Este parámetro ignora las líneas comentadas y las líneas vacías si **skip_blank_lines = True**, por lo que **header = 0** denota la primera línea de datos en lugar de la primera línea del archivo.

* **names** (array-like, por defecto *None*): lista de nombres de columnas para usar. Si el archivo no contiene una fila de encabezado, debe pasar explícitamente **header = None**. No se permiten duplicados en esta lista.

* **index_col** (int, str, secuencia de int/str, o False, por defecto *None*): columna(s) para usar como etiquetas de fila del *DataFrame*, ya sea como nombre de cadena o índice de columna. Si se proporciona una secuencia de int/str, se utiliza un MultiIndex. **index_col = False** se puede usar para forzar a pandas a no usar la primera columna como índice, por ejemplo, cuando se tiene un archivo con formato incorrecto con delimitadores al final de cada línea. El valor predeterminado de *None* indica a pandas que debe adivinar. Si el número de campos en la fila del encabezado de la columna es igual al número de campos en el cuerpo del archivo, se usa un índice predeterminado. Si es uno más grande, entonces el primer campo se usa como índice.

* **usecols** (list-like or callable, por defecto None): Devuelve un subconjunto de las columnas. Si es similar a una lista, todos los elementos deben ser posicionales (es decir, índices enteros en las columnas del documento) o cadenas que correspondan a los nombres de columna proporcionados por el usuario en los nombres o inferidos de la(s) fila(s) del encabezado del documento. Por ejemplo, un parámetro de **usecols** de tipo lista válido sería [0, 1, 2] o ['foo', 'bar', 'baz']. El orden de los elementos se ignora, por lo que **usecols = [0, 1]** es lo mismo que [1, 0].

In [126]:
import pandas as pd
from io import StringIO

data = ('col1,col2,col3\n'
                'a,b,1\n'
                'a,b,2\n'
                'c,d,3')
print(data)

col1,col2,col3
a,b,1
a,b,2
c,d,3


<font color="red">Revisar [ayuda](https://docs.python.org/3/library/io.html) de StringIO</font>

In [127]:
pd.read_csv(StringIO(data))

Unnamed: 0,col1,col2,col3
0,a,b,1
1,a,b,2
2,c,d,3


In [128]:
pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ['COL1', 'COL3']) #las columas en mayúsculas deben estar en la lista ['COL1','COL3']

Unnamed: 0,col1,col3
0,a,1
1,a,2
2,c,3


* **squeeze** (boolean, por defecto *False*): si los datos analizados solo contienen una columna, devuelve una serie.

* **prefix** (str, por defecto *None*): prefijo para agregar a los números de columna cuando no hay encabezado, por ejemplo, "X" para X0, X1, ...

* **mangle_dupe_cols** (boolean, por defecto *True*): las columnas duplicadas se especificarán como "X", "X.1" ... "X.N", en lugar de "X" ... "X". Pasar *False* hará que los datos se sobrescriban si hay nombres duplicados en las columnas.



### Configuración General de Análisis

* **dtype** (Type name o dict of column -> type, por defecto *None*): tipo de datos para datos o columnas. Por ejemplo, {'a': np.float64, 'b': np.int32}. Utilice **str** u **object** junto con la configuración adecuada de **na_values** para preservar y no interpretar dtype.

* **engine** ({'c', 'python'}): Motor analizador a utilizar. El motor C es más rápido, mientras que el motor Python actualmente tiene más funciones.

* **converters** (dict, por defecto *None*): diccionario de funciones para convertir valores en determinadas columnas. Las claves pueden ser números enteros o etiquetas de columna.

* **true_values** (list, por defecto *None*): Valores a considerar como verdaderos (*True*).

* **false_values** (list, por defecto *None*): valores a considerar como falsos (*False*).
 
* **skipinitialspace** (boolean, por defecto *False*): omitir espacios después del delimitador.

* **skiprows** (list-like o integer, por defecto *None*): números de líneas para omitir (indexados en 0) o número de líneas para omitir (int) al comienzo del archivo. Si es invocable, la función invocable se evaluará contra los índices de fila, devolviendo *True* si la fila debe omitirse y *False* en caso contrario:

In [129]:
data = ('col1,col2,col3\n'
                'a,b,1\n'
                'a,b,2\n'
                'c,d,3')
pd.read_csv(StringIO(data))

Unnamed: 0,col1,col2,col3
0,a,b,1
1,a,b,2
2,c,d,3


In [130]:
pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0) #se salta las filas pares

Unnamed: 0,col1,col2,col3
0,a,b,2


* **skipfooter** (int, por defecto 0): Número de líneas en la parte inferior del archivo para omitir (no compatible con **engine = ’c’**).

* **nrows** (int, por defecto *None*): Número de filas de archivo para leer. Útil para leer fragmentos de archivos grandes.

* **low_memory** (boolean, por defecto *True*): permite procesar internamente el archivo en fragmentos, lo que dará como resultado un menor uso de memoria durante el análisis, pero posiblemente una inferencia de tipos mixtos. Para asegurarse de que no haya tipos mixtos, se debe establecer *False* o especificar el tipo con el parámetro **dtype**. Tenga en cuenta que todo el archivo se lee en un solo DataFrame, use el parámetro **chunksize** o **iterator** para devolver los datos en fragmentos. (Solo válido con *engine* C)

* **memory_map** (boolean, por defecto *False*): Si se proporciona una ruta de archivo para **filepath_or_buffer**, asigne el objeto de archivo directamente a la memoria y acceda a los datos directamente desde allí. El uso de esta opción puede mejorar el rendimiento porque ya no hay sobrecarga de I/O.


### NA y Manejo de Datos Faltantes 

* **na_values** (scalar, str, list-like, o dict, por defecto *None*): Cadenas adicionales para reconocer como **NA/NaN**. Si se pasa un diccionario, los valores NA deben ser especificados por columna.

* **keep_default_na** (boolean, por defecto *True*): permite definir si incluir o no los valores NaN predeterminados al analizar los datos. Dependiendo de si se pasa **na_values**, el comportamiento es el siguiente:
  * Si **keep_default_na** es *True* y se especifican *na_values*, na_values ​​se agrega a los valores predeterminados de NaN usados ​​para el análisis.
  * Si **keep_default_na** es *True* y no se especifican *na_values*, solo se utilizan los valores predeterminados de NaN para el análisis.
  * Si **keep_default_na** es *False*, y se especifican *na_values*, solo los valores de NaN especificados na_values ​​se utilizan para el análisis.
  * Si **keep_default_na** es *False* y no se especifican *na_values*, no se analizarán cadenas como NaN.
  
* **na_filter** (boolean, por defecto *True*): detecta marcadores de valor perdidos (cadenas vacías y el valor de na_values). En datos sin NA, pasar **na_filter = False** puede mejorar el rendimiento de la lectura de un archivo grande.

* **verbose** (boolean, por defecto *False*): indica el número de valores NA colocados en columnas no numéricas.

* **skip_blank_lines** (boolean, por defecto *True*): si es True, omite las líneas en blanco en lugar de interpretarlas como valores NaN.


### Manejo de Fecha y Hora

* **parse_dates** (boolean o lista de enteros o names o listas de listas o diccionarios, por defecto *False*).
  * Si True -> intenta analizar el índice.
  * Si [1, 2, 3] -> intente analizar las columnas 1, 2, 3 cada una como una columna de fecha separada.
  * Si [[1, 3]] -> combina las columnas 1 y 3 y analiza como una sola columna de fecha.
  * Si {'foo': [1, 3]} ->  analizar las columnas 1, 3 como fecha y llamar al resultado "foo". Existe una ruta rápida para fechas con formato iso8601.

* **infer_datetime_format** (boolean, por defecto *False*): Si *True* y *parse_dates* están habilitados para una columna, intente inferir el formato de fecha y hora para acelerar el procesamiento.

* **keep_date_col** (boolean, por defecto *False*): Si *True* y *parse_dates* especifica la combinación de varias columnas, mantiene las columnas originales.

* **date_parser** (function, por defecto *None*): función a utilizar para convertir una secuencia de columnas de cadena en una matriz de instancias de fecha y hora. El valor predeterminado usa **dateutil.parser.parser** para realizar la conversión. pandas intentará llamar a **date_parser** de tres formas diferentes, avanzando a la siguiente si ocurre una excepción: 1) Pasar una o más matrices (según lo definido por *parse_dates*) como argumentos; 2) concatenar (en filas) los valores de cadena de las columnas definidas por *parse_dates* en una sola matriz y pasar eso; y 3) llamar a *date_parser* una vez para cada fila usando una o más cadenas (correspondientes a las columnas definidas por *parse_dates*) como argumentos.

* **dayfirst** (boolean, por defecto *False*): fechas en formato DD/MM, formato internacional y europeo.

* **cache_dates** (boolean, por defecto *True*): Si es *True*, usa un caché de fechas convertidas únicas para aplicar la conversión de fecha y hora. Puede producir una aceleración significativa al analizar cadenas de fechas duplicadas, especialmente aquellas con desplazamientos de zona horaria.




### Iteración

* **iterator** (boolean, por defecto *False*):retorna un TextFileReader object para iterar u obtener fragmentos con **get_chunk()**.

* **chunksize** (int, por defecto *None*): Devuelve el objeto TextFileReader para iteración.


### Quoting, Compresión y Formato de Archivo

* **compression** ({'infer', 'gzip', 'bz2', 'zip', 'xz', None, dict}, por defecto *'infer'*): para descompresión sobre la marcha de datos en disco. Si "infiere", utiliza gzip, bz2, zip o xz si *filepath_or_buffer* es una cadena que termina en ".gz", ".bz2", ".zip" o ".xz", respectivamente, y sin descompresión en caso contrario. Si usa "zip", el archivo ZIP debe contener solo un archivo de datos para ser leído. Configure en *None* para no descomprimir. También puede ser un diccionario con la clave **method** establecida en una de las siguientes {'zip', 'gzip', 'bz2'}. Como ejemplo, se podría pasar lo siguiente para una compresión más rápida: **compression={'method': 'gzip', 'compresslevel': 1}**.

* **thousands** (str, por defecto *None*): separador de miles.

* **decimal** (str, por defecto '.'): caracter a reconocer como punto decimal. Por ejemplo, use ',' para datos europeos.

* **float_precision** (string, por defecto *None*): especifica qué convertidor debe usar el motor C para valores de punto flotante. Las opciones son *None* para el convertidor ordinario, *high* para el convertidor de alta precisión y *round_trip* para el convertidor round_trip.

* **lineterminator** (str (largo 1), por defecto *None*): caracter para dividir el archivo en líneas. Solo válido con *engine* C.

* **quotechar** (str (largo 1)): caracter que se utiliza para indicar el inicio y el final de un elemento citado. Los elementos entre comillas pueden incluir el delimitador y se ignorará.

* **quoting** (int o csv.QUOTE_* instance, por defecto 0): comportamiento de citado de campo de control por constantes csv.QUOTE_*. Utilice uno entre **QUOTE_MINIMAL** (0), **QUOTE_ALL** (1), **QUOTE_NONNUMERIC** (2) o **QUOTE_NONE** (3).

* **doublequote** (boolean, por defecto *True*): cuando se especifica *quotechar* y citar no es QUOTE_NONE, indica si se deben interpretar o no dos elementos *quotechar* consecutivos dentro de un campo como un solo elemento *quotechar*.

* **escapechar** (str (largo 1), por defecto *None*): cadena de un carácter que se usa para escapar del delimitador cuando se cita con QUOTE_NONE.

* **comment** (str, por defecto *None*): indica que el resto de la línea no debe analizarse. Si se encuentra al principio de una línea, la línea se ignorará por completo. Este parámetro debe ser de un solo carácter. Al igual que las líneas vacías (siempre que **skip_blank_lines = True**), las líneas con comentarios completos son ignoradas por el encabezado del parámetro pero no por los saltos. Por ejemplo, si **comment = '#'**, analizar **"#empty \ na, b, c \ n1,2,3"** con **header = 0** dará como resultado que "a, b, c" se trate como el encabezado.

* **encoding** (str, por defecto *None*): codificación para usar en UTF al leer/escribir (por ejemplo, 'utf-8'). Lista de codificaciones estándar de Python.

* **dialect** (str o csv.Dialect instance, por defecto *None*): Si se proporciona, este parámetro anulará los valores (predeterminados o no) para los siguientes parámetros: **delimiter**, **doublequote**, **escapechar**, **skipinitialspace**, **quotechar** y **quoting**. Si es necesario anular los valores, se emitirá un **ParserWarning**.




### Manejo de Errores

* **error_bad_lines** (boolean, por defecto *True*): Las líneas con demasiados campos (por ejemplo, una línea csv con demasiadas comas) provocarán de forma predeterminada que se genere una excepción y no se devolverá ningún DataFrame. Si es *False*, estas "líneas incorrectas" se eliminarán del DataFrame que se devuelve.

* **warn_bad_lines** (boolean, por defecto *True*): Si **error_bad_lines** es *False* y **warn_bad_lines** es *True*, se generará una advertencia por cada "línea defectuosa".




## <font color='blue'>**Especificando Tipo de Datos para Columnas**</font>

Puede indicar el tipo de datos para todo el DataFrame o columnas individuales:

In [131]:
import numpy as np

data = ('a,b,c,d\n'
         '1,2,3,4\n'
         '5,6,7,8\n'
         '9,10,11')
print(data)

a,b,c,d
1,2,3,4
5,6,7,8
9,10,11


In [132]:
df = pd.read_csv(StringIO(data), dtype=object) #se especifica el dtype
df

Unnamed: 0,a,b,c,d
0,1,2,3,4.0
1,5,6,7,8.0
2,9,10,11,


In [133]:
df['a'][0] #elemento columna a fila 0

'1'

In [134]:
df = pd.read_csv(StringIO(data), dtype={'b': object, 'c': np.float64, 'd': 'Int64'}) #s eespecifica el dtype por columna como un diccionario
df.dtypes

a      int64
b     object
c    float64
d      Int64
dtype: object

Afortunadamente, pandas ofrece más de una forma de asegurarse de que su(s) columna(s) contengan solo un dtype.

Por ejemplo, puede usar el argumento **converters** de **read_csv()**:

In [135]:
data = ("col_1\n"
         "1\n"
         "2\n"
         "'A'\n"
         "4.22")
print(data)

col_1
1
2
'A'
4.22


In [136]:
df = pd.read_csv(StringIO(data), converters={'col_1': str}) #convierte toda la col_1 en string
df

Unnamed: 0,col_1
0,1
1,2
2,'A'
3,4.22


In [137]:
df['col_1'].apply(type).value_counts()

<class 'str'>    4
Name: col_1, dtype: int64

O puede usar la función **to_numeric()** para coaccionar los dtypes después de leer los datos.

In [138]:
df2 = pd.read_csv(StringIO(data))
df2

Unnamed: 0,col_1
0,1
1,2
2,'A'
3,4.22


In [139]:
df2['col_1'] = pd.to_numeric(df2['col_1'], errors='coerce') #no arroja error usando la opción errors='coerce', opcion de pd.to_numeric
df2

Unnamed: 0,col_1
0,1.0
1,2.0
2,
3,4.22


In [140]:
df2['col_1'].apply(type).value_counts()

<class 'float'>    4
Name: col_1, dtype: int64

## <font color='blue'>**Especificando Tipo de Datos Categóricos**</font>

Las columnas categóricas se pueden analizar directamente especificando **dtype = 'category'** o **dtype = CategoricalDtype** (categorías, ordenadas).

In [141]:
data = ('col1,col2,col3\n'
         'a,b,1\n'
         'a,b,2\n'
         'c,d,3')
print(data)

col1,col2,col3
a,b,1
a,b,2
c,d,3


In [142]:
pd.read_csv(StringIO(data)) 

Unnamed: 0,col1,col2,col3
0,a,b,1
1,a,b,2
2,c,d,3


In [143]:
pd.read_csv(StringIO(data)).dtypes

col1    object
col2    object
col3     int64
dtype: object

In [144]:
pd.read_csv(StringIO(data), dtype='category').dtypes  #para identificar las columnas categoricas

col1    category
col2    category
col3    category
dtype: object

Las columnas individuales se pueden analizar como categóricas usando una especificación a través de un diccionario:

In [145]:
pd.read_csv(StringIO(data), dtype={'col1': 'category'}).dtypes #individual se identifica como diccionario, siendo el key de este el nombre de la columna, value es 'category'

col1    category
col2      object
col3       int64
dtype: object

Especificar **dtype = 'category'** dará como resultado un Categórico desordenado cuyas categorías son los valores únicos observados en los datos. Para tener más control sobre las categorías y el orden, cree un **CategoricalDtype** antes y páselo para el *dtype* de esa columna.

In [146]:
from pandas.api.types import CategoricalDtype

dtype = CategoricalDtype(['d', 'c', 'b', 'a'], ordered=True) #se identifica el tipo de categoría 
pd.read_csv(StringIO(data), dtype={'col1': dtype}).dtypes

col1    category
col2      object
col3       int64
dtype: object

Cuando se usa **dtype = CategoricalDtype**, los valores "inesperados" fuera de **dtype.categories** se tratan como valores perdidos.

In [147]:
dtype = CategoricalDtype(['a', 'b', 'd'])  # No 'c'
pd.read_csv(StringIO(data), dtype={'col1': dtype}).col1

0      a
1      a
2    NaN
Name: col1, dtype: category
Categories (3, object): ['a', 'b', 'd']

## <font color='blue'>**Nombrar y Usar Columnas**</font>

### Manejo de Nombres de Columna

Un archivo puede tener o no una fila de encabezado. pandas asume que la primera fila debe usarse como nombres de columna:


In [148]:
data = ('a,b,c\n'
         '1,2,3\n'
         '4,5,6\n'
         '7,8,9')
print(data)

a,b,c
1,2,3
4,5,6
7,8,9


In [149]:
pd.read_csv(StringIO(data))

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


Al especificar el argumento de nombres junto con el encabezado, puede indicar otros nombres para usar y si debe desechar o no la fila del encabezado (si corresponde):

In [150]:
print(data)

a,b,c
1,2,3
4,5,6
7,8,9


In [151]:
pd.read_csv(StringIO(data), names=['foo', 'bar', 'baz'], header=0) #lista de columnas es en la fila 0, aunque names los reemplaza

Unnamed: 0,foo,bar,baz
0,1,2,3
1,4,5,6
2,7,8,9


In [152]:
pd.read_csv(StringIO(data), names=['foo', 'bar', 'baz'], header=None) #la fila 0 se eincluye dentro del dataframe

Unnamed: 0,foo,bar,baz
0,a,b,c
1,1,2,3
2,4,5,6
3,7,8,9


Si el encabezado está en una fila que no sea la primera, debe pasar el número de fila al encabezado. Esto omitirá las filas anteriores.

In [153]:
data = ('skip this skip it\n'
         'a,b,c\n'
         '1,2,3\n'
         '4,5,6\n'
         '7,8,9')
print(data)

skip this skip it
a,b,c
1,2,3
4,5,6
7,8,9


In [154]:
pd.read_csv(StringIO(data), header=1) #el encabezado con nombre de columnas esta en el la fila 1

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


## <font color='blue'>**Análisis de Nombres Duplicados**</font>

Si el archivo o encabezado contiene nombres duplicados, pandas distinguirá entre ellos de forma predeterminada para evitar sobrescribir los datos:

In [155]:
data = ('a,b,a\n'
         '0,1,2\n'
         '3,4,5')
print(data)

a,b,a
0,1,2
3,4,5


In [156]:
pd.read_csv(StringIO(data)) #mangle_dupe_cols

Unnamed: 0,a,b,a.1
0,0,1,2
1,3,4,5


### Filtrar Columnas

El argumento **usecols** le permite seleccionar cualquier subconjunto de las columnas en un archivo, ya sea usando los nombres de las columnas, los números de posición o un invocable:

In [157]:
data = 'a,b,c,d\n1,2,3,foo\n4,5,6,bar\n7,8,9,baz'
print(data)

a,b,c,d
1,2,3,foo
4,5,6,bar
7,8,9,baz


In [158]:
pd.read_csv(StringIO(data))

Unnamed: 0,a,b,c,d
0,1,2,3,foo
1,4,5,6,bar
2,7,8,9,baz


In [159]:
pd.read_csv(StringIO(data), usecols=['b', 'd']) #usecols filtro de columnas

Unnamed: 0,b,d
0,2,foo
1,5,bar
2,8,baz


In [160]:
pd.read_csv(StringIO(data), usecols=[0, 2, 3]) #ytambién puede ser por Index

Unnamed: 0,a,c,d
0,1,3,foo
1,4,6,bar
2,7,9,baz


In [161]:
pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ['A', 'C']) #solo a y c usando función lambda

Unnamed: 0,a,c
0,1,3
1,4,6
2,7,9


El argumento **usecols** también se puede usar para especificar qué columnas no usar en el resultado final:

In [162]:
pd.read_csv(StringIO(data), usecols=lambda x: x not in ['a', 'c'])#en vez de usar in, se usa not in

Unnamed: 0,b,d
0,2,foo
1,5,bar
2,8,baz


## <font color='blue'>**Comentarios y Líneas Vacías**</font>

### Ignorando comentarios de línea y líneas vacías

Si se especifica el parámetro de comentario, se ignorarán las líneas completamente comentadas. De forma predeterminada, también se ignorarán las líneas completamente en blanco.

In [163]:
data = ('\n'
         'a,b,c\n'
         '  \n'
         '# commented line\n'
         '1,2,3\n'
         '\n'
         '4,5,6')
print(data)


a,b,c
  
# commented line
1,2,3

4,5,6


In [164]:
pd.read_csv(StringIO(data), comment='#') #se ignora lineas que empiezan con # y en blanco

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6


Si **skip_blank_lines=False**, entonces **read_csv** no ignorará las líneas en blanco:

In [165]:
data = ('a,b,c\n'
         '\n'
         '1,2,3\n'
         '\n'
         '\n'
         '4,5,6')
print(data)

a,b,c

1,2,3


4,5,6


In [166]:
pd.read_csv(StringIO(data), skip_blank_lines=False) #no ignora líneas en blanco

Unnamed: 0,a,b,c
0,,,
1,1.0,2.0,3.0
2,,,
3,,,
4,4.0,5.0,6.0


In [167]:
data = ('# empty\n'
         '# second empty line\n'
         '# third emptyline\n'
         'X,Y,Z\n'
         '1,2,3\n'
         'A,B,C\n'
         '1,2.,4.\n'
         '5.,NaN,10.0\n')
print(data)

# empty
# second empty line
# third emptyline
X,Y,Z
1,2,3
A,B,C
1,2.,4.
5.,NaN,10.0



In [168]:
pd.read_csv(StringIO(data), comment='#', skiprows=4, header=1)

Unnamed: 0,A,B,C
0,1.0,2.0,4.0
1,5.0,,10.0


<font color="red">Otro casos similares</font>

In [169]:
pd.read_csv(StringIO(data), comment='#') #solo descarta los que empiezan con #

Unnamed: 0,X,Y,Z
0,1,2,3
1,A,B,C
2,1,2.,4.
3,5.,,10.0


In [170]:
pd.read_csv(StringIO(data), skiprows=5) #Ignora las 5 primeras líneas

Unnamed: 0,A,B,C
0,1.0,2.0,4.0
1,5.0,,10.0


In [171]:
pd.read_csv(StringIO(data), comment='#', header=2) #los nombres de las columnas están en la fila 3 (number+1), se dedscartan para el conteo las filas con #

Unnamed: 0,A,B,C
0,1.0,2.0,4.0
1,5.0,,10.0


In [172]:
pd.read_csv(StringIO(data), comment='#', skiprows=4, header=1) #descarta filas con #, se salta las 4 primeras filas (hasta X,Y,Z) y de estas, los
#nombres de columnas están en la siguiente fila (header=1) 

Unnamed: 0,A,B,C
0,1.0,2.0,4.0
1,5.0,,10.0


###  Comentarios 

A veces, se pueden incluir comentarios o metadatos en un archivo:

In [173]:
data = ('ID,level,category\n'
'Patient1,123000,x # really unpleasant\n'
'Patient2,23000,y # would not take his medicine\n'
'Patient3,1234018,z # awesome\n')
print(data)

ID,level,category
Patient1,123000,x # really unpleasant
Patient2,23000,y # would not take his medicine
Patient3,1234018,z # awesome



In [174]:
df = pd.read_csv(StringIO(data))
df

Unnamed: 0,ID,level,category
0,Patient1,123000,x # really unpleasant
1,Patient2,23000,y # would not take his medicine
2,Patient3,1234018,z # awesome


In [175]:
df = pd.read_csv(StringIO(data), comment='#') #descarta todo lo que está después de #
df

Unnamed: 0,ID,level,category
0,Patient1,123000,x
1,Patient2,23000,y
2,Patient3,1234018,z


In [176]:
df['category'][0] #(se observa que no es solo #, incluye el espacio)

'x '

## <font color='blue'>**Columnas de Índice y Delimitadores Finales**</font>

Si un archivo tiene una columna de datos más que el número de nombres de columna, la primera columna se usará como nombres de fila del DataFrame:

In [177]:
data = ('a,b,c\n'
         '4,apple,bat,5.7\n'
         '8,orange,cow,10')
print(data)

a,b,c
4,apple,bat,5.7
8,orange,cow,10


In [178]:
pd.read_csv(StringIO(data)) #con una columna de diferencia, la 1ra se convierte en index

Unnamed: 0,a,b,c
4,apple,bat,5.7
8,orange,cow,10.0


In [179]:
data = ('index,a,b,c\n'
         '4,apple,bat,5.7\n'
         '8,orange,cow,10')
print(data)

index,a,b,c
4,apple,bat,5.7
8,orange,cow,10


In [180]:
pd.read_csv(StringIO(data), index_col=0) #multiindex

Unnamed: 0_level_0,a,b,c
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,apple,bat,5.7
8,orange,cow,10.0


In [181]:
pd.read_csv(StringIO(data), index_col=0)['c'][4] #multi-index, columna c index 4

5.7

In [182]:
data = ('a,b,c\n'
         '4,apple,bat,\n'
         '8,orange,cow,')
print(data)

a,b,c
4,apple,bat,
8,orange,cow,


In [183]:
pd.read_csv(StringIO(data)) #NaN ya que existe , posterior a bat y cow

Unnamed: 0,a,b,c
4,apple,bat,
8,orange,cow,


In [184]:
pd.read_csv(StringIO(data), index_col=False) #no hay columna de index

Unnamed: 0,a,b,c
0,4,apple,bat
1,8,orange,cow


In [185]:
data = ('a,b,c\n'
         '4,apple,bat,\n'
         '8,orange,cow,')
print(data)

a,b,c
4,apple,bat,
8,orange,cow,


In [186]:
pd.read_csv(StringIO(data), usecols=['b', 'c']) #index_col=0 por defecto

Unnamed: 0,b,c
4,bat,
8,cow,


In [187]:
pd.read_csv(StringIO(data), usecols=['b', 'c'], index_col=0) 

Unnamed: 0,b,c
4,bat,
8,cow,


## <font color='blue'>**Manejo de Fechas**</font>

### Especificando Columnas de Fechas

Para facilitar el trabajo con datos de fecha y hora, **read_csv()** usa los argumentos de palabras clave **parse_dates** y **date_parser** para permitir a los usuarios especificar una variedad de columnas y formatos de fecha/hora para convertir los datos de texto de entrada en objetos de fecha y hora.

El caso más simple es simplemente pasar **parse_dates = True**:

**Recuerda montar tu drive con los archivos**

In [188]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [189]:
ruta = '/content/drive/MyDrive/Colab_Python/02. Obtencion y Procesamiento de Datos/Files/'

In [219]:
df = pd.read_csv(ruta + 'foo.csv', index_col=0, parse_dates=True)
df

Unnamed: 0_level_0,A,B,C
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2009-01-01,a,1,2
2009-01-02,b,3,4
2009-01-03,c,4,5


In [220]:
df.index #identifica el index de tipo Datetime , datetime64 es el dtype

DatetimeIndex(['2009-01-01', '2009-01-02', '2009-01-03'], dtype='datetime64[ns]', name='date', freq=None)

Es posible que queramos almacenar datos de fecha y hora por separado, o almacenar varios campos de fecha por separado. La palabra clave **parse_dates** se puede utilizar para especificar una combinación de columnas para analizar las fechas y/o horas.

Puede especificar una lista de listas de columnas para **parse_dates**, las columnas de fecha resultantes se antepondrán a la salida (para no afectar el orden de las columnas existentes) y los nombres de las nuevas columnas serán la concatenación de los nombres de las columnas del componente:

In [221]:
print(open(ruta + 'tmp.csv').read()) #lee solo las lineas, hay separadores

KORD,19990127,19:00:00,18:56:00,0.8100
KORD,19990127,20:00:00,19:56:00,0.0100
KORD,19990127,21:00:00,20:56:00,-0.5900
KORD,19990127,21:00:00,21:18:00,-0.9900
KORD,19990127,22:00:00,21:56:00,-0.5900
KORD,19990127,23:00:00,22:56:00,-0.5900



In [222]:
df = pd.read_csv(ruta + 'tmp.csv', header=None, parse_dates=[[1, 2], [1, 3]]) #junta dia y hora usando parse_dates
df

Unnamed: 0,1_2,1_3,0,4
0,1999-01-27 19:00:00,1999-01-27 18:56:00,KORD,0.81
1,1999-01-27 20:00:00,1999-01-27 19:56:00,KORD,0.01
2,1999-01-27 21:00:00,1999-01-27 20:56:00,KORD,-0.59
3,1999-01-27 21:00:00,1999-01-27 21:18:00,KORD,-0.99
4,1999-01-27 22:00:00,1999-01-27 21:56:00,KORD,-0.59
5,1999-01-27 23:00:00,1999-01-27 22:56:00,KORD,-0.59


In [223]:
df = pd.read_csv(ruta + 'tmp.csv', header=None, parse_dates=[[1, 2], [1, 3]], keep_date_col=True) #junto con agrupar fecha dia
#mantiene los valores originales
df

Unnamed: 0,1_2,1_3,0,1,2,3,4
0,1999-01-27 19:00:00,1999-01-27 18:56:00,KORD,19990127,19:00:00,18:56:00,0.81
1,1999-01-27 20:00:00,1999-01-27 19:56:00,KORD,19990127,20:00:00,19:56:00,0.01
2,1999-01-27 21:00:00,1999-01-27 20:56:00,KORD,19990127,21:00:00,20:56:00,-0.59
3,1999-01-27 21:00:00,1999-01-27 21:18:00,KORD,19990127,21:00:00,21:18:00,-0.99
4,1999-01-27 22:00:00,1999-01-27 21:56:00,KORD,19990127,22:00:00,21:56:00,-0.59
5,1999-01-27 23:00:00,1999-01-27 22:56:00,KORD,19990127,23:00:00,22:56:00,-0.59


Tenga en cuenta que si desea combinar varias columnas en una sola columna de fecha, se debe utilizar una lista anidada. En otras palabras, **parse_dates = [1, 2]** indica que la segunda y la tercera columna deben analizarse como columnas de fecha separadas, mientras que **parse_dates = [[1, 2]]** significa que las dos columnas deben analizarse en una sola columna.

También puede usar un diccionario para especificar columnas de nombre personalizadas:

In [246]:
date_spec = {'nominal': [1, 2], 'actual': [1, 3]} #diccionario, key nombre de columna, values el parse_dates
date_spec

{'actual': [1, 3], 'nominal': [1, 2]}

In [225]:
df = pd.read_csv(ruta + 'tmp.csv', header=None, parse_dates=date_spec)
df

Unnamed: 0,nominal,actual,0,4
0,1999-01-27 19:00:00,1999-01-27 18:56:00,KORD,0.81
1,1999-01-27 20:00:00,1999-01-27 19:56:00,KORD,0.01
2,1999-01-27 21:00:00,1999-01-27 20:56:00,KORD,-0.59
3,1999-01-27 21:00:00,1999-01-27 21:18:00,KORD,-0.99
4,1999-01-27 22:00:00,1999-01-27 21:56:00,KORD,-0.59
5,1999-01-27 23:00:00,1999-01-27 22:56:00,KORD,-0.59


Es importante recordar que si se van a analizar varias columnas de texto en una sola columna de fecha, se antepone una nueva columna a los datos. La especificación **index_col** se basa en este nuevo conjunto de columnas en lugar de en las columnas de datos originales:

In [226]:
date_spec = {'nominal': [1, 2], 'actual': [1, 3]}
date_spec

{'actual': [1, 3], 'nominal': [1, 2]}

In [227]:
df = pd.read_csv(ruta + 'tmp.csv', header=None, parse_dates=date_spec, index_col=0) #primera columna es index
df

Unnamed: 0_level_0,actual,0,4
nominal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1999-01-27 19:00:00,1999-01-27 18:56:00,KORD,0.81
1999-01-27 20:00:00,1999-01-27 19:56:00,KORD,0.01
1999-01-27 21:00:00,1999-01-27 20:56:00,KORD,-0.59
1999-01-27 21:00:00,1999-01-27 21:18:00,KORD,-0.99
1999-01-27 22:00:00,1999-01-27 21:56:00,KORD,-0.59
1999-01-27 23:00:00,1999-01-27 22:56:00,KORD,-0.59


### Funciones de Análisis de Fecha

Se puede especificar una función **date_parser** personalizada para aprovechar al máximo la flexibilidad de la API de análisis de fechas:

In [228]:
df = pd.read_csv(ruta + 'tmp.csv', header=None, parse_dates=date_spec, date_parser=pd.io.date_converters.parse_date_time)
df

Unnamed: 0,nominal,actual,0,4
0,1999-01-27 19:00:00,1999-01-27 18:56:00,KORD,0.81
1,1999-01-27 20:00:00,1999-01-27 19:56:00,KORD,0.01
2,1999-01-27 21:00:00,1999-01-27 20:56:00,KORD,-0.59
3,1999-01-27 21:00:00,1999-01-27 21:18:00,KORD,-0.99
4,1999-01-27 22:00:00,1999-01-27 21:56:00,KORD,-0.59
5,1999-01-27 23:00:00,1999-01-27 22:56:00,KORD,-0.59


### Inferir Formato de Fecha y Hora

Si tiene **parse_dates** habilitado para algunas o todas sus columnas, y sus cadenas de fecha y hora están todas formateadas de la misma manera, puede obtener una gran aceleración al configurar **infer_datetime_format = True**. Si se establece, pandas intentará adivinar el formato de sus cadenas de fecha y hora y luego utilizará un medio más rápido para analizar las cadenas. Se han observado velocidades de análisis sintáctico de 5-10x. pandas recurrirá al análisis habitual si no se puede adivinar el formato o si el formato que se adivinó no se puede analizar correctamente toda la columna de cadenas. Entonces, en general, **infer_datetime_format** no debería tener consecuencias negativas si está habilitado.

A continuación, se muestran algunos ejemplos de cadenas de fecha y hora que se pueden adivinar (todas representan el 30 de diciembre de 2011 a las 00:00:00):

"20111230"

"2011/12/30"

"20111230 00:00:00"

"30/12/2011 00:00:00"

"30/Dic/2011 00:00:00"

"30/diciembre/2011 00:00:00"

Tenga en cuenta que **infer_datetime_format** es sensible a **dayfirst**. Con **dayfirst = True**, supondrá que “01/12/2011” es el 1 de diciembre. Con **dayfirst = False** (predeterminado) supondrá que “01/12/2011” es el 12 de enero.

In [229]:
df = pd.read_csv(ruta + 'foo.csv', index_col=0, parse_dates=True, infer_datetime_format=True) #infer_datetime_format
#Infiere formatos de fecha
df

Unnamed: 0_level_0,A,B,C
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2009-01-01,a,1,2
2009-01-02,b,3,4
2009-01-03,c,4,5


### Formato Internacional de Fecha

Si bien los formatos de fecha de EE.UU. tienden a ser MM/DD/YYYY, muchos formatos internacionales utilizan DD/MM/YYYY en su lugar. Para mayor comodidad, se proporciona una palabra clave **dayfirst**:

In [230]:
print(open(ruta + 'tmp2.csv').read())

date,value,cat
1/6/2000,5,a
2/6/2000,10,b
3/6/2000,15,c



In [231]:
pd.read_csv(ruta + 'tmp2.csv', parse_dates=[0])

Unnamed: 0,date,value,cat
0,2000-01-06,5,a
1,2000-02-06,10,b
2,2000-03-06,15,c


In [232]:
pd.read_csv(ruta + 'tmp2.csv', dayfirst=True, parse_dates=[0]) #cambia mes / dia

Unnamed: 0,date,value,cat
0,2000-06-01,5,a
1,2000-06-02,10,b
2,2000-06-03,15,c


## <font color='blue'>**Especificación del Método para la Conversión de Punto Flotante**</font>

El parámetro **float_precisio**n se puede especificar para utilizar un convertidor de punto flotante específico durante el análisis con el motor C. Por ejemplo:

In [233]:
val = '0.3066101993807095471566981359501369297504425048828125' #valor

In [234]:
data = 'a,b,c\n1,2,{0}'.format(val)
print(data)

a,b,c
1,2,0.3066101993807095471566981359501369297504425048828125


In [235]:
abs(pd.read_csv(StringIO(data), engine='c', float_precision=None)['c'][0] - float(val)) #engine c y sin float_precicion

1.1102230246251565e-16

In [236]:
abs(pd.read_csv(StringIO(data), engine='c', float_precision='high')['c'][0] - float(val))#engine c y float_precicion igual a 'high'

5.551115123125783e-17

In [237]:
abs(pd.read_csv(StringIO(data), engine='c', float_precision='round_trip')['c'][0] - float(val))#engine c y float_precicion igual a 'round_trip'

0.0

## <font color='blue'>**Separador de Miles**</font>

Para números grandes que se han escrito con un separador de miles, puede establecer la palabra clave **thousands** en una cadena de longitud 1 para que los enteros se analicen correctamente:

De forma predeterminada, los números con un separador de miles se analizarán como cadenas:

In [238]:
print(open(ruta + 'tmp3.csv').read())

ID;Level;category
Patient1;123,000;x
Patient2;23,000;y
Patient3;1,234,018;z



In [239]:
df = pd.read_csv(ruta + 'tmp3.csv', sep=';') #identifica el separador
df

Unnamed: 0,ID,Level,category
0,Patient1,123000,x
1,Patient2,23000,y
2,Patient3,1234018,z


In [240]:
df = pd.read_csv(ruta + 'tmp3.csv', sep=';', thousands=',') #por si hay elementos de miles
df

Unnamed: 0,ID,Level,category
0,Patient1,123000,x
1,Patient2,23000,y
2,Patient3,1234018,z


## <font color='blue'>**Valores NA**</font>

Para controlar qué valores se analizan como valores perdidos (que se indican con NaN), se especifica una cadena en **na_values**. Si especifica una lista de cadenas, todos los valores en ella se consideran valores perdidos. Si especifica un número (un flotante, como 5.0 o un número entero como 5), los valores equivalentes correspondientes también implicarán un valor faltante (en este caso efectivamente [5.0, 5] se reconocen como NaN).

Para anular completamente los valores predeterminados que se reconocen como faltantes, especifique **keep_default_na = False**.

Los valores predeterminados reconocidos por NaN son ['-1. # IND', '1. # QNAN', '1. # IND', '-1. # QNAN', '# N / AN / A', '# N / A ',' N / A ',' n / a ',' NA ',' <NA> ',' #NA ',' NULL ',' null ',' NaN ',' -NaN ',' nan ' , '-nan', ''].


## <font color='blue'>**Infinito**</font>

Los valores similares a **inf** se analizarán como **np.inf** (infinito positivo) y **-inf** como **-np.inf** (infinito negativo). Estos ignorarán el caso del valor, es decir, **Inf**, también se analizará como **np.inf**.

## <font color='blue'>**Valores Booleanos**</font>

Los valores comunes *True*, *False*, *TRUE* y *FALSE* se reconocen como booleanos. En ocasiones, es posible que desee reconocer otros valores como booleanos. Para hacer esto, use las opciones **true_values** y **false_values** de la siguiente manera:

In [241]:
data = ('a,b,c\n'
         '1,Yes,2\n'
         '3,No,4')
print(data)

a,b,c
1,Yes,2
3,No,4


In [242]:
pd.read_csv(StringIO(data))

Unnamed: 0,a,b,c
0,1,Yes,2
1,3,No,4


In [243]:
pd.read_csv(StringIO(data), true_values=['Yes'], false_values=['No']) #cambia a T cuando existe 'Yes', y para F cuando existe 'No' 

Unnamed: 0,a,b,c
0,1,True,2
1,3,False,4


## <font color='blue'>**Manejo de Líneas "Malas"**</font>

Algunos archivos pueden tener líneas mal formadas con muy pocos campos o demasiados. Las líneas con muy pocos campos tendrán los valores NA rellenados en los campos finales. Las líneas con demasiados campos generarán un error de forma predeterminada:

In [244]:
data = ('a,b,c\n'
         '1,2,3\n'
         '4,5,6,7\n'
         '8,9,10')
print(data)

a,b,c
1,2,3
4,5,6,7
8,9,10


In [245]:
pd.read_csv(StringIO(data))

ParserError: ignored

<font color ='red'>El código anterior retorna un error porque una de las líneas definidas en la variable data contiene 4 atributos, mientras todos los otros contienen solo 3.</font>

Puede optar por omitir las líneas incorrectas:

In [247]:
pd.read_csv(StringIO(data), error_bad_lines=False) #descarta las lineas erroneas

b'Skipping line 3: expected 3 fields, saw 4\n'


Unnamed: 0,a,b,c
0,1,2,3
1,8,9,10


También puede usar el parámetro **usecols** para eliminar datos de columna extraños que aparecen en algunas líneas pero no en otras:

In [248]:
pd.read_csv(StringIO(data), usecols=[0, 1, 2])

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,8,9,10


## <font color='blue'>**Leer Varios Archivos para Crear un Solo DataFrame**</font>

Es mejor usar **concat()** para combinar varios archivos.


## <font color='blue'>**Iterando Archivos Fragmento a Fragmento"**</font>

Suponga que desea recorrer un archivo (potencialmente muy grande) de manera perezosa en lugar de leer todo el archivo en la memoria, como el siguiente:

In [249]:
print(open(ruta + 'bar.txt').read())

﻿|0|1|2|3
0|0.4691122999071863|-0.2828633443286633|-1.5090585031735124|-1.1356323710171934
1|1.2121120250208506|-0.17321464905330858|0.11920871129693428|-1.0442359662799567
2|-0.8618489633477999|-2.1045692188948086|-0.4949292740687813|1.071803807037338
3|0.7215551622443669|-0.7067711336300845|-1.0395749851146963|0.27185988554282986
4|-0.42497232978883753|0.567020349793672|0.27623201927771873|-1.0874006912859915
5|-0.6736897080883706|0.1136484096888855|-1.4784265524372235|0.5249876671147047
6|0.4047052186802365|0.5770459859204836|-1.7150020161146375|-1.0392684835147725
7|-0.3706468582364464|-1.1578922506419993|-1.344311812731667|0.8448851414248841
8|1.0757697837155533|-0.10904997528022223|1.6435630703622064|-1.4693879595399115
9|0.35702056413309086|-0.6746001037299882|-1.776903716971867|-0.9689138124473498



In [250]:
table = pd.read_csv(ruta + 'bar.txt', sep='|')
table

Unnamed: 0.1,Unnamed: 0,0,1,2,3
0,0,0.469112,-0.282863,-1.509059,-1.135632
1,1,1.212112,-0.173215,0.119209,-1.044236
2,2,-0.861849,-2.104569,-0.494929,1.071804
3,3,0.721555,-0.706771,-1.039575,0.27186
4,4,-0.424972,0.56702,0.276232,-1.087401
5,5,-0.67369,0.113648,-1.478427,0.524988
6,6,0.404705,0.577046,-1.715002,-1.039268
7,7,-0.370647,-1.157892,-1.344312,0.844885
8,8,1.07577,-0.10905,1.643563,-1.469388
9,9,0.357021,-0.6746,-1.776904,-0.968914


Al especificar un tamaño de trozo para **read_csv**, el valor de retorno será un objeto iterable de tipo TextFileReader:

In [251]:
reader = pd.read_csv(ruta + 'bar.txt', sep='|', chunksize=4)
reader

<pandas.io.parsers.TextFileReader at 0x7ff170799510>

In [252]:
for chunk in reader:
  print(chunk)

   Unnamed: 0         0         1         2         3
0           0  0.469112 -0.282863 -1.509059 -1.135632
1           1  1.212112 -0.173215  0.119209 -1.044236
2           2 -0.861849 -2.104569 -0.494929  1.071804
3           3  0.721555 -0.706771 -1.039575  0.271860
   Unnamed: 0         0         1         2         3
4           4 -0.424972  0.567020  0.276232 -1.087401
5           5 -0.673690  0.113648 -1.478427  0.524988
6           6  0.404705  0.577046 -1.715002 -1.039268
7           7 -0.370647 -1.157892 -1.344312  0.844885
   Unnamed: 0         0        1         2         3
8           8  1.075770 -0.10905  1.643563 -1.469388
9           9  0.357021 -0.67460 -1.776904 -0.968914


<font color = 'red'>Recorre el archivo mostrando la cantidad de lineas definido en el parámetro chunksize, el último grupo puede mostrar menos registros del tamaño definido</font>

Especificar **iterator = True** también devolverá el objeto TextFileReader:

In [253]:
reader = pd.read_csv(ruta + 'bar.txt', sep='|', iterator=True)
reader.get_chunk(5)

Unnamed: 0.1,Unnamed: 0,0,1,2,3
0,0,0.469112,-0.282863,-1.509059,-1.135632
1,1,1.212112,-0.173215,0.119209,-1.044236
2,2,-0.861849,-2.104569,-0.494929,1.071804
3,3,0.721555,-0.706771,-1.039575,0.27186
4,4,-0.424972,0.56702,0.276232,-1.087401


## <font color='blue'>**Leyendo Archivos Remotos**</font>

Usted puede pasar una URL a un archivo CSV.

In [254]:
df = pd.read_csv('https://download.bls.gov/pub/time.series/cu/cu.item', sep='\t')
df

Unnamed: 0,item_code,item_name,display_level,selectable,sort_sequence
0,AA0,All items - old base,0,T,2
1,AA0R,Purchasing power of the consumer dollar - old ...,0,T,400
2,SA0,All items,0,T,1
3,SA0E,Energy,1,T,375
4,SA0L1,All items less food,1,T,359
...,...,...,...,...,...
395,SSEA011,College textbooks,3,T,314
396,SSEE041,Smartphones,4,T,335
397,SSFV031A,Food at elementary and secondary schools,3,T,122
398,SSGE013,Infants' equipment,3,T,356


## <font color='blue'>**Escribir en Formato CSV**</font>

Los objetos **Series** y **DataFram**e tienen un método de instancia **to_csv** que permite almacenar el contenido del objeto como un archivo de valores separados por comas. La función toma varios argumentos. Solo se requiere el primero.

* **path_or_buf**: una ruta de cadena al archivo para escribir o un objeto de archivo. Si es un objeto de archivo, debe abrirse con una nueva línea = ’’

* **sep**: delimitador de campo para el archivo de salida (predeterminado ",")

* **na_rep**: una representación de cadena de un valor faltante (predeterminado "")

* **float_format**: cadena de formato para números de punto flotante

* **columns**: columnas para escribir (predeterminado *None*)

* **header**: si se deben escribir los nombres de las columnas (predeterminado *True*)

* **index**: si se deben escribir nombres de fila (índice) (predeterminado *True*)

* **index_label**: Etiqueta(s) de columna para la(s) columna(s) de índice si lo desea. Si *None* (predeterminado) y el header y el index son True, se utilizan los nombres de index. (Se debe dar una secuencia si el DataFrame usa MultiIndex).

* **mode**: modo de escritura Python, predeterminado "w"

* **encoding**: una cadena que representa la codificación que se utilizará si el contenido no es ASCII, para las versiones de Python anteriores a la 3

* **line_terminator**: secuencia de caracteres que indica el final de la línea (por defecto *os.linesep*)

* **quoting**: establece reglas de citado como en el módulo csv (por defecto csv.QUOTE_MINIMAL). Tenga en cuenta que si ha establecido un **float_format**, los flotantes se convierten en cadenas y csv.QUOTE_NONNUMERIC los tratará como no numéricos

* **quotechar**: Carácter utilizado para citar campos (predeterminado "" ")

* **doublequote**: Control de cotización de quotechar en campos (por defecto *True*)

* **escapechar**: Carácter utilizado para escapar de *sep* y *quotechar* cuando sea apropiado (predeterminado *None*)

* **chunksize**: número de filas para escribir a la vez

* **date_format**: cadena de formato para objetos de fecha y hora


## <font color='blue'>**Escribir una Cadena Formateada**</font>

El objeto DataFrame tiene un método de instancia **to_string** que permite controlar la representación de cadena del objeto. Todos los argumentos son opcionales:

* **buf** predeterminado *None*, por ejemplo, un objeto StringIO

* **columns** predeterminadas *None*, qué columnas escribir

* **col_space** predeterminado *None*, ancho mínimo de cada columna.

* **na_rep** predeterminado NaN, representación del valor NA

* **formatters** predeterminado *None*, un diccionario (por columna) de funciones, cada una de las cuales toma un solo argumento y devuelve una cadena formateada

* **float_format** predeterminado *None*, una función que toma un solo argumento (flotante) y devuelve una cadena formateada; que se aplicará a los flotantes en el DataFrame.

* **sparsify** predeterminado *True*, establecido en *False* para un DataFrame con un índice jerárquico para imprimir cada clave MultiIndex en cada fila.

* **index_names** predeterminado *True*, imprimirá los nombres de los índices

* **index** predeterminado *True*, imprimirá el índice (es decir, etiquetas de fila)

* **header** predeterminado *True*, imprimirá las etiquetas de las columnas

* **justify** por defecto a la *left*, imprimirá los encabezados de columna justificados a la izquierda o derecha

El objeto Series también tiene un método **to_string**, pero solo con los argumentos **buf**, **na_rep**, **float_format**. También hay un argumento de length que, si se establece en *True*, generará adicionalmente la longitud de la Serie.

## <font color='blue'>**Escribir un JSON**</font>

Series o DataFrames pueden ser convertidos en JSON. Usando **to_json** con los siguientes parámetros opcionales:

* **path_or_buf**: el nombre de ruta o búfer para escribir la salida. Este puede ser *None*, en cuyo caso se devuelve una cadena JSON.

* **orient**:
  * **Series**:
    * por defecto es el *index*
    * permite los valores {split, records, index}

  * DataFrame:
    * por defecto es *columns*
    * permite los valores {split, records, index, columns, values, table}

* **date_format**: str, tipo de conversión de fecha, "época" para la marca de tiempo, "iso" para ISO8601.

* **double_precision**: el número de posiciones decimales que se utilizarán al codificar valores de coma flotante, por defecto 10.

* **force_ascii**: forzar la cadena codificada para que sea ASCII, por defecto *True*.

* **date_unit**: la unidad de tiempo para codificar, gobierna la marca de tiempo y la precisión ISO8601. Uno de "s", "ms", "us" o "ns" para segundos, milisegundos, microsegundos y nanosegundos respectivamente. "ms" predeterminado.

* **default_handler**: el controlador al que se debe llamar si un objeto no se puede convertir de otro modo a un formato adecuado para JSON. Toma un solo argumento, que es el objeto a convertir, y devuelve un objeto serializable.

* **lines**: si los registros se orientan, escribirá cada registro por línea como json.


In [255]:
dfj = pd.DataFrame(np.random.randn(5, 2), columns=list('AB'))
dfj

Unnamed: 0,A,B
0,1.019907,-0.011744
1,-0.244114,-0.326214
2,-1.512406,-0.346748
3,0.20643,-0.688925
4,-0.178369,-1.295237


In [256]:
json = dfj.to_json()
json

'{"A":{"0":1.0199068667,"1":-0.244113618,"2":-1.5124062556,"3":0.2064303146,"4":-0.178369427},"B":{"0":-0.0117435518,"1":-0.3262138251,"2":-0.3467483261,"3":-0.6889253552,"4":-1.295236901}}'

In [257]:
dfjo = pd.DataFrame(dict(A=range(1, 4), B=range(4, 7), C=range(7, 10)),
                     columns=list('ABC'), index=list('xyz'))
dfjo

Unnamed: 0,A,B,C
x,1,4,7
y,2,5,8
z,3,6,9


In [258]:
sjo = pd.Series(dict(x=15, y=16, z=17), name='D')
sjo

x    15
y    16
z    17
Name: D, dtype: int64

In [259]:
dfjo.to_json(orient="columns") #por columnas

'{"A":{"x":1,"y":2,"z":3},"B":{"x":4,"y":5,"z":6},"C":{"x":7,"y":8,"z":9}}'

In [260]:
dfjo.to_json(orient="index") #por filas

'{"x":{"A":1,"B":4,"C":7},"y":{"A":2,"B":5,"C":8},"z":{"A":3,"B":6,"C":9}}'

In [261]:
dfjo.to_json(orient="records") #dicicionarios con valores para cada fila

'[{"A":1,"B":4,"C":7},{"A":2,"B":5,"C":8},{"A":3,"B":6,"C":9}]'

In [262]:
dfjo.to_json(orient="values") #solo valores

'[[1,4,7],[2,5,8],[3,6,9]]'

In [263]:
dfjo.to_json(orient="split") #valores, y separa los nombres tanto de fila como de columna

'{"columns":["A","B","C"],"index":["x","y","z"],"data":[[1,4,7],[2,5,8],[3,6,9]]}'

In [264]:
sjo.to_json(orient="split")

'{"name":"D","index":["x","y","z"],"data":[15,16,17]}'

## <font color='blue'>**Leyendo un JSON**</font>

La lectura de una cadena JSON en un objeto pandas puede requerir una serie de parámetros. El analizador intentará analizar un DataFrame si no se proporciona **typ** o si es *None*. Para forzar explícitamente el análisis de series, pase *typ = series*.

* **filepath_or_buffer**: una cadena JSON VÁLIDA o un identificador de archivo/StringIO. La cadena podría ser una URL. Los esquemas de URL válidos incluyen http, ftp, S3 y file. Para las URL de archivos, se espera un host. Por ejemplo, un archivo local podría ser file: //localhost/path/to/table.json

* **typ**: tipo de objeto para recuperar (serie o dataframe), "Dataframe" es el valor predeterminado

* **orient**:
  * **Serie**:
    * el valor predeterminado es *index*
    * los valores permitidos son {split, records, index}

  * **Dataframe**:
      * por defecto son *columns*
      * los valores permitidos son {división, registros, índice, columnas, valores, tabla}

* **dtype**: si es *True*, infiere *dtypes*, si es un diccionario de columna a dtype, usa esos valores, si es *False*, entonces no infiera dtypes, el valor predeterminado es *True*, se aplica solo a los datos.

* **convert_axes**: boolean, intenta convertir los ejes a los dtypes adecuados, el valor predeterminado es *True*

* **convert_dates**: una lista de columnas para analizar las fechas; Si es *True*, intente analizar columnas similares a fechas, el valor predeterminado es *True*.

* **keep_default_dates**: booleano, por defecto *True*. Si está analizando fechas, analiza las columnas de tipo fecha predeterminadas.

* **numpy**: decodificación directa de matrices NumPy. El valor predeterminado es *False*; solo admite datos numéricos, aunque las etiquetas pueden ser no numéricas. También tenga en cuenta que el orden JSON DEBE ser el mismo para cada término si **numpy = True**.

* **precise_float**: booleano, por defecto *False*. Configúrelo para habilitar el uso de la función de mayor precisión (*strtod*) al decodificar cadenas a valores dobles. El valor predeterminado (*False*) utiliza una funcionalidad integrada rápida pero menos precisa.

* **date_unit**: str, la unidad de marca de tiempo para detectar si se convierten fechas. *None* es el valor predeterminado. De forma predeterminada, se detectará la precisión de la marca de tiempo; si no se desea, pase uno de 's', 'ms', 'us' o 'ns' para forzar la precisión de la marca de tiempo a segundos, milisegundos, microsegundos o nanosegundos respectivamente.

* **lines**: lee el archivo como un objeto json por línea.

* **encoding**: la codificación que se utilizará para decodificar los bytes py3.

* **chunksize**: cuando se usa en combinación con **lines = True**, devuelve un JsonReader que lee en líneas de chunksize por iteración.

## <font color='blue'>**Leer HTML**</font>

In [265]:
url = 'https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/'
dfs = pd.read_html(url)
dfs

[                         Bank NameBank  ... FundFund
 0                    Almena State Bank  ...    10538
 1           First City Bank of Florida  ...    10537
 2                 The First State Bank  ...    10536
 3                   Ericson State Bank  ...    10535
 4     City National Bank of New Jersey  ...    10534
 ..                                 ...  ...      ...
 558                 Superior Bank, FSB  ...     6004
 559                Malta National Bank  ...     4648
 560    First Alliance Bank & Trust Co.  ...     4647
 561  National State Bank of Metropolis  ...     4646
 562                   Bank of Honolulu  ...     4645
 
 [563 rows x 7 columns]]

## <font color='blue'>**Escribir un HTML**</font>

In [266]:
df = pd.DataFrame(np.random.randn(2, 2))
df

Unnamed: 0,0,1
0,2.023039,-0.295869
1,1.403712,-0.72608


In [267]:
print(df.to_html()) #dataframe como tabla HTML 

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>0</th>
      <th>1</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>2.023039</td>
      <td>-0.295869</td>
    </tr>
    <tr>
      <th>1</th>
      <td>1.403712</td>
      <td>-0.726080</td>
    </tr>
  </tbody>
</table>


In [268]:
print(df.to_html(columns=[0])) #solo la columna 0, escrita en lenguaje HTML

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>0</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>2.023039</td>
    </tr>
    <tr>
      <th>1</th>
      <td>1.403712</td>
    </tr>
  </tbody>
</table>


In [269]:
print(df.to_html(float_format='{0:.10f}'.format)) #Se cambia el formato de números

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>0</th>
      <th>1</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>2.0230387243</td>
      <td>-0.2958694389</td>
    </tr>
    <tr>
      <th>1</th>
      <td>1.4037118065</td>
      <td>-0.7260795256</td>
    </tr>
  </tbody>
</table>


## <font color='blue'>**Archivos Excel**</font>

El método **read_excel()** puede leer archivos de Excel 2003 (.xls) usando el módulo **xlrd** Python. Los archivos de Excel 2007+ (.xlsx) se pueden leer usando **xlrd** o **openpyxl**. Los archivos binarios de Excel (.xlsb) se pueden leer usando **pyxlsb**. El método de instancia **to_excel()** se utiliza para guardar un DataFrame en Excel. Generalmente, la semántica es similar a trabajar con datos csv.

## <font color='blue'>**Leer Excel**</font>

En el caso de uso más básico, **read_excel** toma una *ruta a un archivo* de Excel y el *sheet_name* indica qué hoja analizar.

In [270]:
pd.read_excel(ruta + 'ESI_2017.xlsx') #1ra pestaña por defecto

Unnamed: 0,N.º,region,tipo_estrato,edad,parentesco,sexo,nivel_mas_alto_aprobado,termino_nivel,clasificacion_internacional_nivel_estudio,proveedor,nacionalidad,estado_conyugal,total_personas_hogar,total_personas_menores_15_años,total_personas_mayores_15_años,salario_neto
0,1,11,ciudad,43,4,M,3,no,4,no_proveedor,chilena,3,2,0,2,
1,2,13,rural,53,2,F,4,si,5,no_proveedor,chilena,1,3,0,3,
2,3,13,ciudad,37,4,M,4,no,5,no_proveedor,chilena,3,4,0,4,218629
3,4,4,ciudad,33,1,M,5,si,5,proveedor_principal,chilena,2,2,0,2,
4,5,2,resto_area_urbana,43,1,M,5,si,5,proveedor_principal,chilena,5,2,0,2,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15595,15596,10,rural,57,2,M,4,si,5,proveedor_principal,chilena,1,3,0,3,
15596,15597,7,rural,25,4,F,7,si,6,no_proveedor,chilena,3,3,0,3,
15597,15598,10,ciudad,56,2,F,3,no,3,no_proveedor,chilena,1,5,2,3,
15598,15599,9,rural,63,1,M,4,no,5,proveedor_principal,chilena,1,2,0,2,


In [271]:
pd.read_excel(ruta + 'ESI_2017.xlsx', sheet_name='clasificacion_internacional_niv')

Unnamed: 0,Valor,Significado
0,1,Nunca estudió
1,2,Educación preescolar
2,3,Educación primaria (nivel 1)
3,4,Educación primaria (nivel 2)
4,5,Educación secundaria
5,6,Educación técnica (educación superior no unive...
6,7,Educación universitaria
7,8,Postítulo y maestría
8,9,Doctorado
9,999,Nivel ignorado


In [272]:
pd.read_excel(ruta + 'ESI_2017.xlsx', sheet_name=None) #Si el parámetro sheet_name es None, el resultado es un diccionario, donde cada hoja de archivo excel es la llave del diccionario.

{'clasificacion_internacional_niv':    Valor                                        Significado
 0      1                                      Nunca estudió
 1      2                               Educación preescolar
 2      3                       Educación primaria (nivel 1)
 3      4                       Educación primaria (nivel 2)
 4      5                               Educación secundaria
 5      6  Educación técnica (educación superior no unive...
 6      7                            Educación universitaria
 7      8                               Postítulo y maestría
 8      9                                          Doctorado
 9    999                                     Nivel ignorado,
 'datos':          N.º  region  ... total_personas_mayores_15_años  salario_neto
 0          1      11  ...                              2              
 1          2      13  ...                              3              
 2          3      13  ...                              4        218

In [273]:
pd.read_excel(ruta + 'ESI_2017.xlsx', sheet_name=None)['region'] 
#Al usar None el resultado es un diccionario, es posible agregar la llave para leer una hoja en particular.
#El resultado es un dataframe.

Unnamed: 0,Valor,Significado
0,15,Región de Arica y Parinacota
1,1,Región de Tarapacá
2,2,Región de Antofagasta
3,3,Región de Atacama
4,4,Región de Coquimbo
5,5,Región de Valparaíso
6,13,Región Metropolitana
7,6,Región del Libertador Gral. Bernardo O ́Higgins
8,7,Región del Maule
9,8,Región del Biobío


In [274]:
type(pd.read_excel(ruta + 'ESI_2017.xlsx', sheet_name=None)['region'])

pandas.core.frame.DataFrame

## <font color='blue'>**Escribir un Archivo Excel**</font>

Para escribir un objeto DataFrame en una hoja de un archivo de Excel, puede usar el método de instancia **to_excel**. Los argumentos son en gran medida los mismos que los de **to_csv** descritos anteriormente, el primer argumento es el nombre del archivo de Excel y el segundo argumento opcional el nombre de la hoja en la que se debe escribir el DataFrame. Por ejemplo:



```
df.to_excel('path_to_file.xlsx', sheet_name='Sheet1')
```

