# Funciones reader() y writer()

### Existen muchísimos formatos de lectura y escritura de archivos, veamos a continuación los más comunes

In [None]:
# Tipo de dato          Descripción             Función para leer (read)    Función para guardar (write)  

# text                     CSV                         read_csv                 to_csv              

# text                     JSON                        read_json                to_json

# text                     HTML                        read_html                to_html

# text                     XML                         read_xml                 to_xml

# text               Local clipboard                read_clipboard           to_clipboard

# binary                 MS Excel                      read_excel               to_excel

# SQL                      SQL                         read_sql                  to_sql

## CSV y archivos de texto - read_csv()

#### La función caballo de batalla para leer archivos de texto (también conocidos como archivos planos) es read_csv()

In [None]:
# La función read_csv() tiene varios argumentos:

# 1. La ruta: filepath_or_buffer
# 2. El separador: sep (por defecto en este tipo de archivos es una coma ",")
# 3. El encabezado: header (por defecto, la función toma la primera fila como los encabezados)
# 4. Indice de columna: index_col (se carga de forma automática, pero puede ser modificado por el usuario)
# 5. Seleccionar columnas específicas: usecols (permite realizar selecciones manuales de las columnas)
# 6. Contar el número de filas de salida: nrows (int, default None)
# 7. El separador de décimales: por defecto es un punto ".", puede cambiarse con el argumento decimal
# 8. Para codificar (encoding): se utiliza encoding "str", el valor por defecto es nulo.  (e.g. 'utf-8')

In [None]:
# Veamos un ejemplo

import numpy as np
import pandas as pd

In [None]:
from io import StringIO

In [None]:
data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"

In [None]:
pd.read_csv(StringIO(data))

In [None]:
# Urilizaremos usecols, para seleccionar solo dos columnas
pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["COL1", "COL3"])

### Especificar el tipo de dato de las columnas - converters y to_numeric()

In [None]:
data = "a,b,c,d\n1,2,3,4\n5,6,7,8\n9,10,11"

In [None]:
print(data)

In [None]:
df = pd.read_csv(StringIO(data), dtype=object)

In [None]:
df = pd.read_csv(StringIO(data), dtype={"b": object, "c": np.float64, "d": "Int64"})

In [None]:
df.dtypes

In [None]:
# Para que sea más sencillo definir el tipo de dato de cada columna, podemos utilizar el argumento "converters"

In [None]:
data = "col_1\n1\n2\n'A'\n4.22"

In [None]:
# En este caso sabremos, que la salida de la columna uno, serán datos en formato string
df = pd.read_csv(StringIO(data), converters={"col_1": str})

In [None]:
df

In [None]:
# Si queremos ser más especificos, podemos utilizar por ejemplo "to_numeric()", para asegurarnos que los datos
# sean de tipo numérico

In [None]:
df2 = pd.read_csv(StringIO(data))

In [None]:
# Convertirá todos los análisis válidos en flotantes, dejando el análisis no válido como NaN.
df2["col_1"] = pd.to_numeric(df2["col_1"], errors="coerce")

In [None]:
df2

### Especificación de datos categóricos

In [None]:
# Las columnas categóricas se pueden analizar directamente especificando dtype='category' 
# o dtype=CategoricalDtype(categories,ordered).

In [None]:
data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"

In [None]:
pd.read_csv(StringIO(data))

In [None]:
pd.read_csv(StringIO(data), dtype="category").dtypes

In [None]:
# Podemos pasar solo una columna a categórica, utilizando un diccionario
pd.read_csv(StringIO(data), dtype={"col1": "category"}).dtypes

### Nombrar y usar columnas

#### Manejo de nombres de columnas

In [None]:
# Un archivo puede o no tener una fila de encabezado. pandas asume que la primera fila debe usarse 
# como los nombres de las columnas, y siempre lo tamará así por defecto

In [None]:
data = "a,b,c\n1,2,3\n4,5,6\n7,8,9"

In [None]:
print(data) #Los nombres de las columnas son las letras

In [None]:
pd.read_csv(StringIO(data))

#### Podemos cambiar los nombres de las columnas, utilizando el argumento "names()" en conjunto con "header = 0" o "header = None"

In [None]:
# Cambiamos los nombres de las columnas
pd.read_csv(StringIO(data), names=["col1", "col2", "col3"], header=0)

In [None]:
pd.read_csv(StringIO(data), names=["foo", "bar", "baz"], header=None)

In [None]:
# Si el nombre de las columnas, se encuentra en otra fila que no sea la primera, debemos pasar el número
# de la fila al argumento "header = number"

In [None]:
data = "skip this skip it\na,b,c\n1,2,3\n4,5,6\n7,8,9"

In [None]:
pd.read_csv(StringIO(data), header=1)

## Filtrar columnas (usecols)

#### El argumento "usecols" le permite seleccionar cualquier subconjunto de las columnas en un archivo, ya sea usando los nombres de las columnas, los números de posición o una llamada

In [None]:
data = "a,b,c,d\n1,2,3,foo\n4,5,6,bar\n7,8,9,baz"

In [None]:
pd.read_csv(StringIO(data))

In [None]:
# Podemos abrir el archivo y seleccionar solo dos columnas con corchetes, haciendo la llamada por "etiquetas"
pd.read_csv(StringIO(data), usecols=["b", "d"])

In [None]:
# Podemos hacerlo lo mismo, pero seleccionando las columnas por posición númerica
pd.read_csv(StringIO(data), usecols=[0, 2, 3])

In [None]:
# También podemos utilizar una función lambda y el argumento "in"
pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["A", "C"])

In [None]:
# Y para excluir una columna utilizar una función lambda y el argumento "not in"
pd.read_csv(StringIO(data), usecols=lambda x: x not in ["a", "c"])

## Trabajando con datos de Unicode y utilizando "encoding"

#### El argumento de codificación debe usarse para datos Unicode codificados, lo que dará como resultado que las cadenas de bytes se decodifiquen a Unicode en el resultado

In [None]:
from io import BytesIO

In [None]:
data = b"word,length\n" b"Tr\xc3\xa4umen,7\n" b"Gr\xc3\xbc\xc3\x9fe,5"

In [None]:
data = data.decode("utf8").encode("latin-1")

In [None]:
# Aplicamos el encoding, en este caso para Latín
df = pd.read_csv(BytesIO(data), encoding="latin-1")

In [None]:
df

## Columnas de índice y delimitadores finales

#### Si un archivo tiene una columna de datos más que el número de nombres de columna, la primera columna se usará como los nombres de fila del DataFrame

In [None]:
data = "a,b,c\n4,apple,bat,5.7\n8,orange,cow,10"

In [None]:
pd.read_csv(StringIO(data))

## Inferir el formato de fecha y hora

#### Si tiene parse_dates habilitado para algunas o todas sus columnas, y todas sus cadenas de fecha y hora tienen el mismo formato, puede obtener una gran velocidad configurando infer_datetime_format=True

In [None]:
df = pd.read_csv(
    "foo.csv",
    index_col=0,
    parse_dates=True,
    infer_datetime_format=True,
)

In [None]:
df

## Escribir CSV en objetos de archivos binarios - df.to_csv(..., mode="wb")

In [None]:
import io

In [None]:
data = pd.DataFrame([0, 1, 2])

In [None]:
buffer = io.BytesIO()

In [None]:
data.to_csv(buffer, encoding="utf-8", compression="gzip")

## Manejando errores en las líneas - skip bad lines

In [None]:
data = "a,b,c\n1,2,3\n4,5,6,7\n8,9,10"

In [None]:
# Esta archivo tiene errores a propósito
pd.read_csv(StringIO(data))

In [None]:
# Para corregirlo, saltamos las líneas con error eutilizando on_bad_lines="warn"
pd.read_csv(StringIO(data), on_bad_lines="warn")

In [None]:
# También podemos utilizar "usecols" para restringir las columnas de salida
pd.read_csv(StringIO(data), usecols=[0, 1, 2])

## Lectura de varios archivos para crear un solo DataFrame

#### Para hacer esto utilizaremos la función "concat()"

In [None]:
# Iterando a través de archivos fragmento por fragmento

In [None]:
df = pd.DataFrame(np.random.randn(10, 4))

In [None]:
df.to_csv("tmp.csv", sep="|")

In [None]:
table = pd.read_csv("tmp.csv", sep="|")

In [None]:
table

In [None]:
# Al especificar un tamaño de fragmento para read_csv, el valor de retorno será un objeto iterable de tipo TextFileReader

In [None]:
with pd.read_csv("tmp.csv", sep="|", chunksize=4) as reader:
    reader
    for chunk in reader:
        print(chunk)

## Leer/escribir archivos remotos/externos

#### Puede pasar una URL para leer o escribir archivos remotos a muchas de las funciones IO de pandas; el siguiente ejemplo muestra la lectura de un archivo CSV referenciado con un enlace

In [None]:
# Solo debemos colocar el URL en comillas "", y definir el separador si es necesario
df = pd.read_csv("https://download.bls.gov/pub/time.series/cu/cu.item", sep="\t")

In [None]:
df

## Escribir/guardar un archivo

### La función que debemos utilizar es df.to_csv. Todas las opciones en: https://pandas.pydata.org/docs/user_guide/io.html#writing-out-data

## Archivos JSON

#### En el siguiente enlace están las opciones de lectura https://pandas.pydata.org/docs/user_guide/io.html#json

In [None]:
dfj = pd.DataFrame(np.random.randn(5, 2), columns=list("AB"))

In [None]:
json = dfj.to_json()

In [None]:
json

In [None]:
# Para convertirlo en un Data Frame
dfjo = pd.DataFrame(
    dict(A=range(1, 4), B=range(4, 7), C=range(7, 10)),
    columns=list("ABC"),
    index=list("xyz"),
)

In [None]:
dfjo

In [None]:
sjo = pd.Series(dict(x=15, y=16, z=17), name="D")

In [None]:
sjo

### Normalización

In [None]:
# pandas proporciona una función de utilidad para tomar un diccionario o una lista de diccionarios 
# y normalizar estos datos semiestructurados en una tabla plana

In [None]:
data = [
    {"id": 1, "name": {"first": "Coleen", "last": "Volk"}},
    {"name": {"given": "Mark", "family": "Regner"}},
    {"id": 2, "name": "Faye Raker"},
]


In [None]:
pd.json_normalize(data)

In [None]:
data = [
    {
        "state": "Florida",
        "shortname": "FL",
        "info": {"governor": "Rick Scott"},
        "county": [
            {"name": "Dade", "population": 12345},
            {"name": "Broward", "population": 40000},
            {"name": "Palm Beach", "population": 60000},
        ],
    },
    {
        "state": "Ohio",
        "shortname": "OH",
        "info": {"governor": "John Kasich"},
        "county": [
            {"name": "Summit", "population": 1234},
            {"name": "Cuyahoga", "population": 1337},
        ],
    },
]

In [None]:
pd.json_normalize(data, "county", ["state", "shortname", ["info", "governor"]])

## Leer archivos HTML

#### La función read_html() de nivel superior puede aceptar una cadena/archivo/URL HTML y analizará las tablas HTML en una lista de pandas DataFrames.

In [None]:
# read_html devuelve una lista de objetos DataFrame, incluso si solo hay una tabla en el contenido HTML.

In [None]:
#url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list"

In [None]:
#pd.read_html(url)

In [None]:
html_str = """
         <table>
             <tr>
                 <th>A</th>
                 <th colspan="1">B</th>
                 <th rowspan="1">C</th>
             </tr>
             <tr>
                 <td>a</td>
                 <td>b</td>
                 <td>c</td>
             </tr>
         </table>
     """

In [None]:
with open("tmp.html", "w") as f:
    f.write(html_str)

In [None]:
df = pd.read_html("tmp.html")

In [None]:
df

In [None]:
print("water")

In [None]:
html_table = """
<table>
  <tr>
    <th>GitHub</th>
  </tr>
  <tr>
    <td><a href="https://github.com/pandas-dev/pandas">pandas</a></td>
  </tr>
</table>
"""

In [None]:
# Para extraer enlaces utilizamos el argumento - extract_links="all".