# **Obtención y preparación de datos**

# OD23. Lectura y escritura de archivos con Pandas 2 - SOLUCION

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="100" align="left" title="Runa-perth">
<br clear="left">

##<font color='red'>__Contenido opcional__</font>

## <font color='blue'>**Datos de trabajo**</font>

Para nuestro aprendizaje, utilizaremos la siguiente data, la cual contiene lo siguiente:
* __Pais__: Corresponde al nombre del país. Las etiquetas de fila para el conjunto de datos son los códigos de país de tres letras definidos en ISO 3166-1. La etiqueta de la columna para el conjunto de datos es _PAIS_.

* __Población__: La población se expresa en millones. La etiqueta de columna para el conjunto de datos es _POB_.

* __Área:__ El área se expresa en miles de kilómetros cuadrados. La etiqueta de la columna para el conjunto de datos es _AREA_.

* __Productom Interno Bruto__: El producto interno bruto se expresa en millones de dólares estadounidenses, según los datos de las Naciones Unidas para 2017.  La etiqueta de columna para el conjunto de datos es _PIB_.

* __Continente__: El continente es África, Asia, Oceanía, Europa, América. La etiqueta de columna para el conjunto de datos es _CONT_.

* __Independencia__: El día de la independencia es una fecha que conmemora la independencia de una nación. Las fechas se muestran en formato ISO 8601. Los primeros cuatro dígitos representan el año, los siguientes dos números son el mes y los dos últimos son para el día del mes. La etiqueta de la columna para el conjunto de datos es _IND_.

* __OCDE__: Si el país es miembro o no de la _OCDE_.

In [1]:
# Organizamos la data en un diccionario

data = {
    'CHN': {'PAIS': 'China', 'POB': 1_398.72, 'AREA': 9_596.96,
            'PGB': 12_234.78, 'CONT': 'Asia', 'OCDE': 'No'},
    'IND': {'PAIS': 'India', 'POB': 1_351.16, 'AREA': 3_287.26,
            'PGB': 2_575.67, 'CONT': 'Asia', 'IND': '1947-08-15', 'OCDE': 'No'},
    'USA': {'PAIS': 'US', 'POB': 329.74, 'AREA': 9_833.52,
            'PGB': 19_485.39, 'CONT': 'America','IND': '1776-07-04', 'OCDE': 'Si'},
    'IDN': {'PAIS': 'Indonesia', 'POB': 268.07, 'AREA': 1_910.93,
            'PGB': 1_015.54, 'CONT': 'Asia', 'IND': '1945-08-17', 'OCDE': 'No'},
    'BRA': {'PAIS': 'Brasil', 'POB': 210.32, 'AREA': 8_515.77,
            'PGB': 2_055.51, 'CONT': 'America', 'IND': '1822-09-07', 'OCDE': 'No'},
    'PAK': {'PAIS': 'Pakistan', 'POB': 205.71, 'AREA': 881.91,
            'PGB': 302.14, 'CONT': 'Asia', 'IND': '1947-08-14', 'OCDE': 'No'},
    'NGA': {'PAIS': 'Nigeria', 'POB': 200.96, 'AREA': 923.77,
            'PGB': 375.77, 'CONT': 'Africa', 'IND': '1960-10-01', 'OCDE': 'No'},
    'BGD': {'PAIS': 'Bangladesh', 'POB': 167.09, 'AREA': 147.57,
            'PGB': 245.63, 'CONT': 'Asia', 'IND': '1971-03-26', 'OCDE': 'No'},
    'RUS': {'PAIS': 'Rusia', 'POB': 146.79, 'AREA': 17_098.25,
            'PGB': 1_530.75, 'IND': '1992-06-12', 'OCDE': 'No'},
    'MEX': {'PAIS': 'Mexico', 'POB': 126.58, 'AREA': 1_964.38,
            'PGB': 1_158.23, 'CONT': 'America', 'IND': '1810-09-16', 'OCDE': 'Si'},
    'JPN': {'PAIS': 'Japon', 'POB': 126.22, 'AREA': 377.97,
            'PGB': 4_872.42, 'CONT': 'Asia', 'OCDE': 'Si'},
    'DEU': {'PAIS': 'Alemania', 'POB': 83.02, 'AREA': 357.11,
            'PGB': 3_693.20, 'CONT': 'Europe', 'OCDE': 'Si'},
    'FRA': {'PAIS': 'Francia', 'POB': 67.02, 'AREA': 640.68,
            'PGB': 2_582.49, 'CONT': 'Europe', 'IND': '1789-07-14', 'OCDE': 'Si'},
    'GBR': {'PAIS': 'UK', 'POB': 66.44, 'AREA': 242.50,
            'PGB': 2_631.23, 'CONT': 'Europe', 'OCDE': 'Si'},
    'ITA': {'PAIS': 'Italia', 'POB': 60.36, 'AREA': 301.34,
            'PGB': 1_943.84, 'CONT': 'Europe', 'OCDE': 'Si'},
    'ARG': {'PAIS': 'Argentina', 'POB': 44.94, 'AREA': 2_780.40,
            'PGB': 637.49, 'CONT': 'America', 'IND': '1816-07-09', 'OCDE': 'No'},
    'DZA': {'PAIS': 'Algeria', 'POB': 43.38, 'AREA': 2_381.74,
            'PGB': 167.56, 'CONT': 'Africa', 'IND': '1962-07-05', 'OCDE': 'No'},
    'CAN': {'PAIS': 'Canada', 'POB': 37.59, 'AREA': 9_984.67,
            'PGB': 1_647.12, 'CONT': 'America', 'IND': '1867-07-01', 'OCDE': 'Si'},
    'AUS': {'PAIS': 'Australia', 'POB': 25.47, 'AREA': 7_692.02,
            'PGB': 1_408.68, 'CONT': 'Oceania', 'OCDE': 'Si'},
    'CHL': {'PAIS': 'Chile', 'POB': 19.68, 'AREA': 756.10,
            'PGB': 317.6, 'CONT': 'America', 'IND': '1818-09-18', 'OCDE': 'Si'},
    'KAZ': {'PAIS': 'Kazakistan', 'POB': 18.53, 'AREA': 2_724.90,
            'PGB': 159.41, 'CONT': 'Asia', 'IND': '1991-12-16', 'OCDE': 'No'}

}

columns = ('PAIS', 'POB', 'AREA', 'PGB', 'CONT', 'IND')

Puede notar que faltan algunos de los datos. Por ejemplo, el continente de Rusia no se especifica porque se extiende por Europa y Asia. También faltan varios días de independencia porque la fuente de datos los omite.



In [2]:
import pandas as pd

Usaremos el constructor `pd.DataFrame` para crear la estructura en Pandas.

In [3]:
df = pd.DataFrame(data=data)
df

Unnamed: 0,CHN,IND,USA,IDN,BRA,PAK,NGA,BGD,RUS,MEX,...,DEU,FRA,GBR,ITA,ARG,DZA,CAN,AUS,CHL,KAZ
PAIS,China,India,US,Indonesia,Brasil,Pakistan,Nigeria,Bangladesh,Rusia,Mexico,...,Alemania,Francia,UK,Italia,Argentina,Algeria,Canada,Australia,Chile,Kazakistan
POB,1398.72,1351.16,329.74,268.07,210.32,205.71,200.96,167.09,146.79,126.58,...,83.02,67.02,66.44,60.36,44.94,43.38,37.59,25.47,19.68,18.53
AREA,9596.96,3287.26,9833.52,1910.93,8515.77,881.91,923.77,147.57,17098.25,1964.38,...,357.11,640.68,242.5,301.34,2780.4,2381.74,9984.67,7692.02,756.1,2724.9
PGB,12234.78,2575.67,19485.39,1015.54,2055.51,302.14,375.77,245.63,1530.75,1158.23,...,3693.2,2582.49,2631.23,1943.84,637.49,167.56,1647.12,1408.68,317.6,159.41
CONT,Asia,Asia,America,Asia,America,Asia,Africa,Asia,,America,...,Europe,Europe,Europe,Europe,America,Africa,America,Oceania,America,Asia
OCDE,No,No,Si,No,No,No,No,No,No,Si,...,Si,Si,Si,Si,No,No,Si,Si,Si,No
IND,,1947-08-15,1776-07-04,1945-08-17,1822-09-07,1947-08-14,1960-10-01,1971-03-26,1992-06-12,1810-09-16,...,,1789-07-14,,,1816-07-09,1962-07-05,1867-07-01,,1818-09-18,1991-12-16


Podemos transponer la estructura para que la data quede organizada con el *código_pais* como índice.

In [4]:
df = pd.DataFrame(data=data).T
df

Unnamed: 0,PAIS,POB,AREA,PGB,CONT,OCDE,IND
CHN,China,1398.72,9596.96,12234.78,Asia,No,
IND,India,1351.16,3287.26,2575.67,Asia,No,1947-08-15
USA,US,329.74,9833.52,19485.39,America,Si,1776-07-04
IDN,Indonesia,268.07,1910.93,1015.54,Asia,No,1945-08-17
BRA,Brasil,210.32,8515.77,2055.51,America,No,1822-09-07
PAK,Pakistan,205.71,881.91,302.14,Asia,No,1947-08-14
NGA,Nigeria,200.96,923.77,375.77,Africa,No,1960-10-01
BGD,Bangladesh,167.09,147.57,245.63,Asia,No,1971-03-26
RUS,Rusia,146.79,17098.25,1530.75,,No,1992-06-12
MEX,Mexico,126.58,1964.38,1158.23,America,Si,1810-09-16


Nuestra data está lista, vemos como escribir y leer archivos con pandas.

## <font color='blue'>**Tipos de Archivos**</font>

### __Archivos JSON__

JSON significa __JavaScript Object Notation__ (notación de objetos de JavaScript). Los archivos JSON son archivos de texto sin formato, fácilmente leíbles por los humanos, que se utilizan para el intercambio de datos. Siguen los estándares ISO/IEC 21778:2017 y ECMA-404 y utilizan la extensión `.json`. Python y Pandas funcionan bien con archivos JSON, ya que la biblioteca `json` de Python ofrece soporte integrado para ellos.

Puede guardar los datos de su DataFrame en un archivo JSON con el método `.to_json()`. Comience por crear un objeto DataFrame nuevamente. Use los datos del diccionario que contienen los datos sobre los países y luego aplique `.to_json()`:

In [5]:
df = pd.DataFrame(data=data).T
df.to_json('data-columns.json')

Veamos cómo se ve en nuestro directorio de trabajo.

In [6]:
!cat data-columns.json

{"PAIS":{"CHN":"China","IND":"India","USA":"US","IDN":"Indonesia","BRA":"Brasil","PAK":"Pakistan","NGA":"Nigeria","BGD":"Bangladesh","RUS":"Rusia","MEX":"Mexico","JPN":"Japon","DEU":"Alemania","FRA":"Francia","GBR":"UK","ITA":"Italia","ARG":"Argentina","DZA":"Algeria","CAN":"Canada","AUS":"Australia","CHL":"Chile","KAZ":"Kazakistan"},"POB":{"CHN":1398.72,"IND":1351.16,"USA":329.74,"IDN":268.07,"BRA":210.32,"PAK":205.71,"NGA":200.96,"BGD":167.09,"RUS":146.79,"MEX":126.58,"JPN":126.22,"DEU":83.02,"FRA":67.02,"GBR":66.44,"ITA":60.36,"ARG":44.94,"DZA":43.38,"CAN":37.59,"AUS":25.47,"CHL":19.68,"KAZ":18.53},"AREA":{"CHN":9596.96,"IND":3287.26,"USA":9833.52,"IDN":1910.93,"BRA":8515.77,"PAK":881.91,"NGA":923.77,"BGD":147.57,"RUS":17098.25,"MEX":1964.38,"JPN":377.97,"DEU":357.11,"FRA":640.68,"GBR":242.5,"ITA":301.34,"ARG":2780.4,"DZA":2381.74,"CAN":9984.67,"AUS":7692.02,"CHL":756.1,"KAZ":2724.9},"PGB":{"CHN":12234.78,"IND":2575.67,"USA":19485.39,"IDN":1015.54,"BRA":2055.51,"PAK":302.14,"NGA":37

_data-columns.json_ tiene un diccionario con las etiquetas de las columnas como claves y los diccionarios internos correspondientes como valores.

Puede crear una estructura de archivo diferente si pasa un argumento `orient`, cuyo valor por defecto es `columns`.  Esta vez lo utilizaremos con `'index'`.

In [7]:
df.to_json('data-index.json', orient='index')

Veamos cómo quedó ahora.

In [8]:
!cat data-index.json

{"CHN":{"PAIS":"China","POB":1398.72,"AREA":9596.96,"PGB":12234.78,"CONT":"Asia","OCDE":"No","IND":null},"IND":{"PAIS":"India","POB":1351.16,"AREA":3287.26,"PGB":2575.67,"CONT":"Asia","OCDE":"No","IND":"1947-08-15"},"USA":{"PAIS":"US","POB":329.74,"AREA":9833.52,"PGB":19485.39,"CONT":"America","OCDE":"Si","IND":"1776-07-04"},"IDN":{"PAIS":"Indonesia","POB":268.07,"AREA":1910.93,"PGB":1015.54,"CONT":"Asia","OCDE":"No","IND":"1945-08-17"},"BRA":{"PAIS":"Brasil","POB":210.32,"AREA":8515.77,"PGB":2055.51,"CONT":"America","OCDE":"No","IND":"1822-09-07"},"PAK":{"PAIS":"Pakistan","POB":205.71,"AREA":881.91,"PGB":302.14,"CONT":"Asia","OCDE":"No","IND":"1947-08-14"},"NGA":{"PAIS":"Nigeria","POB":200.96,"AREA":923.77,"PGB":375.77,"CONT":"Africa","OCDE":"No","IND":"1960-10-01"},"BGD":{"PAIS":"Bangladesh","POB":167.09,"AREA":147.57,"PGB":245.63,"CONT":"Asia","OCDE":"No","IND":"1971-03-26"},"RUS":{"PAIS":"Rusia","POB":146.79,"AREA":17098.25,"PGB":1530.75,"CONT":null,"OCDE":"No","IND":"1992-06-12"},

_data-index.json_ también tiene un diccionario, pero esta vez las etiquetas de las filas son las llaves y los diccionarios internos los valores.

Hay pocas opciones más para orientar. Uno de ellos es `records`:

In [9]:
df.to_json('data-records.json', orient='records')

In [10]:
!cat data-records.json

[{"PAIS":"China","POB":1398.72,"AREA":9596.96,"PGB":12234.78,"CONT":"Asia","OCDE":"No","IND":null},{"PAIS":"India","POB":1351.16,"AREA":3287.26,"PGB":2575.67,"CONT":"Asia","OCDE":"No","IND":"1947-08-15"},{"PAIS":"US","POB":329.74,"AREA":9833.52,"PGB":19485.39,"CONT":"America","OCDE":"Si","IND":"1776-07-04"},{"PAIS":"Indonesia","POB":268.07,"AREA":1910.93,"PGB":1015.54,"CONT":"Asia","OCDE":"No","IND":"1945-08-17"},{"PAIS":"Brasil","POB":210.32,"AREA":8515.77,"PGB":2055.51,"CONT":"America","OCDE":"No","IND":"1822-09-07"},{"PAIS":"Pakistan","POB":205.71,"AREA":881.91,"PGB":302.14,"CONT":"Asia","OCDE":"No","IND":"1947-08-14"},{"PAIS":"Nigeria","POB":200.96,"AREA":923.77,"PGB":375.77,"CONT":"Africa","OCDE":"No","IND":"1960-10-01"},{"PAIS":"Bangladesh","POB":167.09,"AREA":147.57,"PGB":245.63,"CONT":"Asia","OCDE":"No","IND":"1971-03-26"},{"PAIS":"Rusia","POB":146.79,"AREA":17098.25,"PGB":1530.75,"CONT":null,"OCDE":"No","IND":"1992-06-12"},{"PAIS":"Mexico","POB":126.58,"AREA":1964.38,"PGB":115

_data-records.json_ contiene una lista con un diccionario para cada fila. Las etiquetas de las filas no están escritas.

Puede obtener otra estructura de archivos interesante con `orient='split'`:

In [11]:
df.to_json('data-split.json', orient='split')

In [12]:
!cat data-split.json

{"columns":["PAIS","POB","AREA","PGB","CONT","OCDE","IND"],"index":["CHN","IND","USA","IDN","BRA","PAK","NGA","BGD","RUS","MEX","JPN","DEU","FRA","GBR","ITA","ARG","DZA","CAN","AUS","CHL","KAZ"],"data":[["China",1398.72,9596.96,12234.78,"Asia","No",null],["India",1351.16,3287.26,2575.67,"Asia","No","1947-08-15"],["US",329.74,9833.52,19485.39,"America","Si","1776-07-04"],["Indonesia",268.07,1910.93,1015.54,"Asia","No","1945-08-17"],["Brasil",210.32,8515.77,2055.51,"America","No","1822-09-07"],["Pakistan",205.71,881.91,302.14,"Asia","No","1947-08-14"],["Nigeria",200.96,923.77,375.77,"Africa","No","1960-10-01"],["Bangladesh",167.09,147.57,245.63,"Asia","No","1971-03-26"],["Rusia",146.79,17098.25,1530.75,null,"No","1992-06-12"],["Mexico",126.58,1964.38,1158.23,"America","Si","1810-09-16"],["Japon",126.22,377.97,4872.42,"Asia","Si",null],["Alemania",83.02,357.11,3693.2,"Europe","Si",null],["Francia",67.02,640.68,2582.49,"Europe","Si","1789-07-14"],["UK",66.44,242.5,2631.23,"Europe","Si",nul

_data-split.json_ contiene un diccionario que contiene las siguientes 3 listas:

* Los nombres de las columnas.
* Las etiquetas de las filas
* Las listas internas (secuencia bidimensional) que contienen valores de datos, con una lista para cada registro.

Si no proporciona el valor para el parámetro opcional `path_or_buf` que define la ruta del archivo, `.to_json()` devolverá una cadena JSON en lugar de escribir los resultados en un archivo. Este comportamiento es consistente con el que ya vimos en `.to_csv()`.

Hay otros parámetros opcionales que puede utilizar. Por ejemplo, puede establecer `index=False` para renunciar a guardar las etiquetas de las filas. Puede manipular la precisión con `double_precision` y las fechas con `date_forma`t y `date_unit`. Estos dos últimos parámetros son particularmente importantes cuando tiene series de tiempo entre sus datos:

In [13]:
df = pd.DataFrame(data=data).T
df['IND'] = pd.to_datetime(df['IND'])
print(df.dtypes, '\n')
df.to_json('data-time.json')

PAIS            object
POB             object
AREA            object
PGB             object
CONT            object
OCDE            object
IND     datetime64[ns]
dtype: object 



In [14]:
!cat data-time.json

{"PAIS":{"CHN":"China","IND":"India","USA":"US","IDN":"Indonesia","BRA":"Brasil","PAK":"Pakistan","NGA":"Nigeria","BGD":"Bangladesh","RUS":"Rusia","MEX":"Mexico","JPN":"Japon","DEU":"Alemania","FRA":"Francia","GBR":"UK","ITA":"Italia","ARG":"Argentina","DZA":"Algeria","CAN":"Canada","AUS":"Australia","CHL":"Chile","KAZ":"Kazakistan"},"POB":{"CHN":1398.72,"IND":1351.16,"USA":329.74,"IDN":268.07,"BRA":210.32,"PAK":205.71,"NGA":200.96,"BGD":167.09,"RUS":146.79,"MEX":126.58,"JPN":126.22,"DEU":83.02,"FRA":67.02,"GBR":66.44,"ITA":60.36,"ARG":44.94,"DZA":43.38,"CAN":37.59,"AUS":25.47,"CHL":19.68,"KAZ":18.53},"AREA":{"CHN":9596.96,"IND":3287.26,"USA":9833.52,"IDN":1910.93,"BRA":8515.77,"PAK":881.91,"NGA":923.77,"BGD":147.57,"RUS":17098.25,"MEX":1964.38,"JPN":377.97,"DEU":357.11,"FRA":640.68,"GBR":242.5,"ITA":301.34,"ARG":2780.4,"DZA":2381.74,"CAN":9984.67,"AUS":7692.02,"CHL":756.1,"KAZ":2724.9},"PGB":{"CHN":12234.78,"IND":2575.67,"USA":19485.39,"IDN":1015.54,"BRA":2055.51,"PAK":302.14,"NGA":37

No se ve muy bien porque está al final del archivo. Veamos una forma de visualizar un JSON en forma de árbol.

In [15]:
import json
with open('data-time.json', 'r') as handle:
    parsed = json.load(handle)
print(json.dumps(parsed, indent=4))

{
    "PAIS": {
        "CHN": "China",
        "IND": "India",
        "USA": "US",
        "IDN": "Indonesia",
        "BRA": "Brasil",
        "PAK": "Pakistan",
        "NGA": "Nigeria",
        "BGD": "Bangladesh",
        "RUS": "Rusia",
        "MEX": "Mexico",
        "JPN": "Japon",
        "DEU": "Alemania",
        "FRA": "Francia",
        "GBR": "UK",
        "ITA": "Italia",
        "ARG": "Argentina",
        "DZA": "Algeria",
        "CAN": "Canada",
        "AUS": "Australia",
        "CHL": "Chile",
        "KAZ": "Kazakistan"
    },
    "POB": {
        "CHN": 1398.72,
        "IND": 1351.16,
        "USA": 329.74,
        "IDN": 268.07,
        "BRA": 210.32,
        "PAK": 205.71,
        "NGA": 200.96,
        "BGD": 167.09,
        "RUS": 146.79,
        "MEX": 126.58,
        "JPN": 126.22,
        "DEU": 83.02,
        "FRA": 67.02,
        "GBR": 66.44,
        "ITA": 60.36,
        "ARG": 44.94,
        "DZA": 43.38,
        "CAN": 37.59,
        "AUS": 25.47

En este archivo, _'IND'_  tiene números enteros grandes en lugar de fechas para los días de la independencia. Esto se debe a que el valor predeterminado del parámetro opcional date_format es `epoch` siempre que `orient` no sea `'table'`. Este comportamiento predeterminado expresa las fechas como una época en milisegundos en relación con la medianoche del 1 de enero de 1970.

Sin embargo, si pasa `date_format='iso'`, obtendrá las fechas en el formato ISO 8601. Además, `date_unit` decide las unidades de tiempo:

In [16]:
df = pd.DataFrame(data=data).T
df['IND'] = pd.to_datetime(df['IND'])
df.to_json('new-data-time.json', date_format='iso', date_unit='s')

In [17]:
with open('new-data-time.json', 'r') as handle:
    # Filtramos solo la llave que queremos verificar ('IND')
    print(parsed['IND'])
print(json.dumps(parsed['IND'], indent=4))

{'CHN': None, 'IND': -706320000000, 'USA': -6106060800000, 'IDN': -769219200000, 'BRA': -4648924800000, 'PAK': -706406400000, 'NGA': -291945600000, 'BGD': 38793600000, 'RUS': 708307200000, 'MEX': -5026838400000, 'JPN': None, 'DEU': None, 'FRA': -5694969600000, 'GBR': None, 'ITA': None, 'ARG': -4843411200000, 'DZA': -236476800000, 'CAN': -3234729600000, 'AUS': None, 'CHL': -4774204800000, 'KAZ': 692841600000}
{
    "CHN": null,
    "IND": -706320000000,
    "USA": -6106060800000,
    "IDN": -769219200000,
    "BRA": -4648924800000,
    "PAK": -706406400000,
    "NGA": -291945600000,
    "BGD": 38793600000,
    "RUS": 708307200000,
    "MEX": -5026838400000,
    "JPN": null,
    "DEU": null,
    "FRA": -5694969600000,
    "GBR": null,
    "ITA": null,
    "ARG": -4843411200000,
    "DZA": -236476800000,
    "CAN": -3234729600000,
    "AUS": null,
    "CHL": -4774204800000,
    "KAZ": 692841600000
}


Puede cargar los datos desde un archivo JSON con `read_json()`:

In [18]:
df = pd.read_json('data-index.json',
                  orient='index',
                  convert_dates=['IND'])

El parámetro `convert_dates` tiene un propósito similar al de `parse_dates` cuando lo usa para leer archivos CSV. El parámetro opcional `orient` es muy importante porque especifica cómo Pandas entiende la estructura del archivo.

Hay otros parámetros opcionales que también puede usar:

* `encodig`, establece la codificación.
* `convert_dates` y `keep_default_dates`, para manipular fechas.
* `dtype` y `precision_float`, tipos y precisión de los datos.
* `numpy=True`, decodificar datos numéricos directamente en matrices NumPy.

Tenga en cuenta que puede perder el orden de las filas y las columnas al usar el formato JSON para almacenar sus datos.


### __Archivos HTML__

Un HTML es un archivo de texto sin formato que utiliza lenguaje de marcado de hipertexto para ayudar a los navegadores a representar páginas web. Las extensiones de los archivos HTML son `.html` y `.htm`.

El entorno Colab tiene pre-instaladas las biblotecas necesarias para leer y escribir archivos HTML; sin embargo, si no las tuviera instalada, las librerías más comunes con `lxml` o `html5lib`.

```python
$pip install lxml html5lib
````
o con Conda
```python
$ conda install lxml html5lib
```

In [19]:
df = pd.DataFrame(data=data).T
df.to_html('data.html')

In [20]:
!cat data.html

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>PAIS</th>
      <th>POB</th>
      <th>AREA</th>
      <th>PGB</th>
      <th>CONT</th>
      <th>OCDE</th>
      <th>IND</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>CHN</th>
      <td>China</td>
      <td>1398.72</td>
      <td>9596.96</td>
      <td>12234.78</td>
      <td>Asia</td>
      <td>No</td>
      <td>NaN</td>
    </tr>
    <tr>
      <th>IND</th>
      <td>India</td>
      <td>1351.16</td>
      <td>3287.26</td>
      <td>2575.67</td>
      <td>Asia</td>
      <td>No</td>
      <td>1947-08-15</td>
    </tr>
    <tr>
      <th>USA</th>
      <td>US</td>
      <td>329.74</td>
      <td>9833.52</td>
      <td>19485.39</td>
      <td>America</td>
      <td>Si</td>
      <td>1776-07-04</td>
    </tr>
    <tr>
      <th>IDN</th>
      <td>Indonesia</td>
      <td>268.07</td>
      <td>1910.93</td>
      <td>1015.54</td>
      <td>Asia</td>
      <td>No</td>
    

Este archivo muestra muy bien el contenido de DataFrame. Sin embargo, tenga en cuenta que no ha obtenido una página web completa. Acaba de generar los datos que corresponden a _df_ en formato HTML.

`.to_html()` no creará un archivo si no proporciona el parámetro opcional `buf`, que indica el nombre del archivo (búfer) en el cual escribir. Si deja fuera este parámetro, su código devolverá una cadena de forma similar como lo hizo con `.to_csv()` y .`to_json()`.

Aquí hay algunos otros parámetros opcionales:

* `header` determina si guardar los nombres de las columnas.
* `index` determina si guardar las etiquetas de fila.
* `classes` asigna clases de hoja de estilo en cascada (CSS).
* `render_links` especifica si convertir las URL en enlaces HTML.
* `table_id` asigna la identificación de CSS a la etiqueta de la tabla.
* `escape` decide si convertir los caracteres `<`, `>` y `&` en cadenas compatibles con HTML.

Utilice parámetros como estos para especificar diferentes aspectos de los archivos o cadenas resultantes.

Puede crear un objeto DataFrame a partir de un archivo HTML adecuado usando `read_html()`, que devolverá una instancia de DataFrame o una lista de ellos:

In [21]:
df = pd.read_html('data.html', index_col=0, parse_dates=['IND'])

In [22]:
df #df[0]

[           PAIS      POB      AREA       PGB     CONT OCDE        IND
 CHN       China  1398.72   9596.96  12234.78     Asia   No        NaT
 IND       India  1351.16   3287.26   2575.67     Asia   No 1947-08-15
 USA          US   329.74   9833.52  19485.39  America   Si 1776-07-04
 IDN   Indonesia   268.07   1910.93   1015.54     Asia   No 1945-08-17
 BRA      Brasil   210.32   8515.77   2055.51  America   No 1822-09-07
 PAK    Pakistan   205.71    881.91    302.14     Asia   No 1947-08-14
 NGA     Nigeria   200.96    923.77    375.77   Africa   No 1960-10-01
 BGD  Bangladesh   167.09    147.57    245.63     Asia   No 1971-03-26
 RUS       Rusia   146.79  17098.25   1530.75      NaN   No 1992-06-12
 MEX      Mexico   126.58   1964.38   1158.23  America   Si 1810-09-16
 JPN       Japon   126.22    377.97   4872.42     Asia   Si        NaT
 DEU    Alemania    83.02    357.11   3693.20   Europe   Si        NaT
 FRA     Francia    67.02    640.68   2582.49   Europe   Si 1789-07-14
 GBR  

Esto es muy similar a lo que hizo al leer archivos CSV. También tiene parámetros que lo ayudan a trabajar con fechas, valores faltantes, precisión, codificación, analizadores HTML y más.

### __Archivos SQL__

__Pandas IO tools__ también pueden leer y escribir bases de datos. En el siguiente ejemplo, escribiremos nuestros datos en una base de datos llamada _Paises_.

Python tiene un controlador incorporado una librería para trabajar con el motor de base de datos __SQLite__. Necesitaremos un controlador (driver) para la base de datos.

In [23]:
import sqlite3

### sqlite3.connect( )
Mediante el método `connect()` podemos crear una BD o conectarnos a una ya existente. El método retorna un objeto de tipo `SQLite Connection`.



In [24]:
connection = sqlite3.connect("data.db")

In [25]:
!ls -l data.db

-rw-r--r-- 1 root root 0 Sep  3 17:45 data.db


También es posible especificar que se creará una BD en RAM usando `":memory:"`.

In [26]:
connection2 = sqlite3.connect(":memory:")

In [27]:
connection2

<sqlite3.Connection at 0x7d0154bc4040>

## `connection.cursor()`
Luego de crear la BD, crearemos un cursor.<br>
Un cursor se utiliza para ejecutar sentencias SQL y recuperar los resultados de dichas sentencias.<br>
El cursor se crea utilizando el objeto `SQLite Connection` del paso anterior.

In [28]:
cursor = connection.cursor()
cursor

<sqlite3.Cursor at 0x7d019a97cb40>

Ahora que tenemos configurada nuestra base de datos (en memoria), el siguiente paso es crear un objeto DataFrame. Usaremos el método `.to_sql()`.Es conveniente especificar los tipos de datos a utilizar.

In [29]:
dtypes = {'POB': 'float64', 'AREA': 'float64', 'PGB': 'float64',
          'IND': 'datetime64'}
df = pd.DataFrame(data=data).T.astype(dtype=dtypes)
df.dtypes

PAIS            object
POB            float64
AREA           float64
PGB            float64
CONT            object
OCDE            object
IND     datetime64[ns]
dtype: object

`.astype()` es un método muy conveniente que puede usar para establecer varios tipos de datos a la vez.

Una vez que haya creado su DataFrame, puede guardarlo en la base de datos con `.to_sql()`:

In [30]:
df.to_sql('paises', con=connection, index_label='ID') # if_exists='replace'

21

El parámetro `connection` se usa para especificar la conexión de la base de datos o el motor que desea usar. El parámetro opcional `index_label` especifica cómo llamar a la columna de la base de datos con las etiquetas de fila. A menudo verá que toma el valor _ID_, _Id_ o _id_.

Debería obtener la base de datos _data.sql_ con una sola tabla _paises_ que se vea así:

In [31]:
cursor.execute("""SELECT *
                  FROM paises
              """)
for rec in cursor.fetchall():
    print(rec)
connection.commit()

('CHN', 'China', 1398.72, 9596.96, 12234.78, 'Asia', 'No', None)
('IND', 'India', 1351.16, 3287.26, 2575.67, 'Asia', 'No', '1947-08-15 00:00:00')
('USA', 'US', 329.74, 9833.52, 19485.39, 'America', 'Si', '1776-07-04 00:00:00')
('IDN', 'Indonesia', 268.07, 1910.93, 1015.54, 'Asia', 'No', '1945-08-17 00:00:00')
('BRA', 'Brasil', 210.32, 8515.77, 2055.51, 'America', 'No', '1822-09-07 00:00:00')
('PAK', 'Pakistan', 205.71, 881.91, 302.14, 'Asia', 'No', '1947-08-14 00:00:00')
('NGA', 'Nigeria', 200.96, 923.77, 375.77, 'Africa', 'No', '1960-10-01 00:00:00')
('BGD', 'Bangladesh', 167.09, 147.57, 245.63, 'Asia', 'No', '1971-03-26 00:00:00')
('RUS', 'Rusia', 146.79, 17098.25, 1530.75, None, 'No', '1992-06-12 00:00:00')
('MEX', 'Mexico', 126.58, 1964.38, 1158.23, 'America', 'Si', '1810-09-16 00:00:00')
('JPN', 'Japon', 126.22, 377.97, 4872.42, 'Asia', 'Si', None)
('DEU', 'Alemania', 83.02, 357.11, 3693.2, 'Europe', 'Si', None)
('FRA', 'Francia', 67.02, 640.68, 2582.49, 'Europe', 'Si', '1789-07-1

La primera columna contiene las etiquetas de las filas. Para omitir escribirlos en la base de datos, pase `index=False` a `.to_sql()`. Las otras columnas corresponden a las columnas del DataFrame.

Hay algunos parámetros opcionales más. Por ejemplo, puede usar `schema` para especificar el esquema de la base de datos y `dtype` para determinar los tipos de las columnas de la base de datos. También puede usar `if_exists`, que dice qué hacer si ya existe una tabla con el mismo nombre y ruta:

* `if_exists='fail'` genera un `ValueError` y es el predeterminado.
* `if_exists='replace'` descarta la tabla e inserta nuevos valores.
* `if_exists='append'` inserta nuevos valores en la tabla.

Puede cargar los datos de la base de datos con `read_sql()`:

In [32]:
df = pd.read_sql('SELECT * FROM paises', con=connection, index_col='ID')
df

Unnamed: 0_level_0,PAIS,POB,AREA,PGB,CONT,OCDE,IND
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
CHN,China,1398.72,9596.96,12234.78,Asia,No,
IND,India,1351.16,3287.26,2575.67,Asia,No,1947-08-15 00:00:00
USA,US,329.74,9833.52,19485.39,America,Si,1776-07-04 00:00:00
IDN,Indonesia,268.07,1910.93,1015.54,Asia,No,1945-08-17 00:00:00
BRA,Brasil,210.32,8515.77,2055.51,America,No,1822-09-07 00:00:00
PAK,Pakistan,205.71,881.91,302.14,Asia,No,1947-08-14 00:00:00
NGA,Nigeria,200.96,923.77,375.77,Africa,No,1960-10-01 00:00:00
BGD,Bangladesh,167.09,147.57,245.63,Asia,No,1971-03-26 00:00:00
RUS,Rusia,146.79,17098.25,1530.75,,No,1992-06-12 00:00:00
MEX,Mexico,126.58,1964.38,1158.23,America,Si,1810-09-16 00:00:00


El parámetro `index_col` especifica el nombre de la columna con las etiquetas de fila. Tenga en cuenta que esto inserta una fila adicional después del encabezado que comienza con ID. Puede corregir este comportamiento con la siguiente línea de código:

In [33]:
df.index.name = None
df

Unnamed: 0,PAIS,POB,AREA,PGB,CONT,OCDE,IND
CHN,China,1398.72,9596.96,12234.78,Asia,No,
IND,India,1351.16,3287.26,2575.67,Asia,No,1947-08-15 00:00:00
USA,US,329.74,9833.52,19485.39,America,Si,1776-07-04 00:00:00
IDN,Indonesia,268.07,1910.93,1015.54,Asia,No,1945-08-17 00:00:00
BRA,Brasil,210.32,8515.77,2055.51,America,No,1822-09-07 00:00:00
PAK,Pakistan,205.71,881.91,302.14,Asia,No,1947-08-14 00:00:00
NGA,Nigeria,200.96,923.77,375.77,Africa,No,1960-10-01 00:00:00
BGD,Bangladesh,167.09,147.57,245.63,Asia,No,1971-03-26 00:00:00
RUS,Rusia,146.79,17098.25,1530.75,,No,1992-06-12 00:00:00
MEX,Mexico,126.58,1964.38,1158.23,America,Si,1810-09-16 00:00:00


Ahora tiene el mismo objeto DataFrame que antes.

Tenga en cuenta que el continente (_'CONT'_) de Rusia ahora es `None` en lugar de `NaN`. Si desea completar los valores faltantes con `NaN`, puede usar `.fillna()`:

```python
df.fillna(value=float('nan'), inplace=True)
```
`.fillna()` reemplaza todos los valores faltantes con lo que le pases al valor; en este caso con `NaN`.

También tenga en cuenta que __no tuvo que pasar__ `parse_dates=['IND']` a `read_sql()`. Eso es porque su base de datos pudo detectar que la última columna contiene fechas. Sin embargo, puede pasar `parse_dates` si lo desea. Obtendrás los mismos resultados.

Hay otras funciones que puede usar para leer bases de datos, como `read_sql_table()` y `read_sql_query()`. Experimentes con ellas!

In [34]:
# Buena práctica; no olvides cerrar la conexión
connection.close()
connection2.close()

### __Archivos Pickle__
__Pickling__ es el acto de convertir objetos de Python en flujos de bytes. __Unpickling__ es el proceso inverso. Los archivos _pickle_ de Python son archivos binarios que mantienen los datos, su estructura, los tipos y la jerarquía de los objetos de Python. Su gran ventaja es que son muy eficientes en el uso de espacio y en la velocidad para escribirlos y leerlos; en estas funciones, superan fácilmente a los otros tipos de archivo que hemos visto. Su desventaja es que no pueden ser visualizados directamente en el disco. Suelen tener la extensión `.pickle` o `.pkl`.

Puede guardar su DataFrame en un archivo pickle con el método `.to_pickle()`:

In [38]:
dtypes = {'POB': 'float64', 'AREA': 'float64', 'PGB': 'float64',
          'IND': 'datetime64'}
df = pd.DataFrame(data=data).T.astype(dtype=dtypes)
df.to_pickle('data.pickle')

In [39]:
!ls -l data.pickle

-rw-r--r-- 1 root root 2349 Sep  3 17:47 data.pickle


Al igual que hizo con las bases de datos, puede ser conveniente especificar primero los tipos de datos. También puede pasar un valor entero al parámetro opcional `protocol`, que especifica el protocolo del pickler.

Puede obtener los datos de un archivo pickle con `read_pickle()`:

In [40]:
%%timeit
df = pd.read_pickle('data.pickle')

221 µs ± 5.89 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


`read_pickle()` devuelve el DataFrame con los datos y sus tipos almacenados. También puede consultar los tipos de datos:

In [41]:
df.dtypes

PAIS            object
POB            float64
AREA           float64
PGB            float64
CONT            object
OCDE            object
IND     datetime64[ns]
dtype: object

__Importante__: Hay que tener en cuenta que hay que tener cuidado de cargar archivos _pickle_ de fuentes no confiables. Cuando lee un archivp _pickle_ de una fuente no confiable, podría ejecutar código arbitrario en su máquina, o generar alguna vulnerabilidad en su computadora.

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="50" align="left" title="Runa-perth">
<br clear="left">