[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Extracción y almacenamiento de dataframes y series. 

In [None]:
!pip install openpyxl

In [None]:
import pandas as pd
import numpy as np

Una de las fortalezas de *Pandas* es su capacidad de extraer información de diversas fuentes de datos.

En este capítulo se realizará la extracción de un dataframe a partir de un archivo de hoja de cálculo publicado en Internet.

## El paquete ```xlrd```.

Este paquete permite realizar operaciones de lectura en hojas de cálculo en formatos ```xls``` y ```xlsx```. 

La documentaciónde ```xlrd``` está disponible en:

https://xlrd.readthedocs.io/en/latest/

*Pandas* utiliza ```xlrd``` para extraer información de este tipo de archivos.

In [None]:
!pip install xlrd

## Funciones de lectura de Pandas.

* ```pd.read_clipboard()``` Permite leer datos que se encuentran en el espacio de memoria del "clipboard" en un sistemas.
* ```pd.read_csv()``` Permite leer datos que se encuentran en un archivo *CSV*.
* ```pd.read_excel()``` Permite leer datos que se encuentran en un archivo de *Excel*.
* ```pd.read_feather()``` Permite leer datos a partir de [*feather*](https://github.com/wesm/feather).
* ```pd.read_fwf()```.
* ```pd.read_gbq()``` para [*Google Big Query*](https://pandas-gbq.readthedocs.io/en/latest/).
* ```pd.read_hdf()``` para [HDF5](https://www.hdfgroup.org/solutions/hdf5).
* ```pd.read_html()``` https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_html.html.
* ```pd.read_json()```.
* ```pd.read_msgpack()``` https://pandas-msgpack.readthedocs.io/en/latest/.
* ```pd.read_parquet()``` https://databricks.com/glossary/what-is-parquet.
* ```pd.read_pickle()```.
* ```pd.read_sas()```.
* ```pd. read_sql()```.
* ```pd.read_sql_query()```.
* ```pd.read_sql_table()```.
* ```pd.read_stata()```.
* ```pd.read_table()```.

**Nota:** En la mayor parte de los casos los datos extraidos son almacenados en un *dataframe*.

## Métodos de persistencia y almacenamiento de los dataframes de *Pandas*.

* ```pd.DataFrame.to_clipboard()```
* ```pd.DataFrame.to_csv()```
* ```pd.DataFrame.to_dict()```
* ```pd.DataFrame.to_excel()```
* ```pd.DataFrame.to_feather()```
* ```pd.DataFrame.to_gbq()```
* ```pd.DataFrame.to_hdf()```
* ```pd.DataFrame.to_html```
* ```pd.DataFrame.to_json()```
* ```pd.DataFrame.to_latex()```
* ```pd.DataFrame.to_msgpack()```
* ```pd.DataFrame.to_numpy()```
* ```pd.DataFrame.to_parquet()```
* ```pd.DataFrame.to_pickle()```
* ```pd.DataFrame.to_records()```
* ```pd.DataFrame.to_sql()```
* ```pd.DataFrame.to_stata()```

## Obtención de datos a partir de una hoja de cálculo pulbvicada por el INEGI.

A continuación se descargará el archivo localizado en https://www.inegi.org.mx/contenidos/temas/economia/cn/itaee/tabulados/ori/ITAEE_2.xlsx

### Obtención del archivo usando ```urllib```.

In [None]:
import urllib.request

In [None]:
urllib.request.urlretrieve("https://www.inegi.org.mx/contenidos/temas/economia/cn/itaee/tabulados/ori/ITAEE_2.xlsx", "datos.xlsx")

In [None]:
%ls datos.xlsx

### Carga del archivo con ```pd.read_excel()```.

In [None]:
original = pd.read_excel('datos.xlsx')

In [None]:
original

In [None]:
original.head(39)

### Uso de ```set_index()``` para definir un índice por entidad.

In [None]:
original.columns

In [None]:
original.columns.values

In [None]:
original.columns.values[0]

In [None]:
original.set_index(original.columns.values[0], inplace=True)

In [None]:
original.head(39)

In [None]:
original.index.name = 'Entidades'

In [None]:
original

### Obtención de los datos relevantes.

In [None]:
datos = original[6:39]

In [None]:
datos

### Creación de un índice de columnas adecuado.

In [None]:
periodos = pd.MultiIndex.from_product([[x for x in range(2003, 2023)],
                                      ['T1', 'T2', 'T3', 'T4', 'Anual']], 
                                      names=('Año', 'Periodo'))

In [None]:
periodos

In [None]:
datos.columns = periodos

In [None]:
datos

In [None]:
datos[2005]

In [None]:
datos[2005]['T1']

In [None]:
datos[2005]['T1'][1:]

In [None]:
periodo = datos[2005]['T1'][1:]

In [None]:
periodo.mean()

In [None]:
periodo.to_excel('datos_utiles.xlsx')

### Extracción y escritura en formato CVS.

In [None]:
nuevos_datos = pd.read_csv('data/datos_filtrados.csv')

In [None]:
nuevos_datos

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2017-2026.</p>