[![imagenes/pythonista.png](imagenes/pythonista.png)](https://pythonista.io)

# Extracción y almacenamiento de dataframes y series. 

In [None]:
import pandas as pd
import numpy as np

Una de las fortalezas de Pandas es su capacidad de extraer información de diversas fuentes de datos.

En este capítulo se realizará la extracción de un dataframe a partir de un archivo de hoja de cálculo publicado en Internet.

## El paquete ```xlrd```.

Este paquete permite realizar operaciones de lectura en hojas de cálculo en formatos ```xls``` y ```xlsx```. 

*Pandas* utiliza ```xlrd``` para extraer información de este tipo de archivos.

In [None]:
!pip install xlrd

## Funciones de lectura de Pandas.

* ```pd.read_clipboard()```.
* ```pd.read_csv()```.
* ```pd.read_excel()```.
* ```pd.read_feather()```.
* ```pd.read_fwf()```.
* ```pd.read_gbq()```.
* ```pd.read_hdf()```.
* ```pd.read_html()```.
* ```pd.read_json()```.
* ```pd.read_msgpack()```.
* ```pd.read_parquet()```.
* ```pd.read_pickle()```.
* ```pd.read_sas()```.
* ```pd. read_sql()```.
* ```pd.read_sql_query()```.
* ```read_sql_table()```.
* ```read_stata()```.
* ```read_table()```.

## Métodos de persistencia y almacenamiento de los dataframes de *Pandas*.

* ```pd.DataFrame.to_clipboard()```
* ```pd.DataFrame.to_csv()```
* ```pd.DataFrame.to_dict()```
* ```pd.DataFrame.to_excel()```
* ```pd.DataFrame.to_feather()```
* ```pd.DataFrame.to_gbq()```
* ```pd.DataFrame.to_hdf()```
* ```pd.DataFrame.to_html```
* ```pd.DataFrame.to_json()```
* ```pd.DataFrame.to_latex()```
* ```pd.DataFrame.to_msgpack()```
* ```pd.DataFrame.to_numpy()```
* ```pd.DataFrame.to_parquet()```
* ```pd.DataFrame.to_pickle()```
* ```pd.DataFrame.to_records()```
* ```pd.DataFrame.to_sql()```
* ```pd.DataFrame.to_stata()```

## Obtención de datos a partir de una hoja de cálculo pulbvicada por el INEGI.

A continuación se descargará el archivo localizado en https://www.inegi.org.mx/contenidos/temas/economia/cn/itaee/tabulados/ori/ITAEE_2.xlsx

### Obtención del archivo usando ```urllib```.

In [None]:
import urllib.request

In [None]:
urllib.request.urlretrieve("https://www.inegi.org.mx/contenidos/temas/economia/cn/itaee/tabulados/ori/ITAEE_2.xlsx", "datos.xlsx")

In [None]:
%ls datos.xlsx

### Carga del archivo con ```pd.read_excel()```.

In [None]:
original = pd.read_excel('datos.xlsx')

In [None]:
original

In [None]:
original.head(39)

### Uso de ```set_index()``` para definir un índice por entidad.

In [None]:
original = original.set_index(original.columns.values[0])

In [None]:
original.index.name = 'Entidades'

In [None]:
original

### Obtención de los datos relevantes.

In [None]:
datos = original[6:39]

In [None]:
datos

### Limpieza de renglones sobrantes.

In [None]:
datos_filtrados = datos.drop(datos.index[0:3])

In [None]:
datos_filtrados

### Creación de un índice de columnas adecuado.

In [None]:
periodos = pd.MultiIndex.from_product([[x for x in range(2003, 2021)],
                                      ['T1', 'T2', 'T3', 'T4', 'Anual']], 
                                      names=('Año', 'Periodo'))

In [None]:
periodos

In [None]:
datos_filtrados.columns = periodos

In [None]:
datos_filtrados

In [None]:
datos_filtrados[2005]

In [None]:
datos_filtrados[2005]['T1']

In [None]:
datos_filtrados[2005]['T1'][1:]

In [None]:
periodo = datos_filtrados[2005]['T1'][1:]

In [None]:
periodo.mean()

### Extracción y escritura en formato CVS.

In [None]:
datos_filtrados.to_csv('datos_filtrados.csv')

In [None]:
nuevos_datos = pd.read_csv('datos_filtrados.csv')

In [None]:
nuevos_datos

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2019.</p>