
# Entrada - Salida de datos

Este notebook sirve de referencia para trabajar con entrada - salida de datos. 
Pandas permite leer un gran variedad de tipos de archivos usando los métodos pd.read_*. 
Veamos los más comunes:
* CSV
* Excel
* HTML
* SQL

## Instalación

Aunque ya deberia estar todo instalado, si hay algún problema asegúrese de tener instalado lo siguiente:
* conda install sqlalchemy
* conda install lxml
* conda install html5lib
* conda install BeautifulSoup4
* conda install xlrd

In [0]:
import numpy as np
import pandas as pd

In [5]:
!pwd

/content


In [6]:
!ls

sample_data


## CSV - Comma Separated Values

### Entrada CSV

**IMPORTANTE:** Antes de ejecutar la siguiente celda, debe cargar el archivo 'ejemplo.csv' en el directorio actual.

In [19]:
#https://drive.google.com/open?id=1jm8PqtO1XcAO9LlR28sL0eDx0rLxmvSE
url="https://drive.google.com/uc?export=download&id=1jm8PqtO1XcAO9LlR28sL0eDx0rLxmvSE"

df = pd.read_csv(url)
df

ParserError: ignored

In [18]:
!cat ejemplo.csv

Aa,b,c,d
0,1,2,3
4,5,6,7
8,9,10,11
12,13,14,15

In [21]:
# Para ver la variedad de formatos que se pueden leer. escribir pd.read_ y presionar TAB

df = pd.read_csv('ejemplo.csv')
df

Unnamed: 0,Aa,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [0]:
df['nueva'] = df['c'] + df['b']

In [23]:
df

Unnamed: 0,Aa,b,c,d,nueva
0,0,1,2,3,3
1,4,5,6,7,11
2,8,9,10,11,19
3,12,13,14,15,27


### Salida CSV

In [0]:
df.to_csv('ejemplo_salida10.csv')

In [25]:
!ls

ejemplo.csv  ejemplo_salida10.csv  sample_data


In [26]:
!cat ejemplo_salida10.csv

,Aa,b,c,d,nueva
0,0,1,2,3,3
1,4,5,6,7,11
2,8,9,10,11,19
3,12,13,14,15,27


In [0]:
df.to_csv('ejemplo_salida10.csv',index=False)

In [28]:
!cat ejemplo_salida10.csv

Aa,b,c,d,nueva
0,1,2,3,3
4,5,6,7,11
8,9,10,11,19
12,13,14,15,27


## Excel

Pandas puede leer y escribir archivos de Excel. Tenga en cuenta que sólo se importan los valores, no se importan fórmulas o imágenes. Es posible que el método read_excel de Pandas falle si la hoja de Excel tiene macros o imágenes. 

### Entrada Excel

**IMPORTANTE:** Antes de ejecutar la siguiente celda, debe cargar el archivo 'ejemplo_Excel.xlsx' en el directorio actual.

In [0]:
df2= pd.read_excel('ejemplo_Excel.xlsx',sheet_name='Hoja1')

In [30]:
df2

Unnamed: 0.1,Unnamed: 0,a,b,c,d,e
0,0,0,1,2,3,1.5
1,1,4,5,6,7,5.5
2,2,8,9,10,11,9.5
3,3,12,13,14,15,13.5


### Excel Output

In [0]:
df2[['d','e']].to_excel('salida_Excel.xlsx',sheet_name='HojaPrueba1')

In [32]:
!ls

ejemplo.csv	    ejemplo_salida10.csv  sample_data
ejemplo_Excel.xlsx  salida_Excel.xlsx


## HTML

Pandas puede leer tablas a partir de un html. Por ejemplo:

### Entrada HTML

La función read_html de Pandas lee tablas a partir de una página web HTML y retorna una lista de objetos DataFrames:

In [0]:
df = pd.read_html('https://www.fdic.gov/bank/individual/failed/banklist.html')

In [38]:
type(df[0])

pandas.core.frame.DataFrame

In [39]:
# df contiene una lista de DataFrames con cada una de las tablas de esa página web  

df[0].head()


Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date
0,The First State Bank,Barboursville,WV,14361,"MVB Bank, Inc.","April 3, 2020"
1,Ericson State Bank,Ericson,NE,18265,Farmers and Merchants Bank,"February 14, 2020"
2,City National Bank of New Jersey,Newark,NJ,21111,Industrial Bank,"November 1, 2019"
3,Resolute Bank,Maumee,OH,58317,Buckeye State Bank,"October 25, 2019"
4,Louisa Community Bank,Louisa,KY,58112,Kentucky Farmers Bank Corporation,"October 25, 2019"


In [41]:
len(df)

1

In [40]:
df[0].describe()

Unnamed: 0,CERT
count,561.0
mean,31685.684492
std,16446.656593
min,91.0
25%,20203.0
50%,32167.0
75%,35372.0
max,58701.0


In [0]:
df[0]

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date
0,The First State Bank,Barboursville,WV,14361,"MVB Bank, Inc.","April 3, 2020"
1,Ericson State Bank,Ericson,NE,18265,Farmers and Merchants Bank,"February 14, 2020"
2,City National Bank of New Jersey,Newark,NJ,21111,Industrial Bank,"November 1, 2019"
3,Resolute Bank,Maumee,OH,58317,Buckeye State Bank,"October 25, 2019"
4,Louisa Community Bank,Louisa,KY,58112,Kentucky Farmers Bank Corporation,"October 25, 2019"
...,...,...,...,...,...,...
556,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001"
557,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001"
558,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001"
559,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000"


### Salida HTML 

In [0]:
df[0].to_html('salida_HTML.html')

_____
_____
## SQL (Opcional)

* Nota: si para usted es completamente desconocido SQL, se recomienda buscar material adicional en Internet acerca de esto.

El módulo pandas.io.sql proporciona una colección de contenedores de consultas para facilitar la recuperación de datos y reducir la dependencia de APIs específicas de bases de datos. La abstracción de bases de datos es proporcionada por SQLAlchemy si está instalada. Además, necesitará un controlador para su base de datos. Ejemplos de tales controladores son psycopg2 para PostgreSQL o pymysql para MySQL. Para SQLite está incluido en la biblioteca estándar de Python por defecto. Puede encontrar una descripción general de los controladores soportados por cada dialecto de SQL en la documentación de SQLAlchemy.

Las funciones clave son:
* read_sql_table(table_name, con[, schema, ...])	
    * Lee una tabla de una base de datos SQL y la almacena en un DataFrame.
* read_sql_query(sql, con[, index_col, ...])	
    * Lee una consulta (query) SQL y la almacena en un DataFrame.
* read_sql(sql, con[, index_col, ...])	
    * Lee una consulta SQL o una tabla y la almacena en un DataFrame.
* DataFrame.to_sql(name, con[, flavor, ...])	
    * Escribe registros almacenados en un DataFrame en una base de datos SQL.

In [0]:
from sqlalchemy import create_engine

In [0]:
engine = create_engine('sqlite:///:memory:')

In [0]:

df[0].to_sql('data', engine)

In [0]:
sql_df = pd.read_sql('data',con=engine)

In [49]:
sql_df

Unnamed: 0,index,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date
0,0,The First State Bank,Barboursville,WV,14361,"MVB Bank, Inc.","April 3, 2020"
1,1,Ericson State Bank,Ericson,NE,18265,Farmers and Merchants Bank,"February 14, 2020"
2,2,City National Bank of New Jersey,Newark,NJ,21111,Industrial Bank,"November 1, 2019"
3,3,Resolute Bank,Maumee,OH,58317,Buckeye State Bank,"October 25, 2019"
4,4,Louisa Community Bank,Louisa,KY,58112,Kentucky Farmers Bank Corporation,"October 25, 2019"
...,...,...,...,...,...,...,...
556,556,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001"
557,557,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001"
558,558,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001"
559,559,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000"
