---
# Obtención de Datos

- Archivos de texto plano
- Archivos Excel
- Tablas Web
- Archivos HDF5
- Bases de Datos
- APIs REST

In [4]:
import pandas as pd


### Archivos de texto plano

In [5]:
# leer un archivo csv
df = pd.read_csv('notas-alumnos.csv')
df

Unnamed: 0,colegio,sexo,edad,ausencias,N1,N2,N3
0,GP,F,18,6,1.8,2.1,2.1
1,GP,F,17,4,1.8,1.8,2.1
2,GP,F,15,10,2.4,2.8,3.5
3,GP,F,15,2,5.2,4.9,5.2
4,GP,F,16,4,2.1,3.5,3.5
...,...,...,...,...,...,...,...
390,MS,M,20,11,3.2,3.2,3.2
391,MS,M,17,3,4.9,5.6,5.6
392,MS,M,21,3,3.5,2.8,2.4
393,MS,M,18,0,3.9,4.2,3.5


In [8]:
# leer un archivo separado por tabulaciones
df = pd.read_csv('weight-height.txt',sep='\t')
df

Unnamed: 0,Gender,Height,Weight
0,Male,73.847017,241.893563
1,Male,68.781904,162.310473
2,Male,74.110105,212.740856
3,Male,71.730978,220.042470
4,Male,69.881796,206.349801
...,...,...,...
9995,Female,66.172652,136.777454
9996,Female,67.067155,170.867906
9997,Female,63.867992,128.475319
9998,Female,69.034243,163.852461


In [None]:
# leer un archivo sin header
df = pd.read_csv('notas-alumnos-sin-header.csv', header=None,
                columns=['colegio','sexo','edad','ausencias','N1','N2','N3'])
df

In [None]:
# leer archivo de largo fijo
specs = [(0, 6), (8, 20), (21, 33), (34, 43)]
names = ['ID', 'Ingresos', 'Egresos', 'Inversion']
df = pd.read_fwf('report-fwf.dat.txt', colspecs=specs, header=None, names=names)
df

### Planillas Excel

In [None]:
# leer planilla
df = pd.read_excel('sueldos.xlsx')
df.head(2)

In [None]:
# leer una hoja especifica de una planilla
df = pd.read_excel('sueldos.xlsx', sheet_name='Hoja Principal')
df.head(2)

In [None]:
# escribir una planilla
df[['NOMBRE','SUELDO LIQUIDO']].to_excel('resumen_sueldos.xlsx')

In [None]:
# escribir una planilla sin indice y con nombre de hoja
df[['NOMBRE','SUELDO LIQUIDO']].to_excel('resumen_sueldos.xlsx', index=False, 
                                         sheet_name='Hoja Resumen')

### Lectura de páginas html

In [2]:
url = 'https://es.wikipedia.org/wiki/Regiones_de_Chile'
tables = pd.read_html(url)

In [11]:
tables[0]

Unnamed: 0,Regiones Corfo,Provincias (hasta 1976),Regiones actuales (desde 2018)
0,Norte Grande,Tarapacá y Antofagasta,"Arica y Parinacota, Tarapacá y Antofagasta"
1,Norte Chico,Atacama y Coquimbo,Atacama y Coquimbo
2,Núcleo Central,"Aconcagua, Valparaíso, Santiago, O'Higgins, Co...","Valparaíso, Metropolitana de Santiago, O'Higgi..."
3,Concepción y La Frontera,"Concepción, Arauco, Biobío, Malleco y Cautín",Biobío y La Araucanía
4,Región de los Lagos,"Valdivia, Osorno y Llanquihue",Los Ríos y Los Lagos (continental)
5,Región de los Canales,"Chiloé, Aysén y Magallanes","Los Lagos (Isla Grande de Chiloé), Aysén y Mag..."


### Bases de Datos

In [12]:
from sqlalchemy import create_engine

In [None]:
#!conda install -c anaconda sqlalchemy

In [None]:
# creamos una conexion
conn = create_engine('sqlite:///:memory:')

In [None]:
# creamos un dataframe de ejjemplo
df = pd.DataFrame({ 'id': range(1000,1010),
                    'Ingresos':np.random.randint(1e5,9e5,10), 
                    'Egresos':np.random.randint(1e5,9e5,10)})
df.head()

In [None]:
# guardamos dataframe en una tabla sql
df.to_sql('mi_tabla', conn)

In [None]:
query = 'SELECT * FROM mi_tabla WHERE Ingresos < 300000'

# realizamos consulta sql en la base de datos
pd.read_sql(query, conn)

In [None]:
import psycopg2

In [None]:
DB_SCHEMA = 'ipla-db-05'
cnx = psycopg2.connect(
        host="10.0.200.110",
        database="dbacademy",
        user="dbuser",
        password="passwd1234",
        options="-c search_path={}".format(DB_SCHEMA))

In [None]:
query = 'SELECT * FROM escuelas'
pd.read_sql(query, cnx)

from bs4 import BeautifulSoup### Lectura de una API

In [5]:
import pandas as pd
import requests

In [2]:
url = 'https://jsonplaceholder.typicode.com/posts'

headers = {"Accept":"*/*","Content-Type":"application/json"}
response = requests.get(url, headers=headers)

if response.status_code != 200:
        raise IOError(f'Error Code: {response.status_code}. Reason: {response.reason}')

In [3]:
# respuesta json
json_resp = response.json()

In [6]:
# transformamos en dataframe
df = pd.json_normalize(json_resp)  
df.head()

Unnamed: 0,userId,id,title,body
0,1,1,sunt aut facere repellat provident occaecati e...,quia et suscipit\nsuscipit recusandae consequu...
1,1,2,qui est esse,est rerum tempore vitae\nsequi sint nihil repr...
2,1,3,ea molestias quasi exercitationem repellat qui...,et iusto sed quo iure\nvoluptatem occaecati om...
3,1,4,eum et est occaecati,ullam et saepe reiciendis voluptatem adipisci\...
4,1,5,nesciunt quas odio,repudiandae veniam quaerat sunt sed\nalias aut...


### Web Scrapping

In [10]:
#Para enriquecer la informacion unida, podemos consultar el valor del dolar desde la página oficial del Banco Central
from bs4 import BeautifulSoup
#configuramos la URL de la pagina
url = "https://si3.bcentral.cl/indicadoressiete/secure/Serie.aspx?gcode=PRE_TCO&param=RABmAFYAWQB3AGYAaQBuAEkALQAzADUAbgBNAGgAaAAkADUAVwBQAC4AbQBYADAARwBOAGUAYwBjACMAQQBaAHAARgBhAGcAUABTAGUAdwA1ADQAMQA0AE0AawBLAF8AdQBDACQASABzAG0AXwA2AHQAawBvAFcAZwBKAEwAegBzAF8AbgBMAHIAYgBDAC4ARQA3AFUAVwB4AFIAWQBhAEEAOABkAHkAZwAxAEEARAA="
page = requests.get(url)
soup = BeautifulSoup(page.text, 'lxml')

#Extraemos la tabla con los valores del dolar
#OJO que para saber que tabla escoger es necesario hacer una exploración del sitio web
#Usando las herramientas de desarrolladores (Tecla F12 en Chrome, Edge y Firefox)
table_data  = soup.find("table", attrs={"id": "gr", "class":"table"})

#Extraemos los encabezados de la Tabla
headers = []
for i in table_data.find_all('th'):
    title = i.text
    headers.append(title)

#print(headers)

#Creamos un Data frame para los valores del dolar provenientes directamente del sitio web

df_dolar = pd.DataFrame(columns = headers)

for j in table_data.find_all('tr')[1:]:
        row_data = j.find_all('td')
        row = [tr.text for tr in row_data]
        length = len(df_dolar)
        df_dolar.loc[length] = row

display(df_dolar)

Unnamed: 0,Día,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
0,1,,93226.0,96991.0,98171.0,,,94434.0,94378.0,,,,
1,2,87712.0,93601.0,,98259.0,95425.0,,94389.0,93894.0,,,,
2,3,88092.0,,,97996.0,95436.0,91677.0,94699.0,,,,,
3,4,88439.0,,96641.0,96283.0,,90794.0,93957.0,,,,,
4,5,88445.0,94384.0,97192.0,94272.0,,90537.0,93655.0,95111.0,,,,
5,6,,95573.0,97636.0,,93829.0,90625.0,,95757.0,,,,
6,7,,94981.0,98126.0,,93017.0,91045.0,,94718.0,,,,
7,8,89307.0,94790.0,98380.0,94892.0,93429.0,,93351.0,94396.0,,,,
8,9,90131.0,95786.0,,94671.0,93676.0,,93917.0,93718.0,,,,
9,10,91471.0,,,94061.0,93099.0,91684.0,93231.0,,,,,
