---
# Obtención de Datos

- Archivos de texto plano
- Archivos Excel
- Tablas Web
- Archios HDF5
- Bases de Datos
- APIs REST

In [7]:
import pandas as pd

### Archivos de texto plano

In [None]:
# leer un archivo csv
df = pd.read_csv('notas-alumnos.csv')
df

Unnamed: 0,colegio,sexo,edad,ausencias,N1,N2,N3
0,GP,F,18,6,1.8,2.1,2.1
1,GP,F,17,4,1.8,1.8,2.1
2,GP,F,15,10,2.4,2.8,3.5
3,GP,F,15,2,5.2,4.9,5.2
4,GP,F,16,4,2.1,3.5,3.5
...,...,...,...,...,...,...,...
390,MS,M,20,11,3.2,3.2,3.2
391,MS,M,17,3,4.9,5.6,5.6
392,MS,M,21,3,3.5,2.8,2.4
393,MS,M,18,0,3.9,4.2,3.5


In [None]:
# leer un archivo separado por tabulaciones
df = pd.read_csv('weight-height.txt', sep='\t')
df

Unnamed: 0,Gender,Height,Weight
0,Male,73.847017,241.893563
1,Male,68.781904,162.310473
2,Male,74.110105,212.740856
3,Male,71.730978,220.042470
4,Male,69.881796,206.349801
...,...,...,...
9995,Female,66.172652,136.777454
9996,Female,67.067155,170.867906
9997,Female,63.867992,128.475319
9998,Female,69.034243,163.852461


In [None]:
# leer un archivo sin header
df = pd.read_csv('notas-alumnos-sin-header.csv', header=None,
                columns=['colegio','sexo','edad','ausencias','N1','N2','N3'])
df

Unnamed: 0,colegio,sexo,edad,ausencias,N1,N2,N3
0,GP,F,18,6,1.8,2.1,2.1
1,GP,F,17,4,1.8,1.8,2.1
2,GP,F,15,10,2.4,2.8,3.5
3,GP,F,15,2,5.2,4.9,5.2
4,GP,F,16,4,2.1,3.5,3.5
...,...,...,...,...,...,...,...
390,MS,M,20,11,3.2,3.2,3.2
391,MS,M,17,3,4.9,5.6,5.6
392,MS,M,21,3,3.5,2.8,2.4
393,MS,M,18,0,3.9,4.2,3.5


In [None]:
# leer archivo de largo fijo
specs = [(0, 6), (8, 20), (21, 33), (34, 43)]
names = ['ID', 'Ingresos', 'Egresos', 'Inversion']
df = pd.read_fwf('report-fwf.dat.txt', colspecs=specs, header=None, names=names)
df

Unnamed: 0,ID,Ingresos,Egresos,Inversion
0,id8141,360.24294,149.910199,11950.7
1,id1594,444.953632,166.985655,11788.4
2,id1849,364.136849,183.628767,11806.2
3,id1230,413.836124,184.375703,11916.8
4,id1948,502.953953,173.237159,12468.3


### Planillas Excel

In [None]:
# leer planilla
df = pd.read_excel('sueldos.xlsx')
df.head(2)

Unnamed: 0,_id,NOMBRE,TITULO Y/O ESPECIALIDAD,LABOR,LUGAR DE SU FUNCION,SUELDO LIQUIDO
0,1,Cecilia Del Carmen Ayala Cabrera,Enfermera,Encargada Del Cecosf,Cecosf Padre Hugo Cornelissen,1.803.344
1,2,Jesús Ignacio Contreras Vivar,Tec. Enfermería,"Despacho De Medicamentos, Pnac Pacam",Farmacia/Coordinación,236.489


In [None]:
# leer una hoja especifica de una planilla
df = pd.read_excel('sueldos.xlsx', sheet_name='Hoja Principal')
df.head(2)

Unnamed: 0,_id,NOMBRE,TITULO Y/O ESPECIALIDAD,LABOR,LUGAR DE SU FUNCION,SUELDO LIQUIDO
0,1,Cecilia Del Carmen Ayala Cabrera,Enfermera,Encargada Del Cecosf,Cecosf Padre Hugo Cornelissen,1.803.344
1,2,Jesús Ignacio Contreras Vivar,Tec. Enfermería,"Despacho De Medicamentos, Pnac Pacam",Farmacia/Coordinación,236.489


In [None]:
# escribir una planilla
df[['NOMBRE','SUELDO LIQUIDO']].to_excel('resumen_sueldos.xlsx')

In [None]:
# escribir una planilla sin indice y con nombre de hoja
df[['NOMBRE','SUELDO LIQUIDO']].to_excel('resumen_sueldos.xlsx', index=False, 
                                         sheet_name='Hoja Resumen')

### Lectura de páginas html

In [None]:
url = 'https://es.wikipedia.org/wiki/Regiones_de_Chile'
tables = pd.read_html(url)

In [None]:
tables[1]

Unnamed: 0,Regiones Odeplan,Provincias (hasta 1976),Regiones actuales (desde 2018)
0,I,Tarapacá,Arica y Parinacota y Tarapacá
1,II,Antofagasta,Antofagasta
2,III,Atacama y Coquimbo,Atacama y Coquimbo
3,IV,Aconcagua y Valparaíso,Valparaíso
4,V,O'Higgins y Colchagua,O'Higgins
5,VI,"Curicó, Talca, Maule y Linares",Maule
6,VII,"Ñuble, Concepción, Arauco, Biobío y Malleco","Ñuble, Biobío y La Araucanía (norte)"
7,VIII,Cautín,La Araucanía (sur)
8,IX,Valdivia y Osorno,Los Ríos y Los Lagos (norte)
9,X,"Llanquihue, Chiloé y Aysén",Los Lagos (sur) y Aysén


### Bases de Datos

In [None]:
from sqlalchemy import create_engine

In [None]:
# creamos una conexion
conn = create_engine('sqlite:///:memory:')

In [None]:
# creamos un dataframe de ejjemplo
df = pd.DataFrame({ 'id': range(1000,1010),
                    'Ingresos':np.random.randint(1e5,9e5,10), 
                    'Egresos':np.random.randint(1e5,9e5,10)})
df.head()

Unnamed: 0,id,Ingresos,Egresos
0,1000,426825,808759
1,1001,346375,168893
2,1002,792713,758086
3,1003,113795,603189
4,1004,195796,254406


In [None]:
# guardamos dataframe en una tabla sql
df.to_sql('mi_tabla', conn)

In [None]:
query = 'SELECT * FROM mi_tabla WHERE Ingresos < 300000'

# realizamos consulta sql en la base de datos
pd.read_sql(query, conn)

Unnamed: 0,index,id,Ingresos,Egresos
0,3,1003,113795,603189
1,4,1004,195796,254406
2,8,1008,264434,308475
3,9,1009,284872,167837


In [None]:
import psycopg2

In [None]:
DB_SCHEMA = 'ipla-db-05'
cnx = psycopg2.connect(
        host="10.0.200.110",
        database="dbacademy",
        user="dbuser",
        password="passwd1234",
        options="-c search_path={}".format(DB_SCHEMA))

In [None]:
query = 'SELECT * FROM escuelas'
pd.read_sql(query, cnx)

Unnamed: 0,id_escuela,cod_escuela,nom_escuela
0,1,8,ESCUELA DE EDUCACION
1,2,15,ESCUELA DE SALUD
2,3,3,ESCUELA DE TECNOLOGIA
3,4,7,ESCUELA DE DESARROLLO SOCIAL Y SERVICIO PUBLICO
4,5,6,ESCUELA DE GASTRONOMIA
5,6,11,ESCUELA DE ADMINISTRACION Y NEGOCIOS
6,7,0,PROGRAMAS TRANSVERSALES


### Lectura de una API

In [2]:
import requests

In [3]:
url = 'https://jsonplaceholder.typicode.com/posts'

headers = {"Accept":"*/*","Content-Type":"application/json"}
response = requests.get(url, headers=headers)

if response.status_code != 200:
        raise IOError(f'Error Code: {response.status_code}. Reason: {response.reason}')

In [4]:
# respuesta json
json_resp = response.json()

In [8]:
# transformamos en dataframe
df = pd.json_normalize(json_resp)  
df.head()

Unnamed: 0,userId,id,title,body
0,1,1,sunt aut facere repellat provident occaecati e...,quia et suscipit\nsuscipit recusandae consequu...
1,1,2,qui est esse,est rerum tempore vitae\nsequi sint nihil repr...
2,1,3,ea molestias quasi exercitationem repellat qui...,et iusto sed quo iure\nvoluptatem occaecati om...
3,1,4,eum et est occaecati,ullam et saepe reiciendis voluptatem adipisci\...
4,1,5,nesciunt quas odio,repudiandae veniam quaerat sunt sed\nalias aut...
