# Funciones de Dataframes

En este documento se ejemplificna las siguientes funciones de dataframes de Pandas:

0) Imports

1) Cómo sacar datos de SQL

2) Join

3) Seleccionar filas

4) Editar data seleccionada

5) Añadir data

6) Añadir columnas

7) Agrupar data

8) Top n

9) Select distinct


# 0) Imports

In [1]:

#El import de pandas
import pandas as pd

# para conectarse a SQL
import pyodbc

# import para copiar objetos
from copy import deepcopy

# para crear fechas
from datetime import datetime

# el infaltable numpy
import numpy as np

#Ojo colocar usuario y clave
SQLconnection = pyodbc.connect( 'DRIVER={SQL Server};SERVER=192.168.30.200;DATABASE=dbAlgebra;UID=cscheihing;PWD=ZKeVwfZJ' )

# 1) Cómo sacar datos de SQL

In [2]:
# unos pocos días de transacciones de nemos que parten con BA...
sqlEjemplo = ''' SELECT T.Fecha, T.Familia, T.Nemotecnico, T.MontoPesos
FROM dbAlgebra.dbo.TdTransaLvaRF T WITH(NOLOCK) 
WHERE T.Familia='BE' AND (T.SiValida = 1) 
AND (T.Fecha between '20180102' and '20180104') 
AND T.Nemotecnico like 'BA%'  '''


dataTransacciones = pd.io.sql.read_sql(sqlEjemplo, SQLconnection)


#Lo mismo para sacar UF
sqlUFLiquidez= '''select Fecha, UF from dbAlgebra.dbo.TdIndicadores I
where Fecha between '20180102' and '20180104' '''

dataUF = pd.io.sql.read_sql(sqlUFLiquidez, SQLconnection)



# Nótese que se ve más bonito sin el print(), esto es por ser dataframe
dataTransacciones

Unnamed: 0,Fecha,Familia,Nemotecnico,MontoPesos
0,2018-01-04,BE,BARAU-J,56177870.0
1,2018-01-04,BE,BARAU-J,14037690.0
2,2018-01-04,BE,BARAU-P,1514840000.0
3,2018-01-04,BE,BARAU-P,1516053000.0
4,2018-01-04,BE,BARAU-P,302968000.0
5,2018-01-04,BE,BAVNO-A1,266384000.0
6,2018-01-04,BE,BAVNO-A1,266364500.0
7,2018-01-04,BE,BAYS3-A,2526877000.0
8,2018-01-03,BE,BAGUA-J,13751850.0
9,2018-01-03,BE,BAGUA-R,4565177.0


# 2) Join

In [3]:
# Hago entre los dos dataframe por fecha
# El 'how' dice si es left right o inner join. Por omisión es left
#Cruza la data y anexa las columnas
dataTransacciones = dataTransacciones.join(dataUF.set_index('Fecha'), on='Fecha', how='inner')

dataTransacciones

Unnamed: 0,Fecha,Familia,Nemotecnico,MontoPesos,UF
0,2018-01-04,BE,BARAU-J,56177870.0,26801.6
1,2018-01-04,BE,BARAU-J,14037690.0,26801.6
2,2018-01-04,BE,BARAU-P,1514840000.0,26801.6
3,2018-01-04,BE,BARAU-P,1516053000.0,26801.6
4,2018-01-04,BE,BARAU-P,302968000.0,26801.6
5,2018-01-04,BE,BAVNO-A1,266384000.0,26801.6
6,2018-01-04,BE,BAVNO-A1,266364500.0,26801.6
7,2018-01-04,BE,BAYS3-A,2526877000.0,26801.6
8,2018-01-03,BE,BAGUA-J,13751850.0,26800.73
9,2018-01-03,BE,BAGUA-R,4565177.0,26800.73


# 3) Seleccionar filas

In [4]:
Nemos=['BARAU-J','BARAU-Q','BAYS3-A']
fecha=datetime.strptime('20180103', '%Y%m%d')

# Pido que el Nemo esté en la lista anterior y la fecha sea >= al 3 de Enero
# Utilizo deepcopy para asegurarme de que el filtro no sea un puntero a la lista original con restricciones
filtro=deepcopy(dataTransacciones.loc[(dataTransacciones['Nemotecnico'].isin(Nemos)) & (dataTransacciones['Fecha'] >= fecha) ] )

filtro

Unnamed: 0,Fecha,Familia,Nemotecnico,MontoPesos,UF
0,2018-01-04,BE,BARAU-J,56177870.0,26801.6
1,2018-01-04,BE,BARAU-J,14037690.0,26801.6
7,2018-01-04,BE,BAYS3-A,2526877000.0,26801.6
48,2018-01-03,BE,BARAU-Q,24135720.0,26800.73
52,2018-01-03,BE,BAYS3-A,820920500.0,26800.73
53,2018-01-03,BE,BAYS3-A,126295500.0,26800.73
54,2018-01-03,BE,BAYS3-A,1263922000.0,26800.73
55,2018-01-03,BE,BAYS3-A,1895883000.0,26800.73
56,2018-01-03,BE,BAYS3-A,315980500.0,26800.73


# 4) Editar data seleccionada

In [5]:
# edito los nemos que seleccié en el paso 3) y cambio los nemo por NewNemo
dataTransacciones.loc[filtro.index,'Nemotecnico'] = 'NewNemo'
dataTransacciones

Unnamed: 0,Fecha,Familia,Nemotecnico,MontoPesos,UF
0,2018-01-04,BE,NewNemo,56177870.0,26801.6
1,2018-01-04,BE,NewNemo,14037690.0,26801.6
2,2018-01-04,BE,BARAU-P,1514840000.0,26801.6
3,2018-01-04,BE,BARAU-P,1516053000.0,26801.6
4,2018-01-04,BE,BARAU-P,302968000.0,26801.6
5,2018-01-04,BE,BAVNO-A1,266384000.0,26801.6
6,2018-01-04,BE,BAVNO-A1,266364500.0,26801.6
7,2018-01-04,BE,NewNemo,2526877000.0,26801.6
8,2018-01-03,BE,BAGUA-J,13751850.0,26800.73
9,2018-01-03,BE,BAGUA-R,4565177.0,26800.73


# 5) Añadir data

In [6]:
# Junto las dos tablas
dataTransacciones = dataTransacciones.append(filtro, ignore_index=True)
dataTransacciones

Unnamed: 0,Fecha,Familia,Nemotecnico,MontoPesos,UF
0,2018-01-04,BE,NewNemo,5.617787e+07,26801.60
1,2018-01-04,BE,NewNemo,1.403769e+07,26801.60
2,2018-01-04,BE,BARAU-P,1.514840e+09,26801.60
3,2018-01-04,BE,BARAU-P,1.516053e+09,26801.60
4,2018-01-04,BE,BARAU-P,3.029680e+08,26801.60
5,2018-01-04,BE,BAVNO-A1,2.663840e+08,26801.60
6,2018-01-04,BE,BAVNO-A1,2.663645e+08,26801.60
7,2018-01-04,BE,NewNemo,2.526877e+09,26801.60
8,2018-01-03,BE,BAGUA-J,1.375185e+07,26800.73
9,2018-01-03,BE,BAGUA-R,4.565177e+06,26800.73


# 6) Añadir columnas

In [7]:
# Añado la columna montoUF operando otras columnas
filtro['MontoUF'] = filtro['MontoPesos']/filtro['UF'] 
filtro

Unnamed: 0,Fecha,Familia,Nemotecnico,MontoPesos,UF,MontoUF
0,2018-01-04,BE,BARAU-J,56177870.0,26801.6,2096.063966
1,2018-01-04,BE,BARAU-J,14037690.0,26801.6,523.763208
7,2018-01-04,BE,BAYS3-A,2526877000.0,26801.6,94280.811407
48,2018-01-03,BE,BARAU-Q,24135720.0,26800.73,900.562186
52,2018-01-03,BE,BAYS3-A,820920500.0,26800.73,30630.528534
53,2018-01-03,BE,BAYS3-A,126295500.0,26800.73,4712.388991
54,2018-01-03,BE,BAYS3-A,1263922000.0,26800.73,47159.981874
55,2018-01-03,BE,BAYS3-A,1895883000.0,26800.73,70739.972829
56,2018-01-03,BE,BAYS3-A,315980500.0,26800.73,11789.995459


# 7) Agrupar data

In [8]:
#Agrupo por fecha y Nemo, tomo suma de los demás campos, pero podría tomar avg con mean() u otras
dataAgrupada = dataTransacciones.groupby(['Fecha', 'Nemotecnico']).sum()
#La agrupación me mueve las variables de agrupación al índice del dataframe
dataAgrupada

Unnamed: 0_level_0,Unnamed: 1_level_0,MontoPesos,UF
Fecha,Nemotecnico,Unnamed: 2_level_1,Unnamed: 3_level_1
2018-01-02,BARAU-J,14046520.0,26799.87
2018-01-02,BARAU-Q,48270700.0,26799.87
2018-01-03,BAGUA-J,13751850.0,26800.73
2018-01-03,BAGUA-R,4565177.0,26800.73
2018-01-03,BARAU-P,15435090000.0,1018427.74
2018-01-03,BARAU-Q,24135720.0,26800.73
2018-01-03,BARAU-R,1495014000.0,53601.46
2018-01-03,BAVNO-A1,266479100.0,26800.73
2018-01-03,BAYS3-A,4423001000.0,134003.65
2018-01-03,NewNemo,4447137000.0,160804.38


In [9]:
#Podemos sacar esos campos del índice y hacer uno nuevo
dataAgrupada=dataAgrupada.reset_index()
dataAgrupada

Unnamed: 0,Fecha,Nemotecnico,MontoPesos,UF
0,2018-01-02,BARAU-J,14046520.0,26799.87
1,2018-01-02,BARAU-Q,48270700.0,26799.87
2,2018-01-03,BAGUA-J,13751850.0,26800.73
3,2018-01-03,BAGUA-R,4565177.0,26800.73
4,2018-01-03,BARAU-P,15435090000.0,1018427.74
5,2018-01-03,BARAU-Q,24135720.0,26800.73
6,2018-01-03,BARAU-R,1495014000.0,53601.46
7,2018-01-03,BAVNO-A1,266479100.0,26800.73
8,2018-01-03,BAYS3-A,4423001000.0,134003.65
9,2018-01-03,NewNemo,4447137000.0,160804.38


# 8) Top n

In [10]:
# muestro los primeros 5 datos
dataAgrupada.head(5)

Unnamed: 0,Fecha,Nemotecnico,MontoPesos,UF
0,2018-01-02,BARAU-J,14046520.0,26799.87
1,2018-01-02,BARAU-Q,48270700.0,26799.87
2,2018-01-03,BAGUA-J,13751850.0,26800.73
3,2018-01-03,BAGUA-R,4565177.0,26800.73
4,2018-01-03,BARAU-P,15435090000.0,1018427.74


In [11]:
# muestro los últimos 5 datos
dataAgrupada.tail(5)

Unnamed: 0,Fecha,Nemotecnico,MontoPesos,UF
10,2018-01-04,BARAU-J,70215560.0,53603.2
11,2018-01-04,BARAU-P,3333861000.0,80404.8
12,2018-01-04,BAVNO-A1,532748500.0,53603.2
13,2018-01-04,BAYS3-A,2526877000.0,26801.6
14,2018-01-04,NewNemo,2597092000.0,80404.8


# Select Distinct

In [12]:
# Selecciono los nemos diferentes
# keep puede ser 'first', 'last' y False, Las primeras dos guardan uno de los duplicados, False borra todos los duplicados
# Por omisión es 'first'
dataDistinctNemo=dataAgrupada.drop_duplicates(subset='Nemotecnico', keep='first')
print(dataDistinctNemo['Nemotecnico'])
dataDistinctNemo

0     BARAU-J
1     BARAU-Q
2     BAGUA-J
3     BAGUA-R
4     BARAU-P
6     BARAU-R
7    BAVNO-A1
8     BAYS3-A
9     NewNemo
Name: Nemotecnico, dtype: object


Unnamed: 0,Fecha,Nemotecnico,MontoPesos,UF
0,2018-01-02,BARAU-J,14046520.0,26799.87
1,2018-01-02,BARAU-Q,48270700.0,26799.87
2,2018-01-03,BAGUA-J,13751850.0,26800.73
3,2018-01-03,BAGUA-R,4565177.0,26800.73
4,2018-01-03,BARAU-P,15435090000.0,1018427.74
6,2018-01-03,BARAU-R,1495014000.0,53601.46
7,2018-01-03,BAVNO-A1,266479100.0,26800.73
8,2018-01-03,BAYS3-A,4423001000.0,134003.65
9,2018-01-03,NewNemo,4447137000.0,160804.38


In [13]:
# Con keep=False te deja solo los no repetidos
dataDistinctNemo=dataAgrupada.drop_duplicates(subset='Nemotecnico', keep=False)
print(dataDistinctNemo['Nemotecnico'])
dataDistinctNemo

2    BAGUA-J
3    BAGUA-R
6    BARAU-R
Name: Nemotecnico, dtype: object


Unnamed: 0,Fecha,Nemotecnico,MontoPesos,UF
2,2018-01-03,BAGUA-J,13751850.0,26800.73
3,2018-01-03,BAGUA-R,4565177.0,26800.73
6,2018-01-03,BARAU-R,1495014000.0,53601.46
