## Pandas - Operacións con Dataframes

In [None]:
import pandas as pd

###  Creación de Dataframes

In [None]:
# Podemos usar diversos orixes de datos (ficheiros, APIS, scraping ...) para crear Dataframes,
# así como crealos a partir de diccionarios con series de datos

# A continuación créanse algúns dataframes de exemplo

In [None]:
datos_1 = {
        'id': ['1', '2', '3', '4', '5'],
        'atributo1': ['A', 'C', 'E', 'G', 'I'],
        'atributo2': ['B', 'D', 'F', 'H', 'J']}

In [None]:
datos_1

In [None]:
df1 = pd.DataFrame(datos_1, columns = ['id', 'atributo1', 'atributo2'])

In [None]:
df1

In [None]:
datos2 = {
        'id': ['1', '2', '6', '7', '8'],
        'atributo1': ['K', 'M', 'O', 'Q', 'S'],
        'atributo2': ['L', 'N', 'P', 'R', 'T']}
df2 = pd.DataFrame(datos2, columns = ['id', 'atributo1', 'atributo2'])
df2

In [None]:
datos3 = {
        'id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'atributo3': [12, 13, 14, 15, 16, 17, 15, 12, 13, 23]}
df3 = pd.DataFrame(datos3, columns = ['id', 'atributo3'])
df3

###  Concatenar dataframes

In [None]:
# É posible concatenar daframes coa mesma estrutura (similar a UNION de táboas en modelo relacional)
df_concat = pd.concat([df1, df2])

# Ollo á concatenación de índices
df_concat

In [None]:
# Cabe a posibilidade de crear un novo index na concatenación
df_concat_reindex = pd.concat([df1, df2], ignore_index=True)

df_concat_reindex

### Merge (fusión) de dataframes

In [None]:
# A fusión ou merge de dataframes precisa dun campo en común (similar ao JOIN do modelo relacional)
# Info de relacións JOIN desde a perspectiva do modelo relacional:
# https://tableplus.com/blog/2018/09/a-beginners-guide-to-seven-types-of-sql-joins.html

![](join-types-merge-names.jpg)

In [None]:
df_concat

In [None]:
df3

In [None]:
# Na chamada ao merge especifícase o campo en común dos dous dataframes
df_merge_col = pd.merge(df_concat, df3, on='id')

df_merge_col

In [None]:
df4 = df4.rename(columns={'id':'codigo'})
df4

In [None]:
# No caso de que a columna de unión non se chama igual hai que especificar
df_merge_difkey = pd.merge(df_concat, df4, left_on='id', right_on='codigo')

df_merge_difkey

In [None]:
df_merge_difkey= df_merge_difkey.drop(columns=['codigo'])

In [None]:
df_merge_difkey

In [None]:
# Para engadir liñas é necesario crear unha serie cos datos correspondentes
# Se non se engade algún atributo créase co valor Nan
# Se se engaden atributos inexistentes créanse novas columnas
add_row = pd.Series(['10', 'X1', 'X2', 'X3'],
                    index=['id','atributo1', 'atributo2', 'atributo3'])

df_add_row = df_merge_col.append(add_row, ignore_index=True)

df_add_row

In [None]:
# FULL OUTER JOIN
# Tal como no modelo relacional, un full outer join fai todas as combinacións posibles
# Tanto pola esquerda como pola dereita

In [None]:
df1

In [None]:
df2

In [None]:
# neste caso df1 join df2 (incluíndo nulls cando non cadran)
df_outer = pd.merge(df1, df2, on='id', how='outer')

df_outer

In [None]:
# Ao encontrar nomes de columnas repetidas engadi sufixos
# podo especificar os nomes das columnas
df_suffix = pd.merge(df1, df2, left_on='id',right_on='id',how='outer',suffixes=('_df1','_df2'))

df_suffix

In [None]:
# INNER JOIN
# Ao contrario que o full outer join, o INNER JOIN só garda aquelas liñas para que comparten identificador
# neste caso df1 join df2 (elimina os que non cadran)

In [None]:
df_inner = pd.merge(df1, df2, on='id', how='inner')

df_inner

In [None]:
# O comportamento de xeito predeterminadado é un INNER JOIN
borrame = pd.merge(df1, df2, on='id')

df_inner

In [None]:
# RIGHT JOIN
df_right = pd.merge(df1, df2, on='id', how='right')

df_right

In [None]:
# LEFT JOIN
df_left = pd.merge(df1, df2, on='id', how='left')

df_left

### Merging en Time-series

In [None]:
# Porque o merge en time-series pode complicarse se os tempos non son exactos
# Trátase de establecer certos niveis de tolerancia

In [None]:
trades = pd.DataFrame({
    'time': pd.to_datetime(['20160525 13:30:00.023',
                            '20160525 13:30:00.038',
                            '20160525 13:30:00.048',
                            '20160525 13:30:00.048',
                            '20160525 13:30:00.048']),
    'ticker': ['MSFT', 'MSFT','GOOG', 'GOOG', 'AAPL'],
    'price': [51.95, 51.95,720.77, 720.92, 98.00],
    'quantity': [75, 155,100, 100, 100]},
    columns=['time', 'ticker', 'price', 'quantity'])

quotes = pd.DataFrame({
    'time': pd.to_datetime(['20160525 13:30:00.023',
                            '20160525 13:30:00.023',
                            '20160525 13:30:00.030',
                            '20160525 13:30:00.041',
                            '20160525 13:30:00.048',
                            '20160525 13:30:00.049',
                            '20160525 13:30:00.072',
                            '20160525 13:30:00.075']),
    'ticker': ['GOOG', 'MSFT', 'MSFT','MSFT', 'GOOG', 'AAPL', 'GOOG','MSFT'],
    'bid': [720.50, 51.95, 51.97, 51.99,720.50, 97.99, 720.50, 52.01],
    'ask': [720.93, 51.96, 51.98, 52.00,720.93, 98.01, 720.88, 52.03]},
    columns=['time', 'ticker', 'bid', 'ask'])

In [None]:
trades

In [None]:
quotes

In [None]:
# 
df_merge_asof = pd.merge_asof(trades, quotes,
              on='time',
              by='ticker')

df_merge_asof

In [None]:
df_merge_asof_tolerance = pd.merge_asof(trades, quotes,
              on='time',
              by='ticker',
              tolerance=pd.Timedelta('2ms'))

df_merge_asof_tolerance