# Joins en Series y Dataframes
## pd.append y pd.concat


In [1]:
import pandas as pd
import numpy as np
from IPython.display import display

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html


pandas.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=None, copy=True)

join : {‘inner’, ‘outer’}

ignore_index : boolean, default False

verify_integrity : boolean, default False

copy : boolean, default True


## Concatenación de series

In [2]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [3]:
data1 = [['A', 1], ['B', 2]] 
data2 = [['A', 3], ['B', 4]] 
  
# Create the pandas DataFrame 
df1 = pd.DataFrame(data1, columns = ['name', 'value']) 
df2 = pd.DataFrame(data1, columns = ['name', 'value']) 

display(df1, df2)

pd.concat([df1,df2], axis=0)
#pd.concat([df1,df2], axis=0, verify_integrity=True)
#pd.concat([df1,df2], axis=0, ignore_index=True)

Unnamed: 0,name,value
0,A,1
1,B,2


Unnamed: 0,name,value
0,A,1
1,B,2


Unnamed: 0,name,value
0,A,1
1,B,2
0,A,1
1,B,2


concatenación de Pandas preserva los índices, incluso si el resultado implica índices duplicados:

Verificando la existencia índices duplicados

    Podemos verificar si existen índices solapados en el resultado de pd.concat() usando una verify_integrity flag.

    Al setear esto en True, la concatenación arrojará una excepción si existe algún índice duplicado:



hacer un ejemplo de try catch y como manejar excepciones

* **IMPORTANTE:** tener en cuenta que, a diferencia del método `append` de listas, el `append()` de Pandas no modifica el objeto original. Genera un nuevo objeto con los datos combinados.
* Dado que esto implica crear un índice nuevo y un nuevo dataset `append` puede no ser el mejor método si se planea concatenar muchos datasets seguidos.
* En estos casos es mejor usar la función `pd.concat()`.

# Merge y Join

In [4]:
df_clientes = pd.DataFrame(data = {'cliente_id' : [1, 2, 3, 4, 5], 'cliente_nombre' : ['Paula', 'Juan', 'Martin', 'Pablo', 'Julian']}) 
df_domicilios = pd.DataFrame(data = {'cliente_id' : [1, 2, 3, 4, 5], 'calle' : ['calle1', 'calle2', 'calle1', 'calle3', 'calle1'], 'numero' : [2121, 3500, 1435, 222, 323]}) 
df_facturas = pd.DataFrame(data = {'factura_id' : [21, 22, 23, 24], 'factura_umero' : ['A10', 'C11', 'D12', 'A13']})
#asumo que la factura 24 corresponde a dos clientes:
df_facturas_por_cliente = pd.DataFrame(data = {'factura_id' : [21, 22, 23, 24, 24], 'cliente_id' : [1, 1, 3, 4, 3]})
df_articulos_por_factura = pd.DataFrame(data = {'factura_id' : [21, 21, 21, 22, 22, 23, 24, 24], 'articulo_id' : [1, 2, 3, 1, 3, 2, 3, 1]})

display(df_clientes)
display(df_facturas)
display(df_facturas_por_cliente)

Unnamed: 0,cliente_id,cliente_nombre
0,1,Paula
1,2,Juan
2,3,Martin
3,4,Pablo
4,5,Julian


Unnamed: 0,factura_id,factura_umero
0,21,A10
1,22,C11
2,23,D12
3,24,A13


Unnamed: 0,factura_id,cliente_id
0,21,1
1,22,1
2,23,3
3,24,4
4,24,3


### 1. Join uno a uno

In [5]:
pd.merge(df_clientes, df_domicilios)

Unnamed: 0,cliente_id,cliente_nombre,calle,numero
0,1,Paula,calle1,2121
1,2,Juan,calle2,3500
2,3,Martin,calle1,1435
3,4,Pablo,calle3,222
4,5,Julian,calle1,323


### 2. Join uno a muchos



In [5]:
pd.merge(df_clientes, df_facturas_por_cliente, on='cliente_id')

Unnamed: 0,cliente_id,cliente_nombre,factura_id
0,1,Paula,21
1,1,Paula,22
2,3,Martin,23
3,3,Martin,24
4,4,Pablo,24


### 3. Join muchos a muchos


In [6]:
print(df_facturas_por_cliente.shape)
print(df_articulos_por_factura.shape)
pd.merge(df_facturas_por_cliente, df_articulos_por_factura)

# nombro las columnas por las que combino
#pd.merge(df_facturas_por_cliente, df_articulos_por_factura,on=['factura_id','factura_id'])
#pd.merge(df_facturas_por_cliente, df_articulos_por_factura, left_on=['factura_id'], right_on =['factura_id'])

(5, 2)
(8, 2)


Unnamed: 0,factura_id,cliente_id,articulo_id
0,21,1,1
1,21,1,2
2,21,1,3
3,22,1,1
4,22,1,3
5,23,3,2
6,24,4,3
7,24,4,1
8,24,3,3
9,24,3,1


In [7]:
raw_data = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}
df_a = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])
print(df_a)

raw_data = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}
df_b = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])
print(df_b)

#pd.merge(df_a, df_b, on='subject_id', how='left')
#pd.merge(df_a, df_b, on='subject_id', how='right')
#pd.merge(df_a, df_b, on='subject_id', how='outer')
#pd.merge(df_a, df_b, on='subject_id', how='inner')

  subject_id first_name last_name
0          1       Alex  Anderson
1          2        Amy  Ackerman
2          3      Allen       Ali
3          4      Alice      Aoni
4          5     Ayoung   Atiches
  subject_id first_name last_name
0          4      Billy    Bonder
1          5      Brian     Black
2          6       Bran   Balwner
3          7      Bryce     Brice
4          8      Betty    Btisan


# Join

El método join, cuenta con la misma sintaxis y posibilidades que el método merge pero con la diferencia de que siempre hace la relación por el index. 

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html

Another option to join using the key columns is to use the on parameter. 

DataFrame.join always uses **other’s index** but we can use any column in df. This method preserves the original DataFrame’s index in the result.


df1.set_index('A').join(df2.set_index('A2'), how='left')

df.join(other.set_index('key'), on='key')

# Manejo de Excepciones

In [11]:
try:
    print("Hello")
    for i in range(5):
        print(i)
        if i == 2:
            result = 1/0
except:
    print("Something went wrong")
else:
      print("Nothing went wrong")
finally:
    print("The 'try except' is finished")


Hello
0
1
2
Something went wrong
The 'try except' is finished


In [9]:
print("Hello")
for i in range(5):
    print(i)
    try:
        if i == 2:
            result = 1/0
    except:
        pass
        print("Ignoring exception")
    else:
        print("Nothing went wrong")
    finally:
        print("The 'try except' is finished")

Hello
0
Nothing went wrong
The 'try except' is finished
1
Nothing went wrong
The 'try except' is finished
2
Ignoring exception
The 'try except' is finished
3
Nothing went wrong
The 'try except' is finished
4
Nothing went wrong
The 'try except' is finished


In [10]:
try:
    print("Hello")
    for i in range(5):
        print(i)
        try:
            if i == 2:
                result = 1/0
        except:
            pass
            print("Ignoring exception")
except:
    print("Something went wrong")
else:
    print("Nothing went wrong")
finally:
    print("The 'try except' is finished")

Hello
0
1
2
Ignoring exception
3
4
Nothing went wrong
The 'try except' is finished
