### Joins de datasets

In [3]:
import pandas as pd
import numpy as np

filepath = '../datasets/athletes/'

In [4]:
data = pd.read_csv(filepath + 'Medals.csv', encoding='ISO-8859-1') 
data.sample(3)

Unnamed: 0,Athlete,Age,Year,Closing Ceremony Date,Gold Medals,Silver Medals,Bronze Medals,Total Medals
1386,Gail Miller,23.0,2000,10/01/2000,1,0,0,1
7417,Olga Pylyova-Medvedtseva,34.0,2010,02/28/2010,1,0,0,1
2267,Dan Ketchum,22.0,2004,08/29/2004,1,0,0,1


In [5]:
# Obtengamos los atletas
athlete = data['Athlete'].unique().tolist()
len(athlete)

6956

In [6]:
countries = pd.read_csv(filepath + 'Athelete_Country_Map.csv', encoding='ISO-8859-1')
countries.sample(4)

Unnamed: 0,Athlete,Country
4904,Monika Weber-Koszto,Germany
940,María Isabel Urrutia,Colombia
3072,Patric Leitner,Germany
478,Botond Storcz,Hungary


In [7]:
data_sports = pd.read_csv(filepath + 'Athelete_Sports_Map.csv', encoding='ISO-8859-1')
data_sports.sample(3)

Unnamed: 0,Athlete,Sport
4579,David Albelda,Football
2879,Rowley Douglas,Rowing
854,Tigran V. Martirosyan,Weightlifting


In [8]:
len(data_sports)

6975

In [9]:
# inner join
data_main_country = pd.merge(
    left = data,
    right = countries,
    left_on = 'Athlete',
    right_on = 'Athlete'
)

data_main_country.sample(3)

Unnamed: 0,Athlete,Age,Year,Closing Ceremony Date,Gold Medals,Silver Medals,Bronze Medals,Total Medals,Country
1153,Cael Sanderson,25.0,2004,08/29/2004,1,0,0,1,United States
5585,Nahomi Kawasumi,26.0,2012,08/12/2012,0,1,0,1,Japan
1209,Roxana Cocos,23.0,2012,08/12/2012,0,1,0,1,Romania


In [10]:
print(f'Rows main dataframe {len(data)}')
print(f'Rows country dataframe {len(countries)}')
print(f'Rows merged dataframe {len(data_main_country)}')

Rows main dataframe 8618
Rows country dataframe 6970
Rows merged dataframe 8657


Vemos que ha mas filas que en el principal, esto debido a que algunos atletas son de mas de un país y eso hace que se dupliquen esas filas. Veamos un ejemplo.

In [11]:
data_main_country[data_main_country['Athlete'] == 'Aleksandar Ciric']

Unnamed: 0,Athlete,Age,Year,Closing Ceremony Date,Gold Medals,Silver Medals,Bronze Medals,Total Medals,Country
1503,Aleksandar Ciric,30.0,2008,08/24/2008,0,0,1,1,Serbia
1504,Aleksandar Ciric,30.0,2008,08/24/2008,0,0,1,1,Serbia and Montenegro
1505,Aleksandar Ciric,26.0,2004,08/29/2004,0,1,0,1,Serbia
1506,Aleksandar Ciric,26.0,2004,08/29/2004,0,1,0,1,Serbia and Montenegro
1507,Aleksandar Ciric,22.0,2000,10/01/2000,0,0,1,1,Serbia
1508,Aleksandar Ciric,22.0,2000,10/01/2000,0,0,1,1,Serbia and Montenegro


In [12]:
data[data['Athlete'] == 'Aleksandar Ciric']

Unnamed: 0,Athlete,Age,Year,Closing Ceremony Date,Gold Medals,Silver Medals,Bronze Medals,Total Medals
1208,Aleksandar Ciric,30.0,2008,08/24/2008,0,0,1,1
1284,Aleksandar Ciric,26.0,2004,08/29/2004,0,1,0,1
1359,Aleksandar Ciric,22.0,2000,10/01/2000,0,0,1,1


<div class='alert'>Vemos que de tres filas originales ahora tenemos 6, y esto ha hecho que se duplique la cantidad de medallas que realmente obtuvo. El error se genera porque el dataframe tiene en algunos casos una relacion de uno a muchos, y debería ser de uno a uno.</div>

In [13]:
data_country = countries.drop_duplicates(subset='Athlete')
data_main_country = pd.merge(
    left = data,
    right = data_country,
    left_on = 'Athlete',
    right_on = 'Athlete'
)
len(data_main_country)

8618

In [14]:
len(data)

8618

Vemos que ahora si tienen el mismo número de filas

In [15]:
data_sports_dp = data_sports.drop_duplicates(subset='Athlete')
data_final = pd.merge(
    left = data_main_country,
    right = data_sports_dp,
    left_on = 'Athlete',
    right_on = 'Athlete'
)
len(data_final)

8618

In [16]:
data_final.sample(5)

Unnamed: 0,Athlete,Age,Year,Closing Ceremony Date,Gold Medals,Silver Medals,Bronze Medals,Total Medals,Country,Sport
7005,Michel Enríquez,25.0,2004,08/29/2004,1,0,0,1,Cuba,Baseball
7027,Kim Min-Jae,35.0,2008,08/24/2008,1,0,0,1,South Korea,Baseball
7300,Yordenis Ugás,22.0,2008,08/24/2008,0,0,1,1,Cuba,Boxing
6569,Marion Clignet,36.0,2000,10/01/2000,0,1,0,1,France,Cycling
4164,Askhat Zhitkeyev,27.0,2008,08/24/2008,0,1,0,1,Kazakhstan,Judo


### Otros tipos de joins

#### Inner Join

* Devuelve un data frame con las filas que tienen valor tanto en el primer como en el segundo dataframe.
* El número de filas será igual al número de filas comunes en ambos.
* Es una intersección de conjuntos

#### Left Join

* Devuelve un dataframe con las filas que tuvieran valor en el dataset de la izquierda sin importar si tienen correspondencia en el de la derecha.

* Las filas del dataframe final que no corresponden a ninguna fila del dataframe derecho tendrán NA en las columnas.

* El número de filas será igual al número de filas del dataframe izquierdo

* Es el dataset izquierdo + la intersección

#### Right Join

* Lo inverso a lo anterior 

#### Outer Join

* Devuelve un dataframe con todas las filas de ambos, reemplazando las ausencias con NA
* El número de filas será el máximo de ambos.
    + Dataset A 60 filas
    + Dataset B 50 filas
    + Comparten 30 filas
    + A outer join B tendrá 60 + 50 - 30 = 80 filas
    
    
    
 * Es una unión de conjuntos

In [18]:
descartar = np.random.choice(data['Athlete'], size=10, replace=False)

In [22]:
 country_dlt = data_country[~data_country['Athlete'].isin(descartar)]

In [24]:
sports_dlt = data_sports_dp[~data_sports_dp['Athlete'].isin(descartar)]

In [25]:
data_dlt = data[~data['Athlete'].isin(descartar)]

In [26]:
merged_inner = pd.merge(
    left = data,
    right = country_dlt,
    left_on = 'Athlete',
    right_on = 'Athlete',
    how='inner'
)

merged_inner.shape

(8606, 9)