#### Diplomado en Ciencia de Datos
Módulo 2: Business Intelligence  
## Tema 4: Consideraciones Éticas

*Notebook by [Pedro V Hernandez Serrano](https://github.com/pedrohserrano)*

---
![](../header.jpg)

# Consideraciones éticas en el uso de Algorítmos de Similitud

Los algoritmos de similitud miden cuán parecidos son dos objetos en función de características específicas, como en las distancias Euclidiana, Manhattan o la Similitud Coseno. Sin embargo, **es importante considerar el contexto y las implicaciones éticas al definir "similitud"**. La interpretación de similitud puede ser problemática cuando se asume que características seleccionadas (como ingresos o nivel educativo) son suficientes para capturar la esencia de los datos. En aplicaciones como contratación o análisis de crédito, esta suposición puede llevar a decisiones injustas o discriminatorias.

La relevancia contextual también es clave: **lo que define similitud en un contexto (como investigación médica) puede no ser adecuado en otro (como marketing), y no considerar estas diferencias puede llevar a conclusiones erróneas**. Finalmente, el impacto en la toma de decisiones es crítico. Los algoritmos de similitud influyen en decisiones importantes y deben evitar causar daño a grupos o individuos. Asumir que dos objetos similares en un espacio matemático son iguales en la vida real puede tener graves consecuencias si no se toma en cuenta el contexto.

Al utilizar estos algoritmos, es fundamental reflexionar sobre el impacto de las decisiones basadas en ellos para garantizar que no refuercen desigualdades ni causen daños involuntarios.


**Original blog implementing the most popular similarity algorithms**  

✅ [dataaspirant.com](https://dataaspirant.com/five-most-popular-similarity-measures-implementation-in-python/)

![](https://i0.wp.com/dataaspirant.com/wp-content/uploads/2015/04/cover_post_final.png?w=1000&ssl=1)

---
# EJERCICIO 1

- Desarrolla una funcion en Python que calcule la [distancia euclidiana](https://www.google.com/search?sca_esv=08fa89593227d7c4&sca_upv=1&sxsrf=ADLYWILxL5ZB2RJ2Ur94L62oXEBk5CorNg:1725814856550&q=euclidean+distance+formula&source=lnms&fbs=AEQNm0Aa4sjWe7Rqy32pFwRj0UkWd8nbOJfsBGGB5IQQO6L3J_86uWOeqwdnV0yaSF-x2joQcoZ-0Q2Udkt2zEybT7HdNV1kobqvEwEVRYBCltlBtd67W1w89UVGf7QOAkvJWcD0qzhOT-WizJ4nyd1QOGdS_33AboApQh8NDOYXDdgzT_HrFjEfW4zkALzuIfB9KacfX-PQ&sa=X&ved=2ahUKEwiMteOr6bOIAxVX9rsIHW25HdMQ0pQJegQIDRAB&biw=1920&bih=974&dpr=1)
- Prueba la función con los siguientes vectores:  
 `v1 = [0,1,2,5,6]`  
 `v2 = [0,2,3,5,7]`  
- El resultado debe ser aprox `1.73`

In [1]:
import numpy as np

In [2]:

np.sqrt((0-0)^2+(2-1)^2+(3-2)^2+(5-5)^2+(7-6)^2)

1.7320508075688772

In [3]:
v1=[0,1,2,5,6]
v2 = [0,2,3,5,7]
v1_np=np.array(v1)
v2_np = np.array(v2)

In [4]:
np.sqrt(np.sum((v2_np-v1_np)))

1.7320508075688772

In [5]:
def euclidean_distance(x, y):
    x_np=np.array(x)
    y_np = np.array(y)
    d=np.sqrt(np.sum((y_np-x_np)))
    return(d)

In [6]:
euclidean_distance(v1, v2)

1.7320508075688772

---
# EJERCICIO 2

- Desarrolla una funcion en Python que calcule la [distancia manhattan](https://www.google.com/search?q=manhattan+distance+formula&sca_esv=08fa89593227d7c4&sca_upv=1&biw=1920&bih=974&ei=V9jdZtmAEoiwi-gP-9nf-AI&oq=euclidean+distance+formula&gs_lp=Egxnd3Mtd2l6LXNlcnAiGmV1Y2xpZGVhbiBkaXN0YW5jZSBmb3JtdWxhKgIIADIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzINEAAYgAQYsAMYQxiKBTINEAAYgAQYsAMYQxiKBUiLElAAWABwAngBkAEAmAEAoAEAqgEAuAEDyAEAmAICoAIQmAMAiAYBkAYKkgcBMqAHAA&sclient=gws-wiz-serp)
- Prueba la función con los siguientes vectores:  
 `v1 = [0,1,2,5,6]`  
 `v2 = [0,2,3,5,7]`  
- El resultado debe ser `3`

In [7]:
np.abs(0-0)+np.abs(1-2)+np.abs(2-3)+np.abs(5-5)+np.abs(6-7)

3

In [8]:
np.sum(np.abs(v2_np-v1_np))

3

In [9]:
def manhattan_distance(x, y):
    x_np=np.array(x)
    y_np = np.array(y)
    m=np.sum(np.abs(x_np-y_np))
    return(m)

In [10]:
manhattan_distance(v1, v2)

3

---
# EJERCICIO 3 (Opcional)

- Desarrolla una funcion en Python que calcule la [distancia coseno](https://en.wikipedia.org/wiki/Cosine_similarity)
- Prueba la función con los siguientes vectores:  
 `v1 = [0,1,2,5,6]`  
 `v2 = [0,2,3,5,7]`  
- El resultado debe ser `0.99`

In [11]:
v1_np*v2_np

array([ 0,  2,  6, 25, 42])

In [12]:
sum(v1_np*v2_np)

75

In [13]:
(v1_np**2)

array([ 0,  1,  4, 25, 36])

In [14]:
(v2_np**2)

array([ 0,  4,  9, 25, 49])

In [15]:
np.sqrt(np.sum(v1_np**2))

8.12403840463596

In [16]:
np.sqrt(np.sum(v2_np**2))

9.327379053088816

In [17]:
(np.sqrt(np.sum(v1_np**2))*np.sqrt(np.sum(v2_np**2)))

75.77598564189054

In [18]:
sc=np.sum(v1_np*v2_np)/((np.sqrt(np.sum(v1_np**2)))*(np.sqrt(np.sum(v2_np**2))))
sc

0.9897594780811196

In [19]:
sc=np.sum(v1_np*v2_np)/((np.sqrt(np.sum(v1_np**2)))*(np.sqrt(np.sum(v2_np**2))))
sc

0.9897594780811196

In [20]:
def cosine_similarity(x, y):
    x_np=np.array(x)
    y_np = np.array(y)
    sc=np.sum(x_np*y_np)/((np.sqrt(np.sum(x_np**2)))*(np.sqrt(np.sum(y_np**2))))
    return(sc)

In [21]:
cosine_similarity(v1,v2)

0.9897594780811196

## Constructing a Similarity Network from a Dataset

The idea is to compute one similarity alorithm N*N times across the dataset, then take the top M similar records and constructa network

In [24]:
import pandas as pd

dataset = pd.read_csv("../data/gapminder_data_world_health.csv")
dataset.head(5)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.85303,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.10071,AFG,4
3,Afghanistan,Asia,1967,34.02,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4


---
# EJERCICIO 4

Con los datos de `gapminder_data_world_health.csv` utiliza el siguiente subset de la tabla como se muestra a continuación (es un query de el año 2007 en el que se tiene la esperanza de vida y la población indexada por país)

In [25]:
df = dataset[dataset['year'] == 2007].set_index('country')
df = df[['lifeExp', 'pop']]
df.head(10)


Unnamed: 0_level_0,lifeExp,pop
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,43.828,31889923
Albania,76.423,3600523
Algeria,72.301,33333216
Angola,42.731,12420476
Argentina,75.32,40301927
Australia,81.235,20434176
Austria,79.829,8199783
Bahrain,75.635,708573
Bangladesh,64.062,150448339
Belgium,79.441,10392226


- **Utiliza el método Min-Max** para normalizar los vectores de Esperanza de vida y de Población, una vez que apliquemos las funciones de similitud es mejor tener los vectores en las misma escala: [Ejemplo aquí](https://www.geeksforgeeks.org/data-normalization-with-pandas/)

In [26]:

# apply normalization

# copy the data 
df_min_max_scaled = df.copy() 
  
# apply normalization techniques 
for column in df_min_max_scaled.columns: 
    df_min_max_scaled[column] = (df_min_max_scaled[column] - df_min_max_scaled[column].min()) / (df_min_max_scaled[column].max() - df_min_max_scaled[column].min())     

df_scaled= df_min_max_scaled
# view normalized data 
print(df_scaled)

                     lifeExp       pop
country                               
Afghanistan         0.098046  0.024035
Albania             0.856246  0.002579
Algeria             0.760363  0.025130
Angola              0.072528  0.009269
Argentina           0.830589  0.030416
...                      ...       ...
Vietnam             0.805676  0.064516
West Bank and Gaza  0.786439  0.002896
Yemen, Rep.         0.536985  0.016695
Zambia              0.064457  0.008757
Zimbabwe            0.090114  0.009186

[142 rows x 2 columns]


---
# EJERCICIO 5

**Crea un un nuevo dataset con los 3 paises más cercanos a cada país**, es decir un **dataset de 
distancias**, el resultado que se busca es como se ve en la imagen. Utilizarás el subset normalizado (ejercicio 4) para ello y una de las funciones que creaste (manhattan, euclideana o coseno)

![](../distancias.png)

**¿Cómo crear el dataset de distancias?**
- Por cada país, necesitas calcular la distancia entre él y todos los demás países en el DataFrame. Evitando comparar cada país consigo mismo.
- Cada iteración corresponde a cada país comparado, el país al que se le calculó la distancia, y la distancia entre ambos. (hint: una lista de tuplas o diccionarios puede ser útil aquí)
- Después de hacer todas las comparaciones, convierte los resultados en un DataFrame con tres columnas: `nodeA`, `nodeB`, `distance`.
- Para cada país (nodeA), agrupa las distancias calculadas y ordénalas de menor a mayor. Se quiere unicamente los tres países más cercanos a cada país (distancias más pequeñas para cada país)
- No olvides revisar los resultados una vez que tengas la tabla final con los 3 países más cercanos para cada país

In [27]:
df_scaled.index[0]

'Afghanistan'

In [28]:
df_scaled.iloc[0]

lifeExp    0.098046
pop        0.024035
Name: Afghanistan, dtype: float64

In [29]:
x1=[0.098046, 0.024035]
x2=[0.856246, 0.002579]
x3=[0.760363, 0.025130]
print(manhattan_distance(x1,x2))
print(manhattan_distance(x1,x3))

0.779656
0.663412


In [30]:
manhattan_distance(df_scaled.iloc[0], df_scaled.iloc[1])

0.7796555946915817

In [31]:
df_scaled.index[1]

'Albania'

In [32]:
len(df_scaled)

142

In [33]:
d=[]
n=len(df_scaled)

for i in range(0,n):
    for j in range(0,n):
        if i == j:
            continue
        d.append([df_scaled.index[i], df_scaled.index[j], manhattan_distance(df_scaled.iloc[i], df_scaled.iloc[j])])


In [34]:
len(d)

20022

In [35]:
df_manhathan = pd.DataFrame(
    d,
    columns=["nodeA","nodeB", "distance"],
)

In [36]:
df_manhathan

Unnamed: 0,nodeA,nodeB,distance
0,Afghanistan,Albania,0.779656
1,Afghanistan,Algeria,0.663411
2,Afghanistan,Angola,0.040284
3,Afghanistan,Argentina,0.738923
4,Afghanistan,Australia,0.878821
...,...,...,...
20017,Zimbabwe,Venezuela,0.714331
20018,Zimbabwe,Vietnam,0.770891
20019,Zimbabwe,West Bank and Gaza,0.702614
20020,Zimbabwe,"Yemen, Rep.",0.454380


In [37]:
df_manhathan[0:141].sort_values("distance")

Unnamed: 0,nodeA,nodeB,distance
140,Afghanistan,Zimbabwe,0.022782
2,Afghanistan,Angola,0.040284
20,Afghanistan,Central African Republic,0.042111
111,Afghanistan,Sierra Leone,0.048836
139,Afghanistan,Zambia,0.048867
...,...,...,...
54,Afghanistan,"Hong Kong, China",0.911658
65,Afghanistan,Japan,0.974445
133,Afghanistan,United States,1.004724
57,Afghanistan,India,1.303452


In [41]:
d1=df_manhathan[0:141].sort_values("distance")[0:3]
d1

Unnamed: 0,nodeA,nodeB,distance
140,Afghanistan,Zimbabwe,0.022782
2,Afghanistan,Angola,0.040284
20,Afghanistan,Central African Republic,0.042111


In [42]:
df_f=df_manhathan.groupby('nodeA').apply(lambda z: z.nsmallest(3, 'distance')).reset_index(drop=True)


In [43]:
df_f.head(15)

Unnamed: 0,nodeA,nodeB,distance
0,Afghanistan,Zimbabwe,0.022782
1,Afghanistan,Angola,0.040284
2,Afghanistan,Central African Republic,0.042111
3,Albania,Uruguay,0.001023
4,Albania,Reunion,0.002567
5,Albania,Czech Republic,0.006493
6,Algeria,Sri Lanka,0.012035
7,Algeria,Romania,0.012457
8,Algeria,Saudi Arabia,0.01542
9,Angola,Sierra Leone,0.008552


Comprobando que sean los valores:

In [44]:
d2=df_manhathan[142:282].sort_values("distance")[0:3]
d2

Unnamed: 0,nodeA,nodeB,distance
275,Albania,Uruguay,0.001023
245,Albania,Reunion,0.002567
173,Albania,Czech Republic,0.006493


In [45]:
d3=df_manhathan[283:141*3].sort_values("distance")[0:3]
d3

Unnamed: 0,nodeA,nodeB,distance
400,Algeria,Sri Lanka,0.012035
387,Algeria,Romania,0.012457
390,Algeria,Saudi Arabia,0.01542


In [46]:
d4=df_manhathan[141*3+1:141*4].sort_values("distance")[0:3]
d4

Unnamed: 0,nodeA,nodeB,distance
534,Angola,Sierra Leone,0.008552
562,Angola,Zambia,0.008583
495,Angola,Lesotho,0.011127


---
# EJERCICIO 6

Reproduce el siguiente script.   
El script utiliza la libreria `networkx` y `plotly` para visualizar una gráfica de red (network plot) visualizando la distancia (similitud) entre los paises basado en esperanza de vida y población.  

**Nota:** Si el dataframe del ejercicio anterior no es correcto, la visualización no va a funcionar.

**Responde lo siguiente:**
- Cuales son los países más similares a México?
- Explica cuales serían las consideraciones éticas al decir que México es similar a esos países en el contexto de las variables `lifeExp` y `pop`, dando contexto de el año seleccionado y del significado de la funcion de similitud utilizada

In [73]:
df_f

Unnamed: 0,nodeA,nodeB,distance
0,Afghanistan,Zimbabwe,0.022782
1,Afghanistan,Angola,0.040284
2,Afghanistan,Central African Republic,0.042111
3,Albania,Uruguay,0.001023
4,Albania,Reunion,0.002567
...,...,...,...
421,Zambia,Angola,0.008583
422,Zambia,Lesotho,0.012221
423,Zimbabwe,Angola,0.017668
424,Zimbabwe,Afghanistan,0.022782


In [57]:
import networkx as nx
df_network=df_f.copy()
#Empty graph object
g = nx.Graph()

# Adding all nodes
g.add_nodes_from(list(df_network.nodeA.unique()))

# Adding all edges
edges_list = [(row[1][0],row[1][1],row[1][2]) for row in df_network.iterrows()]
g.add_weighted_edges_from(edges_list)

In [59]:
import plotly.io as pio
pio.renderers.default = 'iframe'

In [85]:
import plotly.graph_objects as go

pos = nx.spring_layout(g, dim=2, iterations=75, weight='weight', scale=2)

# Create a DataFrame for nodes
node_x = []
node_y = []
for node in g.nodes():
    x, y = pos[node]
    node_x.append(x)
    node_y.append(y)

# Create a DataFrame for edges
edge_x = []
edge_y = []
for edge in g.edges():
    x0, y0 = pos[edge[0]]
    x1, y1 = pos[edge[1]]
    edge_x.append(x0)
    edge_x.append(x1)
    edge_x.append(None)  # For a break between edges
    edge_y.append(y0)
    edge_y.append(y1)
    edge_y.append(None)  # For a break between edges

# Create the plot
fig = go.Figure()

# Add edges to the plot
fig.add_trace(go.Scatter(x=edge_x, y=edge_y,
                         line=dict(width=0.5, color='gray'),
                         hoverinfo='none',
                         mode='lines'))

# Add nodes to the plot
fig.add_trace(go.Scatter(x=node_x, y=node_y,
                         mode='markers+text',  # Show both markers and labels
                         marker=dict(size=10, color='#9500ff'),
                         text=[str(node) for node in g.nodes()],  # Add node labels
                         textposition='top center',
                         hoverinfo='text'))

# Update layout for better aesthetics and set figure size
fig.update_layout(
    showlegend=False,
    xaxis=dict(showgrid=False, zeroline=False),
    yaxis=dict(showgrid=False, zeroline=False),
    plot_bgcolor='white',
    width=1200,  # Set the figure width
    height=1500   # Set the figure height
)

# Display the plot
fig.show()

**Responde lo siguiente:**
- ¿Cuales son los países más similares a México? \
  R: Los más similares son Vietnam, Poland y Argentina
- Explica cuales serían las consideraciones éticas al decir que México es similar a esos países en el contexto de las variables `lifeExp` y `pop`, dando contexto del año seleccionado y del significado de la funcion de similitud utilizada\
  R: En 2007, México, Argentina y Polonia tenían una esperanza de vida alta, de alrededor de 76 años y la de Vietnam también era alta, de aproximadamente 75 años. En cuanto a la cifra de la población, en ese año, la de México era mayor a 100 millones de habitantes, la de Vietnam alrededor de 85 millones y las de Polonia y Argentina eran menores a las de México, siendo alrededor de 38 y 40 millones, respectivamente. En el contexto de esperanza de vida y población, la distancia Manhattan entre dos países es la suma de las diferencias absolutas en sus valores de esperanza de vida y población. Se deben tener consideraciones éticas al comparar estos países, por ejemplo: 
    - que la esperanza de vida puede verse afectada por diversos factores, como calidad de vida, acceso a la salud, entre otros, lo cuales varian por país,  
    - el contexto social, económico y cultural de cada uno de estos paises.


In [67]:
data2007=dataset[dataset['year'] == 2007]

In [81]:
df_f[df_f.nodeA=="Mexico"]

Unnamed: 0,nodeA,nodeB,distance
246,Mexico,Vietnam,0.063043
247,Mexico,Poland,0.067931
248,Mexico,Argentina,0.072231


In [68]:
data2007[data2007.country=="Mexico"]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
995,Mexico,Americas,2007,76.195,108700891,11977.57496,MEX,484


In [70]:
data2007[data2007.country=="Vietnam"]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
1655,Vietnam,Asia,2007,74.249,85262356,2441.576404,VNM,704


In [71]:
data2007[data2007.country=="Poland"]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
1235,Poland,Europe,2007,75.563,38518241,15389.92468,POL,616


In [72]:
data2007[data2007.country=="Argentina"]

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
59,Argentina,Americas,2007,75.32,40301927,12779.37964,ARG,32


La gráfica debe quedar como se ve en la imagen.   
![](../countries_similarities.png)

## 🎉🎉 Congrats!!  

## You've finished the notebook