#### Diplomado en Ciencia de Datos
Módulo 2: Business Intelligence  
## Tema 4: Consideraciones Éticas

*Notebook by [Pedro V Hernandez Serrano](https://github.com/pedrohserrano)*

---
![](../img/header.jpg)

# Consideraciones éticas en el uso de Algorítmos de Similitud

Los algoritmos de similitud miden cuán parecidos son dos objetos en función de características específicas, como en las distancias Euclidiana, Manhattan o la Similitud Coseno. Sin embargo, **es importante considerar el contexto y las implicaciones éticas al definir "similitud"**. La interpretación de similitud puede ser problemática cuando se asume que características seleccionadas (como ingresos o nivel educativo) son suficientes para capturar la esencia de los datos. En aplicaciones como contratación o análisis de crédito, esta suposición puede llevar a decisiones injustas o discriminatorias.

La relevancia contextual también es clave: **lo que define similitud en un contexto (como investigación médica) puede no ser adecuado en otro (como marketing), y no considerar estas diferencias puede llevar a conclusiones erróneas**. Finalmente, el impacto en la toma de decisiones es crítico. Los algoritmos de similitud influyen en decisiones importantes y deben evitar causar daño a grupos o individuos. Asumir que dos objetos similares en un espacio matemático son iguales en la vida real puede tener graves consecuencias si no se toma en cuenta el contexto.

Al utilizar estos algoritmos, es fundamental reflexionar sobre el impacto de las decisiones basadas en ellos para garantizar que no refuercen desigualdades ni causen daños involuntarios.


**Original blog implementing the most popular similarity algorithms**  

✅ [dataaspirant.com](https://dataaspirant.com/five-most-popular-similarity-measures-implementation-in-python/)

![](https://i0.wp.com/dataaspirant.com/wp-content/uploads/2015/04/cover_post_final.png?w=1000&ssl=1)

---
# EJERCICIO 1

- Desarrolla una funcion en Python que calcule la [distancia euclidiana](https://www.google.com/search?sca_esv=08fa89593227d7c4&sca_upv=1&sxsrf=ADLYWILxL5ZB2RJ2Ur94L62oXEBk5CorNg:1725814856550&q=euclidean+distance+formula&source=lnms&fbs=AEQNm0Aa4sjWe7Rqy32pFwRj0UkWd8nbOJfsBGGB5IQQO6L3J_86uWOeqwdnV0yaSF-x2joQcoZ-0Q2Udkt2zEybT7HdNV1kobqvEwEVRYBCltlBtd67W1w89UVGf7QOAkvJWcD0qzhOT-WizJ4nyd1QOGdS_33AboApQh8NDOYXDdgzT_HrFjEfW4zkALzuIfB9KacfX-PQ&sa=X&ved=2ahUKEwiMteOr6bOIAxVX9rsIHW25HdMQ0pQJegQIDRAB&biw=1920&bih=974&dpr=1)
- Prueba la función con los siguientes vectores:  
 `v1 = [0,1,2,5,6]`  
 `v2 = [0,2,3,5,7]`  
- El resultado debe ser aprox `1.73`

In [2]:
# def euclidean_distance(self, x, y):
class Distancia:
    def euclidean_distance(self, x, y):
        suma_cuadrados = 0
        for i in range(len(x)):
            suma_cuadrados += (x[i] - y[i]) ** 2
        return suma_cuadrados ** 0.5 #aqui me lo devuelve

# Prueba 
dist = Distancia()
v1 = [0, 1, 2, 5, 6]
v2 = [0, 2, 3, 5, 7]

resultado = dist.euclidean_distance(v1, v2)
print(resultado)


1.7320508075688772


---
# EJERCICIO 2

- Desarrolla una funcion en Python que calcule la [distancia manhattan](https://www.google.com/search?q=manhattan+distance+formula&sca_esv=08fa89593227d7c4&sca_upv=1&biw=1920&bih=974&ei=V9jdZtmAEoiwi-gP-9nf-AI&oq=euclidean+distance+formula&gs_lp=Egxnd3Mtd2l6LXNlcnAiGmV1Y2xpZGVhbiBkaXN0YW5jZSBmb3JtdWxhKgIIADIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzINEAAYgAQYsAMYQxiKBTINEAAYgAQYsAMYQxiKBUiLElAAWABwAngBkAEAmAEAoAEAqgEAuAEDyAEAmAICoAIQmAMAiAYBkAYKkgcBMqAHAA&sclient=gws-wiz-serp)
- Prueba la función con los siguientes vectores:  
 `v1 = [0,1,2,5,6]`  
 `v2 = [0,2,3,5,7]`  
- El resultado debe ser `3`

In [7]:
# def manhattan_distance(self, x, y):       #basado en objeto

class Distancia:
    def manhattan_distance(self, x, y):
        suma_abs = 0
        for i in range(len(x)):
            suma_abs += abs(x[i] - y[i])
        return suma_abs

dist = Distancia()
v1 = [0, 1, 2, 5, 6]
v2 = [0, 2, 3, 5, 7]

resultado = dist.manhattan_distance(v1, v2)
print(resultado)

3


---
# EJERCICIO 3 (Opcional)

- Desarrolla una funcion en Python que calcule la [distancia coseno](https://en.wikipedia.org/wiki/Cosine_similarity)
- Prueba la función con los siguientes vectores:  
 `v1 = [0,1,2,5,6]`  
 `v2 = [0,2,3,5,7]`  
- El resultado debe ser `0.99`

In [19]:
import math      #esto es para escalada de datos y predicciones 

class Distancia:
    def cosine_similarity(self, x, y):
    
        producto_punto = sum(x[i] * y[i] for i in range(len(x)))
        
        
        magnitud_x = math.sqrt(sum(x[i] ** 2 for i in range(len(x))))
        magnitud_y = math.sqrt(sum(y[i] ** 2 for i in range(len(y))))
        
        # similitud 
        if magnitud_x == 0 or magnitud_y == 0:
            return 0  # Si alguna magnitud es 0, no hay similitud
        coseno_similitud = producto_punto / (magnitud_x * magnitud_y)
        
        
        return round(coseno_similitud, 2)


dist = Distancia()
v1 = [0, 1, 2, 5, 6]
v2 = [0, 2, 3, 5, 7]

resultado = dist.cosine_similarity(v1, v2)
print(f"La distancia coseno es: {resultado:.2f}")

La distancia coseno es: 0.99


## Constructing a Similarity Network from a Dataset

The idea is to compute one similarity alorithm N*N times across the dataset, then take the top M similar records and constructa network

In [21]:
import pandas as pd

dataset = pd.read_csv("../data/gapminder_data_world_health.csv")
dataset.head(5)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.85303,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.10071,AFG,4
3,Afghanistan,Asia,1967,34.02,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4


---
# EJERCICIO 4

Con los datos de `gapminder_data_world_health.csv` utiliza el siguiente subset de la tabla como se muestra a continuación (es un query de el año 2007 en el que se tiene la esperanza de vida y la población indexada por país)

In [None]:
df = dataset[dataset['year'] == 2007].set_index('country')
df = df[['lifeExp', 'pop']]
df.head(10)

- **Utiliza el método Min-Max** para normalizar los vectores de Esperanza de vida y de Población, una vez que apliquemos las funciones de similitud es mejor tener los vectores en las misma escala: [Ejemplo aquí](https://www.geeksforgeeks.org/data-normalization-with-pandas/)

In [36]:

# apply normalization



import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics.pairwise import cosine_similarity

dataset = pd.read_csv("../data/gapminder_data_world_health.csv")

data_2007 = dataset[dataset['year'] == 2007]

data_subset= data_2007[['country', 'lifeExp', 'pop']]

# Normalizamos datos
scaler = MinMaxScaler()
data_subset.loc[:,['lifeExp', 'pop']] = scaler.fit_transform(data_subset[['lifeExp', 'pop']])

print(data_subset.head())

# datos normalizados a matrices
lifeExp_vector = data_subset[['lifeExp']].values
pop_vector = data_subset[['pop']].values

# similitud coseno entre los vectores de esperanza de vida y población
similarity_matrix = cosine_similarity(lifeExp_vector.T, pop_vector.T)

print("Matriz de similitud coseno entre esperanza de vida y población:")
print(similarity_matrix)




#.loc[:,['lifeExp', si lo quito error:El SettingWithCopyWarning ocurre porque estás 
#modificando un DataFrame que es una vista de otro DataFrame.



        country   lifeExp       pop
11  Afghanistan  0.098046  0.024035
23      Albania  0.856246  0.002579
35      Algeria  0.760363  0.025130
47       Angola  0.072528  0.009269
59    Argentina  0.830589  0.030416
Matriz de similitud coseno entre esperanza de vida y población:
[[0.27973128]]


---
# EJERCICIO 5

**Crea un un nuevo dataset con los 3 paises más cercanos a cada país**, es decir un **dataset de 
distancias**, el resultado que se busca es como se ve en la imagen. Utilizarás el subset normalizado (ejercicio 4) para ello y una de las funciones que creaste (manhattan, euclideana o coseno)

![](../img/distancias.png)

**Cómo crear el dataset de distancias?**
- Por cada país, necesitas calcular la distancia entre él y todos los demás países en el DataFrame. Evitando comparar cada país consigo mismo.
- Cada iteración corresponde a cada país comparado, el país al que se le calculó la distancia, y la distancia entre ambos. (hint: una lista de tuplas o diccionarios puede ser útil aquí)
- Después de hacer todas las comparaciones, convierte los resultados en un DataFrame con tres columnas: `nodeA`, `nodeB`, `distance`.
- Para cada país (nodeA), agrupa las distancias calculadas y ordénalas de menor a mayor. Se quiere unicamente los tres países más cercanos a cada país (distancias más pequeñas para cada país)
- No olvides revisar los resultados una vez que tengas la tabla final con los 3 países más cercanos para cada país

In [40]:

## for loop in all countries applying 1 distance function
## dataframe _____
## top 3 distances: Zimbabwe,Angola y República central de Africa para Afganistan


import pandas as pd
import numpy as np


import pandas as pd
from sklearn.preprocessing import MinMaxScaler
#original
dataset = pd.read_csv("../data/gapminder_data_world_health.csv")

# año 2007
data_subset = dataset[dataset['year'] == 2007][['country', 'lifeExp', 'pop']]

#distancia Manhattan
def manhattan_distance(vec1, vec2):
    return np.sum(np.abs(vec1 - vec2))

#Normalizamos
scaler = MinMaxScaler()


data_subset[['lifeExp', 'pop']] = scaler.fit_transform(data_subset[['lifeExp', 'pop']])

print(data_subset.head())

data_subset.to_csv('normalized_data_2007.csv', index=False) #para guardar csv




def manhattan_distance(vec1, vec2):
    return np.sum(np.abs(vec1 - vec2))


data_subset = pd.read_csv("normalized_data_2007.csv")  #archivo normalizado


lifeExp_vector = data_subset[['lifeExp']].values
pop_vector = data_subset[['pop']].values

#lista para almacenar las distancias
distances = []

for i, (lifeExp_i, pop_i) in enumerate(zip(lifeExp_vector, pop_vector)):
    for j, (lifeExp_j, pop_j) in enumerate(zip(lifeExp_vector, pop_vector)):
        if i != j:  #evitar que sean los mismos
            distance = manhattan_distance(lifeExp_i, lifeExp_j) + manhattan_distance(pop_i, pop_j)
            distances.append({
                'nodeA': data_subset.iloc[i]['country'],
                'nodeB': data_subset.iloc[j]['country'],
                'distance': distance
            })

#DataFrame de distancias
distances_df = pd.DataFrame(distances)

# Encontrar los 3 países más cercanos para cada país
closest_countries = distances_df.groupby('nodeA').apply(
    lambda x: x.nsmallest(3, 'distance')
).reset_index(drop=True)

print(closest_countries.head())

closest_countries.to_csv('closest_countries_manhattan.csv', index=False) #guardemos








        country   lifeExp       pop
11  Afghanistan  0.098046  0.024035
23      Albania  0.856246  0.002579
35      Algeria  0.760363  0.025130
47       Angola  0.072528  0.009269
59    Argentina  0.830589  0.030416
         nodeA                     nodeB  distance
0  Afghanistan                  Zimbabwe  0.022782
1  Afghanistan                    Angola  0.040284
2  Afghanistan  Central African Republic  0.042111
3      Albania                   Uruguay  0.001023
4      Albania                   Reunion  0.002567


---
# EJERCICIO 6

Reproduce el siguiente script.   
El script utiliza la libreria `networkx` y `plotly` para visualizar una gráfica de red (network plot) visualizando la distancia (similitud) entre los paises basado en esperanza de vida y población.  

**Nota:** Si el dataframe del ejercicio anterior no es correcto, la visualización no va a funcionar.

**Responde lo siguiente:**
- Cuales son los países más similares a México?
- Explica cuales serían las consideraciones éticas al decir que México es similar a esos países en el contexto de las variables `lifeExp` y `pop`, dando contexto de el año seleccionado y del significado de la funcion de similitud utilizada

In [None]:
import pandas as pd

distances = [
    {'nodeA': 'Afghanistan', 'nodeB': 'Zimbabwe', 'distance': 0.022782},
    {'nodeA': 'Afghanistan', 'nodeB': 'Angola', 'distance': 0.040284},
    {'nodeA': 'Afghanistan', 'nodeB': 'Central African Republic', 'distance': 0.042111},
    {'nodeA': 'Albania', 'nodeB': 'Uruguay', 'distance': 0.001023},
    {'nodeA': 'Albania', 'nodeB': 'Reunion', 'distance': 0.002567},
    
]


df_network = pd.DataFrame(distances)
print(df_network.head())

In [None]:



import networkx as nx

#Empty graph object
g = nx.Graph()

# Adding all nodes
g.add_nodes_from(list(df_network.nodeA.unique()))

# Adding all edges
edges_list = [(row[1][0],row[1][1],row[1][2]) for row in df_network.iterrows()]
g.add_weighted_edges_from(edges_list)



In [None]:


import plotly.graph_objects as go


pos = nx.spring_layout(g, dim=2, iterations=10, weight='weight', scale=2)

# Create a DataFrame for nodes
node_x = []
node_y = []
for node in g.nodes():
    x, y = pos[node]
    node_x.append(x)
    node_y.append(y)

# Create a DataFrame for edges
edge_x = []
edge_y = []
for edge in g.edges():
    x0, y0 = pos[edge[0]]
    x1, y1 = pos[edge[1]]
    edge_x.append(x0)
    edge_x.append(x1)
    edge_x.append(None)  # For a break between edges
    edge_y.append(y0)
    edge_y.append(y1)
    edge_y.append(None)  # For a break between edges

# Create the plot
fig = go.Figure()

# Add edges to the plot
fig.add_trace(go.Scatter(x=edge_x, y=edge_y,
                         line=dict(width=0.5, color='gray'),
                         hoverinfo='none',
                         mode='lines'))

# Add nodes to the plot
fig.add_trace(go.Scatter(x=node_x, y=node_y,
                         mode='markers+text',  # Show both markers and labels
                         marker=dict(size=10, color='#9500ff'),
                         text=[str(node) for node in g.nodes()],  # Add node labels
                         textposition='top center',
                         hoverinfo='text'))

# Update layout for better aesthetics and set figure size
fig.update_layout(
    showlegend=False,
    xaxis=dict(showgrid=False, zeroline=False),
    yaxis=dict(showgrid=False, zeroline=False),
    plot_bgcolor='white',
    width=1200,  # Set the figure width
    height=1500   # Set the figure height
)

# Display the plot
fig.show()

La gráfica debe quedar como se ve en la imagen.   
![](../img/countries_similarities.png)

## 🎉🎉 Congrats!!  

## You've finished the notebook