#### Diplomado en Ciencia de Datos
Módulo 2: Business Intelligence  
## Tema 4: Consideraciones Éticas

*Notebook by [Pedro V Hernandez Serrano](https://github.com/pedrohserrano)*

---
![](../img/header.jpg)

# Consideraciones éticas en el uso de Algorítmos de Similitud

Los algoritmos de similitud miden cuán parecidos son dos objetos en función de características específicas, como en las distancias Euclidiana, Manhattan o la Similitud Coseno. Sin embargo, **es importante considerar el contexto y las implicaciones éticas al definir "similitud"**. La interpretación de similitud puede ser problemática cuando se asume que características seleccionadas (como ingresos o nivel educativo) son suficientes para capturar la esencia de los datos. En aplicaciones como contratación o análisis de crédito, esta suposición puede llevar a decisiones injustas o discriminatorias.

La relevancia contextual también es clave: **lo que define similitud en un contexto (como investigación médica) puede no ser adecuado en otro (como marketing), y no considerar estas diferencias puede llevar a conclusiones erróneas**. Finalmente, el impacto en la toma de decisiones es crítico. Los algoritmos de similitud influyen en decisiones importantes y deben evitar causar daño a grupos o individuos. Asumir que dos objetos similares en un espacio matemático son iguales en la vida real puede tener graves consecuencias si no se toma en cuenta el contexto.

Al utilizar estos algoritmos, es fundamental reflexionar sobre el impacto de las decisiones basadas en ellos para garantizar que no refuercen desigualdades ni causen daños involuntarios.


**Original blog implementing the most popular similarity algorithms**  

✅ [dataaspirant.com](https://dataaspirant.com/five-most-popular-similarity-measures-implementation-in-python/)

![](https://i0.wp.com/dataaspirant.com/wp-content/uploads/2015/04/cover_post_final.png?w=1000&ssl=1)

---
# EJERCICIO 1

- Desarrolla una funcion en Python que calcule la [distancia euclidiana](https://www.google.com/search?sca_esv=08fa89593227d7c4&sca_upv=1&sxsrf=ADLYWILxL5ZB2RJ2Ur94L62oXEBk5CorNg:1725814856550&q=euclidean+distance+formula&source=lnms&fbs=AEQNm0Aa4sjWe7Rqy32pFwRj0UkWd8nbOJfsBGGB5IQQO6L3J_86uWOeqwdnV0yaSF-x2joQcoZ-0Q2Udkt2zEybT7HdNV1kobqvEwEVRYBCltlBtd67W1w89UVGf7QOAkvJWcD0qzhOT-WizJ4nyd1QOGdS_33AboApQh8NDOYXDdgzT_HrFjEfW4zkALzuIfB9KacfX-PQ&sa=X&ved=2ahUKEwiMteOr6bOIAxVX9rsIHW25HdMQ0pQJegQIDRAB&biw=1920&bih=974&dpr=1)
- Prueba la función con los siguientes vectores:  
 `v1 = [0,1,2,5,6]`  
 `v2 = [0,2,3,5,7]`  
- El resultado debe ser aprox `1.73`

In [176]:
# def euclidean_distance(self, x, y):
#    ____
#    ____
# return

def euclidean_distance(x, y):
    sum = 0
    for i in range(len(x)):
        sum = sum + (x[i]-y[i])**2

    eu = sum ** (1/2)
    return eu

v1 = [0,1,2,5,6]
v2 = [0,2,3,5,7]

print(euclidean_distance(v1, v2))
        

1.7320508075688772


---
# EJERCICIO 2

- Desarrolla una funcion en Python que calcule la [distancia manhattan](https://www.google.com/search?q=manhattan+distance+formula&sca_esv=08fa89593227d7c4&sca_upv=1&biw=1920&bih=974&ei=V9jdZtmAEoiwi-gP-9nf-AI&oq=euclidean+distance+formula&gs_lp=Egxnd3Mtd2l6LXNlcnAiGmV1Y2xpZGVhbiBkaXN0YW5jZSBmb3JtdWxhKgIIADIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzIKEAAYsAMY1gQYRzINEAAYgAQYsAMYQxiKBTINEAAYgAQYsAMYQxiKBUiLElAAWABwAngBkAEAmAEAoAEAqgEAuAEDyAEAmAICoAIQmAMAiAYBkAYKkgcBMqAHAA&sclient=gws-wiz-serp)
- Prueba la función con los siguientes vectores:  
 `v1 = [0,1,2,5,6]`  
 `v2 = [0,2,3,5,7]`  
- El resultado debe ser `3`

In [175]:
# def manhattan_distance(self, x, y):
#    ____
#    ____
# return

def manhattan_distance(x, y):
    sum = 0
    for i in range(len(x)):
        sum = sum + abs(x[i]-y[i])
        
    return sum

v1 = [0,1,2,5,6]
v2 = [0,2,3,5,7]

print(manhattan_distance(v1, v2))

3


---
# EJERCICIO 3 (Opcional)

- Desarrolla una funcion en Python que calcule la [distancia coseno](https://en.wikipedia.org/wiki/Cosine_similarity)
- Prueba la función con los siguientes vectores:  
 `v1 = [0,1,2,5,6]`  
 `v2 = [0,2,3,5,7]`  
- El resultado debe ser `0.99`

## Constructing a Similarity Network from a Dataset

The idea is to compute one similarity alorithm N*N times across the dataset, then take the top M similar records and constructa network

In [129]:
import pandas as pd

dataset = pd.read_csv('../../../data-visualization-with-python/data/gapminder_data_world_health.csv')
dataset.head(5)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.85303,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.10071,AFG,4
3,Afghanistan,Asia,1967,34.02,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4


---
# EJERCICIO 4

Con los datos de `gapminder_data_world_health.csv` utiliza el siguiente subset de la tabla como se muestra a continuación (es un query de el año 2007 en el que se tiene la esperanza de vida y la población indexada por país)

In [130]:
df = dataset[dataset['year'] == 2007].set_index('country')
df = df[['lifeExp', 'pop']]
df.head(10)

Unnamed: 0_level_0,lifeExp,pop
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,43.828,31889923
Albania,76.423,3600523
Algeria,72.301,33333216
Angola,42.731,12420476
Argentina,75.32,40301927
Australia,81.235,20434176
Austria,79.829,8199783
Bahrain,75.635,708573
Bangladesh,64.062,150448339
Belgium,79.441,10392226


- **Utiliza el método Min-Max** para normalizar los vectores de Esperanza de vida y de Población, una vez que apliquemos las funciones de similitud es mejor tener los vectores en las misma escala: [Ejemplo aquí](https://www.geeksforgeeks.org/data-normalization-with-pandas/)

In [131]:

# apply normalization
df_min_max = df.copy()

for column in df_min_max.columns: 
    df_min_max[column] = (df_min_max[column] - df_min_max[column].min()) / (df_min_max[column].max() - df_min_max[column].min())     
  
print(df_min_max)


                     lifeExp       pop
country                               
Afghanistan         0.098046  0.024035
Albania             0.856246  0.002579
Algeria             0.760363  0.025130
Angola              0.072528  0.009269
Argentina           0.830589  0.030416
...                      ...       ...
Vietnam             0.805676  0.064516
West Bank and Gaza  0.786439  0.002896
Yemen, Rep.         0.536985  0.016695
Zambia              0.064457  0.008757
Zimbabwe            0.090114  0.009186

[142 rows x 2 columns]


---
# EJERCICIO 5

**Crea un un nuevo dataset con los 3 paises más cercanos a cada país**, es decir un **dataset de 
distancias**, el resultado que se busca es como se ve en la imagen. Utilizarás el subset normalizado (ejercicio 4) para ello y una de las funciones que creaste (manhattan, euclideana o coseno)

![](../img/distancias.png)

**Cómo crear el dataset de distancias?**
- Por cada país, necesitas calcular la distancia entre él y todos los demás países en el DataFrame. Evitando comparar cada país consigo mismo.
- Cada iteración corresponde a cada país comparado, el país al que se le calculó la distancia, y la distancia entre ambos. (hint: una lista de tuplas o diccionarios puede ser útil aquí)
- Después de hacer todas las comparaciones, convierte los resultados en un DataFrame con tres columnas: `nodeA`, `nodeB`, `distance`.
- Para cada país (nodeA), agrupa las distancias calculadas y ordénalas de menor a mayor. Se quiere unicamente los tres países más cercanos a cada país (distancias más pequeñas para cada país)
- No olvides revisar los resultados una vez que tengas la tabla final con los 3 países más cercanos para cada país

In [202]:
## for loop in all countries applying 1 distance function

lista = [list(df_min_max.index),list(df_min_max['lifeExp'])]
lista

new_list = []
arreglo = []

for i in range(len(lista[1])):
    
    for j in range(len(lista[1])):
        arreglo.append(lista[1][i])
        
    new_list.append(arreglo)
    arreglo = []


### new_list es una lista de listas, y cada uno de sus elementos es una lista con las lifeExp de cada pais
### La idea es usar cada una de estas listas para usarla con la función euclidean distance de la lista 
### que tiene las distancias de todos los paises

lista_2 = []
lista_3 = []
arreglo_1 = []
arreglo_2 = []

for i in range(len(lista[1])):
    
    for j in range(len(lista[1])):
        arreglo_1.append(lista[1][j])
        arreglo_2.append(new_list[i][j])
        lista_2.append(euclidean_distance(arreglo_1,arreglo_2))
        arreglo_1 = []
        arreglo_2 = []
        
    lista_3.append(lista_2)
    lista_2 = []

### Lista 3 tiene todas las distancia, en la entrada [0] están todas las distancias del primer pais 
### con todos los demas, y asi sucesivamente

lista_4 = []
arreglo = []

for i in range(len(lista[1])):
    
    for j in range(len(lista[1])):
        arreglo.append(lista[0][i])
        
    lista_4.append(arreglo)
    arreglo = []

### Lista 4 tiene en cada entrada un arreglo de 142 entradas donde se repite el nombre de cada pais,

### Construyendo data frames

import numpy as np
import pandas as pd

'''lista_5 = []

for i in range(len(lista[1])):
    
    data = pd.DataFrame(pd.Series(np.array(lista_4[i])))

data'''

np.array(lista_4[0],lista[1)

TypeError: Field elements must be 2- or 3-tuples, got '0.09804605722261'

---
# EJERCICIO 6

Reproduce el siguiente script.   
El script utiliza la libreria `networkx` y `plotly` para visualizar una gráfica de red (network plot) visualizando la distancia (similitud) entre los paises basado en esperanza de vida y población.  

**Nota:** Si el dataframe del ejercicio anterior no es correcto, la visualización no va a funcionar.

**Responde lo siguiente:**
- Cuales son los países más similares a México?
- Explica cuales serían las consideraciones éticas al decir que México es similar a esos países en el contexto de las variables `lifeExp` y `pop`, dando contexto de el año seleccionado y del significado de la funcion de similitud utilizada

In [144]:
import networkx as nx

#Empty graph object
g = nx.Graph()

# Adding all nodes
g.add_nodes_from(list(df_network.nodeA.unique()))

# Adding all edges
edges_list = [(row[1][0],row[1][1],row[1][2]) for row in df_network.iterrows()]
g.add_weighted_edges_from(edges_list)

NameError: name 'df_network' is not defined

In [None]:
import plotly.graph_objects as go

pos = nx.spring_layout(g, dim=2, iterations=10, weight='weight', scale=2)

# Create a DataFrame for nodes
node_x = []
node_y = []
for node in g.nodes():
    x, y = pos[node]
    node_x.append(x)
    node_y.append(y)

# Create a DataFrame for edges
edge_x = []
edge_y = []
for edge in g.edges():
    x0, y0 = pos[edge[0]]
    x1, y1 = pos[edge[1]]
    edge_x.append(x0)
    edge_x.append(x1)
    edge_x.append(None)  # For a break between edges
    edge_y.append(y0)
    edge_y.append(y1)
    edge_y.append(None)  # For a break between edges

# Create the plot
fig = go.Figure()

# Add edges to the plot
fig.add_trace(go.Scatter(x=edge_x, y=edge_y,
                         line=dict(width=0.5, color='gray'),
                         hoverinfo='none',
                         mode='lines'))

# Add nodes to the plot
fig.add_trace(go.Scatter(x=node_x, y=node_y,
                         mode='markers+text',  # Show both markers and labels
                         marker=dict(size=10, color='#9500ff'),
                         text=[str(node) for node in g.nodes()],  # Add node labels
                         textposition='top center',
                         hoverinfo='text'))

# Update layout for better aesthetics and set figure size
fig.update_layout(
    showlegend=False,
    xaxis=dict(showgrid=False, zeroline=False),
    yaxis=dict(showgrid=False, zeroline=False),
    plot_bgcolor='white',
    width=1200,  # Set the figure width
    height=1500   # Set the figure height
)

# Display the plot
fig.show()

La gráfica debe quedar como se ve en la imagen.   
![](../img/countries_similarities.png)

## 🎉🎉 Congrats!!  

## You've finished the notebook