# Distancia Hamming

### La distancia de Hamming es una métrica que se utiliza para medir la diferencia entre dos cadenas de igual longitud, comparando las posiciones en las que los símbolos correspondientes son diferentes. Es decir, cuenta cuántas posiciones de un conjunto de símbolos (como bits o caracteres) son diferentes entre dos cadenas de igual tamaño.

### La distancia de Hamming se usa comúnmente en teoría de la información y códigos de corrección de errores, donde cada posición puede ser un bit (en el caso de cadenas binarias) o un carácter (en el caso de cadenas de texto).

### La distancia de Hamming entre dos cadenas se calcula observando las posiciones en las que los bits son diferentes

### Se hace la creación de los datos sintéticos, en los que se generan 200 datos binarios por 5 columnas

In [1]:
import numpy as np
import pandas as pd
from scipy.spatial.distance import hamming

#Función para generar datos sintéticos si no hay un dataset público disponible
def generar_datos_sinteticos():
    np.random.seed(42)
    datos = np.random.randint(0, 2, size=(200, 5))  #Generamos datos binarios (0 o 1)
    df = pd.DataFrame(datos, columns=["Atributo_1", "Atributo_2", "Atributo_3", "Atributo_4", "Atributo_5"])
    df.to_csv("datos_sinteticos.csv", index=False)
    return df

df = generar_datos_sinteticos()

## Inspección de la base de datos

In [2]:
# Inspección de la base de datos
print("Información del DataFrame:")
print(df.info())
print("\nResumen estadístico:")
print(df.describe())
print("\nValores nulos en cada columna:")
print(df.isnull().sum())

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   Atributo_1  200 non-null    int64
 1   Atributo_2  200 non-null    int64
 2   Atributo_3  200 non-null    int64
 3   Atributo_4  200 non-null    int64
 4   Atributo_5  200 non-null    int64
dtypes: int64(5)
memory usage: 7.9 KB
None

Resumen estadístico:
       Atributo_1  Atributo_2  Atributo_3  Atributo_4  Atributo_5
count  200.000000   200.00000  200.000000  200.000000  200.000000
mean     0.470000     0.50500    0.510000    0.555000    0.510000
std      0.500352     0.50123    0.501154    0.498213    0.501154
min      0.000000     0.00000    0.000000    0.000000    0.000000
25%      0.000000     0.00000    0.000000    0.000000    0.000000
50%      0.000000     1.00000    1.000000    1.000000    1.000000
75%      1.000000     1.00000    1.000000    1.000000    1.000000
max

## Manejo de valores faltantes
### Se rellenan los valores faltantes con la media de cada columna.
### Además en caso de que la base de datos tenga valores no binarios convierte este valor a binario con la media de la columna.

In [3]:
# Rellenar valores faltantes con el valor más frecuente en cada columna
columnas_categoricas = df.select_dtypes(include=['object']).columns
df[columnas_categoricas] = df[columnas_categoricas].apply(lambda x: x.fillna(x.mode()[0]))

# Convertimos los datos en una matriz binaria (0 y 1) si es necesario
columnas_numericas = df.select_dtypes(include=[np.number]).columns
df[columnas_numericas] = df[columnas_numericas].fillna(df[columnas_numericas].median())

## Calculo de la distancia Hamming del dataset

In [4]:
# Convertir valores categóricos en binarios si es necesario
df = pd.get_dummies(df)

# Convertimos los datos en una matriz numérica
matriz_datos = df.values

# Calculamos la distancia de Hamming entre las primeras dos filas como ejemplo
distancia_hamming = hamming(matriz_datos[0], matriz_datos[1]) * len(matriz_datos[0])
print(f"Distancia de Hamming entre la primera y segunda fila: {distancia_hamming}")

# Guardamos los resultados en un archivo CSV
df.to_csv("datos_con_hamming.csv", index=False)

Distancia de Hamming entre la primera y segunda fila: 3.0
