## **Laboratorio 2 - preparación de datos**

**Objetivo:**  
Combinar los diferentes archivos CSV del dataset de deserción de clientes (churn) en un único conjunto de datos unificado que integre toda la información relevante.

**Archivos involucrados:**
- CustomerChurn.csv  
- Telco_customer_churn.csv  
- Telco_customer_churn_demographics.csv  
- Telco_customer_churn_location.csv  
- Telco_customer_churn_population.csv  
- Telco_customer_churn_services.csv  
- Telco_customer_churn_status.csv  

**Salida esperada:**  
`data/Telecom_Customer_Churn_Complete.csv`


In [129]:
# Importacion de librerias usadas
import pandas as pd
import numpy as np
import os

# Configuracion de pandas para mostrar todas las columnas.
pd.set_option('display.max_columns', None)

In [130]:
# Rutas de los archivos
DATA_PATH = "..\data"
OUTPUT_PATH = "..\data\Telecom_Customer_Churn_Complete.csv"

# Archivos
main_file = "Telco_customer_churn.csv"
secondary_files = [
    "CustomerChurn.csv",
    "Telco_customer_churn_demographics.csv",
    "Telco_customer_churn_location.csv",
    "Telco_customer_churn_population.csv",
    "Telco_customer_churn_services.csv",
    "Telco_customer_churn_status.csv"
]


  DATA_PATH = "..\data"
  OUTPUT_PATH = "..\data\Telecom_Customer_Churn_Complete.csv"


In [131]:
# Cargar archivo principal
df_main = pd.read_csv(os.path.join(DATA_PATH, main_file))

print(f"Archivo principal cargado: {df_main.shape[0]} filas, {df_main.shape[1]} columnas")

# Normalizar nombre de columna clave
df_main.columns = [c.strip() for c in df_main.columns]
if "CustomerID" in df_main.columns:
    df_main.rename(columns={"CustomerID": "Customer ID"}, inplace=True)
elif "customerID" in df_main.columns:
    df_main.rename(columns={"customerID": "Customer ID"}, inplace=True)

df_main["Customer ID"] = df_main["Customer ID"].astype(str)
df_main.head()


Archivo principal cargado: 7043 filas, 33 columnas


Unnamed: 0,Customer ID,Count,Country,State,City,Zip Code,Lat Long,Latitude,Longitude,Gender,Senior Citizen,Partner,Dependents,Tenure Months,Phone Service,Multiple Lines,Internet Service,Online Security,Online Backup,Device Protection,Tech Support,Streaming TV,Streaming Movies,Contract,Paperless Billing,Payment Method,Monthly Charges,Total Charges,Churn Label,Churn Value,Churn Score,CLTV,Churn Reason
0,3668-QPYBK,1,United States,California,Los Angeles,90003,"33.964131, -118.272783",33.964131,-118.272783,Male,No,No,No,2,Yes,No,DSL,Yes,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes,1,86,3239,Competitor made better offer
1,9237-HQITU,1,United States,California,Los Angeles,90005,"34.059281, -118.30742",34.059281,-118.30742,Female,No,No,Yes,2,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes,1,67,2701,Moved
2,9305-CDSKC,1,United States,California,Los Angeles,90006,"34.048013, -118.293953",34.048013,-118.293953,Female,No,No,Yes,8,Yes,Yes,Fiber optic,No,No,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,99.65,820.5,Yes,1,86,5372,Moved
3,7892-POOKP,1,United States,California,Los Angeles,90010,"34.062125, -118.315709",34.062125,-118.315709,Female,No,Yes,Yes,28,Yes,Yes,Fiber optic,No,No,Yes,Yes,Yes,Yes,Month-to-month,Yes,Electronic check,104.8,3046.05,Yes,1,84,5003,Moved
4,0280-XJGEX,1,United States,California,Los Angeles,90015,"34.039224, -118.266293",34.039224,-118.266293,Male,No,No,Yes,49,Yes,Yes,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Bank transfer (automatic),103.7,5036.3,Yes,1,89,5340,Competitor had better devices


A continuación se leen todos los dataframe y se hacen modificaciones pertinentes.
Al dataframe secundario "telco_customer_churn_population" se le cambia la columna ID a Population ID para evitar confusion.

In [132]:
# registrar datasets secundarios y modificarlos segun sea necesario.
summary = []
df_CustomerChurn = pd.read_csv(os.path.join(DATA_PATH, secondary_files[0]))
df_Telco_customer_churn_demographics = pd.read_csv(os.path.join(DATA_PATH, secondary_files[1]))
df_Telco_customer_churn_location = pd.read_csv(os.path.join(DATA_PATH, secondary_files[2]))
df_Telco_customer_churn_population = pd.read_csv(os.path.join(DATA_PATH, secondary_files[3]))
df_Telco_customer_churn_services = pd.read_csv(os.path.join(DATA_PATH, secondary_files[4]))
df_Telco_customer_churn_status = pd.read_csv(os.path.join(DATA_PATH, secondary_files[5]))

secondary_dfs = [
    ("CustomerChurn", df_CustomerChurn, "Customer ID"),
    ("Telco_customer_churn_demographics", df_Telco_customer_churn_demographics, "Customer ID"),
    ("Telco_customer_churn_location", df_Telco_customer_churn_location, "Customer ID"),
    ("Telco_customer_churn_population", df_Telco_customer_churn_population, "Customer ID"),
    ("Telco_customer_churn_services", df_Telco_customer_churn_services, "Customer ID"),
    ("Telco_customer_churn_status", df_Telco_customer_churn_status, "Customer ID")
]


A continuacion se crea una función para fusionar los archivos. La estrategia utilizada incluye mantener las columnas del dataframe principa en lugar de usar la de los secundarios, al ejectutar esta función se da tambien un resumen de las coincidencias entre los dos dataframes que se estan fusionando. Para combinar los archivos se busca en el mismo si existe alguna columna que coincida con los campos para hacer la combinación.

In [133]:

def merge_dataset(df_main, secondary_dfs):
    summary = []

    for name, df_aux, key_col in secondary_dfs:
        df_aux.columns = [c.strip() for c in df_aux.columns]

        # --- Detectar y normalizar clave de unión ---
        if "Customer ID" in df_aux.columns:
            join_key = "Customer ID"
            df_aux["Customer ID"] = df_aux["Customer ID"].astype(str)
        elif "CustomerID" in df_aux.columns:
            df_aux.rename(columns={"CustomerID": "Customer ID"}, inplace=True)
            join_key = "Customer ID"
            df_aux["Customer ID"] = df_aux["Customer ID"].astype(str)
        elif "Zip Code" in df_aux.columns:
            join_key = "Zip Code"
        else:
            print(f"⚠️ {name}: No se encontró clave de unión, se omite.")
            continue

        # --- Control de duplicados en el archivo secundario ---
        duplicated_keys = df_aux[join_key].duplicated().sum()
        if duplicated_keys > 0:
            df_aux = df_aux.drop_duplicates(subset=[join_key])
            dup_comment = f"{duplicated_keys} claves duplicadas eliminadas"
        else:
            dup_comment = "Sin duplicados"

        before = df_main.shape[0]

        # --- Merge tipo LEFT ---
        df_merged = df_main.merge(df_aux, how="left", on=join_key, suffixes=("", f"_{name}"))
        after = df_merged.shape[0]

        

        # --- Calcular porcentaje de coincidencia ---
        unmatched = df_main[~df_main[join_key].isin(df_aux[join_key])].shape[0]
        match_rate = 100 * (1 - (unmatched / len(df_main)))
        no_match_rate = 100 - match_rate

        # --- 🔍 Analizar similitud de columnas duplicadas ---
        duplicated_columns = [col for col in df_main.columns if f"{col}_{name}" in df_merged.columns]
        similarity_results = []

        for col in duplicated_columns:
            col_a = df_merged[col]
            col_b = df_merged[f"{col}_{name}"]

            # Calcular similitud solo si ambas son de tipo texto o numéricas
            if col_a.dtype == object or np.issubdtype(col_a.dtype, np.number):
                same_values = (col_a == col_b)
                similarity = same_values.mean(skipna=True) * 100
                similarity_results.append(f"{col}: {similarity:.2f}%")
            else:
                similarity_results.append(f"{col}: tipo incompatible")

        if similarity_results:
            duplicates_info = "; ".join(similarity_results)
        else:
            duplicates_info = "Ninguna"

        # --- Guardar resumen del merge ---
        summary.append({
            "Archivo": name,
            "Clave": join_key,
            "Filas_antes": before,
            "Filas_despues": after,
            "%_coincidencia": round(match_rate, 2),
            "%_no_coincidencia": round(no_match_rate, 2),
            "Duplicados_detectados": len(duplicated_columns),
            "Similitud_entre_duplicados": duplicates_info,
            "Observaciones": dup_comment
        })

        df_main = df_merged

    resumen = pd.DataFrame(summary)
    return df_main, resumen



En la siguiente celda se ejecuta la función realizada y se muestra el porcentaje de coincidencia entre el dataset principal y los secundarios; Ademas se hace un manejo de las columnas duplicadas.

In [134]:
df_final, resumen = merge_dataset(df_main, secondary_dfs)

# Mostrar resumen del proceso
print("Resumen de fusiones:")
display(resumen)

# Eliminar columnas duplicadas
duplicated_cols = df_final.columns[df_final.columns.duplicated()].tolist()
df_final = df_final.loc[:, ~df_final.columns.duplicated()]



print(f"\nDataset final: {df_final.shape[0]} filas × {df_final.shape[1]} columnas")


Resumen de fusiones:


Unnamed: 0,Archivo,Clave,Filas_antes,Filas_despues,%_coincidencia,%_no_coincidencia,Duplicados_detectados,Similitud_entre_duplicados,Observaciones
0,CustomerChurn,Customer ID,7043,7043,100.0,0.0,17,Senior Citizen: 100.00%; Partner: 100.00%; Dep...,Sin duplicados
1,Telco_customer_churn_demographics,Customer ID,7043,7043,100.0,0.0,4,Count: 100.00%; Gender: 100.00%; Senior Citize...,Sin duplicados
2,Telco_customer_churn_location,Customer ID,7043,7043,100.0,0.0,8,Count: 100.00%; Country: 100.00%; State: 100.0...,Sin duplicados
3,Telco_customer_churn_population,Zip Code,7043,7043,100.0,0.0,0,Ninguna,Sin duplicados
4,Telco_customer_churn_services,Customer ID,7043,7043,100.0,0.0,12,Count: 100.00%; Phone Service: 100.00%; Multip...,Sin duplicados
5,Telco_customer_churn_status,Customer ID,7043,7043,100.0,0.0,7,Count: 100.00%; Churn Label: 100.00%; Churn Va...,Sin duplicados



Dataset final: 7043 filas × 113 columnas


In [135]:
duplicated_cols = resumen[["Archivo", "Similitud_entre_duplicados"]].values.tolist()
display(duplicated_cols)

[['CustomerChurn',
  'Senior Citizen: 100.00%; Partner: 100.00%; Dependents: 92.18%; Phone Service: 100.00%; Multiple Lines: 100.00%; Internet Service: 100.00%; Online Security: 100.00%; Online Backup: 100.00%; Device Protection: 100.00%; Tech Support: 100.00%; Streaming TV: 100.00%; Streaming Movies: 100.00%; Contract: 100.00%; Paperless Billing: 100.00%; Payment Method: 100.00%; Monthly Charges: 100.00%; Total Charges: 100.00%'],
 ['Telco_customer_churn_demographics',
  'Count: 100.00%; Gender: 100.00%; Senior Citizen: 100.00%; Dependents: 100.00%'],
 ['Telco_customer_churn_location',
  'Count: 100.00%; Country: 100.00%; State: 100.00%; City: 96.59%; Zip Code: 96.25%; Lat Long: 96.31%; Latitude: 96.31%; Longitude: 96.31%'],
 ['Telco_customer_churn_population', 'Ninguna'],
 ['Telco_customer_churn_services',
  'Count: 100.00%; Phone Service: 100.00%; Multiple Lines: 90.32%; Internet Service: 21.67%; Online Security: 78.33%; Online Backup: 78.33%; Streaming TV: 78.33%; Streaming Movies:

El codigo anterior mostraba todas las columnas duplicadas y su porcentaje de coincidencia con el original. Para aquellos que la coincidencia sea mayor al 90% se eliminaran, puesto que no aportan mucha informacion nueva.

In [136]:
def remove_perfect_duplicates(df, similarity_summary):
    """
    Elimina columnas duplicadas con 100% de similitud basándose en el resumen de similitud.
    
    Parámetros:
        df (pd.DataFrame): dataset final combinado.
        similarity_summary (list): lista de listas con formato 
            [ [nombre_archivo, 'columna1: %; columna2: %'], ... ]
            
    Retorna:
        df (pd.DataFrame): dataset sin duplicados redundantes.
        removed_columns (list): lista de columnas eliminadas.
    """
    removed_columns = []
    not_removed_columns = []

    for entry in similarity_summary:
        file_name = entry[0]
        sim_info = entry[1]

        # Saltar si no hay duplicados registrados
        if sim_info == "Ninguna":
            continue

        # Separar pares columna: porcentaje
        col_pairs = [x.strip() for x in sim_info.split(";") if x.strip()]
        for pair in col_pairs:
            try:
                col_name, sim_value = pair.split(":")
                col_name = col_name.strip()
                sim_value = float(sim_value.strip().replace("%", ""))

                # Si la similitud es 90% o más, eliminar la versión duplicada
                if sim_value >= 90.0:
                    dup_col_name = f"{col_name}_{file_name}"
                    if dup_col_name in df.columns:
                        df.drop(columns=[dup_col_name], inplace=True, errors="ignore")
                        removed_columns.append(dup_col_name)
                else:
                    not_removed_columns.append((col_name, file_name, sim_value))
            except ValueError:
                # En caso de formato irregular (por ejemplo, tipo incompatible)
                continue

    return df, removed_columns, not_removed_columns


In [137]:
df_final, removed_cols, not_removed_cols = remove_perfect_duplicates(df_final, duplicated_cols)

print(f"Columnas eliminadas ({len(removed_cols)}):")
print(removed_cols)

print(f"Columnas no eliminadas ({len(not_removed_cols)}):")
print(not_removed_cols)


Columnas eliminadas (39):
['Senior Citizen_CustomerChurn', 'Partner_CustomerChurn', 'Dependents_CustomerChurn', 'Phone Service_CustomerChurn', 'Multiple Lines_CustomerChurn', 'Internet Service_CustomerChurn', 'Online Security_CustomerChurn', 'Online Backup_CustomerChurn', 'Device Protection_CustomerChurn', 'Tech Support_CustomerChurn', 'Streaming TV_CustomerChurn', 'Streaming Movies_CustomerChurn', 'Contract_CustomerChurn', 'Paperless Billing_CustomerChurn', 'Payment Method_CustomerChurn', 'Monthly Charges_CustomerChurn', 'Total Charges_CustomerChurn', 'Count_Telco_customer_churn_demographics', 'Gender_Telco_customer_churn_demographics', 'Senior Citizen_Telco_customer_churn_demographics', 'Dependents_Telco_customer_churn_demographics', 'Count_Telco_customer_churn_location', 'Country_Telco_customer_churn_location', 'State_Telco_customer_churn_location', 'City_Telco_customer_churn_location', 'Zip Code_Telco_customer_churn_location', 'Lat Long_Telco_customer_churn_location', 'Latitude_Tel

Para hacer un mejor analisis de las columnas duplicadas restantes, se crea un nuevo dataset que contenga estas columnas.

In [138]:
# Crear lista de columnas relevantes para analizar
cols_to_keep = []

for base_col, file_name, sim in not_removed_cols:
    col_dup = f"{base_col}_{file_name}"
    if base_col in df_final.columns and col_dup in df_final.columns:
        cols_to_keep.extend([base_col, col_dup])

# Crear dataset auxiliar con esas columnas
df_diff_analysis = df_final[cols_to_keep].copy()

# Guardarlo en la carpeta data/
output_path = os.path.join(DATA_PATH, "Telecom_CustomerChurn_Differences.csv")
df_diff_analysis.to_csv(output_path, index=False)

print(f"✅ Dataset de análisis guardado en: {output_path}")
print(f"Columnas incluidas ({len(cols_to_keep)}): {cols_to_keep}")

✅ Dataset de análisis guardado en: ..\data\Telecom_CustomerChurn_Differences.csv
Columnas incluidas (18): ['Internet Service', 'Internet Service_Telco_customer_churn_services', 'Online Security', 'Online Security_Telco_customer_churn_services', 'Online Backup', 'Online Backup_Telco_customer_churn_services', 'Streaming TV', 'Streaming TV_Telco_customer_churn_services', 'Streaming Movies', 'Streaming Movies_Telco_customer_churn_services', 'Contract', 'Contract_Telco_customer_churn_services', 'Payment Method', 'Payment Method_Telco_customer_churn_services', 'Total Charges', 'Total Charges_Telco_customer_churn_services', 'Churn Reason', 'Churn Reason_Telco_customer_churn_status']


Para resolver los duplicados se aplica lo siguiente:

- Internet service: El dataset principal tiene el nombre del servicio y el duplicado de churn services solo tiene si o no para saber que tiene servicio. Por lo tanto se mantendra el del archivo principal y el del secundario se eliminara.
- Online Security, Online Backup,  streaming TV y streaming Movies: La diferencia esta en que el original a veces pone No internet service en lugar de No, se mantendran las columnas del dataset principal.
- Contract: la diferencia esta en el uso de mayusculas. Se mantendra la columna del dataset principal.
- Payment Method: Estas tienen grandes diferencias semanticas respecto a los metodos de pago, dado que no se sabe si existe alguna diferencia temporal entre ambos datos o algo mas asi, se mantendra la columna del dataset principal para evitar inconsistencias grandes.
- Total charges: La diferencia esta en el uso de decimales en una y otra columna; se mantendra el original.
- Churn Reason: Al analizar la información de la columna duplicada se puede ver que en este contexto son similares pero podria llevar a errores en el modello si se mantienen dos fuentes distintas de información, la columna suplicada se eliminara.

In [139]:
cols_to_drop = [f"{col_name}_{file_name}" for col_name, file_name, sim_value in not_removed_cols]

df_final.drop(columns=cols_to_drop, inplace=True, errors="ignore")

In [140]:

df_final.to_csv(OUTPUT_PATH, index=False)

print(f"✅ Archivo final guardado en: {OUTPUT_PATH}")



✅ Archivo final guardado en: ..\data\Telecom_Customer_Churn_Complete.csv


## Resultados y validaciones del Paso 1 — Integración de datos

### Número de filas del archivo principal y del dataset final
- **Archivo principal:** 7,043 filas  
- **Dataset final:** 7,043 filas  
*No se presenta discrepancia*, ya que se utilizaron fusiones tipo **LEFT JOIN** respecto al archivo principal, lo que garantiza conservar todos los registros originales.  
Cualquier diferencia en filas se habría debido a duplicados en los archivos secundarios, los cuales fueron controlados antes de cada fusión.


### Número total de columnas finales y listado de nombres
- **Número inicial de columnas:** 33
- **Número total de columnas finales:** 65

#### Listado de nombres de las columnas:

In [141]:
columns = df_final.columns.tolist()
print(f"- **Número inicial de columnas:** {df_main.shape[1]}")
print(f"- **Número total de columnas finales:** {df_final.shape[1]}")

### Lista de columnas finales

for col in columns:
    print(f"- {col}")



- **Número inicial de columnas:** 33
- **Número total de columnas finales:** 65
- Customer ID
- Count
- Country
- State
- City
- Zip Code
- Lat Long
- Latitude
- Longitude
- Gender
- Senior Citizen
- Partner
- Dependents
- Tenure Months
- Phone Service
- Multiple Lines
- Internet Service
- Online Security
- Online Backup
- Device Protection
- Tech Support
- Streaming TV
- Streaming Movies
- Contract
- Paperless Billing
- Payment Method
- Monthly Charges
- Total Charges
- Churn Label
- Churn Value
- Churn Score
- CLTV
- Churn Reason
- LoyaltyID
- Tenure
- Churn
- Age
- Under 30
- Married
- Number of Dependents
- Location ID
- ID
- Population
- Service ID
- Quarter
- Referred a Friend
- Number of Referrals
- Tenure in Months
- Offer
- Avg Monthly Long Distance Charges
- Internet Type
- Avg Monthly GB Download
- Device Protection Plan
- Premium Tech Support
- Streaming Music
- Unlimited Data
- Monthly Charge
- Total Refunds
- Total Extra Data Charges
- Total Long Distance Charges
- Total 

### Detección de claves duplicadas
Durante la inspección, se detectaron claves duplicadas en algunos archivos secundarios (particularmente los relacionados con servicios).  
Esto podría haber provocado **multiplicación de filas** en el merge. Al eliminar los duplicados se crearon nuevas columnas con el nombre de la columna seguido del dataset del que provenian. Si habia coincidencia del 100% con la original, se removio pues no aportaba informacion nueva.

- Se eliminaron duplicados mediante:
  ```python
  df_aux = df_aux.drop_duplicates(subset=[join_key])
  ```

- se uso la funcion ```remove_perfect_duplicates``` para eliminar las columnas duplicdas cuya informacion coincidiera al 100% con el dataframe original.

## 🧾 Muestra de las primeras 10 filas del dataset final

A continuación se presenta una muestra de **10 filas** del dataset final integrado, mostrando **5 columnas representativas** del conjunto de datos:

```python
cols_to_show = ["Customer ID", "Churn", "Tenure in Months", "Internet Service", "Total Charges"]
df_final[cols_to_show].head(10)

```

Tambien se presenta un resumen de estas columnas:

| Columna              | Tipo de dato         | Valores nulos | Significado                                                                                                        |
| -------------------- | -------------------- | ------------- | ------------------------------------------------------------------------------------------------------------------ |
| **Customer ID**      | string               | 0             | Identificador único asignado a cada cliente. Utilizado como clave principal para realizar fusiones entre archivos. |
| **Churn**            | string (Yes/No) | 0             | Variable objetivo que indica si el cliente abandonó el servicio.                                                   |
| **Tenure in Months** | int                  | 0             | Tiempo total (en meses) que el cliente ha permanecido en la empresa.                                               |
| **Internet Service** | string               | 0            | Tipo de servicio de internet contratado (DSL, Fiber Optic o No).                                                   |
| **Total Charges**    | float                | 0            | Valor total facturado al cliente durante toda su permanencia.                                                      |


In [142]:
cols_to_show = ["Customer ID", "Churn", "Tenure in Months", "Internet Service", "Total Charges"]
df_final[cols_to_show].head(10)


Unnamed: 0,Customer ID,Churn,Tenure in Months,Internet Service,Total Charges
0,3668-QPYBK,Yes,2,DSL,108.15
1,9237-HQITU,Yes,2,Fiber optic,151.65
2,9305-CDSKC,Yes,8,Fiber optic,820.5
3,7892-POOKP,Yes,28,Fiber optic,3046.05
4,0280-XJGEX,Yes,49,Fiber optic,5036.3
5,4190-MFLUW,Yes,10,DSL,528.35
6,8779-QRDMV,Yes,1,DSL,39.65
7,1066-JKSGK,Yes,1,No,20.15
8,6467-CHFZW,Yes,47,Fiber optic,4749.15
9,8665-UTDHZ,Yes,1,DSL,30.2


In [143]:
df_final[cols_to_show].nunique()

Customer ID         7043
Churn                  2
Tenure in Months      72
Internet Service       3
Total Charges       6531
dtype: int64

In [144]:
null_values = df_final[cols_to_show].isnull().sum()
print("Valores nulos por columna:")
print(null_values)


Valores nulos por columna:
Customer ID         0
Churn               0
Tenure in Months    0
Internet Service    0
Total Charges       0
dtype: int64


El resumen anterior muestra que no existen valores nullo o nan en las 5 columnas seleccionadas, ademas se muestran los valores unicos para cada columna.

### Transformaciones aplicadas

Durante la integración de los diferentes archivos, se realizaron las siguientes transformaciones y ajustes para asegurar consistencia y calidad de los datos:

- **Normalización de nombres de columnas:**
    
    Se eliminaron espacios innecesarios en los encabezados.

    Se unificaron los nombres de columnas a un formato estándar (Customer ID, Zip Code, etc.).

    Se eliminaron duplicados exactos de columnas después de la fusión.

- **Estandarización de claves:**

    Se detectaron variantes del identificador (CustomerID, customerID) y se renombraron a Customer ID.

    Se convirtió el tipo de dato de las claves (Customer ID, Zip Code) a string para evitar incompatibilidades en las fusiones.

- **Reglas de fusión y resolución de duplicados:**

    Se realizaron fusiones tipo LEFT JOIN, preservando todas las filas del dataset principal.

    En caso de columnas repetidas, se priorizó la columna del archivo principal.

    Las columnas provenientes de archivos secundarios recibieron un sufijo identificador (_services, _status, etc.) para evitar colisiones.

    Se eliminaron duplicados por clave antes de realizar cada fusión (drop_duplicates(subset=[join_key])).

- **Verificación y limpieza final:**

    Se comprobó que el número de filas del dataset final coincidiera con el archivo principal (7,043 registros).

    Se eliminaron sufijos temporales y columnas redundantes.

    Se validó la consistencia de tipos de datos y nombres de variables.