# 📂 Verificación y combinación de archivos CSV bibliométricos

Este cuaderno está diseñado para **verificar** si todos los archivos `.csv` dentro de una carpeta determinada tienen la **misma estructura de columnas**. Si todos coinciden, el sistema procede a **unirlos en un solo archivo combinado** para facilitar el análisis posterior.

### 🔍 Funcionalidades principales:
- Lista y compara automáticamente los nombres de columnas de cada archivo CSV.
- Detecta si algún archivo tiene columnas distintas.
- Une todos los archivos CSV que tengan la misma estructura en un solo DataFrame.
- Guarda el resultado como un nuevo archivo `.csv` en una carpeta específica.


💾 **Nombre del archivo generado:**  
`csv_combinado.csv`

---

**Autor:** Ignacio Isa Vargas  
**Fecha:** `24 de abril de 2025`

In [None]:
# Importar librerías 
import pandas as pd
import os

In [None]:
# Definir la ruta de la carpeta con los archivos CSV
carpeta = r"C:\Users\USER\Proyecto Bibliometría Grafeno\datos_csv" # Cambia la ruta

In [None]:
# Verificar si todos los archivos tienen las mismas columnas

archivos = [f for f in os.listdir(carpeta) if f.endswith('.csv')]
columnas_archivos = {}
todos_iguales = True
columnas_ref = None

for archivo in archivos:
    ruta = os.path.join(carpeta, archivo)
    try:
        df = pd.read_csv(ruta, nrows=1)
        columnas_archivos[archivo] = df.columns.tolist()
    except Exception as e:
        print(f"Error leyendo {archivo}: {e}")

for archivo, columnas in columnas_archivos.items():
    if columnas_ref is None:
        columnas_ref = columnas
    elif columnas != columnas_ref:
        todos_iguales = False
        print(f"Columnas distintas en: {archivo}")
        print("Estas son sus columnas:", columnas)
        print("-" * 50)

if todos_iguales:
    print("Todos los archivos CSV tienen las mismas columnas.")
else:
    print("No todos los archivos tienen las mismas columnas. No se procederá a unirlos.")

In [None]:
# Unir los archivos CSV en un solo DataFrame solo si don iguales
if todos_iguales:
    dataframes = []

    for archivo in archivos:
        ruta = os.path.join(carpeta, archivo)
        df = pd.read_csv(ruta)
        dataframes.append(df)

    df_total = pd.concat(dataframes, ignore_index=True)
    print("Archivos unidos correctamente.")
else:
    df_total = None

In [None]:
# Mostrar información general del DataFrame combinado

if df_total is not None:
    print("\nInformación general del DataFrame combinado:")
    print(f"Filas totales: {df_total.shape[0]}")
    print(f"Columnas totales: {df_total.shape[1]}")
    print(f"Columnas: {list(df_total.columns)}\n")

    print("Valores faltantes por columna:")
    print(df_total.isnull().sum())

    print("\n Primeras filas del DataFrame:")
    display(df_total.head())  # Solo en Jupyter

In [None]:
# Guardar el DataFrame combinado

ruta_carpeta = r"C:\Users\USER\Proyecto Bibliometría Grafeno\data" # Cambia la ruta y crea nueva carpeta "\data"
# Crear la carpeta si no existe
os.makedirs(ruta_carpeta, exist_ok=True)

# Guardar el archivo
if df_total is not None:
    archivo_guardado = os.path.join(ruta_carpeta, "csv_combinado.csv")
    df_total.to_csv(archivo_guardado, index=False)
    print(f"Archivo guardado correctamente en: {archivo_guardado}")
else:
    print("No se generó un DataFrame combinado, por lo tanto no se guardó ningún archivo.")