In [1]:
import pandas as pd
import ipywidgets as widgets
from IPython.display import display, clear_output

# --- Cargar archivos usando rutas relativas desde "Integración de datos" ---
df_departamentos = pd.read_csv('../Descripción/departamentos_peru.csv')
df_temperaturas = pd.read_csv('../Clima/temperatura_promedio_2020_2024.csv')
df_noticias = pd.read_csv("../Noticias/noticias_departamentos_elcomercio.csv")
df_videos = pd.read_csv("../Videos/videos_turisticos_por_departamento.csv")

# --- Normalizar nombres de columnas ---
df_departamentos.columns = df_departamentos.columns.str.strip()
df_temperaturas.columns = df_temperaturas.columns.str.strip()
df_noticias.columns = df_noticias.columns.str.strip()
df_videos.columns = df_videos.columns.str.strip()

# Renombrar columna si es necesario
if 'departamento' in df_departamentos.columns:
    df_departamentos.rename(columns={'departamento': 'Departamento'}, inplace=True)

if 'departamento' in df_temperaturas.columns:
    df_temperaturas.rename(columns={'departamento': 'Departamento'}, inplace=True)

# Convertir valores de la columna a mayúsculas
for df in [df_departamentos, df_temperaturas, df_noticias, df_videos]:
    if 'Departamento' in df.columns:
        df['Departamento'] = df['Departamento'].str.upper().str.strip()

# --- Preparar df_noticias ---
df_noticias['Contenido'] = df_noticias['Título']
df_noticias['Fuente'] = df_noticias['Enlace']
df_noticias['Tipo'] = 'Noticia'
df_noticias = df_noticias[['Departamento', 'Contenido', 'Fuente', 'Tipo']]

# --- Preparar df_videos ---
df_videos['Fuente'] = df_videos['URL']
df_videos['Tipo'] = 'Video'
df_videos['Contenido'] = df_videos['Título']
df_videos = df_videos[['Departamento', 'Contenido', 'Fuente', 'Tipo']]

# --- Unir noticias y videos ---
df_contenido = pd.concat([df_noticias, df_videos], ignore_index=True)

# --- Filtrar columnas de temperatura para 2024 ---
columnas_2024 = [col for col in df_temperaturas.columns if "-2024" in col]
df_temp_2024 = df_temperaturas[['Departamento'] + columnas_2024]

# --- Unir todo ---
df_merged = pd.merge(df_departamentos, df_temp_2024, on='Departamento', how='left')
df_merged = pd.merge(df_merged, df_contenido, on='Departamento', how='left')

# --- Guardar resultado ---
df_merged.to_excel("turismo_departamento_con_clima_y_contenido.xlsx", index=False)

# Mostrar ejemplo
pd.set_option("display.max_columns", None)
display(df_merged.head())


Unnamed: 0,Departamento,descripcion,Ene-2024,Feb-2024,Mar-2024,Abr-2024,May-2024,Jun-2024,Jul-2024,Ago-2024,Sep-2024,Oct-2024,Nov-2024,Dic-2024,Contenido,Fuente,Tipo
0,AMAZONAS,El departamento de Amazonas es reconocido por ...,15.78,16.21,16.22,15.99,16.25,15.6,15.08,15.58,16.4,16.0,16.7,15.62,1925: Expedición al Amazonas,https://elcomercio.pe/opinion/efemerides/1925-...,Noticia
1,AMAZONAS,El departamento de Amazonas es reconocido por ...,15.78,16.21,16.22,15.99,16.25,15.6,15.08,15.58,16.4,16.0,16.7,15.62,Iquitos: Turistas españoles asaltados por “pir...,https://elcomercio.pe/peru/loreto/iquitos-turi...,Noticia
2,AMAZONAS,El departamento de Amazonas es reconocido por ...,15.78,16.21,16.22,15.99,16.25,15.6,15.08,15.58,16.4,16.0,16.7,15.62,Amazonas: Minedu bloquea a 469 docentes en Con...,https://elcomercio.pe/peru/amazonas/amazonas-m...,Noticia
3,AMAZONAS,El departamento de Amazonas es reconocido por ...,15.78,16.21,16.22,15.99,16.25,15.6,15.08,15.58,16.4,16.0,16.7,15.62,"El batán del Tayta, un restaurante para descub...",https://elcomercio.pe/provecho/restaurantes/el...,Noticia
4,AMAZONAS,El departamento de Amazonas es reconocido por ...,15.78,16.21,16.22,15.99,16.25,15.6,15.08,15.58,16.4,16.0,16.7,15.62,Loreto: buque BAP se hunde en río Amazonas y d...,https://elcomercio.pe/peru/loreto/loreto-accie...,Noticia


In [2]:
import pandas as pd

# --- Cargar el archivo de transporte usando ruta relativa desde "Integración de datos" ---
df_transporte = pd.read_excel("../Transporte/viajes_lima_destinos10.xlsx")

# --- Guardar como CSV ---
df_transporte.to_csv("viajes_lima_destinos10.csv", index=False, encoding='utf-8-sig')

# --- Configurar la visualización para mostrar todo si es necesario ---
pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", None)

# --- Mostrar el DataFrame ---
display(df_transporte.head())


Unnamed: 0,Origen,Destino,Transporte,Duración Estimada
0,Lima,Amazonas,plane,6h 23min
1,Lima,Amazonas,bus,77h 54min
2,Lima,Amazonas,bus,7d 2h
3,Lima,Amazonas,car,95h 14min
4,Lima,Ancash,plane,2h 51min
