Importación de Librerías para cargar los datos y manipularlos

In [9]:
import pandas as pd
import unidecode

Limpieza y normalización de datos | Inventario de Recursos Turísticos

In [None]:
# Leer CSV original (Latin-1)
df = pd.read_csv("../data/raw/inventario_recursos_turisticos.csv", 
    sep=";", 
    encoding="latin-1")

# Renombrar columnas
df.columns = (
    df.columns
    .str.strip()
    .str.lower()
    .str.replace(" ", "_")
    .map(lambda x: unidecode.unidecode(x))
)

# Arreglar texto de columnas principales
for col in ["region", "provincia", "distrito", "categoria", "tipo_de_categoria", "sub_tipo_categoria"]:
    df[col] = (
        df[col]
            .astype(str)
            .str.strip()
            .str.title()
            .apply(lambda x: unidecode.unidecode(x))
    )

# Eliminar duplicados o filas vacías
df = df.drop_duplicates(subset=["codigo_del_recurso"])
df = df.dropna(subset=["nombre_del_recurso"])

# Convertir coordenadas a numéricas
df["latitud"] = pd.to_numeric(df["latitud"], errors="coerce")
df["longitud"] = pd.to_numeric(df["longitud"], errors="coerce")

# Cambiar formato de fecha
df["fecha_de_corte"] = pd.to_datetime(
    df["fecha_de_corte"].astype(str),
    format="%Y%m%d", 
    errors="coerce")

# Guardar limpio
df.to_csv("../data/cleaned/inventario_recursos_turisticos_clean.csv", index=False, encoding="utf-8")
print("Archivo limpiado correctamente")

Limpieza y normalización de datos | Turismo en Áreas Naturales Protegidas por el Estado

In [34]:
# Leer CSV original (Latin-1)
df = pd.read_csv("../data/raw/SERNANPdataset_Turismo.csv", 
    sep=",", 
    encoding="utf-8")

# Renombrar columnas
df.columns = (
    df.columns
    .str.strip()
    .str.lower()
    .str.replace(" ", "_")
    .map(lambda x: unidecode.unidecode(x))
)


# Arreglar texto de columnas principales
for col in ["anp", "sector", "departamento", "provincia", "distrito", "procedencia", "edad"]:
    df[col] = (
        df[col]
            .astype(str)
            .str.strip()
            .str.title()
            .apply(lambda x: unidecode.unidecode(x))
    )


# Eliminar filas sin ANP o departamento
df = df.dropna(subset=["anp", "departamento"])
df = df[df["departamento"] != "Nan"]

# Mantener UBIGEO como string para no perder ceros a la izquierda
df["ubigeo"] = df["ubigeo"].astype(str).str.zfill(6)

# Convertir fechas
df["fecha"] = pd.to_datetime(df["fecha"].astype(str), format="%Y%m%d", errors="coerce")
df["fecha_corte"] = pd.to_datetime(df["fecha_corte"].astype(str), format="%Y%m%d", errors="coerce")

# Asegurar tipos numéricos en las visitas
for col in ["visitas_e1", "visitas_e2a3", "visitas_e3a30"]:
    df[col] = pd.to_numeric(df[col], errors="coerce").fillna(0).astype(int)

# Guardar limpio
df.to_csv("../data/cleaned/visitas_anp_clean.csv", index=False, encoding="utf-8")
print("Archivo limpiado correctamente")

Archivo limpiado correctamente


Limpieza y normalización de datos | Servicios Turísticos

In [30]:
# Leer CSV original (Latin-1)
df = pd.read_csv("../data/raw/Reporte_ServiciosTuristicos_iPeru_fecha_Enero2025_.csv", 
    sep=";", 
    encoding="utf-8")

# Renombrar columnas
df.columns = (
    df.columns
    .str.strip()
    .str.lower()
    .str.replace(" ", "_")
    .map(lambda x: unidecode.unidecode(x))
)

# Arreglar texto de columnas principales
for col in [
    "nombre_de_servicio_turistico", "clasificacion", "categoria", "subcategoria",
    "direccion", "correo_electronico", "sitio_web", "telefono",
    "nombre_de_departamento", "nombre_de_provincia", "nombre_de_distrito",
    "siglas", "nombre_de_empresa"
    ]:

    df[col] = (
        df[col]
            .astype(str)
            .str.strip()
            .str.title()
            .apply(lambda x: unidecode.unidecode(x))
    )

# Corregir correos y URLs (minúsculas)
for col in ["correo_electronico", "sitio_web"]:
    if col in df.columns:
        df[col] = df[col].str.lower().str.strip()

# Convertir fechas
for fecha_col in ["fecha_de_registro_de_empresa", "fecha_actualizacion_datos_de_empresa"]:
    if fecha_col in df.columns:
        df[fecha_col] = pd.to_datetime(df[fecha_col], format="%d/%m/%Y", errors="coerce")

# Normalizar RUC y codificación geográfica
if "ruc" in df.columns:
    df["ruc"] = df["ruc"].astype(str).str.strip()

for geo_col in ["codigo_de_departamento", "codigo_de_provincia", "codigo_de_distrito"]:
    if geo_col in df.columns:
        df[geo_col] = df[geo_col].astype(str).str.zfill(2)

# Eliminar duplicados o filas vacías
df = df.dropna(subset=["nombre_de_servicio_turistico", "nombre_de_departamento"])


# Guardar limpio
df.to_csv("../data/cleaned/servicios_turisticos_clean.csv", index=False, encoding="utf-8")
print("Archivo limpiado correctamente")

Archivo limpiado correctamente
