<h2>1) Listado Persona Natural → DataFrame con URL Ficha</h2>

In [40]:
import re, time
import pandas as pd
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

# Listado PN (Persona Natural)
LIST_URL_NAT = "https://www.cmfchile.cl/institucional/mercados/consulta.php?mercado=S&consulta=CSNAT"
HEADERS = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120 Safari/537.36",
    "Accept-Language": "es-CL,es;q=0.9,en;q=0.8",
}

# Descargar
resp = requests.get(LIST_URL_NAT, headers=HEADERS, timeout=30)
resp.raise_for_status()
soup = BeautifulSoup(resp.text, "html.parser")

# Ubicar la tabla con encabezado R.U.T. | Entidad | Vigencia
def headers_de_tabla(tbl):
    thead = tbl.find("thead")
    if thead:
        hdrs = [th.get_text(" ", strip=True) for th in thead.find_all("th")]
    else:
        first_tr = tbl.find("tr")
        hdrs = [td.get_text(" ", strip=True) for td in first_tr.find_all(["th","td"])] if first_tr else []
    return hdrs

target = None
for tbl in soup.find_all("table"):
    hdrs = headers_de_tabla(tbl)
    norm = [re.sub(r"\s+", " ", h.strip()) for h in hdrs]
    if len(norm) >= 3 and norm[0].upper().startswith("R.U.T") and norm[1].lower()=="entidad":
        target = tbl
        break
if not target:
    raise RuntimeError("No encontré la tabla del listado PN.")

# Extraer filas
rows = []
tbody = target.find("tbody")
trs = tbody.find_all("tr") if tbody else target.find_all("tr")[1:]
for tr in trs:
    tds = tr.find_all("td")
    if len(tds) < 3:
        continue
    rut = tds[0].get_text(" ", strip=True)
    entidad_td = tds[1]
    entidad = entidad_td.get_text(" ", strip=True)
    a = entidad_td.find("a")
    href = a.get("href") if a and a.get("href") else ""
    # Resolver relativo contra el listado (así conserva /institucional/mercados/)
    url_ficha = urljoin(LIST_URL_NAT, href) if href else ""
    vig = tds[2].get_text(" ", strip=True)
    rows.append({"R.U.T.": rut, "Entidad": entidad, "Vigencia": vig, "URL Ficha": url_ficha})

df_nat = pd.DataFrame(rows)
pd.set_option("display.max_colwidth", None)
display(df_nat.head(10))
print("Total en listado PN:", len(df_nat))


Unnamed: 0,R.U.T.,Entidad,Vigencia,URL Ficha
0,7827318-6,ABARCA ROJAS MARIA VICTORIA,VI,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7827318&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG3AAf&control=svs&pestania=1
1,7827318-6,ABARCA ROJAS MARIA VICTORIA,VI,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7827318&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG3AAf&control=svs&pestania=1
2,5916556-9,ABARCA ROMERO RUBY PURISIMA,VI,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=5916556&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAWOSAAD&control=svs&pestania=1
3,20079632-2,ABARZUA MOLINA VICENTE MARTÍN,VI,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=20079632&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAWPOAAL&control=svs&pestania=1
4,8971448-6,ABBOTT SANCHEZ JUAN CARLOS,VI,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=8971448&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAGkAAk&control=svs&pestania=1
5,10421164-K,ABDE JAMIS JUAN JOSE,VI,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=10421164&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAGKAAT&control=svs&pestania=1
6,4776668-0,ACEVEDO DEL REAL PEDRO ROBERTO,VI,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=4776668&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAFuAAO&control=svs&pestania=1
7,5245132-9,ACEVEDO GONZALEZ LUIS ALBERTO,VI,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=5245132&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAEGAAW&control=svs&pestania=1
8,7864632-2,ACEVEDO GUILLIBRAND MARIA MARCELA,VI,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7864632&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG/AAS&control=svs&pestania=1
9,9147026-8,ACEVEDO JARA ELIZABETH ERNA,VI,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=9147026&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAGTAAc&control=svs&pestania=1


Total en listado PN: 8039


<h2>2) Normalizar URL Ficha (forzar ruta correcta y conservar row=) + helpers</h2>

In [43]:
from urllib.parse import urlparse, parse_qs, urlencode, urlunparse

def resolver_url_ficha_nat(u: str, list_url: str = LIST_URL_NAT) -> str:
    from urllib.parse import urljoin
    absu = urljoin(list_url, u)
    p = urlparse(absu)
    # Forzar el path correcto
    path_ok = "/institucional/mercados/entidad.php"
    if p.path.endswith("/entidad.php") and p.path != path_ok:
        p = p._replace(path=path_ok)
    # Preservar TODOS los parámetros (incluidos vacíos, como auth=, send=, grupo=)
    qs = parse_qs(p.query, keep_blank_values=True)
    new_q = urlencode(qs, doseq=True)
    return urlunparse((p.scheme, p.netloc, p.path, p.params, new_q, p.fragment))

def set_pestania(url: str, pestaña: int = 1) -> str:
    p = urlparse(url)
    qs = parse_qs(p.query, keep_blank_values=True)
    qs["pestania"] = [str(pestaña)]
    return urlunparse((p.scheme, p.netloc, p.path, p.params, urlencode(qs, doseq=True), p.fragment))

def get_soup(url, tries=3, pause=0.7):
    last = None
    for i in range(tries):
        try:
            r = requests.get(url, headers=HEADERS, timeout=30)
            r.raise_for_status()
            from bs4 import BeautifulSoup
            return BeautifulSoup(r.text, "html.parser")
        except Exception as e:
            last = e
            time.sleep(pause*(i+1))
    raise last

# Normalizar columna URL Ficha
df_nat["URL Ficha"] = df_nat["URL Ficha"].apply(lambda u: resolver_url_ficha_nat(u) if isinstance(u, str) else "")
display(df_nat.head(3)[["URL Ficha"]])


Unnamed: 0,URL Ficha
0,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7827318&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG3AAf&control=svs&pestania=1
1,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7827318&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG3AAf&control=svs&pestania=1
2,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=5916556&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAWOSAAD&control=svs&pestania=1


<h2>3) Parser “canónico” de Identificación (columnas consistentes)</h2>

In [46]:
import numpy as np

CANON_COLS = [
    "rut","nombre_razon_social","nombre_fantasia","vigencia","tipo_persona",
    "numero_inscripcion","tipo_doc_nombramiento","nro_doc_nombramiento",
    "fecha_doc_nombramiento","telefono","domicilio","comuna","ciudad","region","casilla"
]

KEYMAP = [
    (re.compile(r"^r\.?u\.?t\.?$", re.I), "rut"),
    (re.compile(r"raz[oó]n\s*social|^nombre\s*/?\s*raz[oó]n", re.I), "nombre_razon_social"),
    (re.compile(r"nombre\s*de\s*fantas[ií]a", re.I), "nombre_fantasia"),
    (re.compile(r"^vigencia$", re.I), "vigencia"),
    (re.compile(r"tipo\s*de\s*persona", re.I), "tipo_persona"),
    (re.compile(r"(n[uú]mero|nº|n°)\s*de\s*inscripci[oó]n", re.I), "numero_inscripcion"),
    (re.compile(r"tipo\s*documento\s*nombramiento", re.I), "tipo_doc_nombramiento"),
    (re.compile(r"(n[uú]m\.?|nro\.?|n°)\s*documento\s*nombramiento", re.I), "nro_doc_nombramiento"),
    (re.compile(r"fecha\s*documento\s*nombramiento", re.I), "fecha_doc_nombramiento"),
    (re.compile(r"^tel[eé]fono$", re.I), "telefono"),
    (re.compile(r"^domicilio$", re.I), "domicilio"),
    (re.compile(r"^comuna$", re.I), "comuna"),
    (re.compile(r"^ciudad$", re.I), "ciudad"),
    (re.compile(r"^regi[oó]n$", re.I), "region"),
    (re.compile(r"^casilla$", re.I), "casilla"),
]

def _clean_text(x: str) -> str:
    x = "" if x is None else str(x)
    return re.sub(r"\s+", " ", x).strip()

def parse_identificacion_tidy(soup) -> dict:
    # localizar 'Identificacion'
    title = None
    for tag in soup.find_all(["h1","h2","h3","h4","h5"]):
        if "identificacion" in tag.get_text(" ", strip=True).lower():
            title = tag
            break
    table = title.find_next("table") if title else None
    if not table:
        for tbl in soup.find_all("table"):
            if "R.U.T" in tbl.get_text(" ", strip=True):
                table = tbl
                break
    if not table:
        return {c: "" for c in CANON_COLS}

    kv = {}
    for tr in table.find_all("tr"):
        tds = tr.find_all(["td","th"])
        if len(tds) >= 2:
            k = _clean_text(tds[0].get_text(" ", strip=True))
            v = _clean_text(tds[1].get_text(" ", strip=True))
            if k:
                kv[k] = v

    out = {c: "" for c in CANON_COLS}
    for raw_key, val in kv.items():
        for rx, canon in KEYMAP:
            if rx.search(raw_key):
                out[canon] = val
                break
    return out


<h2>4) Probar con 5 fichas (validación rápida)</h2>

In [51]:
muestras = df_nat.head(5).copy()
detalles = []
for _, r in muestras.iterrows():
    url_ident = set_pestania(r["URL Ficha"], pestaña=1)
    print("Probando:", url_ident)
    s = get_soup(url_ident)
    d = parse_identificacion_tidy(s)
    d["url_ficha"] = url_ident
    detalles.append(d)
    time.sleep(0.5)

detalles_df = pd.DataFrame(detalles)
pd.set_option("display.max_colwidth", None)
display(detalles_df)


Probando: https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7827318&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG3AAf&control=svs&pestania=1
Probando: https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7827318&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG3AAf&control=svs&pestania=1
Probando: https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=5916556&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAWOSAAD&control=svs&pestania=1
Probando: https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=20079632&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAWPOAAL&control=svs&pestania=1
Probando: https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=8971448&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAGkAAk&control=svs&pestania=1


Unnamed: 0,rut,nombre_razon_social,nombre_fantasia,vigencia,tipo_persona,numero_inscripcion,tipo_doc_nombramiento,nro_doc_nombramiento,fecha_doc_nombramiento,telefono,domicilio,comuna,ciudad,region,casilla,url_ficha
0,7827318-6,ABARCA ROJAS MARIA VICTORIA,,Corredor No Previs. Con Registro Vigente,Persona Natural,5773,Certificado,,10/01/2003,,CAMPOS 080 POBL. RUBIO,,RANCAGUA,,,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7827318&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG3AAf&control=svs&pestania=1
1,7827318-6,ABARCA ROJAS MARIA VICTORIA,,Corredor No Previs. Con Registro Vigente,Persona Natural,5773,Certificado,,10/01/2003,,CAMPOS 080 POBL. RUBIO,,RANCAGUA,,,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7827318&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG3AAf&control=svs&pestania=1
2,5916556-9,ABARCA ROMERO RUBY PURISIMA,,Corredor No Previs. Con Registro Vigente,Persona Natural,7962,Certificado,,28/06/2016,,SEMINARIO N°390,,PUERTO MONTT,,,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=5916556&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAWOSAAD&control=svs&pestania=1
3,20079632-2,ABARZUA MOLINA VICENTE MARTÍN,,Corredor No Previs. Con Registro Vigente,Persona Natural,9943,Certificado,,17/07/2025,,CARLOS LIRA INFANTE 1111,,SANTIAGO,,,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=20079632&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAWPOAAL&control=svs&pestania=1
4,8971448-6,ABBOTT SANCHEZ JUAN CARLOS,,Corredor No Previs. Con Registro Vigente,Persona Natural,4062,Resolución,110.0,21/06/1990,,"SAN BERNARDO 470, BARRIO O'HIGGINS",,VALPARAISO,,09-8260293,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=8971448&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAGkAAk&control=svs&pestania=1


<h2>5) Correr todo y exportar solo Persona Natural</h2>

In [54]:
det_all_nat = []
for i, r in df_nat.iterrows():
    url_ident = set_pestania(r["URL Ficha"], pestaña=1)
    try:
        s = get_soup(url_ident)
        d = parse_identificacion_tidy(s)
        d["url_ficha"] = url_ident
        det_all_nat.append(d)
    except Exception as e:
        det_all_nat.append({"url_ficha": url_ident, "error": str(e)})
    if (i+1) % 50 == 0:
        print(f"Procesadas {i+1} fichas PN...")
        # opcional checkpoint
        # pd.DataFrame(det_all_nat).to_parquet(f"checkpoint_pn_{i+1}.parquet", index=False)
    time.sleep(0.4)

df_ident_nat = pd.DataFrame(det_all_nat)

# Unir con el listado PN para conservar RUT/Entidad/Vigencia
final_nat = df_nat.merge(df_ident_nat, left_on="URL Ficha", right_on="url_ficha", how="left")

# Limpieza básica
if "fecha_doc_nombramiento" in final_nat.columns:
    final_nat["fecha_doc_nombramiento"] = pd.to_datetime(final_nat["fecha_doc_nombramiento"], dayfirst=True, errors="coerce")
if "telefono" in final_nat.columns:
    final_nat["telefono"] = final_nat["telefono"].astype(str).str.replace(r"\s+", "", regex=True)

# Exportar SOLO PN
final_nat.to_csv("cmf_pn_identificacion_final.csv", index=False, encoding="utf-8-sig")
print("✅ Exportado: cmf_pn_identificacion_final.csv")
display(final_nat.head(3))


Procesadas 50 fichas PN...
Procesadas 100 fichas PN...
Procesadas 150 fichas PN...
Procesadas 200 fichas PN...
Procesadas 250 fichas PN...
Procesadas 300 fichas PN...
Procesadas 350 fichas PN...
Procesadas 400 fichas PN...
Procesadas 450 fichas PN...
Procesadas 500 fichas PN...
Procesadas 550 fichas PN...
Procesadas 600 fichas PN...
Procesadas 650 fichas PN...
Procesadas 700 fichas PN...
Procesadas 750 fichas PN...
Procesadas 800 fichas PN...
Procesadas 850 fichas PN...
Procesadas 900 fichas PN...
Procesadas 950 fichas PN...
Procesadas 1000 fichas PN...
Procesadas 1050 fichas PN...
Procesadas 1100 fichas PN...
Procesadas 1150 fichas PN...
Procesadas 1200 fichas PN...
Procesadas 1250 fichas PN...
Procesadas 1300 fichas PN...
Procesadas 1350 fichas PN...
Procesadas 1400 fichas PN...
Procesadas 1450 fichas PN...
Procesadas 1500 fichas PN...
Procesadas 1550 fichas PN...
Procesadas 1600 fichas PN...
Procesadas 1650 fichas PN...
Procesadas 1700 fichas PN...
Procesadas 1750 fichas PN...
Proce

Unnamed: 0,R.U.T.,Entidad,Vigencia,URL Ficha,rut,nombre_razon_social,nombre_fantasia,vigencia,tipo_persona,numero_inscripcion,...,nro_doc_nombramiento,fecha_doc_nombramiento,telefono,domicilio,comuna,ciudad,region,casilla,url_ficha,error
0,7827318-6,ABARCA ROJAS MARIA VICTORIA,VI,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7827318&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG3AAf&control=svs&pestania=1,7827318-6,ABARCA ROJAS MARIA VICTORIA,,Corredor No Previs. Con Registro Vigente,Persona Natural,5773,...,,2003-01-10,,CAMPOS 080 POBL. RUBIO,,RANCAGUA,,,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7827318&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG3AAf&control=svs&pestania=1,
1,7827318-6,ABARCA ROJAS MARIA VICTORIA,VI,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7827318&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG3AAf&control=svs&pestania=1,7827318-6,ABARCA ROJAS MARIA VICTORIA,,Corredor No Previs. Con Registro Vigente,Persona Natural,5773,...,,2003-01-10,,CAMPOS 080 POBL. RUBIO,,RANCAGUA,,,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7827318&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG3AAf&control=svs&pestania=1,
2,7827318-6,ABARCA ROJAS MARIA VICTORIA,VI,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7827318&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG3AAf&control=svs&pestania=1,7827318-6,ABARCA ROJAS MARIA VICTORIA,,Corredor No Previs. Con Registro Vigente,Persona Natural,5773,...,,2003-01-10,,CAMPOS 080 POBL. RUBIO,,RANCAGUA,,,https://www.cmfchile.cl/institucional/mercados/entidad.php?auth=&send=&mercado=S&rut=7827318&grupo=&tipoentidad=CSNAT&vig=VI&row=AAAwU3AAWAAAAG3AAf&control=svs&pestania=1,
