In [1]:
import pandas as pd

# Ruta al archivo 
archivo = "/Users/severinodonate/Downloads/planet_osm_roads_202505061812.csv"


# Leer el CSV con el separador correcto
df = pd.read_csv(archivo, sep=";", quotechar='"')

# Mostrar las primeras filas
df.head()


Unnamed: 0,osm_id,access,addr:housename,addr:housenumber,addr:interpolation,admin_level,aerialway,aeroway,amenity,area,...,tunnel,water,waterway,wetland,width,wood,z_order,way_area,tags,way
0,243340237,,,,,4.0,,,,,...,,,,,,,0,,,LINESTRING (-7586171.6153248595 -3489447.61992...
1,267245432,,,,,4.0,,,,,...,,,,,,,0,,,LINESTRING (-7568829.385625106 -3500857.470280...
2,243340236,,,,,4.0,,,,,...,,,,,,,0,,,LINESTRING (-7549286.725814739 -3519955.739796...
3,203991802,,,,,7.0,,,,,...,,,,,,,0,,,LINESTRING (2630982.152682088 4571730.55238385...
4,741777721,,,,,7.0,,,,,...,,,,,,,0,,,LINESTRING (2630869.775656132 4571669.58485430...


In [2]:
import re

def parse_tags(tag_str):
    """
    Convierte un string de tags tipo 'key'=>"value" en un diccionario Python
    """
    if not isinstance(tag_str, str) or tag_str.strip() == "":
        return {}

    # Elimina comillas triples y extrae pares key=>value
    tag_pairs = re.findall(r'"([^"]+)"\s*=>\s*"([^"]*)"', tag_str)
    return {key: value for key, value in tag_pairs}


In [3]:
ejemplo = df['tags'].dropna().iloc[0]
print("Original:", ejemplo)
print("Parseado:", parse_tags(ejemplo))


Original: "lanes"=>"2", "nat_ref"=>"SS3Ter"
Parseado: {'lanes': '2', 'nat_ref': 'SS3Ter'}


In [4]:
df['tags_dict'] = df['tags'].apply(parse_tags)

In [5]:
# Aplicar la función a toda la columna
df['tags_dict'] = df['tags'].apply(parse_tags)

# Mostrar solo las columnas 'tags' y 'tags_dict' para comparar
df[['tags', 'tags_dict']].head()

Unnamed: 0,tags,tags_dict
0,,{}
1,,{}
2,,{}
3,,{}
4,,{}


In [6]:
# Expandir los diccionarios en columnas
tags_expandidos = pd.json_normalize(df['tags_dict'])

# Unir las nuevas columnas al dataframe original
df_expandido = pd.concat([df.drop(columns=['tags_dict']), tags_expandidos], axis=1)

# Mostrar las primeras filas del nuevo dataframe
df_expandido.head()


Unnamed: 0,osm_id,access,addr:housename,addr:housenumber,addr:interpolation,admin_level,aerialway,aeroway,amenity,area,...,destination:backward,bridge:name,alt_name,wikidata,heritage:operator,name:de,name:en,name:es,name:grc,border_type
0,243340237,,,,,4.0,,,,,...,,,,,,,,,,
1,267245432,,,,,4.0,,,,,...,,,,,,,,,,
2,243340236,,,,,4.0,,,,,...,,,,,,,,,,
3,203991802,,,,,7.0,,,,,...,,,,,,,,,,
4,741777721,,,,,7.0,,,,,...,,,,,,,,,,


In [7]:
print("Número de columnas:", df_expandido.shape[1])

Número de columnas: 111


In [8]:
df_expandido.columns.tolist()

['osm_id',
 'access',
 'addr:housename',
 'addr:housenumber',
 'addr:interpolation',
 'admin_level',
 'aerialway',
 'aeroway',
 'amenity',
 'area',
 'barrier',
 'bicycle',
 'brand',
 'bridge',
 'boundary',
 'building',
 'construction',
 'covered',
 'culvert',
 'cutting',
 'denomination',
 'disused',
 'embankment',
 'foot',
 'generator:source',
 'harbour',
 'highway',
 'historic',
 'horse',
 'intermittent',
 'junction',
 'landuse',
 'layer',
 'leisure',
 'lock',
 'man_made',
 'military',
 'motorcar',
 'name',
 'natural',
 'office',
 'oneway',
 'operator',
 'place',
 'population',
 'power',
 'power_source',
 'public_transport',
 'railway',
 'ref',
 'religion',
 'route',
 'service',
 'shop',
 'sport',
 'surface',
 'toll',
 'tourism',
 'tower:type',
 'tracktype',
 'tunnel',
 'water',
 'waterway',
 'wetland',
 'width',
 'wood',
 'z_order',
 'way_area',
 'tags',
 'way',
 'lanes',
 'nat_ref',
 'hgv',
 'hov',
 'psv',
 'goods',
 '4wd_only',
 'mtb:scale',
 'motorcycle',
 'tourist_bus',
 'agricul

In [9]:
# Guardar el dataframe en un nuevo archivo CSV
df_expandido.to_csv("/Users/severinodonate/Downloads/planet_osm_roads_expandido.csv", index=False, sep=';', quoting=1)

In [10]:
# Número total de filas
total_filas = len(df_expandido)

# Crear resumen de cobertura por variable
resumen = (
    df_expandido.notna()
    .sum()
    .reset_index()
    .rename(columns={"index": "variable", 0: "valores"})
)

# Calcular porcentaje de cobertura
resumen["porcentaje"] = (resumen["valores"] / total_filas * 100).round(2)

# Ordenar por porcentaje descendente
resumen = resumen.sort_values(by="porcentaje", ascending=False).reset_index(drop=True)

resumen


Unnamed: 0,variable,valores,porcentaje
0,osm_id,98,100.00
1,way,98,100.00
2,z_order,98,100.00
3,tags,68,69.39
4,ref,60,61.22
...,...,...,...
106,route,0,0.00
107,intermittent,0,0.00
108,religion,0,0.00
109,addr:housename,0,0.00


In [11]:
resumen.to_csv("/Users/severinodonate/Downloads/resumen_variables_roads.csv", index=False)

In [13]:
import pandas as pd

# Cargar el archivo original
archivo = "/Users/severinodonate/Downloads/planet_osm_roads_202505061812.csv"
df = pd.read_csv(archivo, sep=";", quotechar='"')

# Asegurarse de que la columna se llama 'tags'
columna_tags = [col for col in df.columns if 'tags' in col.lower()][0]

# Contar cuántas veces aparece 'wikidata' en esa columna
conteo = df[columna_tags].fillna('').str.contains('wikidata').sum()

print(f"La palabra 'wikidata' aparece en {conteo} filas de la columna '{columna_tags}'.")



La palabra 'wikidata' aparece en 1 filas de la columna 'tags'.
