In [132]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Send a GET request to the URL
url = "https://valenciasecreta.com/mejores-barrios-valencia/"
response = requests.get(url)

# Check if the request was successful
if response.status_code == 200:
    # Parse the HTML content
    soup = BeautifulSoup(response.content, "html.parser")

    # Find all the <h2> tags containing neighborhood names
    neighborhood_sections = soup.find_all("h2")

    # Initialize lists to store neighborhood names and information
    neighborhood_names = []
    neighborhood_info = []

    # Iterate through the neighborhood sections and extract their names and corresponding info
    for i in range(len(neighborhood_sections)):
        # Get the name of the neighborhood
        neighborhood_name = neighborhood_sections[i].text.strip()
        
        # Initialize a string to store the information about the neighborhood
        info = ""
        
        # Find all the <p> tags containing information about the neighborhood until the next <h2> tag
        next_tag = neighborhood_sections[i].find_next_sibling()
        while next_tag and next_tag.name != "h2":
            if next_tag.name == "p":
                info += next_tag.text.strip() + "\n"  # Append the text of the <p> tag to the info string
            next_tag = next_tag.find_next_sibling()
        
        # Append the neighborhood name and information to the lists
        neighborhood_names.append(neighborhood_name)
        neighborhood_info.append(info.strip())  # Remove leading and trailing whitespace from the info string

    # Create a DataFrame from the lists
    df = pd.DataFrame({"Neighborhood": neighborhood_names, "Information": neighborhood_info})
else:
    print("Failed to retrieve the webpage.")


In [133]:
df

Unnamed: 0,Neighborhood,Information
0,Ruzafa,"Es la zona de moda de la ciudad, donde se mezc..."
1,El Carmen,Tu favorito si te va la marcha. El barrio de E...
2,Patraix,"Es el segundo mejor barrio de Valencia, según ..."
3,Penya-roja (Camins al Grau),Elegimos este barrio por su cercanía a la Ciud...
4,Pla del Real,Su ubicación es ideal. Cuenta con todos los se...
5,Benimaclet,Este es el barrio preferido para vivir entre l...
6,El Cabanyal,Uno de los barrios más emblemáticos de la ciud...
7,Arrancapins,El barrio de Arrancapins de Valencia que no en...
8,,


In [134]:
import pandas as pd

# df.to_csv('Info_Adicional.csv', index=False)

In [135]:
# Cargamos el csv actualizado
df2 = pd.read_csv('Info_Distritos_Actualizado.csv')

In [136]:
df2

Unnamed: 0,Zona,Información,Barrios
0,Ciutat Vella,"Este es el casco antiguo de Valencia, la zona ...","La Seu, La Xerea, El Carmen, El Pilar (Vellute..."
1,L´Eixample,Es el distrito más de moda de Valencia. Es esp...,"Ruzafa, El Pla del Remei y Gran Vía."
2,Extramurs,Aquí se encuentra el famoso complejo deportivo...,"El Botànic, La Roqueta, La Petxina y Arrancapins."
3,Campanar,Pros: Cerca hay un supermercado Carrefour muy ...,"Campanar, Les Tendetes, El Calvari y Sant Pau."
4,La Zaidia,Esta área está ubicada entre Campanar y El Pla...,"Marxalenes, Morvedre, Trinitat, Tormos y Sant ..."
5,El Pla del Real,Esta área está situada al lado del grande y he...,"Exposició, Mestalla, Jaume Roig y Ciutat Unive..."
6,L’Olivereta,Este distrito está bastante alejado del centro...,"Nou Moles, Soternes, Tres Forques, La Fuensant..."
7,Patraix,El distrito de Patraix está ubicado lejos del ...,"Patraix, Sant Isidre, Vara de Quart, Safranar ..."
8,Jesús,Un área de Valencia con inmuebles de bajo cost...,"La Raiosa, L’Hort de Senabre, La Creu Coberta,..."
9,Quatre Carreres,Las mejores propiedades hay que buscarlas en e...,"Monteolivete, En Corts, Malilla, Fuente de San..."


In [137]:
# Cambiamos los nombres para que sean exactamente iguales
df["Neighborhood"][3] = "Camins al Grau" # Antes era Penya-roja (Camins al Grau)
df["Neighborhood"][4] = "El Pla del Real" # Antes era Pla del Real
df["Neighborhood"][6] = "Cabañal-Cañamelar" # Antes era El Cabanyal

# Sacamos los barrios individuales en una lista
unique_neighborhoods = []
for neighborhood in df['Neighborhood']:
    if neighborhood not in unique_neighborhoods:
        unique_neighborhoods.append(neighborhood)
        
print(unique_neighborhoods)

df


['Ruzafa', 'El Carmen', 'Patraix', 'Camins al Grau', 'El Pla del Real', 'Benimaclet', 'Cabañal-Cañamelar', 'Arrancapins', '']


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df["Neighborhood"][3] = "Camins al Grau" # Antes era Penya-roja (Camins al Grau)
You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never

Unnamed: 0,Neighborhood,Information
0,Ruzafa,"Es la zona de moda de la ciudad, donde se mezc..."
1,El Carmen,Tu favorito si te va la marcha. El barrio de E...
2,Patraix,"Es el segundo mejor barrio de Valencia, según ..."
3,Camins al Grau,Elegimos este barrio por su cercanía a la Ciud...
4,El Pla del Real,Su ubicación es ideal. Cuenta con todos los se...
5,Benimaclet,Este es el barrio preferido para vivir entre l...
6,Cabañal-Cañamelar,Uno de los barrios más emblemáticos de la ciud...
7,Arrancapins,El barrio de Arrancapins de Valencia que no en...
8,,


In [138]:
# Concatenamos la información del nnuevo dataframe (df) a la información del antiguo (df2) cuando el nombre de Neighborhood
# sea igual al nombre de Zona o Barrios

for i, (neighborhood, zone) in enumerate(zip(unique_neighborhoods, df2["Zona"])):
    df2["Barrios"].fillna('', inplace=True)
    mask = df2["Barrios"].str.contains(neighborhood)
    if mask.any():
        df2.loc[mask, "Información"] += " " + df.loc[i, "Information"]


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df2["Barrios"].fillna('', inplace=True)


In [139]:
# Comprobación de la concatenación en las muestras

df2["Información"][7]

'El distrito de Patraix está ubicado lejos del centro de la ciudad. El mercado inmobiliario está representado, principalmente, por viviendas muy antiguas. Sin embargo, se pueden encontrar viviendas relativamente nuevas. La principal desventaja es que, los edificios más o menos nuevos, se encuentran en la zona más alejada del centro, casi a la salida de la ciudad de Valencia. Es el segundo mejor barrio de Valencia, según el barómetro municipal. Sus vecinos lo valoran por su cercanía al centro, la oferta de servicios con muchos supermercados próximos, un gran hospital dentro del barrio, escuelas y parques para niños. Es un lugar perfecto para disfrutar con niños y el Bulevar Sur limita con el barrio, así que si eres de los que les gusta hacer deporte al aire libre, puede ser una opción.\nLa mezcla de culturas también es un rasgo propio de Patraix. Aquí encontrarás restaurantes de cocina española, india, senegalesa o ecuatoriana, entre otros. '

In [140]:
df2.to_csv('Distritos_Ampliado.csv', index=False)

Cogemos más información de otros barrios

In [31]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Obtener el HTML de la URL
url = "https://blog.tiko.es/mejores-barrios-valencia/"
response = requests.get(url)
html = response.content

# Analizar el HTML
soup = BeautifulSoup(html, "html.parser")

# Encontrar todos los elementos h3 (nombres de los barrios)
barrios = soup.find_all("h3")

# Crear listas para almacenar los nombres de los barrios y su información
barrios_list = []
info_list = []

# Iterar sobre los elementos h3 para obtener la información de cada barrio
for i in range(len(barrios)):
    # Nombre del barrio
    barrio = barrios[i].text.strip()
    barrios_list.append(barrio)
    
    # Obtener todos los elementos hermanos del barrio hasta el siguiente barrio
    info = ""
    next_sibling = barrios[i].find_next_sibling()
    while next_sibling and next_sibling.name != "h3":
        info += next_sibling.text.strip() + " "
        next_sibling = next_sibling.find_next_sibling()
    info = info.split(barrios[i + 1].text.strip())[0] if i < len(barrios) - 1 else info
    info_list.append(info.strip())

# Crear el DataFrame
data = {"Barrios": barrios_list, "Información": info_list}
df = pd.DataFrame(data)

# Imprimir el DataFrame
df


Unnamed: 0,Barrios,Información
0,Ruzafa,Este listado no podría empezar por otro barrio...
1,El Carmen,"Perteneciente al distrito de Ciudat Vella, es ..."
2,Monteolivete,Es uno de los barrios más conocidos por su cer...
3,Patraix,"Perteneciente al distrito de Patraix, es otro ..."
4,Arrancapins,"Si buscas una zona tradicional, de las de toda..."
5,Benimaclet,"Situado en el distrito de Benimaclet, es un ba..."
6,Beteró,"De espíritu marinero, este barrio situado en e..."
7,Deja una respuesta Cancelar la respuesta,Tu dirección de correo electrónico no será pub...


In [34]:
df["Información"][4]

'Si buscas una zona tradicional, de las de toda la vida, este barrio, situado en el distrito de Extramurs, es una buena opción. A juzgar por sus edificios señoriales, cualquiera pensaría que es un barrio ostentoso que conserva el encanto de sus orígenes. Cuenta con una amplia variedad de restaurantes asequibles, bares donde tomarte una copa, sitios tranquilos y garitos rockeros.Situado en el centro de la ciudad, limita al norte con La Petxina, al sur con La Raiosa, al este con La Roqueta y Ruzafa, y al oeste con Patraix.En esta zona, el precio del metro cuadrado registrado en este barrio es de 2194€/m2 y tiene alrededor de 23000 habitantes con una renta per cápita media de 25748 euros.'

In [35]:
df.drop(df.index[-1], inplace=True)
df

Unnamed: 0,Barrios,Información
0,Ruzafa,Este listado no podría empezar por otro barrio...
1,El Carmen,"Perteneciente al distrito de Ciudat Vella, es ..."
2,Monteolivete,Es uno de los barrios más conocidos por su cer...
3,Patraix,"Perteneciente al distrito de Patraix, es otro ..."
4,Arrancapins,"Si buscas una zona tradicional, de las de toda..."
5,Benimaclet,"Situado en el distrito de Benimaclet, es un ba..."
6,Beteró,"De espíritu marinero, este barrio situado en e..."


In [36]:
# Get the index of the last row
last_row_index = df.index[-1]

# Get the text from the "Información" column of the last row
info_text = df.at[last_row_index, "Información"]

# Find the position of the word "Resumiendo"
resumiendo_index = info_text.find("Resumiendo")

# Remove the text from "Resumiendo" onwards
info_text = info_text[:resumiendo_index]

# Update the "Información" column of the last row with the modified text
df.at[last_row_index, "Información"] = info_text

# Print the updated DataFrame
df


Unnamed: 0,Barrios,Información
0,Ruzafa,Este listado no podría empezar por otro barrio...
1,El Carmen,"Perteneciente al distrito de Ciudat Vella, es ..."
2,Monteolivete,Es uno de los barrios más conocidos por su cer...
3,Patraix,"Perteneciente al distrito de Patraix, es otro ..."
4,Arrancapins,"Si buscas una zona tradicional, de las de toda..."
5,Benimaclet,"Situado en el distrito de Benimaclet, es un ba..."
6,Beteró,"De espíritu marinero, este barrio situado en e..."


In [37]:
df["Información"][6]

'De espíritu marinero, este barrio situado en el distrito de Poblats Marítims, estuvo separado de la ciudad de Valencia hasta hace algunos años.Es un barrio con mucho encanto por la multitud de zonas de fiesta que tiene, además de sus vistas únicas. El Cabanyal o La Malvarrosa limitan con este barrio y están muy bien conectados con el centro de Valencia, que se encuentra a unos 3 kilómetros.\xa0Beteró se encuentra al este, muy próximo al mar, y está separado del resto de pueblos marítimos por la calle Marino de Lezo. Junto a las avenidas de Tarongers y Blasco Ibáñez, hacen de Beteró un lugar muy bien conectado. Las líneas 5 y 6 de Metrovalencia atraviesan la zona.\xa0El precio del metro cuadrado está registrado en 1759€/m2. Esta zona cuenta con una amplia gama de inmuebles que permiten combinar perfectamente la vida en la playa con la vida en la ciudad. El barrio cuenta con unos 8000 habitantes, donde el nivel adquisitivo medio es de 20177 euros.'

In [38]:
# Cargamos el csv actualizado
df2 = pd.read_csv('Distritos_Ampliado.csv')

In [40]:
# Sacamos los barrios individuales en una lista
unique_neighborhoods = []
for neighborhood in df['Barrios']:
    if neighborhood not in unique_neighborhoods:
        unique_neighborhoods.append(neighborhood)
        
print(unique_neighborhoods)

['Ruzafa', 'El Carmen', 'Monteolivete', 'Patraix', 'Arrancapins', 'Benimaclet', 'Beteró']


In [42]:
# Concatenamos la información del nnuevo dataframe (df) a la información del antiguo (df2) cuando el nombre de Neighborhood
# sea igual al nombre de Zona o Barrios

for i, (neighborhood, zone) in enumerate(zip(unique_neighborhoods, df2["Zona"])):
    df2["Barrios"].fillna('', inplace=True)
    mask = df2["Barrios"].str.contains(neighborhood)
    if mask.any():
        df2.loc[mask, "Información"] += " " + df.loc[i, "Información"]


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df2["Barrios"].fillna('', inplace=True)


In [43]:
df2

Unnamed: 0,Zona,Información,Barrios
0,Ciutat Vella,"Este es el casco antiguo de Valencia, la zona ...","La Seu, La Xerea, El Carmen, El Pilar (Vellute..."
1,L´Eixample,Es el distrito más de moda de Valencia. Es esp...,"Ruzafa, El Pla del Remei y Gran Vía."
2,Extramurs,Aquí se encuentra el famoso complejo deportivo...,"El Botànic, La Roqueta, La Petxina y Arrancapins."
3,Campanar,Pros: Cerca hay un supermercado Carrefour muy ...,"Campanar, Les Tendetes, El Calvari y Sant Pau."
4,La Zaidia,Esta área está ubicada entre Campanar y El Pla...,"Marxalenes, Morvedre, Trinitat, Tormos y Sant ..."
5,El Pla del Real,Esta área está situada al lado del grande y he...,"Exposició, Mestalla, Jaume Roig y Ciutat Unive..."
6,L’Olivereta,Este distrito está bastante alejado del centro...,"Nou Moles, Soternes, Tres Forques, La Fuensant..."
7,Patraix,El distrito de Patraix está ubicado lejos del ...,"Patraix, Sant Isidre, Vara de Quart, Safranar ..."
8,Jesús,Un área de Valencia con inmuebles de bajo cost...,"La Raiosa, L’Hort de Senabre, La Creu Coberta,..."
9,Quatre Carreres,Las mejores propiedades hay que buscarlas en e...,"Monteolivete, En Corts, Malilla, Fuente de San..."


In [44]:
df2["Información"][1]

'Es el distrito más de moda de Valencia. Es especialmente popular el barrio de Ruzafa, el cual está siendo desarrollando activamente. Casi todos los locales comerciales de los pisos inferiores de los edificios están ocupados. Muchos edificios han sido restaurados y las calles están llenas de gente.\xa0 La vivienda aquí es cara, tanto para comprar, como para alquilar. El precio de la vivienda aquí comienza a partir de 160,000 € – 170,000 €. Sin embargo, generalmente, los precios comienzan desde 200,000 €. El área se encuentra muy cerca del centro de la ciudad de Valencia.\nEl barrio de Gran Vía está lleno de hermosos edificios con balcones tradicionales de hierro forjado. Este es un barrio de clase alta, con calles rectas y largas. Las calles principales de Gran Vía y Reino de Valencia, son avenidas con amplias zonas verdes. Las casas aquí son altas, sin embargo, no están ubicadas tan cerca las unas de las otras como en la zona Centro, por lo que las calles tienen mucho sol.\nEn estos b

In [45]:
df2.to_csv('data/Distritos_v3.csv', index=False)