In [1]:
import requests
import pandas as pd

In [2]:
def get_wiki_text(title):
    url = f"https://es.wikipedia.org/w/api.php"
    params = {
        "action": "query",
        "format": "json",
        "prop": "extracts",
        "titles": title,
        "explaintext": True
    }
    response = requests.get(url, params=params)
    data = response.json()
    page = next(iter(data['query']['pages'].values()), None)  # Use None as default value if 'extract' key is not found
    if page:
        return page.get('extract', '')  # Use get method to avoid KeyError
    else:
        print(f"No data found for '{title}'")
        return ''
    
# Define function to retrieve data and create DataFrame
def get_data(category, keywords):
    data = []
    for keyword in keywords:
        text = get_wiki_text(keyword)
        word_count = len(text.split())
        data.append({"title": keyword, "word_count": word_count, "text": text, "category": category})
    return data

In [3]:
# Define keywords for each category
social_keywords = ["sociedad", "cultura", "política", "economía", "político", "elecciones", "sociología", "república", "socialismo", "democracia"]
religion_keywords = ["religión", "creencia", "Dios", "fe", "espiritualidad", "doctrina", "adoración", "teología", "sagrado", "ritual"]
science_keywords = ["ciencia", "tecnología", "matemáticas", "física", "química", "biología", "investigación", "innovación", "ingeniería", "experimento"]
history_keywords = ["historia", "prehistoria", "guerra", "civilización", "historiador", "imperio", "batalla", "arqueología", "cronología", "glaciación"]

In [4]:
# Get data for each category
social_data = get_data("Sociales", social_keywords)
religion_data = get_data("Religión", religion_keywords)
science_data = get_data("Ciencias", science_keywords)
history_data = get_data("Historia", history_keywords)

# Convert data to DataFrame
total_data = social_data + religion_data + science_data + history_data
df = pd.DataFrame(total_data)

# Show DataFrame
df

Unnamed: 0,title,word_count,text,category
0,sociedad,4924,El término sociedad (del latín societas) se re...,Sociales
1,cultura,9079,El término cultura (del latín cultūra)[1]​[2]​...,Sociales
2,política,3217,La política[a]​ es el conjunto de actividades ...,Sociales
3,economía,1049,"La economía (del griego οίκος oikos ""casa"" νoμ...",Sociales
4,político,2155,Una personalidad política es una persona impli...,Sociales
5,elecciones,1731,Las elecciones o comicios son un proceso insti...,Sociales
6,sociología,3419,La sociología[1]​ es la ciencia social que se ...,Sociales
7,república,6800,"Una república (del latín res-publĭca,[1]​ ‘cos...",Sociales
8,socialismo,5053,El socialismo es una corriente filosófica polí...,Sociales
9,democracia,10311,La democracia (del griego: δημοκρατία dēmokrat...,Sociales


In [5]:
df['source']="wiki"
df

Unnamed: 0,title,word_count,text,category,source
0,sociedad,4924,El término sociedad (del latín societas) se re...,Sociales,wiki
1,cultura,9079,El término cultura (del latín cultūra)[1]​[2]​...,Sociales,wiki
2,política,3217,La política[a]​ es el conjunto de actividades ...,Sociales,wiki
3,economía,1049,"La economía (del griego οίκος oikos ""casa"" νoμ...",Sociales,wiki
4,político,2155,Una personalidad política es una persona impli...,Sociales,wiki
5,elecciones,1731,Las elecciones o comicios son un proceso insti...,Sociales,wiki
6,sociología,3419,La sociología[1]​ es la ciencia social que se ...,Sociales,wiki
7,república,6800,"Una república (del latín res-publĭca,[1]​ ‘cos...",Sociales,wiki
8,socialismo,5053,El socialismo es una corriente filosófica polí...,Sociales,wiki
9,democracia,10311,La democracia (del griego: δημοκρατία dēmokrat...,Sociales,wiki


In [6]:
# Se guardan los textos filtrados
df.to_csv('dataset/df_wiki.csv', index=False)