Skip to content

Hitrandil/FidalDataScraping

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Fidal Data Scraping

GPLv3 license Linux Windows macOS made-with-python Visual Studio Code

Il progetto nasce con l'intento di ricreare il database della Fidal popolato con tutti i dati già pubblici e consultabili in maniera libera sul sito FIDAL Italia.

Il software è ancora in fase di sviluppo.

Consulta qua lo stato attuale del progetto:

Dato l'url di una società, passata alla funzione getLinkAtleti(urlSocieta) la funzione recupera dalla pagina tutti i link degli atleti tesserati nell'anno corrente in quella società, man mano che trova i link li passa alla funzione getDatiAtleta(urlAtleta) la quale estrae e inserisce nel dict datoGara[] i seguenti dati:

  • Nome Cognome
  • Data Nascita (se presente)
  • Data prestazione
  • Disciplina
  • Prestazione
  • Società di tesseramento al momento della prestazione

Per ogni prestazione trovata tutta questa stringa viene passata alla funzione insert(dato) la quale carica in maniera grezza i dati sul db.

Miglioramenti logici nel codice:

  • Rendere versatili tutte le funzioni, costruire dizionario per ognuna e gestire l'intero dizionario come dato in ingresso.

Todo:

  • Progettazione db e relativo caricamento corretto;Visual Studio Code
  • polivalenza nell'utilizzo, possibilità di salvare su file di diversi formati i dati prelevati dallo scraping;
  • recuperare i dati degli atleti in pensione, attualmente se un atleta non è tesserato in nessuna società non si riesce a recuperare la sua pagina, se non manualmente;
  • recuperare elenco di tutte le società italiane con relativo indirizzo link;
  • visualizzare stato di avanzamento del caricamento;

Come usarlo?

  • Clonare la repository
  • Creare un DB (da zero oppure utilizzando il file database.sql*) che rispetti il modello er
  • Modificare il file .env con la stessa struttura del modello presente* nella repository inserendo gli estremi di accesso al database
  • Eseguire lo script main.py per popolare il database o per aggiornarlo
Automatizzare l'update del db (linux SO):
  • Inserire nel crontab la seguente stringa:

Compatibilità

Essendo scritto in python è compatibile ovunque questo venga installato. La guida per l'automatizzazione dello script è compatibile solamente con dispositivi Linux.

Contattami

Mi puoi contattare su Telegram: @Hitrandil

Credits

Il software è pensato e creato da @hitrandil .

*i file contrassegnati con asterisco non sono ancora stati creati

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published