Come funziona lo scraping
Il processo che Verbalist usa per estrarre i contenuti dalle pagine competitor.
Visita automatica
Verbalist visita automaticamente ogni URL nei top 10. Il sistema simula un browser reale per accedere ai contenuti come li vedrebbe un utente.
Estrazione HTML
Il codice HTML completo della pagina viene estratto, inclusi tutti gli elementi: testo, heading, liste, tabelle, immagini (alt text).
Pulizia contenuto
Il sistema rimuove elementi non rilevanti per l'analisi: navigazione, header/footer del sito, sidebar, widget, pubblicità, popup. Resta solo il contenuto principale.
Identificazione contenuto principale
Algoritmi di content extraction identificano il "main content" della pagina, distinguendolo da elementi accessori. Questo garantisce che l'analisi si concentri sul contenuto reale.
Conversione Markdown
L'HTML pulito viene convertito in Markdown strutturato, preservando: gerarchia heading (H1-H6), formattazione (grassetto, corsivo), liste, link, tabelle.
Gestione errori
Se una pagina non è accessibile (404, timeout, protezioni), Verbalist la salta e continua con le altre. L'analisi procede con i contenuti disponibili.