Come funziona lo scraping

Il processo che Verbalist usa per estrarre i contenuti dalle pagine competitor.

Visita automatica

Verbalist visita automaticamente ogni URL nei top 10. Il sistema simula un browser reale per accedere ai contenuti come li vedrebbe un utente.

Estrazione HTML

Il codice HTML completo della pagina viene estratto, inclusi tutti gli elementi: testo, heading, liste, tabelle, immagini (alt text).

Pulizia contenuto

Il sistema rimuove elementi non rilevanti per l'analisi: navigazione, header/footer del sito, sidebar, widget, pubblicità, popup. Resta solo il contenuto principale.

Identificazione contenuto principale

Algoritmi di content extraction identificano il "main content" della pagina, distinguendolo da elementi accessori. Questo garantisce che l'analisi si concentri sul contenuto reale.

Conversione Markdown

L'HTML pulito viene convertito in Markdown strutturato, preservando: gerarchia heading (H1-H6), formattazione (grassetto, corsivo), liste, link, tabelle.

Gestione errori

Se una pagina non è accessibile (404, timeout, protezioni), Verbalist la salta e continua con le altre. L'analisi procede con i contenuti disponibili.