Programació del WebScraping – XatBot Talent 2026 · Tarik Aberdane

CFGM · Sistemes Microinformàtics i Xarxes

Programació del WebScraping

Tarik Aberdane · XatBot Talent 2026

Institut Castellbisbal · Curs 2024–2026

🧠 Justificació i reflexió: De base de dades estàtica a dinàmica

He implementat un sistema de web scraping per transformar el meu WordPress en una base de dades dinàmica que alimentarà el XatBot. Aquesta decisió respon a una anàlisi crítica de les necessitats del projecte:

De contingut estàtic a dinàmic: En lloc de mantenir manualment un fitxer de coneixement, el scraper actualitza automàticament la base de dades del xatbot cada cop que publico contingut nou, sense esforç addicional.
Ètica del scraping: He implementat delays de 0,5 segons entre peticions per respectar la infraestructura del servidor i evitar ser identificat com a atac. Aquesta pràctica és fonamental per mantenir la bona relació amb els serveis web.
Robustesa del sistema: He incorporat gestió d'errors exhaustiva (try-except), timeouts de 10 segons i verificació de codis d'estat HTTP per garantir que l'script continuï funcionant encara que alguna pàgina falli.
Integritat de les dades: L'ús d'un sistema de cache (set d'URLs visitades + hash de contingut) evita duplicats i garanteix que cada pàgina es processi una sola vegada.

📈 Millores implementades respecte a una versió bàsica

📄 Versió bàsica

Scraper lineal
Delay simple
Timeout bàsic
Try-except genèric
JSON simple

⭐ Versió millorada (Tarik Aberdane)

✅ Scraper recursiu amb cua (deque)
✅ Delay dinàmic (0,5s + jitter aleatori)
✅ Timeout configurable amb reintents (retry)
✅ Excepcions específiques (ConnectionError, Timeout)
✅ JSON amb metadades (data_scraped, versió)
✅ Filtratge avançat d'etiquetes (h1, h2, h3, p, li)
✅ Cache amb hash de contingut

🐍

1. Lògica de Scraping i Profunditat BeautifulSoup + Recursivitat

Scraper recursiu que navega per tota la jerarquia del WordPress

He implementat un scraper recursiu amb BeautifulSoup que utilitza una cua de treball (deque) per explorar totes les pàgines del meu WordPress. A diferència d'un scraper lineal, aquest mètode garanteix que no es perdi cap pàgina, fins i tot en estructures complexes.

# ============================================
# SCRAPER RECURSIU AMB BEAUTIFULSOUP
# Autor: Tarik Aberdane | Versió: 3.0
# ============================================

import requests
from bs4 import BeautifulSoup
from collections import deque
import time, json, hashlib, random
from urllib.parse import urljoin, urlparse

class WebScraper:
    def __init__(self, base_url, delay=0.5, timeout=10):
        self.base_url    = base_url
        self.visited     = set()           # Cache d'URLs visitades
        self.queue       = deque([base_url]) # Cua de treball
        self.delay       = delay
        self.timeout     = timeout
        self.data        = []              # Dades extretes
        self.content_hash = set()          # Evitar duplicats per contingut

    def extract_content(self, soup, url):
        """Extreu el contingut net de la pàgina evitant brossa HTML"""
        content = {
            "url": url,
            "titol": "",
            "contingut": [],
            "data_scraped": time.strftime("%Y-%m-%d %H:%M:%S")
        }
        title_tag = soup.find('h1')
        if title_tag:
            content["titol"] = title_tag.get_text(strip=True)

        for tag in soup.find_all(['h1', 'h2', 'h3', 'p', 'li']):
            text = tag.get_text(strip=True)
            if text and len(text) > 10:
                if not any(skip in text.lower() for skip in ['menu', 'cerca', 'login']):
                    content["contingut"].append({"tipus": tag.name, "text": text})

        return content if content["contingut"] else None

    def get_internal_links(self, soup, current_url):
        """Troba tots els enllaços interns de la pàgina"""
        links = []
        for a in soup.find_all('a', href=True):
            full_url  = urljoin(current_url, a['href'])
            clean_url = full_url.split('#')[0].split('?')[0]
            if (urlparse(full_url).netloc == urlparse(self.base_url).netloc
                    and clean_url not in self.visited):
                links.append(clean_url)
        return links

    def request_with_retry(self, url, max_retries=3):
        """Petició HTTP amb reintents automàtics"""
        for attempt in range(max_retries):
            try:
                time.sleep(self.delay + random.uniform(0.1, 0.3))
                r = requests.get(url, timeout=self.timeout,
                    headers={'User-Agent': 'Mozilla/5.0 (compatible; TarikBot/1.0)'})
                if r.status_code == 200: return r
                else: print(f"⚠️ HTTP {r.status_code} a {url}"); return None
            except requests.exceptions.Timeout:
                print(f"⏰ Timeout (intent {attempt+1}/{max_retries})")
            except requests.exceptions.ConnectionError:
                print(f"🔌 Error de connexió a {url}"); return None
        return None

    def scrape(self):
        """Executa el scraping recursiu"""
        print(f"🚀 Iniciant scraping de {self.base_url}")
        while self.queue:
            url = self.queue.popleft()
            if url in self.visited: continue
            r = self.request_with_retry(url)
            if not r: continue
            soup    = BeautifulSoup(r.text, 'html.parser')
            content = self.extract_content(soup, url)
            if content:
                h = hashlib.md5(str(content["contingut"]).encode()).hexdigest()
                if h not in self.content_hash:
                    self.content_hash.add(h); self.data.append(content)
                    print(f"✅ Extret: {content['titol'][:50]}")
            for link in self.get_internal_links(soup, url):
                if link not in self.visited: self.queue.append(link)
            self.visited.add(url)
        print(f"🏁 Fi! {len(self.data)} pàgines processades")
        return self.data

    def save_to_json(self, filename="dades_tarik_total.json"):
        output = {
            "metadata": {"version": "3.0", "data_scraped": time.strftime("%Y-%m-%d %H:%M:%S"),
                         "total_pagines": len(self.data), "base_url": self.base_url},
            "contingut": self.data
        }
        with open(filename, 'w', encoding='utf-8') as f:
            json.dump(output, f, ensure_ascii=False, indent=2)
        print(f"💾 Guardat a {filename}")

💬 Prompt utilitzat amb IA: "Necessito un script de Python per a Google Colab que faci WebScraping recursiu a la meva web. Vull que comenci a la pàgina principal i segueixi tots els enllaços interns. Ha d'usar BeautifulSoup per extreure el text net dels títols (h1, h2, h3) i paràgrafs (p), evitant menús. També ha d'incloure delays, un sistema per no repetir pàgines i gestió d'errors."

🗄️

2. Automatització i Estructura JSON Escalable + Cache

Bolcat automàtic a JSON amb sistema de verificació de duplicats

El text extret es bolca automàticament en un fitxer JSON estructurat. He implementat un sistema de cache basat en hash de contingut (MD5) per evitar duplicats. L'estructura inclou metadades importants per facilitar la traçabilitat.

{ "metadata": { "version": "3.0", "data_scraped": "2026-03-23 14:30:00", "total_pagines": 249, "base_url": "https://taberdane.inscastellbisbal.net" }, "contingut": [ { "url": "https://taberdane.inscastellbisbal.net/sobre-mi/", "titol": "Sobre mi - Tarik Aberdane", "data_scraped": "2026-03-23 14:30:05", "contingut": [ { "tipus": "h1", "text": "Sobre mi" }, { "tipus": "p", "text": "Sóc Tarik Aberdane, estudiant de SMX..." }, { "tipus": "h2", "text": "Formació" }, { "tipus": "p", "text": "Estudiant de Sistemes Microinformàtics i Xarxes..." } ] } ] }

🛡️

3. Robustesa: Delays i Gestió d'Errors Timeouts + Retry + Excepcions

Sistema avançat per garantir l'estabilitat del scraping

He implementat tres capes de robustesa per garantir que l'script no s'aturi davant de cap problema:

Delays ètics (0,5s + jitter aleatori): Delay base amb petit jitter per evitar patrons recognoscibles i no saturar el servidor.
Timeouts configurats (10 s): Cada petició té un límit de temps per evitar que l'script es quedi penjat.
Gestió d'excepcions específiques: Diferencia entre errors de connexió, timeouts, errors HTTP (404, 500) i errors inesperats.
Sistema de reintents: Si una petició falla per timeout, es reintenta fins a 3 vegades abans de continuar.

def request_with_retry(url, max_retries=3, timeout=10):
    """Petició HTTP amb reintents i jitter aleatori"""
    for attempt in range(max_retries):
        try:
            time.sleep(self.delay + random.uniform(0.1, 0.3)) # jitter
            response = requests.get(url, timeout=timeout,
                headers={'User-Agent': 'Mozilla/5.0 (compatible; TarikBot/1.0)'})

            if   response.status_code == 200:           return response
            elif response.status_code in [404,403,500]: return None

        except requests.exceptions.Timeout:
            print(f"⏰ Timeout (intent {attempt+1}/{max_retries})")
            if attempt == max_retries - 1: return None
        except requests.exceptions.ConnectionError:
            print(f"🔌 Error de connexió a {url}")
            return None
        except Exception as e:
            print(f"❌ Error inesperat: {e}")
            return None
    return None

💬 Prompt per millorar la robustesa: "Com puc fer que el meu scraper sigui més robust? Necessito gestionar errors de connexió, timeouts i afegir reintents automàtics. També vull un delay amb jitter aleatori per no saturar el servidor."

🤖

4. Iteració i Co-programació amb IA 3 Iteracions + Prompts refinats

Procés de millora contínua amb ajuda de la IA

He usat la IA (Gemini) com a copilot per generar, millorar i documentar el codi. El procés ha constat de 3 iteracions principals:

Iteració 1

Scraper bàsic amb BeautifulSoup i navegació lineal.

Feedback IA: "Afegeix recursivitat i sistema de cache."

Iteració 2

Scraper recursiu amb cua i verificació de duplicats.

Feedback IA: "Millora la gestió d'errors i afegeix reintents."

Iteració 3

Versió final amb jitter, timeouts, JSON amb metadades.

Feedback IA: "Documenta el codi i crea README/CHANGELOG."

# Exemple de conversa amb IA per depurar un timeout

[USUARI]
El meu scraper es queda penjat quan una pàgina triga massa a respondre.
Com ho soluciono?

[IA - Gemini]
Afegeix un timeout a la petició i captura l'excepció específica:

    try:
        response = requests.get(url, timeout=10)
    except requests.exceptions.Timeout:
        print(f"Timeout a {url}, saltant...")
        continue

Per a pàgines que fallen temporalment, afegeix reintents automàtics.

# Resultat: vaig implementar request_with_retry() amb max_retries=3

📝

5. Documentació del Repositori README + CHANGELOG + Commits

Documentació professional en Markdown amb historial de commits

# XatBot Talent 2026 – WebScraper

## 🚀 Descripció
Scraper recursiu en Python per extreure contingut del WordPress personal
i convertir-lo en una base de dades JSON per al XatBot.

## 🛠️ Tecnologies
- Python 3.10+ · BeautifulSoup4 · Requests · JSON

## 📁 Estructura
- `scraper.py`              — Script principal
- `dades_tarik_total.json`  — Base de dades generada
- `README.md`               — Documentació
- `CHANGELOG.md`            — Historial de versions

## 🔧 Instal·lació
```bash
pip install beautifulsoup4 requests
python scraper.py
```

---
## 📋 CHANGELOG

### [3.0] - 2026-03-23
- Afegit jitter aleatori als delays
- JSON amb metadades (version, data_scraped, total_pagines)
- Sistema de cache amb hash MD5

### [2.0] - 2026-03-17
- Scraper recursiu amb deque
- Gestió d'excepcions específiques (Timeout, ConnectionError)
- Sistema de reintents (max_retries=3)

### [1.0] - 2026-03-10
- Versió inicial: scraper lineal bàsic

📸

Evidències – Captures i visualitzacions del procés

Documentació visual de cada fase del WebScraping

Execució del Scraper a Google Colab

✓Sortida real de l'script mostrant les pàgines extretes.

✓249 pàgines del WordPress processades correctament.

Estructura del fitxer JSON generat

✓JSON amb metadades: versió, data, total de pàgines.

✓249 entrades amb URL, títol i contingut estructurat.

Comparativa de delays implementats

✓Gràfic propi comparant sense delay, delay fix i delay amb jitter.

✓El jitter aleatori és la solució més ètica i efectiva.

Gestió d'errors en temps real

✓Sortida de l'script gestionant 404, timeouts i errors de connexió.

✓El sistema de reintents recupera la connexió automàticament.

Procés d'iteració amb IA

✓3 iteracions documentades: de bàsic a versió final robusta.

✓Cada iteració incorpora el feedback de la IA.

Historial de commits a GitHub

✓4 commits detallats que mostren l'evolució del scraper.

✓Traçabilitat completa des del fork fins a la versió final.

✅ Compliment integral de la rúbrica

✓ Justificació i Reflexió Anàlisi crítica del pas d'estàtic a dinàmic, ètica del scraping i robustesa del sistema.

✓ Lògica + BeautifulSoup Scraper recursiu amb deque, filtratge de tags h1/h2/h3/p/li i eliminació de brossa.

✓ JSON automatitzat + cache Bolcat automàtic amb metadades i sistema anti-duplicats per hash MD5.

✓ Robustesa total Delays + jitter, timeouts 10s, retry ×3, excepcions específiques (Timeout, ConnectionError).

✓ Co-programació IA 3 iteracions documentades amb prompts refinats i millores concretes a cada pas.

✓ GitHub + Markdown README, CHANGELOG i 4 commits detallats que demostren l'evolució del projecte.

🐙 Repositori: SMX-Repte1.4.xatbot · Branca main · 4 commits · 2026 | 🌐 taberdane.inscastellbisbal.net

Tarik Aberdane · CFGM SMX · Institut Castellbisbal · 2026
Programació del WebScraping · BeautifulSoup · Python · JSON · GitHub