Wix blogbejegyzések exportálása Markdownba OpenAI-val
Miért exportáljunk blogbejegyzéseket a Wixből?
Összefoglalva: Ez az útmutató bemutatja, hogyan exportálhatod a Wix blogbejegyzéseket Markdownba három Python szkript segítségével: egy beállítási futó, egy Selenium-alapú scraper és egy OpenAI-hajtotta HTML-Markdown konverter. Az eredmény tiszta, hordozható Markdown fájlok, amelyek készen állnak Hugo, Jekyll vagy bármely statikus oldalgenerátor számára.
A Wix nem kínál natív blog exportálást Markdownba. Ha statikus oldalgenerátorra, mint a Hugo vagy Jekyll, migrálsz, scrapelned kell a renderelt oldalakat, ki kell nyerned a tartalmat és konvertálnod. Ez az útmutató automatizálja az egész folyamatot Python, Selenium, BeautifulSoup és OpenAI GPT API használatával.
A pipeline három szkriptet használ:
fetch_blog_posts.sh— beállítja a környezetet és futtatja a pipeline-tparse_blog_sitemap.py— oldalakat renderel Seleniummal, tartalmat nyer ki, képeket tölt legenerate_md.py— HTML-t konvertál Markdownba OpenAI-n keresztül
1. lépés: Környezet beállítása
#!/bin/bash
echo "🔍 Checking Python installation..."
if ! command -v python3 &> /dev/null; then
echo "❌ Python 3 is not installed. Please install Python 3 and try again."
exit 1
fi
echo "✅ Python 3 found: $(python3 --version)"
VENV_DIR=".venv"
if [ ! -d "$VENV_DIR" ]; then
python3 -m venv "$VENV_DIR"
fi
source "$VENV_DIR/bin/activate"
pip install --upgrade pip
pip install beautifulsoup4 lxml selenium webdriver-manager
python3 parse_blog_sitemap.py
deactivate2. lépés: Blog tartalom scrape-elése és kinyerése
parse_blog_sitemap.py végzi a nehéz munkát: lekéri a sitemap XML-t, rendereli az oldalakat Selenium-mal, kinyeri a <div id="content-wrapper">-t, letölti a képeket és elmenti a tisztított HTML-t.
Miért Selenium és nem requests? A Wix JavaScripttel rendereli a tartalmat. Egy egyszerű HTTP kérés üres oldalhéjat ad vissza.
3. lépés: HTML konvertálása Markdownba OpenAI-val
generate_md.py beolvassa az _index.html fájlokat, elküldi a tartalmat az OpenAI Chat API-nak és kiírja az eredményül kapott Markdownt.
Kimeneti mappastruktúra
downloads/
your-post-title/
_index.html # Kinyert és tisztított HTML
_index.md # Konvertált Markdown
image1.png # Letöltött képekTeljes pipeline futtatása
bash fetch_blog_posts.shHozzájárulás a projekthez
A projekt nyílt forráskódú.
Gyakran ismételt kérdések
Miért nem használhatok egyszerűen requests-et a Wix blogbejegyzések scrape-eléséhez?
Működik ez bármely Wix bloggal?
SITEMAP_URL változót a parse_blog_sitemap.py-ban.
Melyik OpenAI modellt használja?
API_MODEL változót a generate_md.py-ban más modell használatához.