Izvezite Wix blog postove u Markdown s OpenAI
Zašto izvoziti blog postove s Wixa?
Ukratko: Ovaj vodič pokazuje kako izvesti Wix blog postove u Markdown koristeći tri Python skripte: pokretač za postavljanje, Selenium-bazirani scraper i OpenAI-pokretan pretvarač HTML-u-Markdown. Rezultat su čiste, prenosive Markdown datoteke spremne za Hugo, Jekyll ili bilo koji generator statičkih stranica.
Wix ne nudi izvorni izvoz bloga u Markdown. Ako migrirate na generator statičkih stranica poput Huga ili Jekyla, trebate scrapati renderirane stranice, izvući sadržaj i pretvoriti ga. Ovaj vodič automatizira cijeli proces koristeći Python, Selenium, BeautifulSoup i OpenAI GPT API.
Pipeline koristi tri skripte:
fetch_blog_posts.sh— postavlja okruženje i pokreće pipelineparse_blog_sitemap.py— renderira stranice sa Seleniumom, izvlači sadržaj, preuzima slikegenerate_md.py— pretvara HTML u Markdown putem OpenAI
Korak 1: Postavite okruženje
#!/bin/bash
echo "🔍 Checking Python installation..."
if ! command -v python3 &> /dev/null; then
echo "❌ Python 3 is not installed. Please install Python 3 and try again."
exit 1
fi
echo "✅ Python 3 found: $(python3 --version)"
VENV_DIR=".venv"
if [ ! -d "$VENV_DIR" ]; then
echo "📁 Creating virtual environment in $VENV_DIR..."
python3 -m venv "$VENV_DIR"
else
echo "✅ Virtual environment already exists."
fi
echo "⚙️ Activating virtual environment..."
source "$VENV_DIR/bin/activate"
echo "📦 Installing dependencies..."
pip install --upgrade pip
pip install beautifulsoup4 lxml selenium webdriver-manager
echo "🚀 Running blog sitemap parser..."
python3 parse_blog_sitemap.py
deactivateKorak 2: Scrapajte i izvucite sadržaj bloga
parse_blog_sitemap.py obavlja glavni posao: dohvaća sitemap XML, renderira stranice sa Selenium, izvlači <div id="content-wrapper">, preuzima slike i sprema očišćeni HTML.
Zašto Selenium umjesto requests? Wix renderira sadržaj JavaScriptom. Standardni HTTP zahtjev vraća praznu stranicu. Selenium pokreće headless Chrome preglednik.
Korak 3: Pretvorite HTML u Markdown s OpenAI
generate_md.py čita svaku _index.html datoteku, šalje sadržaj OpenAI Chat API-ju i zapisuje rezultirajući Markdown.
Struktura izlaznih mapa
downloads/
your-post-title/
_index.html # Izvučeni i očišćeni HTML
_index.md # Pretvoreni Markdown
image1.png # Preuzete slikePokrenite cijeli pipeline
bash fetch_blog_posts.shDoprinesite projektu
Projekt je otvorenog koda.
Često postavljana pitanja
Zašto ne mogu jednostavno koristiti requests za scrapanje Wix blog postova?
Radi li ovo s bilo kojim Wix blogom?
SITEMAP_URL u parse_blog_sitemap.py.
Koji OpenAI model se koristi?
API_MODEL u generate_md.py.