Probleme mit ShortCodes

Seid Word­Press 2.5 bie­tet das Blogging‐System sei­nen Erwei­te­run­gen (Plugins) die neue Mög­lich­keit an,  mit so genann­ten Short­Codes Inhal­te ein­fach und dyna­misch zu modi­fi­zie­ren. Dazu muss eine Modifikations‐Funktion auf einen ent­spre­chen­den Short­Code regis­triert wer­den, wel­cher dann auto­ma­tisch auf­ge­ru­fen wird. Ein Short­Code kann dabei noch zusätz­li­che Para­me­ter defi­nie­ren, die dann die­ser Funk­ti­on zur Aus­wer­tung durch­ge­reicht wer­den (Bei­spiel mit zwei Para­me­ter: [ShortCode Param1=Wert1 Param2=Wert2]). Eines der berühm­tes­ten WordPress‐Erweiterungen, wel­che in der neus­ten Ver­si­on die­se Tech­no­lo­gie ein­setzt, ist die Gallery‐Verwaltung Next­GEN Gal­le­ry. Und mit ihrem Ein­satz fällt ein klei­ner Feh­ler in Word­Press auf: Short­Codes kom­bi­niert mit sehr lan­gen Bei­trä­gen füh­ren bei der Anzei­ge ger­ne zu einem lee­ren Ergeb­nis.

Dies sieht sehr ver­däch­tig nach einem Speicher‐Problem aus. Doch wo genau tritt der Feh­ler auf und was kann man dage­gen unter­neh­men? Ein klei­ner Such­trip durch den Quell­code von Word­Press (zum Zeit­punkt die­ses Arti­kels in der Ver­si­on 2.7 ) zeig­te bald, dass der Inhalt einer mei­ner lan­gen Arti­kel in der Funk­ti­on wpautop() in der Datei ./wp-includes/formatting.php ver­lo­ren ging. Und zwar genau in der vor­letz­te Zei­le der Funk­ti­on:

$pee = preg_replace('/<p>s*?(' . get_shortcode_regex() . ')s*</p>/s', '$1', $pee); // don't auto-p wrap shortcodes that stand alone

(Word­Press 2.7, Datei formatting.php, Funk­ti­on wpautop(), Zei­le 153)
Die­se Funk­ti­on sorgt dafür, dass vor der Aus­ga­be der Bei­trä­ge Zei­len­um­brü­che in HTML‐Zeilenumbrüche (<br />) und HTML‐Paragraphen (<p />) umge­wan­delt wer­den. Sie wird vor der Erset­zung der Short­Codes auf­ge­ru­fen. Die letz­te Erset­zung sucht nun allein ste­hen­de Short­Codes und ent­fernt mög­li­che (auto­ma­tisch hin­zu­ge­füg­te) Para­gra­phen um die­se. Die hier auf­ge­ru­fe­ne Metho­de get_shortcode_regex() lie­fert dabei das Such­mus­ter für die defi­nier­ten Short­Codes zurück. Die­se befin­det sich in der Datei ./wp-includes/shortcodes.php ab der Zei­le 165. Der hier zurück gelie­fer­te regu­lä­re Aus­druck sucht nach einem Mus­ter in der fol­gen­den Form:

ShortCodes: Problematischer RegEx

Short­Codes: Pro­ble­ma­ti­scher RegEx

In die­sem Aus­druck wer­den zwei nicht‐gierige (non‐greedy, lazy) Quan­to­ren ein­ge­setzt. Dies bedeu­tet, es wird sehr viel Back­tracking betrie­ben: die RegEx‐Engine über­springt im ers­ten Schritt die Zei­chen, wel­che auf sol­che nicht‐gierigen Quan­to­ren pas­sen, da ja an die­ser Stel­le ver­sucht wird, so wenig wie mög­lich ein­zu­fan­gen. Trotz­dem merkt sich die Engi­ne, wo sie not­falls nach­schau­en muss, falls der gan­ze rest­li­che Text so erst­mal nicht in das Such­mus­ter passt. Der “gan­ze Rest” bei gro­ßen Bei­trä­gen mit meh­re­ren nicht‐gierigen Quan­to­ren kann ganz schön viel sein, was die His­to­rie ger­ne anwach­sen lässt. Wir dür­fen nicht ver­ges­sen: die RegEx‐Engine geht am Ende nach und nach wie­der ein Schritt zurück und prüft erneut nach, ob sie ein Ergeb­nis fin­det (Back­tracking). Um den Auf­wand zu mini­mie­ren, bie­tet es sich an, den zu über­prü­fen­den “Rest” lokal ein­zu­schrän­ken. In unse­rem Fall wird der Zei­chen­be­reich der Para­me­ter­paa­re mit dem End­zei­chen ”]” eines Tags begrenzt. Ändern wir nun den roten Abschnitt (.*?) zu ([^]]*?), tren­nen wir somit die Non‐Greedy‐Bereiche (Para­me­ter­paa­re und mög­li­che Zwi­schen­in­hal­te) und mini­mie­ren den Auf­wand und somit den Spei­cher­ver­brauch. Unser über­lan­ger Arti­kel müss­te wie­der erschei­nen.
Mit einer klei­ne Schön­heits­ope­ra­ti­on kön­nen wir noch die (in mei­nen Augen) unnüt­ze grü­ne, nicht‐einfangende Klam­me­rung um den ein­ge­fan­ge­nen optio­na­le Schräg­strich ent­fer­nen: (?:(/))? zu (/)?. Die modi­fi­zier­te Metho­de get_shortcode_regex() sieht nun wie folgt aus:

function get_shortcode_regex() {
    global $shortcode_tags;
    $tagnames = array_keys($shortcode_tags);
    $tagregexp = join( '|', array_map('preg_quote', $tagnames) );
    return '[('.$tagregexp.')b([^]]*?)(/)?](?:(.+?)[/1])?';
}

(Word­Press 2.7, Funk­ti­on get_shortcode_regex(), Zei­le 165 in Datei shortcodes.php)
(Pro­blems in Word­Press with long posts and plugins like Next­GEN Gal­le­ry)

7

Kommentare

  1. smilkobuta  Januar 25, 2009

    Very Thanks to you!!!
    I final­ly unders­tood the source of this pro­blem and pro­blem its­elf.
    I can’t read Ger­man but your com­ment image is very easy to under­stand.
    Dan­ke schön!!

    antworten
  2. smilkobuta  Januar 25, 2009

    I report your code to Word­Press Trac
    http://trac.wordpress.org/ticket/8962

    antworten
  3. Matthias Brusdeylins  Januar 27, 2009

    Thanks for repor­ting this bug to WP Trac. I hope they under­stand, that they have to divi­de the two Non‐Greedy‐Char‐Areas (in our examp­le on the first squa­re bra­cket ”]” — red text). So the engi­ne needs less back­trackings and in this case less memo­ry…
    that’s all… 🙂

    antworten
  4. Matthias Brusdeylins  Juni 16, 2009

    Auch in Word­Press 2.8 ist der Feh­ler wei­ter­hin vor­han­den.
    Hier liegt der Speicher‐Fresser eben­falls in der nicht‐gierigen Klam­me­rung. Die letz­te Zei­le in der Funk­ti­on get_shortcode_regex() lau­tet hier nun kor­ri­giert:
    return '(.?)[('.$tagregexp.')b([^]]*?)(/)?](?:(.+?)[/2])?(.?)';
    Das Ticket ist wei­ter­hin offen:
    http://core.trac.wordpress.org/ticket/8553
    WP 2.9 soll es rich­ten… dabei ist es sooo ein­fach…

    antworten
  5. Matthias Brusdeylins  November 21, 2009

    In Word­Press 2.8.6 besteht das Pro­blem wei­ter­hin. Der Fix oben (Aus­tausch der RegEx‐Zeile) geht aber auch hier und muss nach dem Update wie­der durch­ge­führt wer­den…

    antworten
  6. Matthias Brusdeylins  Dezember 23, 2009

    Mit Word­Press 2.9 ist die­ses Pro­blem noch grö­ßer gewor­den. Der hier beschrei­bene Fix reicht wohl nicht mehr aus. Da unter WP 2.9 auch mein The­me nicht mehr funk­tio­niert (war­um auch immer ?!), wer­de ich mich die­sem The­ma wohl erst ab WP 3.0 anneh­men. Dann mit einem kom­plett über­ar­bei­te­ten The­me.

    antworten

Lassen Sie eine Antwort, um Matthias Brusdeylins
Klicken Sie hier, um die Antwort abzubrechen


Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.

  1. smilkobuta  Januar 25, 2009