Zeichenkodierung
Nicht alle Unicode-Zeichen dürfen in XML-Dateien vorkommen:
- Blog-Artikel zum Thema, mit Java-Code zum Entfernen der nicht erlaubten Zeichen
- Erlaubte Zeichen in XML
Und hier noch eine hilfreiche UTF-8-Zeichentabelle
Grmpf, mein WTF-Moment für heute abend waren zwei URLs, die identisch angezeigt, aber vom robots.txt-Analysator in den Google-Webmaster-Tools unterschiedlich bewertet wurden (die eine mit "Blocked", die andere mit "Syntax not understood").
Die Lösung: Eine der beiden enthielt ein nur im Quellcode sichtbares Zeichen: Das Unicode-Zeichen "LEFT-TO-RIGHT MARK" (U+200E) (als HTML-Entity: ‎)
http://www.cl.cam.ac.uk/~mgk25/unicode.html
http://www.cs.sfu.ca/~ggbaker/reference/characters/
http://www.tbray.org/ongoing/When/200x/2003/04/06/Unicode
http://www.joelonsoftware.com/articles/Unicode.html
http://blogs.msdn.com/oldnewthing/archive/2004/03/24/95235.aspx
(via http://www.codinghorror.com/blog/archives/001084.html + comments)
Kris Köhntopp zum Thema Zeichensätze und MySQL, inklusive Begriffsklärung.