Pictografische Communicatietechnologieën

Doctoraatsonderzoek, nieuwsbrief #2
Jaar 2: 2016

Leen Sevens, Centrum voor Computerlinguïstiek, KU Leuven
leen@ccl.kuleuven.be
My homepage

Promotor: Prof. Dr. Frank Van Eynde
Co-promotor: Dr. Vincent Vandeghinste


Beste lezer,

We're halfway there! Mijn derde jaar als doctoraatsstudente is nu officieel van start gegaan. Tientallen liters koffie, honderden uren research en duizenden pictogrammen, wat heeft dat nu eigenlijk allemaal al opgeleverd? Hoog tijd voor een update!

Eerst een kleine reminder. Mijn naam is Leen Sevens, maar mensen verwijzen ook wel eens naar mij als "dat meisje dat die dingetjes doet met die prentjes". Aan het Centrum voor Computerlinguïstiek ontwikkelen we kwaliteitsvolle en volautomatische systemen waarmee we tekst naar pictogrammen en pictogrammen naar tekst kunnen vertalen. Wij doen dit om de toegankelijkheid van het internet te vereenvoudigen voor gebruikers die niet (goed) kunnen lezen of schrijven. Hiervoor moeten natuurlijk eerst verschillende taken uitgevoerd worden. In deze nieuwsbrief vertel ik over de dingen die we ontwikkeld hebben, de aspecten die we verbeterd hebben en de plannen die wij binnenkort hopen uit te voeren. Daarnaast zal ik ook mijn wetenschappelijke en minder wetenschappelijke disseminatieactiviteiten becommentariëren.

Ik wil u nogmaals van harte bedanken voor uw interesse en steun. Indien u vragen of opmerkingen heeft, aarzel dan vooral niet om mij te contacteren. Ik sta altijd open voor nieuwe ideeën!



We ontwikkelen en verbeteren het pictogramvertaalsysteem voor het WAI-NOT-communicatieplatform. WAI-NOT is een Vlaamse non-profit organisatie die mensen met zware communicatieve beperkingen de kans geeft om zich vertrouwd te maken met computers, het internet en sociale media. Hun veilige internetomgeving bevat onder meer een e-mailprogramma dat gebruikmaakt van onze pictogramvertaalsystemen.
Daarnaast ontwikkelen we Engelse en Spaanse versies van de systemen binnen het Able-to-Include-project. Able-to-Include wil het leven van mensen met een verstandelijke beperking verbeteren. Om deel uit te maken van de hedendaagse maatschappij, wordt het steeds belangrijker om de huidige beschikbare technologieën te kunnen gebruiken. Het aantal apps groeit exponentieel, maar weinig van die apps zijn echt toegankelijk voor mensen met een verstandelijke beperking. Able-to-Include bouwt een contextgevoelige "Toegankelijkheidslaag" gebaseerd op drie technologieën (pictogramvertaling, tekstvereenvoudiging en tekst-naar-spraak) die de dagelijkse activiteiten van mensen met een verstandelijke beperking kunnen vereenvoudigen en hen toelaten om mee te genieten van de informatiemaatschappij. De Toegankelijkheidslaag wordt getest in Spanje, het Verenigd Koninkrijk en België. Het project loopt nog tot en met maart 2017.




Het Text-to-Pictograph vertaalsysteem vertaalt Nederlandse tekst naar Beta- of Sclera-pictogrammen om steun te bieden bij het begrijpen van geschreven tekst. Voor ik begon met mijn doctoraatsonderzoek, had het Centrum voor Computerlinguïstiek reeds een eerste versie van dit systeem ontwikkeld. Achter de schermen werk ik intussen hard verder aan allerlei taaltechnologische snufjes die het systeem nog gebruiksvriendelijker zouden moeten maken. Merk op dat deze snufjes voorlopig nog niet in de demo beschikbaar zijn en eerst uitvoerig getest moeten worden met onze eindgebruikers.



De automatische spellingscorrector voor mensen met een verstandelijke beperking ontwikkelden we grotendeels tijdens mijn eerste jaar als doctoraatsstudente. Inmiddels heb ik, samen met mijn collega's, het ontwikkelingsproces en de evaluatie van het systeem uitgebreid beschreven in een publicatie voor de LREC-conferentie in Slovenië, die in mei 2016 plaatsvond. De spellingscorrector bestaat enerzijds uit een woordgeneratie- en filteringstap die gedeeltelijk gebaseerd is op het ontdekken van fonetische gelijkenissen, en anderzijds uit een nieuwe benadering voor contextgevoelige spellingscorrectie.



Wat bedoelt een gebruiker wanneer hij/zij het woordje "wiekent" schrijft? Afhankelijk van de context, kan dit "wie kent" (spatie toevoegen), "wieken" ("t" verwijderen), "weekend" (dezelfde uitspraak), of misschien zelfs een ander woord zijn.



Niets nieuws onder de zon? Toch wel! Mijn collega Tom Vanallemeersch en ik ontdekten toevallig dat onze methoden voor spellingscorrectie ook toegepast kunnen worden voor het moderniseren van 17e-eeuwse Nederlandse tekst. Ja, u leest het goed, we gaan doodleuk van online chatboxen naar oude bijbelteksten! 17e-eeuws Nederlands kan problemen stellen voor diachroon onderzoek, aangezien moderne technologieën doorgaans niet getraind zijn op historisch taalgebruik. Daarnaast is de spelling in historische teksten vaak erg inconsistent. Benieuwd of Tom en ik deze uitdagende Shared Task zullen overleven? Kijk dan volgend jaar zeker naar mijn derde nieuwsbrief!



Nederlandse inputtekst in het Text-to-Pictograph vertaalsysteem ondergaat oppervlakkige taalkundige analyse. Deze analyse was tot nu toe beperkt tot het woordniveau. We hebben het systeem verbeterd door diepe taalkundige analyse op het zinsniveau toe te voegen. Het afgelopen jaar heb ik voornamelijk rond dit thema gewerkt.

In de eerste plaats hebben we Word Sense Disambiguation geïmplementeerd. Woorden hebben vaak meerdere betekenissen. Als iemand over een blad praat, bedoelt hij/zij dan een blad van een boom of een velletje papier? Misschien bedoelt hij/zij zelfs een dienblad. Voor het pictogramvertaalsysteem is het belangrijk om dit te weten, aangezien het juiste prentje gegenereerd moet worden binnen een bepaalde context. Hiervoor hebben we het Word Sense Disambiguation-systeem van Ruben Izquierdo een plaatsje gegeven binnen het vertaalproces. Dit systeem zorgt ervoor dat de meest waarschijnlijke betekenis van een woord gekozen wordt alvorens de vertaling naar pictogrammen plaatsvindt.



Wat gebeurt er als we geen Word Sense Disambiguation toepassen en de meest frequente betekenis van een woord kiezen? Dan gaan we wafels bakken met bloem... Zoals met een madeliefje, bijvoorbeeld. Smakelijk!



In het originele pictogramvertaalsysteem was er (bijna) een één-op-één relatie tussen de woorden van de inputzin en de pictogrammen in de outputzin. Een lange inputzin resulteerde dus doorgaans in een lange pictogramvertaling. De volgorde van de woorden uit de originele zin bleef ook onveranderd in de pictozin. Om dan nog maar te zwijgen van ingebedde zinnen, zoals relatieve bijzinnen! Aangezien er veel functiewoorden en grammaticale kenmerken ontbreken in de pictogramvertaling, vonden de eindgebruikers het soms erg moeilijk om de betekenis ervan te achterhalen. De oplossing? Syntactische simplificatie! De zinnen in stukjes kappen, passieve zinnen converteren naar actieve zinnen, Onderwerp-Werkwoord-Object-volgorde (SVO-volgorde) nastreven, enzovoort. We lieten ons inspireren door de regels van de Klare Taal om een waslijst aan uitdagende syntactische fenomen bijeen te sprokkelen. Wanneer een dergelijk fenomeen zich in de inputzin voordoet, wordt het automatisch vereenvoudigd, alvorens de vertaling naar pictogrammen plaatsvindt. Het resultaat? Kortere, leesbare pictogramvertalingen.



Simplificatie van een lange, complexe inputzin. Het nieuwe resultaat bestaat uit drie pictozinnen. Iedere pictozin kan gelezen worden in Onderwerp-Werkwoord(-Object)-volgorde. De passieve bijzin wordt geconverteerd naar een actieve pictozin. Daarnaast wordt het antecedent "postbode" expliciet herhaald.





De Pictograph-to-Text vertaaltechnologie vertaalt Beta- of Sclera-pictogrammen naar Nederlandse tekst om steun te bieden bij het opstellen van geschreven tekst. Voor een kijkje achter de schermen, kan u hier alvast onze demo testen.



De eerste versie van ons Pictograph-to-Text vertaalsysteem ontwikkelden we vorig jaar. Het zoekt een optimale vertaling naar natuurlijke taal door gebruik te maken van trigram taalmodellen, waar mogelijk. Een verdienstelijke poging, maar er is zeker nog werk aan de winkel. In de eerste plaats hebben we, dankzij het harde werk van masterstudent Adriaan Lemmens, een kijkje genomen naar de regelgebaseerde benadering. Het regelgebaseerde systeem werd ontwikkeld in de LKB Engine en is gebaseerd op twee grammatica's die opgesteld werden in het Head-Driven Phrase Structure Grammar-formalisme. Het voordeel van het regelgebaseerde systeem is dat de output ervan (hoogstwaarschijnlijk) grammaticaal correct is. Het nadeel ervan is dat ze, in tegenstelling tot datagedreven benaderingen, voor weinig pictogramzinnen daadwerkelijk een (grammaticaal) antwoord zal genereren. In mijn derde jaar zal ik me ook verdiepen in Recurrent Neural Networks, de allerhipste vorm van Machine Learning. Ik kijk er al naar uit om onze computers te oververhitten!



Pictograph-to-Text vertaling.





Het Pictograph-to-Text vertaalsysteem berust op pictografische input. De eerste versie van mijn pictogramhiërarchie ontwikkelde ik tijdens mijn eerste jaar. De structuur van de hiërarchie is gebaseerd op automatische onderwerpdetectie en frequentietellingen op e-mails die verstuurd werden met het WAI-NOT e-mailsysteem. Dit jaar werd mijn pictogramhiërarchie beschikbaar gesteld op WAI-NOT en in de Able to Include-applicaties. Daarnaast hebben we de interface geëvalueerd en besproken met de eindgebruikers. Sinds de nieuwe interface beschikbaar is, worden er steeds meer pictogramgebaseerde berichtjes gestuurd op WAI-NOT. Daarnaast hebben deze berichtjes in bijna 70% van de gevallen ook nog eens een duidelijke communicatieve boodschap. Dit is een stijging van bijna 40% tegenover de berichtjes die met het oude WAI-NOT systeem gestuurd werden.

Daarenboven hebben we een eerste poging ondernomen om onze twee dynamische pictogramvoorspellers, die nieuwe pictogrammen suggereren aan de gebruikers op basis van de reeds ingevoerde pictogrammen, samen te smelten tot één predictiesysteem.

Als extraatje hebben we ook een Pictograph-to-Pictograph vertaalsysteem ontworpen, waardoor gebruikers van een Beta-interface eenvoudiger kunnen communiceren met gebruikers van een Sclera-interface.



Een voorbeeld van de interface. De gebruiker bevindt zich hier onder "Home" > "Natuur" > "Weer". Deze categorie bevat allerlei weersverschijnselen en objecten of kenmerken die te maken hebben met het weer. Met de blauwe knoppen keert de gebruiker terug naar het vorige niveau in de pictogramhiërarchie ("Natuur"). De oranje knop brengt de gebruiker terug naar "Home".







In vitro-evaluaties van de tools

Voor iedere (versie van iedere) subcomponent die we ontwikkelden, hebben we statistische en manuele evaluaties uitgevoerd. Op die manier kunnen we de toegevoegde waarde van toekomstige verbeteringen nagaan.

In vivo-evaluaties van de ervaringen van de gebruikers

We gaan na wat de impact van ons systeem is op de vaardigheden en het welzijn van de eindgebruikers. We zijn ervan overtuigd dat deze benadering noodzakelijk is om onze tools te verbeteren en ze te modelleren naar de wensen en noden van de gebruikers. Dit jaar was ik tweemaal aanwezig tijdens de gebruikerstests van Able to Include. De eerste sessie vond plaats in Huize Eigen Haard in Aarschot. We onderzochten de meerwaarde van tekst-naar-pictogramvertaling binnen Facebook en Facebook Messenger. De deelnemers beleefden veel plezier aan het gebruik van sociale media door middel van taaltechnologie, maar vonden de pictogramvertaling vaak een beetje te ingewikkeld bij lange en complexe zinnen. Hiervoor werd vervolgens het automatische simplificatiesysteem ontwikkeld.

De tweede sessie vond plaats in Borgerstein in Sint-Katelijne-Waver. Tijdens deze bijeenkomst onderzochten we de nieuwe pictogramhiërarchie van het Pictograph-to-Text vertaalsysteem. We bespraken de communicatieve noden en de verwachtingen van de deelnemers en gingen vervolgens over naar een hands-on sessie met de nieuwe interface. Navigatie in de nieuwe interface vormde geen enkel probleem. Hoewel we vreesden dat de interface te veel pictogrammen zou bevatten, waren de deelnemers van mening dat zij absoluut niet beperkt willen worden in hun picto-woordenschat. Intuïtief konden zij reeds enkele van hun favoriete pictogrammen localiseren in de hiërarchie. Het gebruik van de interface is hoe dan ook een leerproces en we verwachten dat meervoudig gebruik ervan zal leiden tot een betere gebruikerservaring.



In maart 2016 vond onze tweede Able to Include review meeting plaats in Fundación Prodis in Madrid. Prodis is een dagcentrum voor mensen met een verstandelijke beperking. Jongeren leren er bijvoorbeeld werken met e-mail aan de hand van taaltechnologie.





Publicaties (in 2016)

Jaime Medina Maestro, Horacio Saggion, Ineke Schuurman, Leen Sevens, John O’Flaherty, Annelies De Vliegher and Jo Daems (2016). "Towards Integrating People with Intellectual Disabilities in the Digital World". In: Proceedings of the 7th International Workshop on Intelligent Environments Supporting Healthcare and Well-being (WISHWell’16). London, UK. [Download paper]

Leen Sevens, John J. O' Flaherty, Ineke Schuurman, Vincent Vandeghinste and Frank Van Eynde (2016). "E-Inclusion of Functionally Illiterate Users by the use of Language Technology". In: Proceedings of the 2nd Conference on Engineering4Society. Heverlee, Belgium. [Download paper]

Leen Sevens, Gilles Jacobs, Vincent Vandeghinste, Ineke Schuurman and Frank Van Eynde (2016). "Improving Text-to-Pictograph Translation Through Word Sense Disambiguation". In: Proceedings of the 5th Joint Conference on Lexical and Computational Semantics. Berlin, Germany. [Download paper]

Leen Sevens, Tom Vanallemeersch, Ineke Schuurman, Vincent Vandeghinste and Frank Van Eynde (2016). Automated Spelling Correction for Dutch Internet Users with Intellectual Disabilities. In: Proceedings of 1st Workshop on Improving Social Inclusion using NLP: Tools and Resources (ISI-NLP, LREC workshop). Portoroz, Slovenia, pp. 11-19. [Download paper]

Prijzen (in 2016)

LIA (Language Industry Award): 16 maart 2016 - De Taalsector (Brussel, België). Leen Sevens, Vincent Vandeghinste, Ineke Schuurman and Frank Van Eynde - "Text2Picto" als "Beste Taalservice van 2015".





Presentaties (in 2016)

Ik heb nog steeds best wel veel gebabbeld. U vindt al mijn presentaties hier.

Bredere disseminatie (in 2016)

Maart 2016 - Campuskrant (Leuven, België)

In maart werd ik geïnterviewd voor de Campuskrant van KU Leuven. Het artikel verscheen zowel online als in print (editie maart 2016). Je kan het interview hier lezen.



December 2016 - Onderzoek in de Kijker (Faculteit Letteren) (Leuven, België)

Ik werd geïnterviewd voor de rubriek "Onderzoek in de Kijker" van de Faculteit Letteren van KU Leuven. Je kan het interview hier lezen.




December 2016 - IEEE Potentials 36(1): 29-33

Vincent Vandeghinste, Ineke Schuurman en ik kregen de kans om een artikel te schrijven voor IEEE Potentials, een internationaal, wetenschappelijk magazine voor studenten en jonge professionelen. De tekst verscheen in het themanummer "The Hope of Assistive Technology".






Doctoraatsbeurs gesubsidieerd door Agentschap Innoveren & Ondernemen