Blog

Exemple de corpus corrigé 1ere

En utilisant l`approche «minimal Edit», la phrase serait corrigée à: ils créent juste une impression si bien que les gens sont traînés pour l`acheter. Ces corrections possibles sont appelées «références. Avec cette analyse, nous espérons créer une nouvelle référence pour évaluer les algorithmes de correction grammaticale d`erreur et continuer à améliorer les modèles qui peuvent détecter et corriger des formulations non naturelles ou maladroites. L`évaluation préalable minimale de l`édition a identifié les meilleurs systèmes pour effectuer des corrections minimales, mais quels systèmes sont les meilleurs pour effectuer des modifications de fluidité? Les algorithmes de correction de phrase doivent être évalués par rapport à un jeu de données pour tester si l`algorithme fonctionne bien. Nous leur avons également conseillé de conserver le plus possible la phrase originale. Si votre algorithme a essayé de corriger une phrase d`une manière qui ne correspondait pas à l`une des références, alors il serait injustement pénalisé. Le tableau ci-dessous, qui est basé sur une évaluation manuelle de 100 phrases annotées, montre le pourcentage de phrases contenant chaque type d`erreur, ainsi que le pourcentage de ces erreurs qui ont été édités par les humains. Depuis deux ans, nous — Joel Tetreault, Courtney Napoles et Keisuke Sakai — abordons ce problème. Le texte intégral du document peut être trouvé ici. Ces ensembles de données sont constitués de phrases non grammaticales parallèlement à leurs corrections grammaticales respectives. Au lieu d`instruire les annotateurs de classer les erreurs en utilisant des balises d`erreur spécifiques (comme dans l`approche de modification minimale), nous leur avons simplement demandé de corriger chaque phrase de sorte qu`il sonnait naturel.

Pour cette évaluation, nous avions besoin d`un ensemble de données de modifications de la fluidité, qui n`existait pas. Le « Fluency Edit » ressemblerait à quelque chose comme ceci: ils ont juste créer une telle bonne impression que les gens sont obligés de l`acheter. Le graphique ci-dessous, basé sur une évaluation manuelle de 100 phrases, indique le pourcentage de types d`erreurs qui sont restés après que chaque système a été exécuté sur ce jeu de données, par rapport à l`original. Ainsi, nous crowdsourcing 50 anglophones à travers Amazon Mechanical Turk pour annoter un ensemble de données. Joel est le directeur de la recherche de Grammarly, et Courtney et Keisuke sont à la fois Ph. on a demandé aux candidats d`éditer cinq phrases, que nous avons examinées manuellement. Ce jeu de données doit contenir des centaines ou des milliers de phrases grammaticalement incorrectes et une liste des moyens possibles que chaque phrase peut être corrigée. Chaque phrase a été corrigée par quatre annotateurs, ce qui signifie que chaque phrase aurait quatre références. Ce poste a été écrit en collaboration avec Sunshine Yin, un ingénieur logiciel à Grammarly. Les erreurs orthographiques incluent des erreurs d`orthographe, de coupure de mots, de majuscules, de coupures de mot, d`accentuation et de ponctuation. La plupart des jeux de données existants ne contiennent qu`une ou deux références pour chaque phrase erronée (les références supplémentaires sont coûteuses à générer), et ces références ne contiennent que des modifications minimales.

Alors que cette phrase est grammaticalement correcte, aucun locuteur natif ne serait jamais dis-le. Les erreurs grammaticales incluent des erreurs dans la syntaxe comme l`accord sujet-verbe. Les progrès réalisés sur le terrain ont fait beaucoup de chemin, mais nous pouvons continuer à faire mieux. Nous avons décidé de créer une nouvelle méthode d`évaluation qui se concentrerait sur les modifications de fluidité au lieu de modifications minimales uniquement. Centre Johns Hopkins pour le traitement de la langue et de la parole. Étonnamment, nous avons constaté que le système qui a été le meilleur à faire des modifications minimales, AMU, en fait, n`a pas de prix aussi élevé sur les modifications de fluidité. Ce jeu de données, que nous appelons le corpus de l`Université Johns Hopkins (JFLEG), contenait environ 1 500 phrases d`un examen d`aptitude en anglais, écrits par des locuteurs d`un nombre varié de langues non anglaises.

No Comment

Sorry, the comment form is closed at this time.