Corpus de testes fiáveis para o processamento de linguagem natural

Autores

DOI:

https://doi.org/10.26334/2183-9077/rapln10ano2023a4

Palavras-chave:

Sistemas de Deteção Automática de Erros, Avaliação de desempenho, Corpus de teste, Avaliação de Sistemas de PLN

Resumo

À medida que o estudo da Tradução Automática (TA) tem vindo a expandir-se ao longo do tempo, a necessidade de detetar e corrigir erros em textos tem também aumentado. Neste sentido, a Unbabel combina tradução automática com pós-edição feita por tradutores e linguistas, para, assim, obter traduções de boa qualidade. De modo a assistir os editores nas suas tarefas, foi desenvolvida uma ferramenta proprietária de deteção de erros denominada de Smartcheck, que identifica erros e sugere correções para os mesmos. O método mais recente de identificação de erros de tradução baseia-se em textos previamente pós-editados e anotados (categorizando cada erro de acordo com as suas características), que são fornecidos aos sistemas de tradução automática como sendo o padrão de avaliação ou o corpus de teste para avaliar a precisão dos sistemas de tradução. Contudo, é de extrema importância considerar que a eficácia dos corpora de teste pode ter um impacto significativo nos resultados das avaliações. De facto, se estes corpora não representarem de forma precisa e representativa o conteúdo, as decisões tomadas com base nas avaliações podem inadvertidamente produzir efeitos indesejados. Assim, é de extrema importância criar corpora de teste adequados, cujos dados sejam representativos das estruturas necessárias para cada sistema, incluindo ferramentas como o Smartcheck. Neste sentido, o presente trabalho permitiu criar e implementar uma nova metodologia de criação de corpus de teste bem fundamentada, que pode ser aplicada no processo de avaliação de sistemas de tradução automática e de ferramentas de deteção de erros. Recorrendo à aplicação deste corpus de avaliação, tornou-se possível confiar nas conclusões e ilações obtidas posteriormente. Esta metodologia possibilitou também que todo o processo de identificação de erros e avaliação de regras gramaticais se tornasse mais robusto, bem como o de deteção de problemas específicos por língua e/ou registo, permitindo, assim, adotar diversas medidas necessárias em produção. Por meio de sugestões de correção de erros válidas do Smartcheck e das melhorias aplicadas ao processo de pós-edição, o presente trabalho demonstrou ser possível aferir a qualidade das traduções que são entregues a diferentes clientes de forma mais cuidada e consistente.

Downloads

Não há dados estatísticos.

Downloads

Publicado

2023-10-22

Como Citar

Cabeça, M., Buchicchio, M., & Moniz, H. (2023). Corpus de testes fiáveis para o processamento de linguagem natural. Revista Da Associação Portuguesa De Linguística, (10), 58–79. https://doi.org/10.26334/2183-9077/rapln10ano2023a4