Paixão de Souza, M. C., Kepler, F. N., Faria, P. (2012). E-Dictor: novas perspectivas na codificação e edição de corpora de textos. In: Tania Shepherd, Tony Berber Sardinha, Marcia Veirano Pinto (orgs.) Caminhos da linguística de corpus. Campinas, SP: Mercado de Letras.
Resumo. Neste artigo apresentamos o E-Dictor, uma ferramenta concebida para auxiliar a edição eletrônica em XML de textos antigos para fins de análise lingüística automática. A versão preliminar da ferramenta (Paixão de Souza & Kepler, 2007) surgiu de demandas observadas na construção do Corpus Anotado do Português Tycho Brahe (CTB) e em atividades de consórcio entre a equipe deste corpus e a equipe do projeto PROHPORUFBA. A experiência com o processo de edição de textos no CTB, em que, além de filologia e linguística, cada editor tinha que aprender a manipular a linguagem XML, tornou flagrante a necessidade de se facilitar a aplicação do sistema e, assim, ampliar seu uso para diferentes grupos de editores. Quanto à confiabilidade, esta experiência inicial nos mostrou que a codificação em XML com intervenção direta sobre o documento é demasiadamente sujeita a falhas e demanda extensa e incessante revisão da codificação. No entanto, as ferramentas disponíveis (na internet) para este fim não supriam as necessidades do CTB. Portanto, ampliar o alcance da anotação XML e torná-la mais amigável e confiável foi a motivação primeira do desenvolvimento de uma ferramenta de anotação específica para textos históricos, com uma interface que medie a relação entre o editor (usuário) e a codificação XML. Além disso, a ferramenta une em um só ambiente tanto a edição do texto quanto a correção de etiquetas morfológicas aplicadas às palavras. Os resultados preliminares do uso do E-Dictor mostram um ganho de pelo menos 50% no tempo total do processo de edição (transcrição-ediçãorevisão).
Palavras-chave: corpora de textos filologia processamento eletrônico análise linguística