PreTexT 2: A Reestruturação da Ferramenta de Pré-Processamento de Textos

por Matheus Victor Brum Soares

  1. A ferramenta
  2. Download
  3. Instalação
    1. Windows
    2. Linux
  4. Configuração
  5. Execução
    1. Maid.pm
    2. NGram.pm
    3. Report.pm
  6. Duvidas?

1. A ferramenta

O PreTexT 2 é uma ferramenta de pré-processamento de textos que recentemente foi remodelada para atender a um público maior. A ferramenta utiliza a abordagem bag-of-words para gerar uma tabela atributo-valor a partir de um conjunto de documentos.

2. Download

Download da última versão da ferramenta: Ferramenta PreTexT 2
Download dos módulos necessários para utilização do PreTexT 2: IO-Dirent-0.02.tar.gz e XML-Parser-2.34.tar.gz
Download do relatório técnico com manual completo de uso: Relatório Técnico PreTexT 2
Download do pacote completo do PreTexT 2: PreTexT 2 Completo
Download da versão antiga da ferramenta: PreTexT Antigo

3. Instalação

  1. Windows:
  2. Tenha o ActivePerl instalado, e descompacte o PreTexT 2 em alguma pasta de sua preferência.

  3. Linux:
  4. Tenha o perl instalado, e instale também os pacotes build-essential e libc6. Em seguida descompacte e instale os pacotes IO-Dirent-0.02.tar.gz e XML-Parser-2.34.tar.gz com os comandos:

    1. perl Makefile.PL
    2. sudo make
    3. sudo make install

    Após realizado esse procedimento, descompacte o PreTexT 2 em um diretório de sua preferência.

4. Configuração

O arquivo config.xml contêm todos os parâmetros de configuração do PreTexT 2. Para entender melhor seu funcionamento consulte a seção 3.1 do relatório técnico.

Exemplo do arquivo de configuração: config.xml

Para facilitar a criação do arquivo de configuração, pode ser utilizado um script auxiliar chamado CreateConfig.pl.

5. Execução

Para executar o PreTexT 2 é necessário que o arquivo de configuração esteja correto, e seja executado o comando:

A partir da configuração desejada serão executados um ou mais módulos dente estes: Maid.pm, NGram.pm, Report.pm.

  1. Maid.pm
  2. Módulo responsável pela limpeza dos documentos iniciais. São necessários, para a execução deste módulo, um arquivo de símbolos simbols.xml, zero ou mais arquivos de stoplists, e um diretório contendo o conjunto de documentos. Como saída, este módulo retorna um conjunto de documentos "limpos", e arquivos de informações sobre os stems gerados. Todos estes arquivos são explicados na seção 3.2 do relatório técnico.

  3. NGram.pm
  4. Módulo responsável pela geração de n-grama com qualquer valor de n. Este módulo utiliza como entrada o conjunto de documentos "limpos" gerado pelo módulo anterior. Como saída este módulo retorna arquivos de informações sobre os n-grama gerados (.txt e .all). Todos estes arquivos são explicados na seção 3.3 do relatório técnico.

  5. Report.pm
  6. Módulo responsável pela geração da tabela atributo-valor. Este módulo utiliza como entrada os arquivos .txt e .all de informações sobre os n-grama, gerados pelo módulo anterior. Como saída este módulo retorna a tabela atributo-valor em formato DSX do Discover (.data e .names) e arquivos para geração de gráficos. Todos esses arquivos são explicados na seção 3.4 do relatório técnico.

6. Duvidas?

Duvidas, problemas, sugestões? Me envie um e-mail: caneca at icmc usp br


Trabalho realizado com apoio da CNPq e apoio institucional da USP.
Agradecimentos aos colaboradores deste trabalho Ronaldo C. Prati, Edson Takashi Matsubara, Maria Carolina Monard.
Voltar para a Página Principal Modificado em 4 September, 2008