Projeto Sema
Descrição
Neste projeto, avançaremos no que diz respeito aos sistemas de recuperação de informação (RI) enfatizando a aplicação de processamento da linguagem natural (PLN) em duas abordagens relacionadas:
- A indexação automática dos documentos, apoiada por thesaurus, produzindo uma representação conceitual com temas e subtemas no formato hierárquico, como o de uma tabela de conteúdos (table of contents ou sumário);
- A compreensão da necessidade de informação do usuário, nos mesmos moldes: identificando temas e subtemas também em formato hierárquico.
Assim, temos a representação temática de cada documento como uma estrutura hierárquica de nodos conceituais, estendida também para a consulta do usuário.
A teoria do léxico geractive de Pustejovsky (LGP), especialmente quanto à estrutura Qualia, será aplicada à indexação semântica de documentos, visando estabelecer relacionamentos entre itens léxicos, como base para a construção de thesauri.
Objetivos
O projeto focaliza o processamento da língua portuguesa aplicado à RI. Seu objetivo principal é o aprimoramento da RI através da aplicação de consultas e índices baseados em modelos semânticos. Este objetivo principal desdobra-se nos seguintes objetivos específicos:
- Trabalhar a elucidação de termos de consulta e índice com ênfase no sintagma nominal;
- Obter regras de nominalização para a língua portuguesa;
- Configurar um modelo de base que leve em consideração o modelo do léxico geractive de Pustejovsky;
- Gerar protótipo integrado e aplicar os resultados em consultas a acervos de bibliotecas digitais.
Também são objetivos do projeto, e igualmente importantes, a produção bibliográfica de cunho científico e de cunho didático, e a formação de recursos humanos e a captacitação tecnológica na área.
Metodologia e Estratégia de Ação
O projeto foi desenvolvido sob a coordenação do grupo de pesquisas em PLN da Faculdade de Informática da PUCRS (grupo cadastrado no CNPq, estrato eC, active na área do projeto desde 1990). Este grupo integra componentes de diversas formações (cientistas da computação, linguístas e multidisciplinares), e interage intensamente com outros grupos no país e exterior. Salientamos, nesse contexto, a equipe da Profa. Renata Vieira, do Centro de Ciências Exatas da UNISINOS.
Através da cooperação internacional com Portugual (CAPES/ICCTI projeto FUNDAÇÕES) este projeto ainda conta com dois colaboradores: Profs. José Gabriel Pereira Lopes e Prof. Paulo Quaresma, atualmente desenvolvendo projeto europeu na área de RI. Já vem atuando no projeto europeu o Prof. Alexandre Agustini (da PUCRS, em doutoramento em Portugal), que tem interação prevista no projeto SEMA.
O projeto SEMA tem como base a pesquisa que orienta as atividades atuais do grupo (bolsa de produtividade CNPq da Profa. Vera L. Strube de Lima e uma bolsa IC). O Prof. Marco Gonzalez, que tem forte participação nas diferentes atividades, tem enquadrado neste projeto seu trabalho de doutoramento. Os Profs. da PUCRS, especialmente Vera, Marco, Flávio, João Batista e Gilberto, contam com horas oferecidas pela PUCRS para o desenvolvimento de atividades de pesquisa.
As ações estarão sempre englobando a ótica da formação, da disseminação de resultados (via página Web e via publicações em veículos especializados) em termos de textos didáticos e de textos científicos.