Natural Language Processing Group

Natural Language Processing

...
The Natural Language Processing lab at PUCRS develops research related to computational semantics, the semantic interpretation of natural language, extraction of information with linguistic processing, corpus-based knowledge engineering, and development and application of ontologies.

Overall Research Themes

  • Information Extraction
  • Named Entity Recognition
  • Ontologies
  • Ontology Learning
  • Extraction of Terms and Concepts
  • Extraction of Semantic Relations
  • Generation of Lexical Resources
  • Thesaurus Generation
  • Semantic Technologies

Current Research Areas

  • Text Interpretation: correference resolution and sentiment analysis
  • Natural Language Interaction: chatbots
  • Organizations: recognizing organization mentions and their relations with locations and people
  • Geology: recognizing mentions of geological entities in text
  • Knowledge Management: use of ontologies in system modeling

Coordinators

  • Renata Vieira
  • Rafael H. Bordini

Contacts

  • telefone: (51) 3320-8612
  • endereço: Av. Ipiranga, 6681 Prédio 32 (Escola Politécnica) - Sala 630 (Laboratório PLN)
  • email: email 1

Introductory Materials

  • Renata Vieira e Vera L. S. Lima. Lingüı́stica computacional: princı́pios e aplicações. Mini-curso das Jornadas de Atualização em Inteligência Artificial. In: Anais do Encontro Nacional de Inteligência Artificial, 2001. Download
  • Vera L. S. Lima, Maria G. V. Nunes e Renata Vieira. Desafios do processamento de línguas naturais. In: Anais do XXVII Congresso da Sociedade Brasileira de Computação, 2007. p. 2202–2216. Download

Tools and Resources

Recursos Online

Reconhecimento de Entidades Nomeadas

  • Corpora: Entidades Geológicas
    Reconhecimento de Entidades Nomeadas para a área de Geologia em textos em Português, denominadas Entidades Geológicas.
  • Ferramenta: NERP-CRF
    Sistema de Reconhecimento de Entidades Nomeadas.

Extração de Relações Abertas entre Entidades Nomeadas

  • Recurso: Textos e listas de Relações
    Extração de Relações abertas que ocorrem entre pares de Entidades Nomeadas do domínio de Organizações para o Português.

Resolução de Correferências

  • Corpora: Summ-it++ , Corref-PT
    Corpora contendo a anotação de correferência para o Português.
  • Ferramentas: CORP versão Desktop , WebDemo e CorrefVisual
    CORP para resolução automática de correferências para o Português, CorrefVisual para visualização e dição de cadeias geradas pelo CORP.

Extração de Termos

  • Corpora: Corpora de Domínio e Listas de Conceitos e Termos
    Corpora envolvendo os seguintes domínios: Pediatria, Geologia, Modelagem Estocástica, Mineração de Dados e Processamento Paralelo. Lista de conceitos e termos relevantes para cada destes domínios.
  • Recurso: Dicionário Bilingue e Corpora Paralelo
    Dicionário bilíngue Inglês-Português para domínios específicos e corpora paralelo.

Identificação de Relações Semânticas entre Pares de Palavras

  • Recurso: Lista de pares de palavras
    Lista de 65 pares de palavras traduzidos para o francês e para o português, contendo cada par sua respectiva pontuação.

Extração de Relações Taxonomicas

  • Ferramenta: HREx
    Ferramenta para a extração de relações taxonomicas (i.e., relações “é um tipo de”) entre termos.

Análise de Sentimentos

  • Léxico de sentimento
    Léxico de sentimento para a língua portuguesa (OpLexicon).
  • TripAdvisor
    Reviews em Português de 10 hotéis do TripAdvisor anotados manualmente com a polaridade de cada feature.
  • WordNetAffectBR
    Base lexical de palavras de emoções para a língua portuguesa.

Ontologias

Corpus não anotado

  • BlogSet-BR
    Coleção de 5 milhões de postagens retiradas de blogs na plataforma Blogspot escritas por usuários brasileiros.

Dicionários de Palavras Médicas

  • Word Embeddings para Saúde
    Coleção de 64 mil palavras com relação semântica e sintática extraídas de 21 milhões de sentenças médicas.