Sobre o Workshop

Métodos de Aprendizado de Máquina em Dados Textuais têm evoluído constantemente e o sucesso de tais métodos é dependente da representação do problema.

Os métodos tradicionais exploram dados textuais baseados em uma representação no modelo espaço-vetorial que simplifica o problema, como o modelo bag-of-words. Tais modelos também exigem um grande esforço na engenharia de atributos, para identificar uma representação concisa e representativa.

Os métodos mais recentes, por outro lado, avançaram o processo de engenharia de atributos e permitem o aprendizado de representações. Modelos baseados em word embeddings são exemplos populares e o aprendizado de representação baseado em modelos de linguagens e mecanismos de atenção são hoje o estado da arte.

No entanto, mesmo esses modelos mais recentes possuem um limite teórico para o aprendizado. Essa barreira de aprendizado pode ser vista como a barreira da representação "semântica", causada pela presença abundante de dados e informação sobre o problema, mas dados com pouco conhecimento de domínio. Assim, mesmo métodos avançados de engenharia de atributos e aprendizado de representações estão limitados pela falta de semântica embutida nos dados originais.

Nesse sentido, nosso grupo de pesquisa tem investido em propostas inovadoras para lidar com esse problema crítico do gap semântico na representação do problema e do aprendizado de máquina. A estratégia principal é lidar com o enriquecimento semântico da representação. Esse enriquecimento é proveniente de conhecimento externo aos dados originais, como incorporação de ontologias, taxonomias, anotações, exemplos, notícias, artigos, indicadores, manuais, dicionários, e toda a sorte de conhecimento externo do problema. Esse enriquecimento, por sua vez, leva a novos desafios do processo de aprendizado de máquina em textos, envolvendo modelos de fusão de informação, modelos que consideram heterogeneidade do conhecimento e a investigação de métodos de aprendizado que consideram esse novo cenário de representação.

Embora desafiador, lidar com o problema crítico do gap semântico da representação é um dos poucos caminhos para atingir um novo patamar de métodos de aprendizado de máquina. O esforço para obter uma representação mais adequada ao domínio do problema junto com métodos de aprendizado de representação, naturalmente será recompensado por atingir soluções computacionais mais apropriadas para os desafios atualmente exigidos pela sociedade.

Inscrições gratuitas e abertas ao público: Clique Aqui

Programação (20/01/2020)

Horário Apresentador(a) Tema
8h30 Solange Rezende Abertura - Desafios sobre o GAP Semântico do Aprendizado de Máquina para Textos
9h00 Roberta Sinoara Enriquecimento Semântico
9h30 Rafael Rossi Redes Heterogêneas para Textos
10h00 Ricardo Marcacini Aprendizado de Representações
10h30 Intervalo - Coffe-Break Intervalo - Coffe-Break
11h00 Brucce Neves Fusão de Informação na Mineração de Opiniões
11h30 Mariana Fake News
12h00 Intervalo - Almoço Intervalo - Almoço
13h30 Ivan Filho Incorporando Informação Textual de Domínio em Tarefas de Regressão
14h00 Vitor Tonon Sistemas de Recomendação
14h30 Ricardo Scheicher Enriquecimento de Representações de Textos
15h00 Dildre Vasques Relações Implícitas em Bases Textuais
15h30 Intervalo - Coffe-Break Intervalo - Coffe-Break
16h00 - 18h00 Todos os colaboradores Como podemos contribuir/alinhar com os projetos em andamento?
(Bruno Nogueira, Verônica, Camila, Marcos, Jacson, Adailton, Bruno Barbosa, Wheslley, Everton Cherman)

Programação (21/01/2020)

Horário Apresentador(a) Tema
A partir das 09h:00 Anandsing Dwarkasing Planejamento de metas de pesquisa para 2020 (Primeiro Semestre)
14h:00 Todos Grupos de Trabalho de definição de metas (experimentos/papers) para 2020 (Primeiro Semestre)
16h00 Todos Apresentação das metas (experimentos/papers) para 2020 (Primeiro Semestre)

Certificados

Informe o e-mail utilizado no cadastro:

Fotos do Evento

Local de Realização

  • Auditório Prof. Luiz Antonio Favaro
  • ICMC - Instituto De Ciências Matemáticas e de Computação - Bloco 4