O framework, descrito em detalhes em um relatório técnico do ICMC-USP, permite a geração de Conjuntos de Dados (CD) sintéticos multirrótulo utilizando duas estratégias: hiperesferas ou hipercubos. Basicamente, essas estratégias geram randomicamente uma forma geométrica (hiperesfera ou hipercubo) para cada rótulo do CD, as quais são preenchidas com pontos (exemplos) gerados randomicamente. Após, cada exemplo é rotulado de acordo com a forma geométrica a qual pertence, o que determina o multirrótulo do exemplo.
Após escolher a estratégia a ser utilizada, devem ser definidos alguns parâmetros obrigatórios: número de atributos relevantes, número de atributos irrelevantes, número de atributos redundantes, quantidade de rótulos e quantidade de exemplos do CD. Também podem ser definidos alguns parâmetros opcionais, que possuem valores default: tamanho máximo e mínimo das hiperesferas/hipercubos menores, taxa de ruído e nome do CD.
A saída consiste de dois CD sintéticos, um sem ruído e outro com ruído, gerados pelo framework no formato requerido pelo Mulan, uma biblioteca que disponibiliza diversos métodos para o aprendizado multirrótulo. Esse formato envolve dois arquivos: um do tipo ARFF e outro do tipo XML, os quais podem ser diretamente utilizados como entrada para o Mulan.
Para gerar um CD sintético multirrótulo, configure os parâmetros abaixo e clique em "Gerar". Em seguida, clique em "Baixar CD Gerado" para fazer o download dos arquivos.