agatha.ml.abstract_generator.tokenizer module¶

class agatha.ml.abstract_generator.tokenizer.AbstractGeneratorTokenizer(tokenizer_model_path, extra_data_path, lowercase)¶

Bases: object

decode_dep(idx)¶

decode_entity_label(idx)¶

decode_mesh(idx)¶

decode_pos(idx)¶

decode_text(ids)¶

decode_year(idx)¶

encode_dep(dep)¶

encode_entity_label(entity_label)¶

encode_for_generation(initial_text=None, year=None, mesh_terms=None, allow_unknown_terms=False)¶

Given initial text and condition data, produce model_in. Intended use:

model = … model.forward(**model.tokenizer.encode_for_generation(

initial_text, year, terms

))

encode_mesh(mesh)¶

encode_pos(pos)¶

encode_sentence(sentence, is_first=False, is_last=False)¶

encode_year(year)¶

len_dep()¶

len_entity_label()¶

len_mesh()¶

len_pos()¶

len_text()¶

len_year()¶

simple_encode_text(text)¶