Skip to content

llmcompressor.transformers.finetune.data.wikitext

Classes:

WikiTextDataset –

Child text generation class for the Open Platypus dataset

WikiTextDataset

WikiTextDataset(
    dataset_args: DatasetArguments,
    split: str,
    processor: Processor,
)

Bases: TextGenerationDataset

Child text generation class for the Open Platypus dataset

Parameters:

dataset_args
(DatasetArguments) –

configuration settings for dataset loading
split
(str) –

split from dataset to load, for instance test or train[:5%]
processor
(Processor) –

processor or tokenizer to use on dataset

Source code in llmcompressor/transformers/finetune/data/wikitext.py

def __init__(
    self, dataset_args: "DatasetArguments", split: str, processor: Processor
):
    dataset_args = deepcopy(dataset_args)
    dataset_args.dataset = "Salesforce/wikitext"
    dataset_args.text_column = "text"

    super().__init__(
        dataset_args=dataset_args,
        split=split,
        processor=processor,
    )