Monolingual Siswati Corpus

McKellar, Cindy

Please do not copy the URL from the browser for citation. The correct URL is 'https://hdl.handle.net/20.500.12185/559'

Monolingual Siswati Corpus

Files

lcontent.SADILAR.MonolingualCorpus(SS).1.0.1.CAM.2022-03-08.ss.zip (5.43 MB)

Deposit Licenses

license.txt (3.23 KB)

Date

2022-03-31

Authors

McKellar, Cindy

Publisher

North-West University - Centre for Text Technology (CTexT)

Description

Monolingual corpus for SiSwati. The data is given as a single UTF-8 text file, with each segment on a newline. The dataset contains existing data sourced for the DSAC funded Autshumato project as well as new data sourced for the SADiLaR: Parallel corpora for English into SiSwati project. The data comprises a total of 138, 651 segments with 1,536, 356 SiSwati words.

Keywords

SiSwati, monolingual

License

Creative Commons Attribution 4.0 International

URI

https://hdl.handle.net/20.500.12185/559

Collections

Resource Index

Verification status

Level 0

Full item page

Monolingual Siswati Corpus

Files

Deposit Licenses

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

License

URI

Collections

Verification status