Monolingual Siswati Corpus

Creative Commons Attribution 4.0 InternationalMcKellar, Cindy2022-06-012022-06-012022-03-31https://hdl.handle.net/20.500.12185/559Monolingual corpus for SiSwati. The data is given as a single UTF-8 text file, with each segment on a newline. The dataset contains existing data sourced for the DSAC funded Autshumato project as well as new data sourced for the SADiLaR: Parallel corpora for English into SiSwati project. The data comprises a total of 138, 651 segments with 1,536, 356 SiSwati words.Text138,651 segments with 1,536,356 Siswati wordsSiSwati, monolingualMonolingual Siswati Corpus5.43 Mb