Download Data - Mahua Word Embeddings

Complete Dataset

All Files (ZIP)

Download everything in a single archive:

Description	Size	Format
Complete Dataset (all years, all models)	~20 MB	.zip

Download ZIP from GitHub

Model Data by Year

Word embeddings (Word2Vec, FastText, BERT) for each year of the corpus.

1955 (4 files)

Word2Vec Model

1955_model_data_word2vec.json • ~200 KB

Download

FastText Model

1955_model_data_fasttext.json • ~200 KB

Download

BERT Model

1955_model_data_bert.json • ~400 KB

Download

Combined (All Models)

1955_model_data_word2vec_fasttext_bert.json • ~800 KB

Download

1956-1960 (6 years)

Similar structure to 1955. Each year contains:

*_model_data_word2vec.json
*_model_data_fasttext.json
*_model_data_bert.json
*_model_data_word2vec_fasttext_bert.json

Browse Folder

1961 (1 file)

All Models Combined

1961_model_data_word2vec_fasttext_bert.json • ~200 KB

Download

Rationality Analysis Data

Similarity networks for 7 rationality-related concepts (1959_04 jf78).

Model Data (jf78 subcorpus)

Word2Vec (jf78)

1959_04_1_jf78_model_data_word2vec.json • ~100 KB

Download

FastText (jf78)

1959_04_1_jf78_model_data_fasttext.json • ~100 KB

Download

BERT (jf78)

1959_04_1_jf78_model_data_bert.json • ~300 KB

Download

Similarity Networks (7 concepts × 6 methods)

Each concept has 6 methods: cosine, euclidean, manhattan, jaccard, pearson, spearman

Formats: CSV (tabular), JSON (network plot), HTML (interactive visualization)

Browse Similarity Results

Embedding Visualizations

Dimensionality reduction plots (2D/3D) using PCA, t-SNE, and UMAP.

2D Visualizations (1959_04 jf78)

PCA 2D

Multi-model visualization • ~500 KB

Browse

t-SNE 2D

Multi-model visualization • ~500 KB

Browse

UMAP 2D

Multi-model visualization • ~500 KB

Browse

3D Visualizations

PCA 3D

Multi-model visualization

Browse

t-SNE 3D

Multi-model visualization

Browse

UMAP 3D

Multi-model visualization

Browse

Corpus Files

Original text files organized by year.

All Text Files

59 .txt files • ~5 MB total

Browse Corpus

GitHub Repository

The complete dataset is available on GitHub. You can clone the repository or download specific files:

View on GitHub

File Format Guide

JSON Files (Model Data) ▼

Model data is stored in JSON format with the following structure:

{
  "file_info": {
    "filename": "1955.txt",
    "original_length": 93777,
    "processed_tokens_count": 24552
  },
  "text_processing": {
    "processed_tokens": ["風吹", "綠洲", "創刊詞", ...]
  },
  "models_data": {
    "word2vec": {
      "model_type": "word2vec",
      "model_info": {
        "vocabulary_size": 3674,
        "vector_size": 100,
        "vocabulary": [...],
        "word_frequencies": {...},
        "vector_sample": {...},
        "similarity_sample": {...}
      }
    }
  }
}

CSV Files (Similarity Results) ▼

Similarity results are provided in CSV format:

word,x,y,node_id
人,-0.1095,0.0541,0
東西,0.1270,0.2395,1
新詩,0.1264,0.3428,2
作家,0.1729,-0.0222,3

Columns: word, x-coordinate, y-coordinate, node_id

TXT Files (Corpus) ▼

Original text files contain Traditional Chinese text:

蕉風吹遍綠洲

創刊詞

在馬來亞的文藝園地裡，一直缺少一朵鮮艷的花...

[Full article content...]

Files are encoded in UTF-8 with Traditional Chinese characters.