big-moving.ru/api/soft/ajaxorg/tool/regexp_tokenizer.js

/***** regexp tokenizer */
require("amd-loader");

var Tokenizer = require("../lib/ace/tokenizer").Tokenizer;
var Tokenizer = require("../lib/ace/tokenizer_dev").Tokenizer; // todo can't use tokenizer because of max token count
var TextHighlightRules = require("../lib/ace/mode/text_highlight_rules").TextHighlightRules;

var r = new TextHighlightRules()
r.$rules = {
    start: [
        {token: "anchor", regex: /[\^\$]|\\[bBAZzG]/, merge:false},
        {token: "backRef", regex: /\\([1-9]|k(<\w+\b[+-]?\d>|'\w+\b[+-]?\d'))/, merge:false},
        {include: "charTypes", merge:false},
        {token: "charclass", regex: /\[\^?/, push: "charclass", merge:false},
        {token: "alternation", regex: /\|/, merge:false},
        {include: "quantifiers", merge:false},
        {include: "groups", merge:false},
        {include: "xGroup", merge:true}
    ],
    charTypes: [
        {token: "char", regex: /\\([tvnrbfae]|[0-8]{1,3}|x[\dA-Fa-f]{2}|x7[\dA-Fa-f]{7})/, merge:false}, // todo \cx
        {token: "charType", regex: /\.|\\[wWsSdDhH]/, merge:false},
        {token: "charProperty", regex: /\\p{\w+}/, merge:false},
        {token: "char", regex: /\\./, merge:false},
    ],
    quantifiers: [
        {token: "quantifier", regex: /([?*+]|{\d+\b,?\d*}|{,\d+})[?+]?/, merge:false}
    ],
    charclass: [
        {include: "charTypes", merge:false},
        {token: "charclass.start", regex: /\[\^?/, push: "charclass", merge:false},
        {token: "charclass.end", regex: /\]/, next: "pop", merge:false}
    ],
    groups: [
        {token: "group", regex: /[(]([?](#|[imx\-]+:?|:|=|!|<=|<!|>|<\w+>|'\w+'|))?|[)]/,
            onMatch: function(val, state, stack) {
                if (!stack.groupNumber)
                    stack.groupNumber = 1;

                var isStart = val !== ")";
                var t = {depth:0,type: isStart ? "group.start" : "group.end", value: val};
                t.groupType = val[2];

                if (val == "(") {
                    t.number = stack.groupNumber++;
                    t.isGroup = true
                } else if (t.groupType == "'" || (t.groupType == "<" && val.slice(-1) == ">")) {
                    t.name = val.slice(2, -1)
                    t.isGroup = true
                } else if (t.groupType == ":") {
                    t.isGroup = true
                }

                if (t.groupType && val.indexOf("x") != -1) {
                    var minus = val.indexOf("-");
                    if (minus == -1 || minus > val.indexOf("x"))
                        stack.xGroup = t;
                    else
                        stack.xGroup = null;
                } else if (!isStart && stack.xGroup && stack.xGroup == stack[0]) {
                    if (stack.xGroup.value.slice(-1) == ":")
                        stack.xGroup = null;
                }

                if (isStart) {
                    if (stack.groupDepth) {
                        stack[0].hasChildren = true
                    }
                    stack.groupDepth = (stack.groupDepth||0)+1;
                    stack.unshift(t)
                } else {
                    stack.groupDepth --;
                    t.start = stack.shift(t)
                    t.start.end = t
                }
                return [t]
            }, merge:false
        }
    ],
    xGroup: [
        {token: "text", regex:/\s+/, onMatch: function(val, state, stack) {
            return stack.xGroup ? [] : "text"
        }, merge: true},
        {token: "text", regex: /#/, onMatch: function(val, state, stack) {
            if (stack.xGroup) {
                this.next = "comment";
                stack.unshift(state);
                return  [];
            }
            this.next = "";
            return "text";
        }, merge: true}
    ],
    comment: [{
        regex: "[^\n\r]*|^", token: "",  onMatch: function(val, state, stack) {
            this.next = stack.shift();
            return [];
        }
    }]
}
r.normalizeRules()
var tmReTokenizer = new Tokenizer(r.getRules());

function tokenize(str) {
    return tmReTokenizer.getLineTokens(str).tokens;
}

function toStr(tokens) { return tokens.map(function(x){return x.value}).join("")}


exports.tokenize = tokenize;
exports.toStr = toStr;
exports.tmReTokenizer = tmReTokenizer;
first commit 2022-06-24 15:29:23 +05:00			`/***** regexp tokenizer */`
			`require("amd-loader");`

			`var Tokenizer = require("../lib/ace/tokenizer").Tokenizer;`
			`var Tokenizer = require("../lib/ace/tokenizer_dev").Tokenizer; // todo can't use tokenizer because of max token count`
			`var TextHighlightRules = require("../lib/ace/mode/text_highlight_rules").TextHighlightRules;`

			`var r = new TextHighlightRules()`
			`r.$rules = {`
			`start: [`
			`{token: "anchor", regex: /[\^\$]\|\\[bBAZzG]/, merge:false},`
			`{token: "backRef", regex: /\\([1-9]\|k(<\w+\b[+-]?\d>\|'\w+\b[+-]?\d'))/, merge:false},`
			`{include: "charTypes", merge:false},`
			`{token: "charclass", regex: /\[\^?/, push: "charclass", merge:false},`
			`{token: "alternation", regex: /\\|/, merge:false},`
			`{include: "quantifiers", merge:false},`
			`{include: "groups", merge:false},`
			`{include: "xGroup", merge:true}`
			`],`
			`charTypes: [`
			`{token: "char", regex: /\\([tvnrbfae]\|[0-8]{1,3}\|x[\dA-Fa-f]{2}\|x7[\dA-Fa-f]{7})/, merge:false}, // todo \cx`
			`{token: "charType", regex: /\.\|\\[wWsSdDhH]/, merge:false},`
			`{token: "charProperty", regex: /\\p{\w+}/, merge:false},`
			`{token: "char", regex: /\\./, merge:false},`
			`],`
			`quantifiers: [`
			`{token: "quantifier", regex: /([?+]\|{\d+\b,?\d}\|{,\d+})[?+]?/, merge:false}`
			`],`
			`charclass: [`
			`{include: "charTypes", merge:false},`
			`{token: "charclass.start", regex: /\[\^?/, push: "charclass", merge:false},`
			`{token: "charclass.end", regex: /\]/, next: "pop", merge:false}`
			`],`
			`groups: [`
			`{token: "group", regex: /[(]([?](#\|[imx\-]+:?\|:\|=\|!\|<=\|<!\|>\|<\w+>\|'\w+'\|))?\|[)]/,`
			`onMatch: function(val, state, stack) {`
			`if (!stack.groupNumber)`
			`stack.groupNumber = 1;`

			`var isStart = val !== ")";`
			`var t = {depth:0,type: isStart ? "group.start" : "group.end", value: val};`
			`t.groupType = val[2];`

			`if (val == "(") {`
			`t.number = stack.groupNumber++;`
			`t.isGroup = true`
			`} else if (t.groupType == "'" \|\| (t.groupType == "<" && val.slice(-1) == ">")) {`
			`t.name = val.slice(2, -1)`
			`t.isGroup = true`
			`} else if (t.groupType == ":") {`
			`t.isGroup = true`
			`}`

			`if (t.groupType && val.indexOf("x") != -1) {`
			`var minus = val.indexOf("-");`
			`if (minus == -1 \|\| minus > val.indexOf("x"))`
			`stack.xGroup = t;`
			`else`
			`stack.xGroup = null;`
			`} else if (!isStart && stack.xGroup && stack.xGroup == stack[0]) {`
			`if (stack.xGroup.value.slice(-1) == ":")`
			`stack.xGroup = null;`
			`}`

			`if (isStart) {`
			`if (stack.groupDepth) {`
			`stack[0].hasChildren = true`
			`}`
			`stack.groupDepth = (stack.groupDepth\|\|0)+1;`
			`stack.unshift(t)`
			`} else {`
			`stack.groupDepth --;`
			`t.start = stack.shift(t)`
			`t.start.end = t`
			`}`
			`return [t]`
			`}, merge:false`
			`}`
			`],`
			`xGroup: [`
			`{token: "text", regex:/\s+/, onMatch: function(val, state, stack) {`
			`return stack.xGroup ? [] : "text"`
			`}, merge: true},`
			`{token: "text", regex: /#/, onMatch: function(val, state, stack) {`
			`if (stack.xGroup) {`
			`this.next = "comment";`
			`stack.unshift(state);`
			`return [];`
			`}`
			`this.next = "";`
			`return "text";`
			`}, merge: true}`
			`],`
			`comment: [{`
			`regex: "[^\n\r]*\|^", token: "", onMatch: function(val, state, stack) {`
			`this.next = stack.shift();`
			`return [];`
			`}`
			`}]`
			`}`
			`r.normalizeRules()`
			`var tmReTokenizer = new Tokenizer(r.getRules());`

			`function tokenize(str) {`
			`return tmReTokenizer.getLineTokens(str).tokens;`
			`}`

			`function toStr(tokens) { return tokens.map(function(x){return x.value}).join("")}`


			`exports.tokenize = tokenize;`
			`exports.toStr = toStr;`
			`exports.tmReTokenizer = tmReTokenizer;`