ANTLR4 Memory Usage for Tokenizing a 200MB File

I am experiencing an issue where tokenizing a large 200MB file using ANTLR4 results in over 1GB of memory usage. Here’s the code I am using to process the file:

```java
try (InputStream inputStream = new FileInputStream(file)) {
    CharStream charStream = CharStreams.fromStream(inputStream);
    Lexer lexer = new MySqlLexer(charStream);
    UnbufferedTokenStream<Token> tokenStream = new UnbufferedTokenStream<>(lexer);
    while(true) {
        Token token = tokenStream.LT(1);
        int tokenType = token.getType();
        if (tokenType == Token.EOF) {
            break;
        }
        // ....other code
    }
} catch (Exception e) {
    // Handle exception
}
```
I noticed that as soon as I get the tokenStream, the memory usage spikes to over 1GB. I am using ANTLR4 version 4.13.1 on macOS 15.2. The grammar file I am using is [MySqlLexer.g4](https://github.com/antlr/grammars-v4/blob/master/sql/mysql/Positive-Technologies/MySqlLexer.g4).

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

ANTLR4 Memory Usage for Tokenizing a 200MB File #4770

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

ANTLR4 Memory Usage for Tokenizing a 200MB File #4770

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions