Lexer.cs 23 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633634635636637638639640641642643644645646647648649650651652653654655656657658659660661662663664665666667668669670671672673674675676677678679680681682683684685686687688689690691692693694695696697698699700701702703704705706707708709710711712713714715716717718719720721722723724725726727728729730731732733734735736737738739740741742743744745746747748749750751752753754755756757758759760761762763764765766767768769770771772773774775776777778779780781782783784785786787788789790791792793794795796797798799800801802803804805806807808809810811812813814815816817818819820821822823824825826827828829830831832833834835836837838839840841842843844845846847848849850851852853854855856857858859860861862863864865866867868869870871872873874875876877878879880881882883884885886887888889890891892893894895896897898899900901902903904905906907908909910911912
  1. #region Header
  2. /**
  3. * Lexer.cs
  4. * JSON lexer implementation based on a finite state machine.
  5. *
  6. * The authors disclaim copyright to this source code. For more details, see
  7. * the COPYING file included with this distribution.
  8. **/
  9. #endregion
  10. using System;
  11. using System.Collections.Generic;
  12. using System.IO;
  13. using System.Text;
  14. namespace LitJson
  15. {
  16. internal class FsmContext
  17. {
  18. public bool Return;
  19. public int NextState;
  20. public Lexer L;
  21. public int StateStack;
  22. }
  23. internal class Lexer
  24. {
  25. #region Fields
  26. private delegate bool StateHandler (FsmContext ctx);
  27. private static readonly int[] fsm_return_table;
  28. private static readonly StateHandler[] fsm_handler_table;
  29. private bool allow_comments;
  30. private bool allow_single_quoted_strings;
  31. private bool end_of_input;
  32. private FsmContext fsm_context;
  33. private int input_buffer;
  34. private int input_char;
  35. private TextReader reader;
  36. private int state;
  37. private StringBuilder string_buffer;
  38. private string string_value;
  39. private int token;
  40. private int unichar;
  41. #endregion
  42. #region Properties
  43. public bool AllowComments {
  44. get { return allow_comments; }
  45. set { allow_comments = value; }
  46. }
  47. public bool AllowSingleQuotedStrings {
  48. get { return allow_single_quoted_strings; }
  49. set { allow_single_quoted_strings = value; }
  50. }
  51. public bool EndOfInput {
  52. get { return end_of_input; }
  53. }
  54. public int Token {
  55. get { return token; }
  56. }
  57. public string StringValue {
  58. get { return string_value; }
  59. }
  60. #endregion
  61. #region Constructors
  62. static Lexer ()
  63. {
  64. PopulateFsmTables (out fsm_handler_table, out fsm_return_table);
  65. }
  66. public Lexer (TextReader reader)
  67. {
  68. allow_comments = true;
  69. allow_single_quoted_strings = true;
  70. input_buffer = 0;
  71. string_buffer = new StringBuilder (128);
  72. state = 1;
  73. end_of_input = false;
  74. this.reader = reader;
  75. fsm_context = new FsmContext ();
  76. fsm_context.L = this;
  77. }
  78. #endregion
  79. #region Static Methods
  80. private static int HexValue (int digit)
  81. {
  82. switch (digit) {
  83. case 'a':
  84. case 'A':
  85. return 10;
  86. case 'b':
  87. case 'B':
  88. return 11;
  89. case 'c':
  90. case 'C':
  91. return 12;
  92. case 'd':
  93. case 'D':
  94. return 13;
  95. case 'e':
  96. case 'E':
  97. return 14;
  98. case 'f':
  99. case 'F':
  100. return 15;
  101. default:
  102. return digit - '0';
  103. }
  104. }
  105. private static void PopulateFsmTables (out StateHandler[] fsm_handler_table, out int[] fsm_return_table)
  106. {
  107. // See section A.1. of the manual for details of the finite
  108. // state machine.
  109. fsm_handler_table = new StateHandler[28] {
  110. State1,
  111. State2,
  112. State3,
  113. State4,
  114. State5,
  115. State6,
  116. State7,
  117. State8,
  118. State9,
  119. State10,
  120. State11,
  121. State12,
  122. State13,
  123. State14,
  124. State15,
  125. State16,
  126. State17,
  127. State18,
  128. State19,
  129. State20,
  130. State21,
  131. State22,
  132. State23,
  133. State24,
  134. State25,
  135. State26,
  136. State27,
  137. State28
  138. };
  139. fsm_return_table = new int[28] {
  140. (int) ParserToken.Char,
  141. 0,
  142. (int) ParserToken.Number,
  143. (int) ParserToken.Number,
  144. 0,
  145. (int) ParserToken.Number,
  146. 0,
  147. (int) ParserToken.Number,
  148. 0,
  149. 0,
  150. (int) ParserToken.True,
  151. 0,
  152. 0,
  153. 0,
  154. (int) ParserToken.False,
  155. 0,
  156. 0,
  157. (int) ParserToken.Null,
  158. (int) ParserToken.CharSeq,
  159. (int) ParserToken.Char,
  160. 0,
  161. 0,
  162. (int) ParserToken.CharSeq,
  163. (int) ParserToken.Char,
  164. 0,
  165. 0,
  166. 0,
  167. 0
  168. };
  169. }
  170. private static char ProcessEscChar (int esc_char)
  171. {
  172. switch (esc_char) {
  173. case '"':
  174. case '\'':
  175. case '\\':
  176. case '/':
  177. return Convert.ToChar (esc_char);
  178. case 'n':
  179. return '\n';
  180. case 't':
  181. return '\t';
  182. case 'r':
  183. return '\r';
  184. case 'b':
  185. return '\b';
  186. case 'f':
  187. return '\f';
  188. default:
  189. // Unreachable
  190. return '?';
  191. }
  192. }
  193. private static bool State1 (FsmContext ctx)
  194. {
  195. while (ctx.L.GetChar ()) {
  196. if (ctx.L.input_char == ' ' ||
  197. ctx.L.input_char >= '\t' && ctx.L.input_char <= '\r')
  198. continue;
  199. if (ctx.L.input_char >= '1' && ctx.L.input_char <= '9') {
  200. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  201. ctx.NextState = 3;
  202. return true;
  203. }
  204. switch (ctx.L.input_char) {
  205. case '"':
  206. ctx.NextState = 19;
  207. ctx.Return = true;
  208. return true;
  209. case ',':
  210. case ':':
  211. case '[':
  212. case ']':
  213. case '{':
  214. case '}':
  215. ctx.NextState = 1;
  216. ctx.Return = true;
  217. return true;
  218. case '-':
  219. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  220. ctx.NextState = 2;
  221. return true;
  222. case '0':
  223. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  224. ctx.NextState = 4;
  225. return true;
  226. case 'f':
  227. ctx.NextState = 12;
  228. return true;
  229. case 'n':
  230. ctx.NextState = 16;
  231. return true;
  232. case 't':
  233. ctx.NextState = 9;
  234. return true;
  235. case '\'':
  236. if (! ctx.L.allow_single_quoted_strings)
  237. return false;
  238. ctx.L.input_char = '"';
  239. ctx.NextState = 23;
  240. ctx.Return = true;
  241. return true;
  242. case '/':
  243. if (! ctx.L.allow_comments)
  244. return false;
  245. ctx.NextState = 25;
  246. return true;
  247. default:
  248. return false;
  249. }
  250. }
  251. return true;
  252. }
  253. private static bool State2 (FsmContext ctx)
  254. {
  255. ctx.L.GetChar ();
  256. if (ctx.L.input_char >= '1' && ctx.L.input_char<= '9') {
  257. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  258. ctx.NextState = 3;
  259. return true;
  260. }
  261. switch (ctx.L.input_char) {
  262. case '0':
  263. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  264. ctx.NextState = 4;
  265. return true;
  266. default:
  267. return false;
  268. }
  269. }
  270. private static bool State3 (FsmContext ctx)
  271. {
  272. while (ctx.L.GetChar ()) {
  273. if (ctx.L.input_char >= '0' && ctx.L.input_char <= '9') {
  274. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  275. continue;
  276. }
  277. if (ctx.L.input_char == ' ' ||
  278. ctx.L.input_char >= '\t' && ctx.L.input_char <= '\r') {
  279. ctx.Return = true;
  280. ctx.NextState = 1;
  281. return true;
  282. }
  283. switch (ctx.L.input_char) {
  284. case ',':
  285. case ']':
  286. case '}':
  287. ctx.L.UngetChar ();
  288. ctx.Return = true;
  289. ctx.NextState = 1;
  290. return true;
  291. case '.':
  292. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  293. ctx.NextState = 5;
  294. return true;
  295. case 'e':
  296. case 'E':
  297. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  298. ctx.NextState = 7;
  299. return true;
  300. default:
  301. return false;
  302. }
  303. }
  304. return true;
  305. }
  306. private static bool State4 (FsmContext ctx)
  307. {
  308. ctx.L.GetChar ();
  309. if (ctx.L.input_char == ' ' ||
  310. ctx.L.input_char >= '\t' && ctx.L.input_char <= '\r') {
  311. ctx.Return = true;
  312. ctx.NextState = 1;
  313. return true;
  314. }
  315. switch (ctx.L.input_char) {
  316. case ',':
  317. case ']':
  318. case '}':
  319. ctx.L.UngetChar ();
  320. ctx.Return = true;
  321. ctx.NextState = 1;
  322. return true;
  323. case '.':
  324. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  325. ctx.NextState = 5;
  326. return true;
  327. case 'e':
  328. case 'E':
  329. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  330. ctx.NextState = 7;
  331. return true;
  332. default:
  333. return false;
  334. }
  335. }
  336. private static bool State5 (FsmContext ctx)
  337. {
  338. ctx.L.GetChar ();
  339. if (ctx.L.input_char >= '0' && ctx.L.input_char <= '9') {
  340. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  341. ctx.NextState = 6;
  342. return true;
  343. }
  344. return false;
  345. }
  346. private static bool State6 (FsmContext ctx)
  347. {
  348. while (ctx.L.GetChar ()) {
  349. if (ctx.L.input_char >= '0' && ctx.L.input_char <= '9') {
  350. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  351. continue;
  352. }
  353. if (ctx.L.input_char == ' ' ||
  354. ctx.L.input_char >= '\t' && ctx.L.input_char <= '\r') {
  355. ctx.Return = true;
  356. ctx.NextState = 1;
  357. return true;
  358. }
  359. switch (ctx.L.input_char) {
  360. case ',':
  361. case ']':
  362. case '}':
  363. ctx.L.UngetChar ();
  364. ctx.Return = true;
  365. ctx.NextState = 1;
  366. return true;
  367. case 'e':
  368. case 'E':
  369. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  370. ctx.NextState = 7;
  371. return true;
  372. default:
  373. return false;
  374. }
  375. }
  376. return true;
  377. }
  378. private static bool State7 (FsmContext ctx)
  379. {
  380. ctx.L.GetChar ();
  381. if (ctx.L.input_char >= '0' && ctx.L.input_char<= '9') {
  382. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  383. ctx.NextState = 8;
  384. return true;
  385. }
  386. switch (ctx.L.input_char) {
  387. case '+':
  388. case '-':
  389. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  390. ctx.NextState = 8;
  391. return true;
  392. default:
  393. return false;
  394. }
  395. }
  396. private static bool State8 (FsmContext ctx)
  397. {
  398. while (ctx.L.GetChar ()) {
  399. if (ctx.L.input_char >= '0' && ctx.L.input_char<= '9') {
  400. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  401. continue;
  402. }
  403. if (ctx.L.input_char == ' ' ||
  404. ctx.L.input_char >= '\t' && ctx.L.input_char<= '\r') {
  405. ctx.Return = true;
  406. ctx.NextState = 1;
  407. return true;
  408. }
  409. switch (ctx.L.input_char) {
  410. case ',':
  411. case ']':
  412. case '}':
  413. ctx.L.UngetChar ();
  414. ctx.Return = true;
  415. ctx.NextState = 1;
  416. return true;
  417. default:
  418. return false;
  419. }
  420. }
  421. return true;
  422. }
  423. private static bool State9 (FsmContext ctx)
  424. {
  425. ctx.L.GetChar ();
  426. switch (ctx.L.input_char) {
  427. case 'r':
  428. ctx.NextState = 10;
  429. return true;
  430. default:
  431. return false;
  432. }
  433. }
  434. private static bool State10 (FsmContext ctx)
  435. {
  436. ctx.L.GetChar ();
  437. switch (ctx.L.input_char) {
  438. case 'u':
  439. ctx.NextState = 11;
  440. return true;
  441. default:
  442. return false;
  443. }
  444. }
  445. private static bool State11 (FsmContext ctx)
  446. {
  447. ctx.L.GetChar ();
  448. switch (ctx.L.input_char) {
  449. case 'e':
  450. ctx.Return = true;
  451. ctx.NextState = 1;
  452. return true;
  453. default:
  454. return false;
  455. }
  456. }
  457. private static bool State12 (FsmContext ctx)
  458. {
  459. ctx.L.GetChar ();
  460. switch (ctx.L.input_char) {
  461. case 'a':
  462. ctx.NextState = 13;
  463. return true;
  464. default:
  465. return false;
  466. }
  467. }
  468. private static bool State13 (FsmContext ctx)
  469. {
  470. ctx.L.GetChar ();
  471. switch (ctx.L.input_char) {
  472. case 'l':
  473. ctx.NextState = 14;
  474. return true;
  475. default:
  476. return false;
  477. }
  478. }
  479. private static bool State14 (FsmContext ctx)
  480. {
  481. ctx.L.GetChar ();
  482. switch (ctx.L.input_char) {
  483. case 's':
  484. ctx.NextState = 15;
  485. return true;
  486. default:
  487. return false;
  488. }
  489. }
  490. private static bool State15 (FsmContext ctx)
  491. {
  492. ctx.L.GetChar ();
  493. switch (ctx.L.input_char) {
  494. case 'e':
  495. ctx.Return = true;
  496. ctx.NextState = 1;
  497. return true;
  498. default:
  499. return false;
  500. }
  501. }
  502. private static bool State16 (FsmContext ctx)
  503. {
  504. ctx.L.GetChar ();
  505. switch (ctx.L.input_char) {
  506. case 'u':
  507. ctx.NextState = 17;
  508. return true;
  509. default:
  510. return false;
  511. }
  512. }
  513. private static bool State17 (FsmContext ctx)
  514. {
  515. ctx.L.GetChar ();
  516. switch (ctx.L.input_char) {
  517. case 'l':
  518. ctx.NextState = 18;
  519. return true;
  520. default:
  521. return false;
  522. }
  523. }
  524. private static bool State18 (FsmContext ctx)
  525. {
  526. ctx.L.GetChar ();
  527. switch (ctx.L.input_char) {
  528. case 'l':
  529. ctx.Return = true;
  530. ctx.NextState = 1;
  531. return true;
  532. default:
  533. return false;
  534. }
  535. }
  536. private static bool State19 (FsmContext ctx)
  537. {
  538. while (ctx.L.GetChar ()) {
  539. switch (ctx.L.input_char) {
  540. case '"':
  541. ctx.L.UngetChar ();
  542. ctx.Return = true;
  543. ctx.NextState = 20;
  544. return true;
  545. case '\\':
  546. ctx.StateStack = 19;
  547. ctx.NextState = 21;
  548. return true;
  549. default:
  550. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  551. continue;
  552. }
  553. }
  554. return true;
  555. }
  556. private static bool State20 (FsmContext ctx)
  557. {
  558. ctx.L.GetChar ();
  559. switch (ctx.L.input_char) {
  560. case '"':
  561. ctx.Return = true;
  562. ctx.NextState = 1;
  563. return true;
  564. default:
  565. return false;
  566. }
  567. }
  568. private static bool State21 (FsmContext ctx)
  569. {
  570. ctx.L.GetChar ();
  571. switch (ctx.L.input_char) {
  572. case 'u':
  573. ctx.NextState = 22;
  574. return true;
  575. case '"':
  576. case '\'':
  577. case '/':
  578. case '\\':
  579. case 'b':
  580. case 'f':
  581. case 'n':
  582. case 'r':
  583. case 't':
  584. ctx.L.string_buffer.Append (
  585. ProcessEscChar (ctx.L.input_char));
  586. ctx.NextState = ctx.StateStack;
  587. return true;
  588. default:
  589. return false;
  590. }
  591. }
  592. private static bool State22 (FsmContext ctx)
  593. {
  594. int counter = 0;
  595. int mult = 4096;
  596. ctx.L.unichar = 0;
  597. while (ctx.L.GetChar ()) {
  598. if (ctx.L.input_char >= '0' && ctx.L.input_char <= '9' ||
  599. ctx.L.input_char >= 'A' && ctx.L.input_char <= 'F' ||
  600. ctx.L.input_char >= 'a' && ctx.L.input_char <= 'f') {
  601. ctx.L.unichar += HexValue (ctx.L.input_char) * mult;
  602. counter++;
  603. mult /= 16;
  604. if (counter == 4) {
  605. ctx.L.string_buffer.Append (
  606. Convert.ToChar (ctx.L.unichar));
  607. ctx.NextState = ctx.StateStack;
  608. return true;
  609. }
  610. continue;
  611. }
  612. return false;
  613. }
  614. return true;
  615. }
  616. private static bool State23 (FsmContext ctx)
  617. {
  618. while (ctx.L.GetChar ()) {
  619. switch (ctx.L.input_char) {
  620. case '\'':
  621. ctx.L.UngetChar ();
  622. ctx.Return = true;
  623. ctx.NextState = 24;
  624. return true;
  625. case '\\':
  626. ctx.StateStack = 23;
  627. ctx.NextState = 21;
  628. return true;
  629. default:
  630. ctx.L.string_buffer.Append ((char) ctx.L.input_char);
  631. continue;
  632. }
  633. }
  634. return true;
  635. }
  636. private static bool State24 (FsmContext ctx)
  637. {
  638. ctx.L.GetChar ();
  639. switch (ctx.L.input_char) {
  640. case '\'':
  641. ctx.L.input_char = '"';
  642. ctx.Return = true;
  643. ctx.NextState = 1;
  644. return true;
  645. default:
  646. return false;
  647. }
  648. }
  649. private static bool State25 (FsmContext ctx)
  650. {
  651. ctx.L.GetChar ();
  652. switch (ctx.L.input_char) {
  653. case '*':
  654. ctx.NextState = 27;
  655. return true;
  656. case '/':
  657. ctx.NextState = 26;
  658. return true;
  659. default:
  660. return false;
  661. }
  662. }
  663. private static bool State26 (FsmContext ctx)
  664. {
  665. while (ctx.L.GetChar ()) {
  666. if (ctx.L.input_char == '\n') {
  667. ctx.NextState = 1;
  668. return true;
  669. }
  670. }
  671. return true;
  672. }
  673. private static bool State27 (FsmContext ctx)
  674. {
  675. while (ctx.L.GetChar ()) {
  676. if (ctx.L.input_char == '*') {
  677. ctx.NextState = 28;
  678. return true;
  679. }
  680. }
  681. return true;
  682. }
  683. private static bool State28 (FsmContext ctx)
  684. {
  685. while (ctx.L.GetChar ()) {
  686. if (ctx.L.input_char == '*')
  687. continue;
  688. if (ctx.L.input_char == '/') {
  689. ctx.NextState = 1;
  690. return true;
  691. }
  692. ctx.NextState = 27;
  693. return true;
  694. }
  695. return true;
  696. }
  697. #endregion
  698. private bool GetChar ()
  699. {
  700. if ((input_char = NextChar ()) != -1)
  701. return true;
  702. end_of_input = true;
  703. return false;
  704. }
  705. private int NextChar ()
  706. {
  707. if (input_buffer != 0) {
  708. int tmp = input_buffer;
  709. input_buffer = 0;
  710. return tmp;
  711. }
  712. return reader.Read ();
  713. }
  714. public bool NextToken ()
  715. {
  716. StateHandler handler;
  717. fsm_context.Return = false;
  718. while (true) {
  719. handler = fsm_handler_table[state - 1];
  720. if (! handler (fsm_context))
  721. throw new JsonException (input_char);
  722. if (end_of_input)
  723. return false;
  724. if (fsm_context.Return) {
  725. string_value = string_buffer.ToString ();
  726. string_buffer.Remove (0, string_buffer.Length);
  727. token = fsm_return_table[state - 1];
  728. if (token == (int) ParserToken.Char)
  729. token = input_char;
  730. state = fsm_context.NextState;
  731. return true;
  732. }
  733. state = fsm_context.NextState;
  734. }
  735. }
  736. private void UngetChar ()
  737. {
  738. input_buffer = input_char;
  739. }
  740. }
  741. }