source: trunk/dports/java/lucene-gosen/files/stoptags_ja.txt @ 83879

Last change on this file since 83879 was 83879, checked in by hum@…, 9 years ago

New port: lucene-gosen 1.1.1 - a Japanese morphological analyzer for Apache Lucene/Solr

File size: 16.0 KB
Line 
1# set of default stop tags:
2# uncomment a part of speech to treat those words as stopwords.
3# the entire tagset is provided here for convenience.
4#
5#####
6#  noun: unclassified nouns
7#名詞
8#
9#  noun-common: Common nouns or nouns where the sub-classification is undefined
10#名詞-一般
11#
12#  noun-proper: Proper nouns where the sub-classification is undefined
13#名詞-固有名詞
14#
15#  noun-proper-misc: miscellaneous proper nouns
16#名詞-固有名詞-一般
17#
18#  noun-proper-person: Personal names where the sub-classification is undefined
19#名詞-固有名詞-人名
20#
21#  noun-proper-person-misc: names that cannot be divided into surname and
22#  given name; foreign names; names where the surname or given name is unknown.
23#  e.g. お市の方
24#名詞-固有名詞-人名-一般
25#
26#  noun-proper-person-surname: Mainly Japanese surnames.
27#  e.g. 山田
28#名詞-固有名詞-人名-姓
29#
30#  noun-proper-person-given_name: Mainly Japanese given names.
31#  e.g. 太郎
32#名詞-固有名詞-人名-名
33#
34#  noun-proper-organization: Names representing organizations.
35#  e.g. 通産省, NHK
36#名詞-固有名詞-組織
37#
38#  noun-proper-place: Place names where the sub-classification is undefined
39#名詞-固有名詞-地域
40#
41#  noun-proper-place-misc: Place names excluding countries.
42#  e.g. アジア, バルセロナ, 京都
43#名詞-固有名詞-地域-一般
44#
45#  noun-proper-place-country: Country names.
46#  e.g. 日本, オーストラリア
47#名詞-固有名詞-地域-国
48#
49#  noun-pronoun: Pronouns where the sub-classification is undefined
50#名詞-代名詞
51#
52#  noun-pronoun-misc: miscellaneous pronouns:
53#  e.g. それ, ここ, あいつ, あなた, あちこち, いくつ, どこか, なに, みなさん, みんな, わたくし, われわれ
54#名詞-代名詞-一般
55#
56#  noun-pronoun-contraction: Spoken language contraction made by combining a
57#  pronoun and the particle 'wa'.
58#  e.g. ありゃ, こりゃ, こりゃあ, そりゃ, そりゃあ
59#名詞-代名詞-縮約
60#
61#  noun-adverbial: Temporal nouns such as names of days or months that behave
62#  like adverbs. Nouns that represent amount or ratios and can be used adverbially,
63#  e.g. 金曜, 一月, 午後, 少量
64#名詞-副詞可能
65#
66#  noun-verbal: Nouns that take arguments with case and can appear followed by
67#  'suru' and related verbs (する, できる, なさる, くださる)
68#  e.g. インプット, 愛着, 悪化, 悪戦苦闘, 一安心, 下取り
69#名詞-サ変接続
70#
71#  noun-adjective-base: The base form of adjectives, words that appear before な ("na")
72#  e.g. 健康, 安易, 駄目, だめ
73#名詞-形容動詞語幹
74#
75#  noun-numeric: Arabic numbers, Chinese numerals, and counters like 何 (回), 数.
76#  e.g. 0, 1, 2, 何, 数, 幾
77#名詞-数
78#
79#  noun-affix: noun affixes where the sub-classification is undefined
80#名詞-非自立
81#
82#  noun-affix-misc: Of adnominalizers, the case-marker の ("no"), and words that
83#  attach to the base form of inflectional words, words that cannot be classified
84#  into any of the other categories below. This category includes indefinite nouns.
85#  e.g. あかつき, 暁, かい, 甲斐, 気, きらい, 嫌い, くせ, 癖, こと, 事, ごと, 毎, しだい, 次第,
86#       順, せい, 所為, ついで, 序で, つもり, 積もり, 点, どころ, の, はず, 筈, はずみ, 弾み,
87#       拍子, ふう, ふり, 振り, ほう, 方, 旨, もの, 物, 者, ゆえ, 故, ゆえん, 所以, わけ, 訳,
88#       わり, 割り, 割, ん-口語/, もん-口語/
89#名詞-非自立-一般
90#
91#  noun-affix-adverbial: noun affixes that that can behave as adverbs.
92#  e.g. あいだ, 間, あげく, 挙げ句, あと, 後, 余り, 以外, 以降, 以後, 以上, 以前, 一方, うえ,
93#       上, うち, 内, おり, 折り, かぎり, 限り, きり, っきり, 結果, ころ, 頃, さい, 際, 最中, さなか,
94#       最中, じたい, 自体, たび, 度, ため, 為, つど, 都度, とおり, 通り, とき, 時, ところ, 所,
95#       とたん, 途端, なか, 中, のち, 後, ばあい, 場合, 日, ぶん, 分, ほか, 他, まえ, 前, まま,
96#       儘, 侭, みぎり, 矢先
97#名詞-非自立-副詞可能
98#
99#  noun-affix-aux: noun affixes treated as 助動詞 ("auxiliary verb") in school grammars
100#  with the stem よう(だ) ("you(da)").
101#  e.g.  よう, やう, 様 (よう)
102#名詞-非自立-助動詞語幹
103
104#  noun-affix-adjective-base: noun affixes that can connect to the indeclinable
105#  connection form な (aux "da").
106#  e.g. みたい, ふう
107#名詞-非自立-形容動詞語幹
108#
109#  noun-special: special nouns where the sub-classification is undefined.
110#名詞-特殊
111#
112#  noun-special-aux: The そうだ ("souda") stem form that is used for reporting news, is
113#  treated as 助動詞 ("auxiliary verb") in school grammars, and attach to the base
114#  form of inflectional words.
115#  e.g. そう
116#名詞-特殊-助動詞語幹
117#
118#  noun-suffix: noun suffixes where the sub-classification is undefined.
119#名詞-接尾
120#
121#  noun-suffix-misc: Of the nouns or stem forms of other parts of speech that connect
122#  to ガル or タイ and can combine into compound nouns, words that cannot be classified into
123#  any of the other categories below. In general, this category is more inclusive than
124#  接尾語 ("suffix") and is usually the last element in a compound noun.
125#  e.g. おき, かた, 方, 甲斐 (がい), がかり, ぎみ, 気味, ぐるみ, (~した) さ, 次第, 済 (ず) み,
126#       よう, (でき)っこ, 感, 観, 性, 学, 類, 面, 用
127#名詞-接尾-一般
128#
129#  noun-suffix-person: Suffixes that form nouns and attach to person names more often
130#  than other nouns.
131#  e.g. 君, 様, 著
132#名詞-接尾-人名
133#
134#  noun-suffix-place: Suffixes that form nouns and attach to place names more often
135#  than other nouns.
136#  e.g. 町, 市, 県
137#名詞-接尾-地域
138#
139#  noun-suffix-verbal: Of the suffixes that attach to nouns and form nouns, those that
140#  can appear before スル ("suru").
141#  e.g. 化, 視, 分け, 入り, 落ち, 買い
142#名詞-接尾-サ変接続
143#
144#  noun-suffix-aux: The stem form of そうだ (様態) that is used to indicate conditions,
145#  is treated as 助動詞 ("auxiliary verb") in school grammars, and attach to the
146#  conjunctive form of inflectional words.
147#  e.g. そう
148#名詞-接尾-助動詞語幹
149#
150#  noun-suffix-adjective-base: Suffixes that attach to other nouns or the conjunctive
151#  form of inflectional words and appear before the copula だ ("da").
152#  e.g. 的, げ, がち
153#名詞-接尾-形容動詞語幹
154#
155#  noun-suffix-adverbial: Suffixes that attach to other nouns and can behave as adverbs.
156#  e.g. 後 (ご), 以後, 以降, 以前, 前後, 中, 末, 上, 時 (じ)
157#名詞-接尾-副詞可能
158#
159#  noun-suffix-classifier: Suffixes that attach to numbers and form nouns. This category
160#  is more inclusive than 助数詞 ("classifier") and includes common nouns that attach
161#  to numbers.
162#  e.g. 個, つ, 本, 冊, パーセント, cm, kg, カ月, か国, 区画, 時間, 時半
163#名詞-接尾-助数詞
164#
165#  noun-suffix-special: Special suffixes that mainly attach to inflecting words.
166#  e.g. (楽し) さ, (考え) 方
167#名詞-接尾-特殊
168#
169#  noun-suffix-conjunctive: Nouns that behave like conjunctions and join two words
170#  together.
171#  e.g. (日本) 対 (アメリカ), 対 (アメリカ), (3) 対 (5), (女優) 兼 (主婦)
172#名詞-接続詞的
173#
174#  noun-verbal_aux: Nouns that attach to the conjunctive particle て ("te") and are
175#  semantically verb-like.
176#  e.g. ごらん, ご覧, 御覧, 頂戴
177#名詞-動詞非自立的
178#
179#  noun-quotation: text that cannot be segmented into words, proverbs, Chinese poetry,
180#  dialects, English, etc. Currently, the only entry for 名詞 引用文字列 ("noun quotation")
181#  is いわく ("iwaku").
182#名詞-引用文字列
183#
184#  noun-nai_adjective: Words that appear before the auxiliary verb ない ("nai") and
185#  behave like an adjective.
186#  e.g. 申し訳, 仕方, とんでも, 違い
187#名詞-ナイ形容詞語幹
188#
189#####
190#  prefix: unclassified prefixes
191接頭詞
192#
193#  prefix-nominal: Prefixes that attach to nouns (including adjective stem forms)
194#  excluding numerical expressions.
195#  e.g. お (水), 某 (氏), 同 (社), 故 (~氏), 高 (品質), お (見事), ご (立派)
196接頭詞-名詞接続
197#
198#  prefix-verbal: Prefixes that attach to the imperative form of a verb or a verb
199#  in conjunctive form followed by なる/なさる/くださる.
200#  e.g. お (読みなさい), お (座り)
201接頭詞-動詞接続
202#
203#  prefix-adjectival: Prefixes that attach to adjectives.
204#  e.g. お (寒いですねえ), バカ (でかい)
205接頭詞-形容詞接続
206#
207#  prefix-numerical: Prefixes that attach to numerical expressions.
208#  e.g. 約, およそ, 毎時
209接頭詞-数接続
210#
211#####
212#  verb: unclassified verbs
213#動詞
214#
215#  verb-main:
216#動詞-自立
217#
218#  verb-auxiliary:
219動詞-非自立
220#
221#  verb-suffix:
222#動詞-接尾
223#
224#####
225#  adjective: unclassified adjectives
226#形容詞
227#
228#  adjective-main:
229#形容詞-自立
230#
231#  adjective-auxiliary:
232#形容詞-非自立
233#
234#  adjective-suffix:
235#形容詞-接尾
236#
237#####
238#  adverb: unclassified adverbs
239#副詞
240#
241#  adverb-misc: Words that can be segmented into one unit and where adnominal
242#  modification is not possible.
243#  e.g. あいかわらず, 多分
244#副詞-一般
245#
246#  adverb-particle_conjunction: Adverbs that can be followed by の, は, に,
247#  な, する, だ, etc.
248#  e.g. こんなに, そんなに, あんなに, なにか, なんでも
249#副詞-助詞類接続
250#
251#####
252#  adnominal: Words that only have noun-modifying forms.
253#  e.g. この, その, あの, どの, いわゆる, なんらかの, 何らかの, いろんな, こういう, そういう, ああいう,
254#       どういう, こんな, そんな, あんな, どんな, 大きな, 小さな, おかしな, ほんの, たいした,
255#       「(, も) さる (ことながら)」, 微々たる, 堂々たる, 単なる, いかなる, 我が」「同じ, 亡き
256#連体詞
257#
258#####
259#  conjunction: Conjunctions that can occur independently.
260#  e.g. が, けれども, そして, じゃあ, それどころか
261接続詞
262#
263#####
264#  particle: unclassified particles.
265助詞
266#
267#  particle-case: case particles where the subclassification is undefined.
268助詞-格助詞
269#
270#  particle-case-misc: Case particles.
271#  e.g. から, が, で, と, に, へ, より, を, の, にて
272助詞-格助詞-一般
273#
274#  particle-case-quote: the "to" that appears after nouns, a person’s speech,
275#  quotation marks, expressions of decisions from a meeting, reasons, judgements,
276#  conjectures, etc.
277#  e.g. ( だ) と (述べた.), ( である) と (して執行猶予...)
278助詞-格助詞-引用
279#
280#  particle-case-compound: Compounds of particles and verbs that mainly behave
281#  like case particles.
282#  e.g. という, といった, とかいう, として, とともに, と共に, でもって, にあたって, に当たって, に当って,
283#       にあたり, に当たり, に当り, に当たる, にあたる, において, に於いて,に於て, における, に於ける,
284#       にかけ, にかけて, にかんし, に関し, にかんして, に関して, にかんする, に関する, に際し,
285#       に際して, にしたがい, に従い, に従う, にしたがって, に従って, にたいし, に対し, にたいして,
286#       に対して, にたいする, に対する, について, につき, につけ, につけて, につれ, につれて, にとって,
287#       にとり, にまつわる, によって, に依って, に因って, により, に依り, に因り, による, に依る, に因る,
288#       にわたって, にわたる, をもって, を以って, を通じ, を通じて, を通して, をめぐって, をめぐり, をめぐる,
289#       って-口語/, ちゅう-関西弁「という」/, (何) ていう (人)-口語/, っていう-口語/, といふ, とかいふ
290助詞-格助詞-連語
291#
292#  particle-conjunctive:
293#  e.g. から, からには, が, けれど, けれども, けど, し, つつ, て, で, と, ところが, どころか, とも, ども,
294#       ながら, なり, ので, のに, ば, ものの, や ( した), やいなや, (ころん) じゃ(いけない)-口語/,
295#       (行っ) ちゃ(いけない)-口語/, (言っ) たって (しかたがない)-口語/, (それがなく)ったって (平気)-口語/
296助詞-接続助詞
297#
298#  particle-dependency:
299#  e.g. こそ, さえ, しか, すら, は, も, ぞ
300助詞-係助詞
301#
302#  particle-adverbial:
303#  e.g. がてら, かも, くらい, 位, ぐらい, しも, (学校) じゃ(これが流行っている)-口語/,
304#       (それ)じゃあ (よくない)-口語/, ずつ, (私) なぞ, など, (私) なり (に), (先生) なんか (大嫌い)-口語/,
305#       (私) なんぞ, (先生) なんて (大嫌い)-口語/, のみ, だけ, (私) だって-口語/, だに,
306#       (彼)ったら-口語/, (お茶) でも (いかが), 等 (とう), (今後) とも, ばかり, ばっか-口語/, ばっかり-口語/,
307#       ほど, 程, まで, 迄, (誰) も (が)([助詞-格助詞] および [助詞-係助詞] の前に位置する「も」)
308助詞-副助詞
309#
310#  particle-interjective: particles with interjective grammatical roles.
311#  e.g. (松島) や
312助詞-間投助詞
313#
314#  particle-coordinate:
315#  e.g. と, たり, だの, だり, とか, なり, や, やら
316助詞-並立助詞
317#
318#  particle-final:
319#  e.g. かい, かしら, さ, ぜ, (だ)っけ-口語/, (とまってる) で-方言/, な, ナ, なあ-口語/, ぞ, ね, ネ,
320#       ねぇ-口語/, ねえ-口語/, ねん-方言/, の, のう-口語/, や, よ, ヨ, よぉ-口語/, わ, わい-口語/
321助詞-終助詞
322#
323#  particle-adverbial/conjunctive/final: The particle "ka" when unknown whether it is
324#  adverbial, conjunctive, or sentence final. For example:
325#       (a) 「A か B か」. Ex:「(国内で運用する) か,(海外で運用する) か (.)」
326#       (b) Inside an adverb phrase. Ex:「(幸いという) か (, 死者はいなかった.)」
327#           「(祈りが届いたせい) か (, 試験に合格した.)」
328#       (c) 「かのように」. Ex:「(何もなかった) か (のように振る舞った.)」
329#  e.g. か
330助詞-副助詞/並立助詞/終助詞
331#
332#  particle-adnominalizer: The "no" that attaches to nouns and modifies
333#  non-inflectional words.
334助詞-連体化
335#
336#  particle-adnominalizer: The "ni" and "to" that appear following nouns and adverbs
337#  that are giongo, giseigo, or gitaigo.
338#  e.g. に, と
339助詞-副詞化
340#
341#  particle-special: A particle that does not fit into one of the above classifications.
342#  This includes particles that are used in Tanka, Haiku, and other poetry.
343#  e.g. かな, けむ, ( しただろう) に, (あんた) にゃ(わからん), (俺) ん (家)
344助詞-特殊
345#
346#####
347#  auxiliary-verb:
348助動詞
349#
350#####
351#  interjection: Greetings and other exclamations.
352#  e.g. おはよう, おはようございます, こんにちは, こんばんは, ありがとう, どうもありがとう, ありがとうございます,
353#       いただきます, ごちそうさま, さよなら, さようなら, はい, いいえ, ごめん, ごめんなさい
354感動詞
355#
356#####
357#  symbol: unclassified Symbols.
358#記号
359#
360#  symbol-misc: A general symbol not in one of the categories below.
361#  e.g. [○◎@$〒→+]
362記号-一般
363#
364#  symbol-comma: Commas
365#  e.g. [,、]
366記号-読点
367#
368#  symbol-period: Periods and full stops.
369#  e.g. [..。]
370記号-句点
371#
372#  symbol-space: Full-width whitespace.
373記号-空白
374#
375#  symbol-open_bracket:
376#  e.g. [({‘“『【]
377記号-括弧開
378#
379#  symbol-close_bracket:
380#  e.g. [)}’”』」】]
381記号-括弧閉
382#
383#  symbol-alphabetic:
384#記号-アルファベット
385#
386#####
387#  other: unclassified other
388#その他
389#
390#  other-interjection: Words that are hard to classify as noun-suffixes or
391#  sentence-final particles.
392#  e.g. (だ)ァ
393その他-間投
394#
395#####
396#  filler: Aizuchi that occurs during a conversation or sounds inserted as filler.
397#  e.g. あの, うんと, えと
398フィラー
399#
400#####
401#  non-verbal: non-verbal sound.
402非言語音
403#
404#####
405#  fragment:
406#語断片
407#
408#####
409#  unknown: unknown part of speech.
410#未知語
Note: See TracBrowser for help on using the repository browser.