pythonで形態素解析を行う際、ストップワードが機能しない

投稿者: Anonymous

python上で分かち書きをしたテキストファイルに対しストップワードを指定し、データの前処理を行いたいのですが、指定した語の1部が残ってしまいます。
消えているものもあるのですが、すべてを消す方法がわかりません。
色々とストップワードについて調べてみたのですが、なかなかこのような現象に陥っている方がおらず、途方に暮れています。
どなたかご教授いただけると幸いです。

使用環境
Windows10
jupyter notebook(python3)

with open('※対象のファイル.txt※',mode='r',encoding = 'utf-8-sig') as p:
text2 = p.read()
stopwords = ['し', '+' ,'さ','れ','いる','れる','これ','おり','なら','ところ','が','ため','なっ','み','よう','やす','もの','られる' ,'こと','する','ある','なる','いよ','なり','の','よう','うち','これ','なく']
text2 = text2.split()
text3 = [token for token in text2 if token not in stop_words] 

アウトプット(抜粋)
‘, ‘ある‘, ‘デザイン’, ‘材質’, ‘うまく’, ‘生かし’, ‘印象’, ‘受ける’, ‘視力’, ‘矯正’, ‘用’, ‘サングラス’, ’20’, ‘歳’, ‘代’, ’30’, ‘歳’, ‘代’, ‘対象’, ‘こと‘, ‘若者’, ‘自分’, ‘ファッション’, ‘あわせる’, ‘こと‘, ‘できる’, ‘よう’, ‘個性’, ‘的’, ‘デザイン’, ‘掛け’, ‘やす’

太字部分に見られるように、ストップワードで指定した語が残っています。

python初心者(もっと言えばプログラミング全般)なので基本的なミスをしているかもしれません。

解決

コメントでの回答により解決いたしましたので自己回答とさせていただきます。
回答者様、ありがとうございました。

回答者: Anonymous

Leave a Reply

Your email address will not be published. Required fields are marked *