2022/08/08 情報福祉マネジメント学科
教員の声:小説中のネガティブさを測る(前編)
教員の声
学科の教育や活動について学科教員の視点でまとめて報告します。第18回目となる今回は岩田先生によるAIを活用した予測に関する話です。
今年度の卒業研究で「人工知能を利用した自動モデラの作成」に取り組んでいる学生がいます。東北福祉大学で卒業研究の指導を始めてから5年くらい、毎年12人程度の研究を指導していますが、空気を読んで私の研究テーマに近い分野を選択してくれている人がいるのはありがたいことです。
自動モデラの様に文の良し悪しを機械に予測させるためには文書分類とよばれる内容が含まれ、その処理にはナイーブベイズ分類器やLong Short-Term Memory(LSTM)、1次元のConvolutional Neural Network(CNN)などが用いられます。今年の研究では、比較的手軽に扱えるようになっていて、かつ、今風という理由でBidirectional Encoder Representations from Transformers(BERT)[1]を使ってもらおうかな、と思っています。
この記事は、BERTのごく簡単な練習に、ファインチューニングも何も行わずに、いくつかの小説において段落ごとにネガティブ感情分析を行い、一つの作品中でネガティブの度合いがどう変化しているか分析しましたので紹介します[2]。
なお、文書分類は一文ごとに行うことが多い気がしますが、今回は段落ごとの分析にしました。具体的には、文章を段落に分け、段落中に含まれるネガティブな文の割合を集計しました。この様にした理由は段落ごとの方が文ごとよりも出力結果が細かくなって、グラフ映えするからです(文ごとだと0か1しかないので、グラフ映えしません)。また、素朴に「日本語極性辞書」を使って、一文中に含まれるネガティブな単語の割合を集計するのも、非常に強力な手法です[3]。
それでは、まず、分析対象とした小説をあげていきます。
一冊目は、一文目から「メロスは激怒した。」とネガティブ文で始まる太宰治の『走れメロス』[4]。人はそんな長い時間激怒してはいられないと思うのですが、メロスはどのくらい激怒しているのでしょうか?また、最後に殴り合っている場面はBERTにはネガティブなのでしょうか?
二冊目は、目覚めたら突然「毒虫」になっているグレゴール・ザムザとそれを目の当たりにする家族が書かれたフランツ・カフカの『変身』[5]。実際、この状況下でネガティブにならない人間(主人公は虫ですが)はいないでしょう。この小説は盛り上がりのある部分が何箇所かありますが、ネガティブの割合はそれらと関連性があるのでしょうか?
最後は、鬱な文章といったら、この作品、夏目漱石の『こころ』[6]。鬱小説として、外せない一冊だと思います。もちろん、内容がもっと鬱な作品はあるでしょうが、手紙に綴られた文章を読む形式なので、ネガティブな文が多めになりますが、他の2冊と違いはあるのでしょうか?
分析の方法は、まず、上記3つの小説は青空文庫からダウンロードしました[7]。Zipファイルをダウンロード後、底本部分や青空文庫の書式、文字下げの全角スペース、節区切り、特殊文字・記号などを削除しました。なお、解凍したファイルをpandas[8]のread_csvで読み込むと、タブ区切りで読むので、読み込むのみで段落には分けられています。あとは、段落ごとに含まれる文を読み込み、BERT pipline の"sentiment-analysis"で感情分析して段落中のネガティブ文の割合を集計するだけです。(コードに興味のある方は差し上げるので、気軽にお声がけ下さい。)
[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova , “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, https://arxiv.org/abs/1810.04805
[2] BERTに興味のある方は、たとえば, https://qiita.com/omiita/items/72998858efc19a368e50 によくまとまった説明がされています
[3] 東北大学 乾・鈴木研究室、『日本語極性辞書』, https://www.cl.ecei.tohoku.ac.jp/Open_Resources-Japanese_Sentiment_Polarity_Dictionary.html
[4] 太宰治, 『走れメロス』(太宰治全集3), 筑摩書房, 1988
[5] フランツ・カフカ、, 『変身』(世界文学大系58 カフカ), 筑摩書房, 1960
[6] 夏目漱石、『こころ』, 集英社文庫, 集英社, 1991
[7] 青空文庫, https://www.aozora.gr.jp/
[8] pandas, https://pandas.pydata.org/
自動モデラの様に文の良し悪しを機械に予測させるためには文書分類とよばれる内容が含まれ、その処理にはナイーブベイズ分類器やLong Short-Term Memory(LSTM)、1次元のConvolutional Neural Network(CNN)などが用いられます。今年の研究では、比較的手軽に扱えるようになっていて、かつ、今風という理由でBidirectional Encoder Representations from Transformers(BERT)[1]を使ってもらおうかな、と思っています。
この記事は、BERTのごく簡単な練習に、ファインチューニングも何も行わずに、いくつかの小説において段落ごとにネガティブ感情分析を行い、一つの作品中でネガティブの度合いがどう変化しているか分析しましたので紹介します[2]。
なお、文書分類は一文ごとに行うことが多い気がしますが、今回は段落ごとの分析にしました。具体的には、文章を段落に分け、段落中に含まれるネガティブな文の割合を集計しました。この様にした理由は段落ごとの方が文ごとよりも出力結果が細かくなって、グラフ映えするからです(文ごとだと0か1しかないので、グラフ映えしません)。また、素朴に「日本語極性辞書」を使って、一文中に含まれるネガティブな単語の割合を集計するのも、非常に強力な手法です[3]。
それでは、まず、分析対象とした小説をあげていきます。
一冊目は、一文目から「メロスは激怒した。」とネガティブ文で始まる太宰治の『走れメロス』[4]。人はそんな長い時間激怒してはいられないと思うのですが、メロスはどのくらい激怒しているのでしょうか?また、最後に殴り合っている場面はBERTにはネガティブなのでしょうか?
二冊目は、目覚めたら突然「毒虫」になっているグレゴール・ザムザとそれを目の当たりにする家族が書かれたフランツ・カフカの『変身』[5]。実際、この状況下でネガティブにならない人間(主人公は虫ですが)はいないでしょう。この小説は盛り上がりのある部分が何箇所かありますが、ネガティブの割合はそれらと関連性があるのでしょうか?
最後は、鬱な文章といったら、この作品、夏目漱石の『こころ』[6]。鬱小説として、外せない一冊だと思います。もちろん、内容がもっと鬱な作品はあるでしょうが、手紙に綴られた文章を読む形式なので、ネガティブな文が多めになりますが、他の2冊と違いはあるのでしょうか?
分析の方法は、まず、上記3つの小説は青空文庫からダウンロードしました[7]。Zipファイルをダウンロード後、底本部分や青空文庫の書式、文字下げの全角スペース、節区切り、特殊文字・記号などを削除しました。なお、解凍したファイルをpandas[8]のread_csvで読み込むと、タブ区切りで読むので、読み込むのみで段落には分けられています。あとは、段落ごとに含まれる文を読み込み、BERT pipline の"sentiment-analysis"で感情分析して段落中のネガティブ文の割合を集計するだけです。(コードに興味のある方は差し上げるので、気軽にお声がけ下さい。)
[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova , “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, https://arxiv.org/abs/1810.04805
[2] BERTに興味のある方は、たとえば, https://qiita.com/omiita/items/72998858efc19a368e50 によくまとまった説明がされています
[3] 東北大学 乾・鈴木研究室、『日本語極性辞書』, https://www.cl.ecei.tohoku.ac.jp/Open_Resources-Japanese_Sentiment_Polarity_Dictionary.html
[4] 太宰治, 『走れメロス』(太宰治全集3), 筑摩書房, 1988
[5] フランツ・カフカ、, 『変身』(世界文学大系58 カフカ), 筑摩書房, 1960
[6] 夏目漱石、『こころ』, 集英社文庫, 集英社, 1991
[7] 青空文庫, https://www.aozora.gr.jp/
[8] pandas, https://pandas.pydata.org/
この記事に関するお問い合わせ
- 教務部教務課
- 住所:〒981-8522 宮城県仙台市青葉区国見1−8−1
- TEL:022-717-3315
- FAX:022-301-1280
- E-Mail:kyomu@tfu.ac.jp