世の中をより一歩知る自己牧会ブログ

OUTPUT用のブログです。今を強く生き抜くために必要なことを分野問わず共有したいと思っています。

【まとめ】二項ロジスティック回帰分析をわかりやすく解説。

すごく久しぶりの記事になります。

大学院修士での最終審査が終わり、ようやく肩の荷がおりました。

私の研究では、フレイル高齢者の生活リズムについて取り扱いました。

自分の研究に関与しない種類の統計は正直そんなに知りませんが、二項ロジスティック回帰分析については、かなり勉強したので、忘備録してまとめておきます。

サンプル表の説明

f:id:defour:20200212205948p:plain

こちらにある表を使って説明します。これは私の研究結果の一部であり、「プレフレイル(体が弱っている高齢者)なのか、フレイルなし(健康な高齢者)なのかの予測因子として、握力と生活リズムが悪くなることだ」という結果を示しています。画像に①〜⑩まで示してあるので、それを一つずつ解説していきます。

①二項ロジスティック回帰分析

回帰分析は、一方の変数から他方の変数を予測する分析で、回帰式(例:y = a + bx)を作って、データxとデータyの関係を表すことができます。言い換えれば、双方の因果関係を仮定して、データxがデータyに与える影響の程度を知ることができるということです。

回帰分析の種類
  • 二項ロジスティック回帰分析:目的変数が2値
  • 多項ロジスティック回帰分析:目的変数が3値以上の名義尺度
  • 順序ロジスティック回帰分析:目的変数が3値以上の順序尺度

回帰分析にはいくつか種類がありますが、そのうち目的変数が”2値”あるのが、二項ロジスティック回帰分析です。

2値の説明をすると、”高齢者”という目的変数があり、それが”フレイルなし”か、”プレフレイル”か、その目的変数の分岐が2つあるということです。コンピュータが理解できるように、”フレイルなし”を0、”プレフレイル”を1とナンバーをつけています。

他の例では、”性別”という目的変数があり、それが”男性”か、”女性”か、分岐が2つあるから2値ということです。

さらに、”性別”という目的変数の分岐が、”男性”、”女性”バイセクシャルなら3値なので、多項ロジスティック回帰分析が適用になるということになります。

②目的変数

目的変数とは、回帰式(例:y = a + bx)では、yに該当し、調べたいことです。本研究では、フレイルなし”か、”プレフレイル”か、が調べたいことになります。人によって、従属変数や基準変数と表現されます。英語論文では、従属変数(dependent variable)と表記されることが多い気がします。

③説明変数

説明変数とは、回帰式(例:y = a + bx)では、xに該当し、yに影響を与える原因となっている変数です。本研究では、”握力”と”生活リズム”がそれに当たります。人によって、独立変数や予測変数と表現されます。英語論文では、独立変数(independent variable)と表記されることが多い気がします。

④決定係数(β) 

決定係数(β)とは、目的変数(y)への影響度を示します。これは、数字が0よりも離れるほど影響が強くなります。本研究では、”握力”が-0.18で、”生活リズム”が-8.78なので”生活リズム”の影響が強いことになります。

しかも、符号がマイナス(-)になっています。マイナスは、負の影響を意味するので、”生活リズム”の低下は、”プレフレイル(体が弱っている高齢者)”に強く影響するということになります。

⑤オッズ比

オッズ比は、決定係数と同じく目的変数(y)への影響度を示しています。これは、1から離れるほど、影響が強くなります。本研究では、”握力”が0.84で、”生活リズム”が0.0002なので”生活リズム”の影響が強いことになります。

しかも、1未満の場合は、負の影響を意味します。決定係数の理解と同じく、”生活リズム”の低下は、”プレフレイル(体が弱っている高齢者)”に強く影響するということになります。

⑥95%信頼区間

95%信頼区間とは、算出されたオッズ比が95%の確率でどの範囲にあるのかを示しています。本研究では、握力の信頼区間は、0.76から0.93となっており、オッズ比の0.84がこの範囲に入っています。

⑦P値

P値は有意差をみる指標です。本研究では、”握力”も”生活リズム”も0.01より小さいので有意差があったということになります。

しかし、回帰分析では抽出された説明変数がP<0.05であることが望ましいとされていますが、必須ではないのです。重要なのは、次の段落で説明する”モデルχ2検定”で有意性が保証されることです。

⑧モデルχ2検定

モデルχ2検定は、p<0.05だと、回帰式の有意性を保証する検定です。本研究では、p<0.0001なのでこの回帰式の有意性が保証されています。

⑨Hosmer&Lemeshowの検定

Hosmer&Lemeshow(ホスマー・レメショウ)検定は、モデルの適合度を調べます。p<0.05であればモデルは適合していないとされるので、本研究では、p = 0.33なので、適合していなくはない、つまり適合しているということになります。

⑩判別的中率

判別的中率とは、このモデルがどれくらい正確なのかを示す確率です。本研究では、68%であるため、100人中、68人が正しく”プレフレイル(体が弱っている高齢者)”と予測されていることになります。本当はできるだけ100%に近い方が良いので、68%の判別的中率は低い方だと言えます。

【補足】本研究の回帰モデル

では、今回の結果から導かれる回帰式はどのようになるかいうと、

y = 11.549 -0.18×握力 -8.78×生活リズム

※定数a = 11.549 ←SPSSなどの統計ソフトで自動で算出されます。値は毎回違います。

となります。

握力が30㎏で生活リズムが0.7だったら

y = 11.549 -0.18×30 -8.78×0.7

   =    11.549 -5.4 -6.146

   =    11.549 -5.4 -6.146

   = 0.003

このyの値は、以下の式に代入します。

p > 0.5なら目的変数1のプレフレイル、p < 0.5なら目的変数0のフレイルなしに分類

p = 1(1 + exp(-1 × y))

p = 1(1 + exp(-0.003))

p = 1(1 +0.997)
p = 0.501

⇨本症例は握力は30kgだが、生活リズムが乱れているのでプレフレイルに相当する

※exp(-0.003)は、エクセルのExp関数を使うと簡単に出てきます。

【補足】生活リズムは何を指している?

統計には関係ないことですが、今回の回帰分析の説明変数に生活リズムとあります。これは、日中と夜間の活動量の差を指しています。この差が大きいと動くときは動いて、寝るときは寝る、メリハリのある生活リズムということを意味しています。

記事の最後になりますが、目的変数の”生活リズム”というワードでイメージつきにくいときは、”生活のメリハリの程度”と解釈してもらって良いです。これは余談でした。