【まとめ】二項ロジスティック回帰分析をわかりやすく解説。
すごく久しぶりの記事になります。
大学院修士での最終審査が終わり、ようやく肩の荷がおりました。
私の研究では、フレイル高齢者の生活リズムについて取り扱いました。
自分の研究に関与しない種類の統計は正直そんなに知りませんが、二項ロジスティック回帰分析については、かなり勉強したので、忘備録してまとめておきます。
- サンプル表の説明
- ①二項ロジスティック回帰分析
- ②目的変数
- ③説明変数
- ④決定係数(β)
- ⑤オッズ比
- ⑥95%信頼区間
- ⑦P値
- ⑧モデルχ2検定
- ⑨Hosmer&Lemeshowの検定
- ⑩判別的中率
- 【補足】本研究の回帰モデル
- 【補足】生活リズムは何を指している?
サンプル表の説明
こちらにある表を使って説明します。これは私の研究結果の一部であり、「プレフレイル(体が弱っている高齢者)なのか、フレイルなし(健康な高齢者)なのかの予測因子として、握力と生活リズムが悪くなることだ」という結果を示しています。画像に①〜⑩まで示してあるので、それを一つずつ解説していきます。
①二項ロジスティック回帰分析
回帰分析は、一方の変数から他方の変数を予測する分析で、回帰式(例:y = a + bx)を作って、データxとデータyの関係を表すことができます。言い換えれば、双方の因果関係を仮定して、データxがデータyに与える影響の程度を知ることができるということです。
- 二項ロジスティック回帰分析:目的変数が2値
- 多項ロジスティック回帰分析:目的変数が3値以上の名義尺度
- 順序ロジスティック回帰分析:目的変数が3値以上の順序尺度
回帰分析にはいくつか種類がありますが、そのうち目的変数が”2値”あるのが、二項ロジスティック回帰分析です。
2値の説明をすると、”高齢者”という目的変数があり、それが”フレイルなし”か、”プレフレイル”か、その目的変数の分岐が2つあるということです。コンピュータが理解できるように、”フレイルなし”を0、”プレフレイル”を1とナンバーをつけています。
他の例では、”性別”という目的変数があり、それが”男性”か、”女性”か、分岐が2つあるから2値ということです。
さらに、”性別”という目的変数の分岐が、”男性”、”女性”、”バイセクシャル”なら3値なので、多項ロジスティック回帰分析が適用になるということになります。
②目的変数
目的変数とは、回帰式(例:y = a + bx)では、yに該当し、調べたいことです。本研究では、フレイルなし”か、”プレフレイル”か、が調べたいことになります。人によって、従属変数や基準変数と表現されます。英語論文では、従属変数(dependent variable)と表記されることが多い気がします。
③説明変数
説明変数とは、回帰式(例:y = a + bx)では、xに該当し、yに影響を与える原因となっている変数です。本研究では、”握力”と”生活リズム”がそれに当たります。人によって、独立変数や予測変数と表現されます。英語論文では、独立変数(independent variable)と表記されることが多い気がします。
④決定係数(β)
決定係数(β)とは、目的変数(y)への影響度を示します。これは、数字が0よりも離れるほど影響が強くなります。本研究では、”握力”が-0.18で、”生活リズム”が-8.78なので”生活リズム”の影響が強いことになります。
しかも、符号がマイナス(-)になっています。マイナスは、負の影響を意味するので、”生活リズム”の低下は、”プレフレイル(体が弱っている高齢者)”に強く影響するということになります。
⑤オッズ比
オッズ比は、決定係数と同じく目的変数(y)への影響度を示しています。これは、1から離れるほど、影響が強くなります。本研究では、”握力”が0.84で、”生活リズム”が0.0002なので”生活リズム”の影響が強いことになります。
しかも、1未満の場合は、負の影響を意味します。決定係数の理解と同じく、”生活リズム”の低下は、”プレフレイル(体が弱っている高齢者)”に強く影響するということになります。
⑥95%信頼区間
95%信頼区間とは、算出されたオッズ比が95%の確率でどの範囲にあるのかを示しています。本研究では、握力の信頼区間は、0.76から0.93となっており、オッズ比の0.84がこの範囲に入っています。
⑦P値
P値は有意差をみる指標です。本研究では、”握力”も”生活リズム”も0.01より小さいので有意差があったということになります。
しかし、回帰分析では抽出された説明変数がP<0.05であることが望ましいとされていますが、必須ではないのです。重要なのは、次の段落で説明する”モデルχ
⑧モデルχ2検定
モデルχ
⑨Hosmer&Lemeshowの検定
Hosmer&Lemeshow(ホスマー・レメショウ)検定は、モデルの適合度を調べます。p<0.05であればモデルは適合していないとされるので、本研究では、p = 0.33なので、適合していなくはない、つまり適合しているということになります。
⑩判別的中率
判別的中率とは、このモデルがどれくらい正確なのかを示す確率です。本研究では、68%であるため、100人中、68人が正しく”プレフレイル(体が弱っている高齢者)”と予測されていることになります。本当はできるだけ100%に近い方が良いので、68%の判別的中率は低い方だと言えます。
【補足】本研究の回帰モデル
では、今回の結果から導かれる回帰式はどのようになるかいうと、
y = 11.549 -0.18×握力 -8.78×生活リズム
※定数a = 11.549 ←SPSSなどの統計ソフトで自動で算出されます。値は毎回違います。
となります。
y = 11.549 -0.18×30 -8.78×0.7
= 11.549 -5.4 -6.146
= 11.549 -5.4 -6.146
= 0.003
このyの値は、以下の式に代入します。
p = 1(1 + exp(-1 × y))
p = 1(1 + exp(-0.003))
p = 1(1 +0.997)
p = 0.501
⇨本症例は握力は30kgだが、生活リズムが乱れているのでプレフレイルに相当する
※exp(-0.003)は、エクセルのExp関数を使うと簡単に出てきます。
【補足】生活リズムは何を指している?
統計には関係ないことですが、今回の回帰分析の説明変数に生活リズムとあります。これは、日中と夜間の活動量の差を指しています。この差が大きいと動くときは動いて、寝るときは寝る、メリハリのある生活リズムということを意味しています。
記事の最後になりますが、目的変数の”生活リズム”というワードでイメージつきにくいときは、”生活のメリハリの程度”と解釈してもらって良いです。これは余談でした。