ABテストのためのグループ分け最適化

2020年11月20日金曜日

t f B! P L

組合せ最適化でチーム分けする(平均偏差最小化)

はじめに

組合せ最適化でチーム分けする で紹介されている問題を別のモデルで解いてみます。

この問題は、バラツキを最小化する組合せ最適化問題です。
バラツキ具合の指標としては一般的に分散がよく使われますが、分散は二次関数で表されるため一次関数を最小化する線形計画問題に比べると難しくなってしまいます。そこで元の記事では最大値と最小値の差(範囲)を最小化する線形計画問題として定式化しています。

一方、範囲の代わりに平均偏差を最小化する方法もあります。
そこで本記事では、まず範囲と平均偏差のモデルの違いを比較します。
最後に平均偏差最小化問題の例題をPython+PuLPで解いてみます。

問題設定

  • 前提条件
    • n人のメンバーをm個のチームに分ける。
    • 各メンバーが持つコミュニケーション能力の種類はl個あり、それぞれ点数が振られている。
  • 目標
    • チーム内で能力が偏らないようにする。
    • チーム間の能力差も小さくする。

したがって、目的関数の基本方針は以下のようになります。

(0.1)また、どちらかのバラツキに重みを付けてバランスを取ることもできます。

定式化

問題を定式化していきます。
まず、以下の変数を定義します。

n:m:l:xi,j:ij({0,1})ai,k:ikbi:i(=k=1lai,k)

範囲最小化問題

バラツキの指標として、最大値と最小値の差(範囲)を用いて、それを最小化します。

ここで、

yj,min,yj,max:jzmin,zmax:

とすると、以下のように範囲最小化問題として定式化できます。

(1.1)minimizej=1m(yjmaxyjmin)+1.5(zmaxzmin)(1.2)subject toyjmini=1nai,kxi,jyjmaxj=1,,m;k=1,,l(1.3)zmini=1nbixi,jzmaxj=1,,m(1.4)j=1mxi,j=1i=1,,n(1.5)xi,j{0,1}i=1,,n;j=1,,m

式(1.4)はどのメンバーもどれか一つのチームに所属することを表す制約式です。
元の記事にあわせて、チーム間のバラツキの方に重み1.5を掛けています。
変数の数も少なく、とてもシンプルに定式化できます。

平均偏差最小化問題

xiを個々の値、x¯をその平均とすると、分散と平均偏差は次のように表せます。

  • =1nin(xnx¯)2
  • =1nin|xnx¯|

平均偏差には絶対値が含まれており微分不可能で計算が面倒などの理由で避けられていますが、最適化問題の目的関数に絶対値が含まれる場合は簡単に外すことができます。

平均偏差を使って式(0.1)を書き直すと、以下のようになります。

(2.1)minimizej=1m(k=1l|i=1nai,kxi,jμj|)+1.5j=1m|i=1nbixi,jν|(2.2)subject toμj=1lk=1li=1nai,kxi,jj=1,,m(2.3)ν=1mj=1mi=1nbixi,j(2.4)j=1mxi,j=1i=1,,n(2.5)xi,j{0,1}i=1,,n;j=1,,m

このような絶対値最小化問題は補助変数yj,k,zjを導入することで、以下のように線形計画問題に変形することができます。

(2.6)minimizej=1m(k=1lyj,k+1.5zj)(2.7)subject toyj,ki=1nai,kxi,jμjyj,kj=1,,m;k=1,,l(2.8)zji=1nbixi,jνzjj=1,,m(2.9)μj=1lk=1li=1nai,kxi,jj=1,,m(2.10)ν=1mj=1mi=1nbixi,j(2.11)j=1mxi,j=1i=1,,n(2.12)xi,j{0,1}i=1,,n;j=1,,m

範囲最小化のモデルと比較すると、変数の数が多くなり、若干煩雑なモデルになりました。

例題:Python+PuLPによる最適化

PythonのPuLPというパッケージを使って例題を解いてみます。

  • 6人を3チームに分けます。
  • コミュニケーション能力の種類は4種類です。

PuLPではソルバーを選択できますが、ここではデフォルトのCoin-CBCを使います。

import numpy as np
import pandas as pd
from pulp import *
from ortoolpy import addvar, addvars, addbinvars

# 例題
teams = ['A', 'B', 'C']
members = ['P', 'Q', 'R', 'S', 'T', 'U']
skills = ['Controller', 'Promoter', 'Supporter', 'Analyzer']
scores = pd.DataFrame([[6, 0, 1, 3],
                       [2, -1, 3, 5],
                       [2, 4, 0, 0],
                       [3, 4, 5, 0],
                       [0, 2, 1, 4],
                       [2, 3, -1, 1]],
                      index=members,
                      columns=skills)

nteams = len(teams)  # チーム数
nmembers = len(scores.index)  # メンバー数
nskills = len(scores.columns)  # 能力種別数

print(scores)

#    Controller  Promoter  Supporter  Analyzer
# P           6         0          1         3
# Q           2        -1          3         5
# R           2         4          0         0
# S           3         4          5         0
# T           0         2          1         4
# U           2         3         -1         1

範囲最小化

元の記事を参照して下さい。

平均偏差最小化

# 平均偏差最小化

m = LpProblem()  # 数理モデル
x = pd.DataFrame(addbinvars(nmembers, nteams), index=members, columns=teams)  # 割当
y = pd.DataFrame(addvars(nteams, nskills), index=teams, columns=skills)  # チーム内の平均偏差
mu = pd.DataFrame(addvars(nteams), index=teams)   # チーム内の平均
z = pd.DataFrame(addvars(nteams), index=teams)  # チームごとの平均偏差
nu = addvar()  # 全チームの平均

m.setObjective(lpSum([lpSum(y.loc[j]) + 1.5*z.loc[j] for j in teams]))  # 目的関数

m.addConstraint(lpSum(np.dot(scores.sum(1), x)) / nteams == nu)
for j in teams:
    m.addConstraint(lpDot(scores.sum(1), x[j]) - nu <= z.loc[j])
    m.addConstraint(lpDot(scores.sum(1), x[j]) - nu >= -z.loc[j])
    m.addConstraint(lpSum(np.dot(x[j], scores)) / nskills == mu.loc[j])
    for k in skills:
        m.addConstraint(lpDot(scores[k], x[j]) - mu.loc[j] <= y.loc[j,k])
        m.addConstraint(lpDot(scores[k], x[j]) - mu.loc[j] >= -y.loc[j,k])
for i in members:
    m.addConstraint(lpSum(x.loc[i]) == 1)  # どこかのチームに所属

m.solve()  # 求解

if m.status == 1:
    for i, xi in enumerate(np.vectorize(value)(x).tolist()):
        print((members[i], teams[xi.index(1)]))
else:
    print('最適解を得られなかった。')

# 結果:(メンバー, チーム)
# ('P', 'B')
# ('Q', 'A')
# ('R', 'A')
# ('S', 'C')
# ('T', 'B')
# ('U', 'C')

元の記事と同じ解が得られました。
別のモデルを解いているので同じになったのはたまたまです。

おわりに

平均偏差最小化問題を取り上げました。
このモデルは、例えばポートフォリオ最適化で使えます。ポートフォリオ最適化では期待リターンのバラツキをリスクとみなし、リスク最小化問題として定式化しますが、その際に平均偏差を最小化することがあります。
ただし決定変数に整数が含まれる整数計画問題(組合せ最適化問題、離散最適化問題)の場合は、問題の規模が大きくなるとあっという間に解けなくなります。
今回取り上げた問題も「20人を5チームに分ける」くらいになっただけで僕のPCでは現実的な時間で解くのが厳しくなりました(一晩放置しても解けない)。ソルバーとしてGurobiやCPLEXのような商用ソルバーを利用することで特にマルチコア環境でかなりの改善が見込めますが、それでも大規模な問題を解くのは難しいでしょう。その場合はモデルを見直すか、近似解法を使うことが考えられます。

このブログを検索

ブログ アーカイブ

AD

自己紹介

自分の写真
機械学習による売上予測モデル構築や商品ポートフォリオ最適化に取り組むAI屋です。E資格・G検定保有。LINEスタンプ販売やYoutubeもやってます。

QooQ