Bahn, Sandro: Reinforcement Learning im Cournot Duopol | DealShopping Deutschland