国产在热线精品视频,嫩b人妻精品一区二区三区,99久久全国免费观看,99国产亚洲精品美女久久久久 ,国产麻豆乱子伦午夜视频观看,亚洲日本va午夜在线电影,老司机深夜18禁污污网站,av国内精品久久久久影院
                  葉梓
                  • 葉梓國內知名上市IT企業的資深技術專家,高級工程師
                  • 擅長領域: 人工智能 大數據
                  • 講師報價: 面議
                  • 常駐城市:上海市
                  • 學員評價: 暫無評價 發表評價
                  • 助理電話: 13006597891 QQ:2116768103 微信掃碼加我好友
                  • 在線咨詢

                  強化學習與深度強化學習

                  主講老師:葉梓
                  發布時間:2021-05-21 14:51:35
                  課程詳情:

                  【課程時長】

                  3天(6小時/天)

                   

                  【課程簡介】

                  強化學習是當前最熱門的研究方向之一,廣泛應用于機器人學、電子競技等領域。本課程系統性的介紹了強化學習(深度強化學習)的基本理論和關鍵算法,包括:馬爾科夫決策過程、動態規劃法、蒙特卡羅法、時間差分法、值函數逼近法,策略梯度法等;以及該領域的最新前沿發展,包括:DQN及其變種、信賴域系方法、Actor-Critic類方法、多Agent深度強化學習等;同時也介紹大量的實際案例,包括深度強化學習中最著名的工程應用:Alpha Go。

                   

                  【課程對象】

                  計算機相關專業本科;或理工科本科,具備初步的IT基礎知識的人員

                   

                  第一天 強化學習

                   

                  第一課 強化學習綜述

                  1.強化學習要解決的問題

                  2.強化學習方法的分類

                  3.強化學習方法的發展趨勢

                  4.環境搭建實驗(Gym,TensorFlow等)

                  5.Gym環境的基本使用方法

                   

                  第二課 馬爾科夫決策過程

                  1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程

                  2.MDP基本元素:策略、回報、值函數、狀態行為值函數

                  3.貝爾曼方程

                  4.最優策略

                  案例:構建機器人找金幣和迷宮的環境

                   

                  第三課 基于模型的動態規劃方法

                  1.動態規劃概念介紹

                  2.策略評估過程介紹

                  3.策略改進方法介紹

                  4.策略迭代和值迭代

                  案例:實現基于模型的強化學習算法

                   

                  第四課 蒙特卡羅方法

                  1.蒙特卡羅策略評估

                  2.蒙特卡羅策略改進

                  3.基于蒙特卡羅的強化學習

                  4.同策略和異策略

                  案例:利用蒙特卡羅方法實現機器人找金幣和迷宮

                   

                  第五課 時序差分方法

                  1.DP,MC和TD方法比較

                  2.MC和TD方法偏差與方差平衡

                  3.同策略TD方法:Sarsa 方法

                  4.異策略TD方法:Q-learning 方法

                  案例:Q-learning和Sarsa的實現

                   

                  第二天 從強化學習到深度強化學習

                   

                  第一課 基于值函數逼近方法(強化學習)

                  1.維數災難與表格型強化學習

                  2.值函數的參數化表示

                  3.值函數的估計過程

                  4.常用的基函數

                   

                  第二課 基于值函數逼近方法(深度學習與強化學習的結合)

                  1.簡單提一下深度學習

                  2.深度學習與強化學習的結合

                  3.DQN 方法介紹

                  4.DQN變種:Double DQN, Prioritized Replay, Dueling Network

                  案例:用DQN玩游戲——flappy bird

                   

                  第三課 策略梯度方法(強化學習)

                  1.策略梯度方法介紹

                  2.常見的策略表示

                  3.常見的減小方差的方法:引入基函數法,修改估計值函數法

                  案例:利用gym和tensorflow實現小車倒立擺系統等

                   

                  第四課 Alpha Go(深度學習與強化學習的結合)

                  1.MCTS

                  2.策略網絡與價值網絡

                  3.Alpha Go的完整架構

                   

                  第五課 GAN(深度學習)

                  1.VAE與基本GAN

                  2.DCGAN

                  3.WGAN

                  案例:生成手寫數字的GAN

                   

                  第三天 深度強化學習進階

                   

                  第一課 AC類方法-1

                  1. PG的問題與AC的思路

                  2. AC類方法的發展歷程

                  3. Actor-Critic基本原理

                   

                  第二課 AC類方法-2

                  1. DPG方法

                  2. DDPG方法

                  3. A3C方法

                  案例:AC類方法的案例

                   

                  第三課 信賴域系方法-1

                  1.信賴域系方法背景

                  2.信賴域系方法發展路線圖

                  3.TRPO方法

                  案例:TRPO方法的案例

                   

                  第四課 信賴域系方法-2

                  1.PPO方法

                  2.DPPO方法簡介

                  3.ACER方法

                  案例:PPO方法的案例

                   

                  第五課 多Agent強化學習

                  1.矩陣博弈

                  2.納什均衡

                  3.多人隨機博弈學習

                  4.完全合作、完全競爭與混合任務

                  5.MADDPG

                  案例:MADDPG的案例等


                  授課見證
                  推薦講師

                  馬成功

                  Office超級實戰派講師,國內IPO排版第一人

                  講師課酬: 面議

                  常駐城市:北京市

                  學員評價:

                  賈倩

                  注冊形象設計師,國家二級企業培訓師,國家二級人力資源管理師

                  講師課酬: 面議

                  常駐城市:深圳市

                  學員評價:

                  鄭惠芳

                  人力資源專家

                  講師課酬: 面議

                  常駐城市:上海市

                  學員評價:

                  晏世樂

                  資深培訓師,職業演說家,專業咨詢顧問

                  講師課酬: 面議

                  常駐城市:深圳市

                  學員評價:

                  文小林

                  實戰人才培養應用專家

                  講師課酬: 面議

                  常駐城市:深圳市

                  學員評價:

                  主站蜘蛛池模板: 精品久久久无码中字| 亚洲精品日本一区二区| 欧美精品欧美人与动人物牲交| 免费a级毛片18以上观看精品| 国产欧美久久一区二区三区| 999亚洲图片自拍偷欧美| 国产二区三区不卡免费| 小鲜肉自慰网站xnxx| 国产免费无遮挡吃奶视频| 久久综合偷拍视频五月天| 亚洲色精品vr一区区三区| 国精产品蘑菇一区一区有限| 色吊丝中文字幕在线观看| 中文字幕av高清片| 女人摸下面自熨视频在线播放| 国产午夜福利精品视频| 国产精品原创av片国产日韩| 丰满少妇人妻hd高清果冻传媒| 亚洲AV福利天堂在线观看| 三级做爰高清视频| 精品综合久久久久久88| 久久青青草原精品国产app| 夫妻一起自拍内射小视频| 国模少妇一区二区三区| 国产亚洲精品久久精品69| 国产精品成| 国产精品久久久| 69精品国产久热在线观看| 青春草公开在线视频日韩| 国产日产亚洲系列最新| 久久久久久无码精品人妻a片软件 成人乱码一区二区三区四区 | 日韩激情一区二区三区| 欧美激情肉欲高潮视频| 欧美亚洲另类自拍丝袜| 成人网站网址导航| 久久久久无码精品亚洲日韩| 国产高清吃奶成免费视频网站| 九九在线精品国产| 久久99国产视频| 亚洲欧美日韩综合久久久久久 | 亚洲AⅤ波多系列中文字幕|