Haonan_Jia blogs

八面玲珑


  • Home

  • Categories

  • Archives

  • Search

保研

Posted on 2020-05-24
Words count in article: 5.7k 字 | Reading time ≈ 19 min
最近又快到了保研的季节,细想起来,距离那段忙碌嘈杂的日子已经过去10个月了,由于一些缘由,直到现在我才想起来写这些回忆录,不过时隔过长,一些细节的确难以拿捏。 个人条件 学校/专业:北京交通大学/计算机科学与技术专业 前五学期成绩和排名:GPA3.85、6/219 前六学期成绩和排名:GPA3.89 ...
Read more »

强化学习:on-policy下的TD:Sarsa

Posted on 2019-11-28 | In 强化学习
Words count in article: 1.4k 字 | Reading time ≈ 5 min
这一部分讲一下TD,也就是时序差分学习。 TD(0)算法在使用蒙特卡罗方法时,对价值函数的更新采用如下方法:$$V(S_t) = V(S_t) + \alpha[G_t - V(S_t)]$$也就是说,要实现状态价值/动作价值的更新必须要等到一幕结束,因为只有一幕结束后,回报Gt才可知。 时序差分学 ...
Read more »

强化学习:蒙特卡洛方法的无穷方差问题

Posted on 2019-11-26 | In 强化学习
Words count in article: 934 字 | Reading time ≈ 3 min
上一节介绍MC算法时,为了克服试探性出发这一强假设,rf提出了通过On-Policy和Off-Policy两种持续采样的方法。 在Off-Policy中,为了通过行动策略b观察到的多幕采样序列的平均回报来预测状态价值$v_\pi(s)$,需要根据重要度采样比来调整回报值、并对结果进行平均,根据调整平 ...
Read more »

强化学习:蒙特卡罗方法

Posted on 2019-11-25 | In 强化学习
Words count in article: 3.7k 字 | Reading time ≈ 15 min
这里我们开始讨论利用蒙特卡罗方法寻找最优策略。 实话说,MC算法比起前几章来说难度提升了一个档次,但其又是rf后续学习的基础,所以不可懈怠。 本篇以游戏:21点为例,分别讲述蒙特卡洛方法依托于以下三个算法的实现: 试探性出发 Monte Carlo with Exploring Starts ...
Read more »

强化学习:DP优化之价值迭代

Posted on 2019-11-24 | In 强化学习
Words count in article: 1.2k 字 | Reading time ≈ 4 min
上一篇博客以杰克租车问题为背景建模了策略迭代算法,策略迭代算法是一类以DP优化为基础并且能够收敛到最优策略$\pi_*$的算法,但是其存在着一些缺点。比如:每一次迭代都涉及到了策略评估过程,从而导致需要多次遍历状态集合。在租车问题中,只有两个租车场的情况下,遍历状态空间需要$O(n^4)$的复杂度( ...
Read more »

强化学习:DP优化之策略迭代

Posted on 2019-11-23 | In 强化学习
Words count in article: 1.7k 字 | Reading time ≈ 6 min
这片博客我们以例4.2的杰克租车问题为例来讲述策略迭代算法。 策略迭代策略迭代=评估+改进。在DP的背景下,策略迭代算法的描述如下: 初始化初始化状态价值以及策略(行为)对$s \in S$,任意初始化$V(s) \in R、π(s) \in A(s)$ 策略评估所谓策略评估,即:在现有的策略$\p ...
Read more »

强化学习:DP优化之in-place更新

Posted on 2019-11-23 | In 强化学习
Words count in article: 738 字 | Reading time ≈ 3 min
这里讲述一下DP(动态规划)优化中的in-place(就地)更新。 首先先介绍一下DP 动态规划在算法设计中经常接触到DP这一思想,其属于一类优化方法,在给定一个用马尔可夫决策过程(MDP)描述的完备环境模型的情况下,可以计算最优的策略。在强化学习中,DP的核心思想是使用价值函数来结构化地组织对 ...
Read more »

强化学习:k臂赌博机

Posted on 2019-11-22 | In 强化学习
Words count in article: 1.4k 字 | Reading time ≈ 6 min
这一节我们介绍k臂赌博机问题,首先来熟悉一下问题的背景知识 问题背景重复的在k个选项或动作(k个老虎机的杆)中进行选择,每次做出选择之后都会得到一定数额的收益,我们的目的是在一段时间内最大化总收益的期望。 bandit建模在用代码实现赌博机时,我们需要考虑多方因素,下面先列出一个bandit初始化时 ...
Read more »

强化学习:有限马尔科夫决策过程

Posted on 2019-11-21 | In 强化学习
Words count in article: 1.1k 字 | Reading time ≈ 4 min
在有限马尔科夫决策这一部分,我们通过一个网格问题来理解分幕式问题的建模和求解过程。 网格问题示例给出的长方形网格代表一个简单的有限MDP:状态:网格中的格子代表一个状态动作:在每个格子中都有{东、南、西、北}四个可选动作收益:当agent执行动作后脱离了网格,其收益-1;当处在状态A或B时,执行任何 ...
Read more »

保研经验

Posted on 2019-07-16
Words count in article: 1k 字 | Reading time ≈ 3 min
从期末考完开始,到现在为止,折腾了半个多月,总算是拿到了计算所网数实验室的offer,这里来总结一下这其中碰到了种种问题。 总而言之,问题主要包括:机试、数学和项目,三个大主题,首先来谈一下最简单粗暴的数学。 与数学有关的主要包括: 微积分 线性代数 概率论 而与数学有关的东西大都是在大一所学, ...
Read more »
123…6
Haonan Jia

Haonan Jia

52 posts
13 categories
GitHub E-Mail
Links
  • 贾飞阳
© 2021 Haonan Jia
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4

本站访客数人次