CS230 Shallow Neural Networks

神经网络是什么

image

左下角,第一层就是计算a[1],然后加上更新后的W【2】,b【2】,在第二层计算新的结果
z【2】

image

注意一般不把输入层算在神经网络层内

注意hidden layer 其实就是一个4x1的列矩阵

神经网络表示



image

符号右上角表示层数,右下角表示该层第几个结点

实际上可以把神经网络计算过错化为向量矩阵运算

image

Z (4X1) = W (4X3) * x(3,1) +b(4,1)

激活函数

tanh

用tanh效果会比sigmodi好,因为均值为0,说明能起到数据中心化效果

image

线性整流函数(ReLU)

image

使用ReLU 会使得神经网络学习的速度加快,因为在tanh与sigmoid当中,当斜率降低的时候,学习的速度也会相应的下降。

而ReLu则会减少则种情况

image

一般而言,不用sigmoid

激活函数的导数

在反向传播的时候,需要计算激活函数的导数

神经网络的梯度下降

重点关注dZ【1】 dW的计算原理
image