## 1.纯python实现

求导和求偏导的目的,就是要求出变量对损失函数的影响,我们要减少损失函数的值。我们先使用单一的神经元网络进行研究,然后再推广到多个神经元的网络。

In [16]:
x = [1.0, -2.0, 3.0]#输入

w = [-3.0, -1.0, 2.0]#权重
b = 1.0#偏置

In [17]:
x0w0 = x[0] * w[0]
x0w0

-3.0

![image.png](attachment:image.png)

In [18]:
x0w0 = x[0] * w[0]
x1w1 = x[1] * w[1]
x2w2 = x[2] * w[2]
x0w0, x1w1, x2w2

(-3.0, 2.0, 6.0)

![image.png](attachment:image.png)

乘加运算,使用Relu激活函数激活。

In [19]:
z = x0w0 + x1w1 + x2w2 + b
z

6.0

In [20]:
y = max(z, 0)
y

6.0

![image.png](attachment:image.png)

回顾之前的求导,链式法则。

$$\frac{d}{dx}f(g(x))=\frac{d}{dg(x)}f(g(x)).\frac{d}{dx}g(x)=f'(g(x))\cdot g'(x)$$

我们的神经网络就可以这样来表示。
$$ReLU(\sum[inputs\cdot weights] + bias)$$
具体的形式如下。
$$ReLU(x_0w_0 + x_1w_1 + x_2w_2+b)$$
在具体一点。
$$y=ReLU(sum(mul(x_0, w0), mul(x_1, w_1), mul(x_2, w_2), b))$$

现在我们要研究参数是怎么影响损失函数的,比如$x_0$。
$$\frac{\partial}{\partial x_0}[ReLU(sum(mul(x_0, w_0), mul(x_1, w_1), (x_2, w_2), b))] = \frac{dReLU()}{dsum()}\cdot\frac{\partial sum()}{\partial mul(x_0, w_0)}\cdot\frac{\partial mul(x_0, w_0)}{\partial x_0}$$
其他参数怎么影响的,也是这样的计算方式。

方向传播中,使用了链式法则。需要后面一层的梯度,乘上当前层的梯度。假设后面一层梯度为1。如下图红色的1.0。

![image.png](attachment:image.png)

现在我们需要求ReLU的梯度。
$$f(x) = max(x, 0) \rightarrow \frac{d}{dx}f(x)=1\space(x > 0)$$

用python代码这样表示。

In [10]:
relu_dz = (1. if z > 0 else 0.0)

In [12]:
z

6.0

In [13]:
dvalue = 1.0#后面一层的梯度

In [14]:
drelu_dz = dvalue * (1. if z > 0 else 0.)

In [15]:
drelu_dz

1.0

![image-2.png](attachment:image-2.png)

加和部分是x0w0 + x1w1 + x2w2 + b。
无论你先对哪个部分进行求导都是为1。
$$f(x, y, z, h) = x + y + z + h\\ \frac{\partial}{\partial x}f(x, y, z, h) = 1\\
\frac{\partial}{\partial y}f(x, y, z, h) = 1\\
\frac{\partial}{\partial z}f(x, y, z, h) = 1\\
\frac{\partial}{\partial h}f(x, y, z, h) = 1$$

我们走x0w0,先对这部分求导。

In [22]:
dsum_dx0w0 = 1
drelu_dx0w0 = drelu_dz * dsum_dx0w0
drelu_dx0w0

1.0

![image-2.png](attachment:image-2.png)

再走x1w1。

In [25]:
dsum_dx1w1 = 1
drelu_dx1w1 = drelu_dz * dsum_dx1w1
drelu_dx1w1

1.0

![image.png](attachment:image.png)

再走x2w2。

In [26]:
dsum_dx2w2 = 1
drelu_dx2w2 = drelu_dz * dsum_dx2w2
drelu_dx2w2

1.0

![image.png](attachment:image.png)

最后走b。

In [27]:
dsum_db = 1
drelu_db = drelu_dz * dsum_db

![image.png](attachment:image.png)

综合一下。

In [28]:
x = [1.0, -2.0, 3.0]#输入

w = [-3.0, -1.0, 2.0]#权重
b = 1.0#偏置

In [29]:
x0w0 = x[0] * w[0]
x1w1 = x[1] * w[1]
x2w2 = x[2] * w[2]
z = x0w0 + x1w1 + x2w2
y = max(z, 0)
dvalue = 1.0#下一层传播来的梯度
drelu_dz = dvalue * (1. if z > 0 else 0.)
dsum_dx0w0 = 1
dsum_dx1w1 = 1
dsum_dx2w2 = 1
dsum_db = 1
drelu_dx0w0 = drelu_dz * dsum_dx0w0
drelu_dx1w1 = drelu_dz * dsum_dx1w1
drelu_dx2w2 = drelu_dz * dsum_dx2w2
drelu_db = drelu_dz * dsum_db
drelu_dx0w0, drelu_dx1w1, drelu_dx2w2, drelu_db


(1.0, 1.0, 1.0, 1.0)

现在需要$x_0, x_1, x_2, w_0, w_1, w_2, b$求导。

$$f(x, y) = x\cdot y\\ \frac{\partial}{\partial x}f(x, y) = y\\
\frac{\partial}{\partial y}f(x, y) =x$$

In [30]:
dmul_dx0 = w[0]
dmul_dx1 = w[1]
dmul_dx2 = w[2]
dmul_dw0 = x[0]
dmul_dw1 = x[1]
dmul_dw2 = x[2]
drelu_dx0 = drelu_dx0w0 * dmul_dx0
drelu_dx1 = drelu_dx1w1 * dmul_dx1
drelu_dx2 = drelu_dx2w2 * dmul_dx2
drelu_dw0 = drelu_dx0w0 * dmul_dw0
drelu_dw1 = drelu_dx1w1 * dmul_dw1
drelu_dw2 = drelu_dx2w2 * dmul_dw2
drelu_dx0, drelu_dx1, drelu_dx2, drelu_dw0, drelu_dw1, drelu_dw2

(-3.0, -1.0, 2.0, 1.0, -2.0, 3.0)

![image.png](attachment:image.png)

上面单独求导,组合成梯度。

In [31]:
dx = [drelu_dx0, drelu_dx1, drelu_dx2]#输入的梯度
dw = [drelu_dw0, drelu_dw1, drelu_dw2]#权重的梯度
db = drelu_db#偏置的梯度

In [32]:
w, b

([-3.0, -1.0, 2.0], 1.0)

现在开始更新梯度。

In [33]:
w[0] += -0.001 * dw[0]
w[1] += -0.001 * dw[1]
w[2] += -0.001 * dw[2]
b += -0.001 * db
w, b

([-3.001, -0.998, 1.997], 0.999)

这个小心的改变,会影响我们的输出。

In [35]:
x0w0 = x[0] * w[0]
x1w1 = x[1] * w[1]
x2w2 = x[2] * w[2]
z = x0w0 + x1w1 + x2w2 + b
y = max(z, 0)
y

5.985

## 2.numpy实现

在第一部分中我们只考虑单个神经元。在神经网络中,特别是多分类中,一般最后一层是多个神经元。

In [38]:
import numpy as np

求输入的梯度。

In [42]:
#下一层3个神经元的梯度如下
dvalues = np.array([[1., 1., 1.]])
#我们有3个神经元,每个神经元4个权重,因为数据的特征有4个
weights = np.array([[0.2, 0.8, -0.5, 1],
 [0.5, -0.91, 0.26, -0.5],
 [-0.26, -0.27, 0.17, 0.87]]).T
dx0 = sum(weights[0] * dvalues[0])
dx1 = sum(weights[1] * dvalues[0])
dx2 = sum(weights[2] * dvalues[0])
dx3 = sum(weights[3] * dvalues[0])
dinputs = np.array([dx0, dx1, dx2, dx3])#输入的梯度
dinputs

array([ 0.44, -0.38, -0.07, 1.37])

可以直接使用numpy中点乘dot函数。

In [46]:
#下一层3个神经元的梯度如下
dvalues = np.array([[1., 1., 1.]])
#我们有3个神经元,每个神经元4个权重,因为数据的特征有4个
weights = np.array([[0.2, 0.8, -0.5, 1],
 [0.5, -0.91, 0.26, -0.5],
 [-0.26, -0.27, 0.17, 0.87]]).T
dinputs = np.dot(dvalues[0], weights.T)#输入的梯度
dinputs

array([ 0.44, -0.38, -0.07, 1.37])

数据不仅仅是一个,而是一批次。

In [48]:
#这里有3个数据作为一个批次
dvalues = np.array([[1., 1., 1.],
 [2., 2., 2.],
 [3., 3., 3.]])
weights = np.array([[0.2, 0.8, -0.5, 1],
 [0.5, -0.91, 0.26, -0.5],
 [-0.26, -0.27, 0.17, 0.87]]).T
dinputs = np.dot(dvalues, weights.T)
dinputs

array([[ 0.44, -0.38, -0.07, 1.37],
 [ 0.88, -0.76, -0.14, 2.74],
 [ 1.32, -1.14, -0.21, 4.11]])

求权重的梯度。

In [50]:
#这里有3个数据作为一个批次
dvalues = np.array([[1., 1., 1.],
 [2., 2., 2.],
 [3., 3., 3.]])
inputs = np.array([[1, 2, 3, 2.5],
 [2, 5, -1, 2],
 [-1.5, 2.7, 3.3, -0.8]])
dweights = np.dot(inputs.T, dvalues)#维度和权重保持一致
dweights, dweights.shape, weights.shape

(array([[ 0.5, 0.5, 0.5],
 [20.1, 20.1, 20.1],
 [10.9, 10.9, 10.9],
 [ 4.1, 4.1, 4.1]]),
 (4, 3),
 (4, 3))

求偏置的梯度。

In [51]:
dvalues = np.array([[1., 1., 1.],
 [2., 2., 2.],
 [3., 3., 3.]])
biases = np.array([[2, 3, 0.5]])
dbiases = np.sum(dvalues, axis=0, keepdims=True)#保留维度,使得偏置梯度的维度和偏置保持一致
dbiases

array([[6., 6., 6.]])

对激活函数ReLU求导。

In [54]:
#前向传播的输出
z = np.array([[1, 2, -3, -4],
 [2, -7, -1, 3],
 [-1, 2, 5, -1]])
dvalues = np.array([[1, 2, 3, 4],
 [5, 6, 7, 8],
 [9, 10, 11, 12]])
#激活函数梯度
drelu = np.zeros_like(z)#建立一个和z维度一样,元素全是0的矩阵
drelu[z > 0] = 1
print(drelu)
#链式求导
drelu *= dvalues
print(drelu)

[[1 1 0 0]
 [1 0 0 1]
 [0 1 1 0]]
[[ 1 2 0 0]
 [ 5 0 0 8]
 [ 0 10 11 0]]


我们可以简化上面的代码。

In [55]:
z = np.array([[1, 2, -3, -4],
 [2, -7, -1, 3],
 [-1, 2, 5, -1]])
dvalues = np.array([[1, 2, 3, 4],
 [5, 6, 7, 8],
 [9, 10, 11, 12]])
drelu = dvalues.copy()#深度复制,不影响原来的值
drelu[z < 0] = 0
drelu

array([[ 1, 2, 0, 0],
 [ 5, 0, 0, 8],
 [ 0, 10, 11, 0]])

## 3.综合以上代码

In [57]:
import numpy as np
dvalues = np.array([[1., 1., 1.],
 [2., 2., 2.],
 [3., 3., 3.]])
inputs = np.array([[1, 2, 3, 2.5],
 [2, 5, -1, 2],
 [-1.5, 2.7, 3.3, -0.8]])
weights = np.array([[0.2, 0.8, -0.5, 1],
 [0.5, -0.91, 0.26, -0.5],
 [-0.26, -0.27, 0.17, 0.87]]).T
biases = np.array([[2, 3, 0.5]])
#前向传播
layer_outputs = np.dot(inputs, weights) + biases#全连接网络
relu_outputs = np.maximum(0, layer_outputs)#激活
#反向传播
drelu = relu_outputs.copy()
drelu[layer_outputs <=0] = 0
dinputs = np.dot(drelu, weights.T)
dweights = np.dot(inputs.T, drelu)
dbiases = np.sum(drelu, axis=0, keepdims=True)
weights += -0.001 * dweights
biases += -0.001 * dbiases
weights, biases

(array([[ 0.179515 , 0.5003665, -0.262746 ],
 [ 0.742093 , -0.9152577, -0.2758402],
 [-0.510153 , 0.2529017, 0.1629592],
 [ 0.971328 , -0.5021842, 0.8636583]]),
 array([[1.98489 , 2.997739, 0.497389]]))