CNN Record

2023-09-14

Record

时域频域空间域

时域

自变量是时间，即横轴是时间，纵轴是信号的变化，其动态信号x(t)是描述信号在不同时刻取值的函数。

频域

自变量是频率,即横轴是频率,纵轴是该频率信号的幅度,也就是通常说的频谱图。

空间域

空间域又被称为图像空间（image space），在图像空间以长度（距离）为自变量直接对像元值进行处理称为空间域处理

傅里叶变换

简介

一种线性积分变换，用于函数（简称“信号”）在时域和频域之间的变换
举例： 将复杂信号分解成不同振幅的单一频率分量，并以此实现滤波等操作
傅里叶变换：信号从时域变换到频域
傅里叶逆变换是将信号从频域变换到时域

卷积神经网络

简介

图像本身包含丰富的结构，CNN是机器学习利用自然图像一些已知结构的创造性方法
例子：“沃尔多扫描器”扫描图像，该检测器将图像分割成多个区域，为每个区域包含沃尔多的可能性打分

卷积核（kernel）

卷积神经网络中卷积核的高度和宽度通常为奇数，例如1、3、5或7。选择奇数的好处是，保持空间维度的同时，我们可以在顶部和底部填充相同数量的行，在左侧和右侧填充相同数量的列。
此外，使用奇数的核大小和填充大小也提供了书写上的便利。对于任何二维张量X，当满足： 1. 卷积核的大小是奇数； 2. 所有边的填充行数和列数相同； 3. 输出与输入具有相同高度和宽度则可以得出：输出Y[i, j]是通过以输入X[i, j]为中心，与卷积核进行互相关计算得到的

卷积两个被训练的参数：卷积核权重（Weight）、标量偏置（bias）

卷积输出大小：

名词记录

卷积：滤波，混合信息的手段
卷积核：滤波器
input image，Convolution Kernel，Feature map

填充（Padding）和步幅（Stride）（影响输出大小）

Padding Motivation：多层卷积会导致丢失边缘信息
Stride Motivation：步幅越大，输出越小，可以大幅降低图像宽度和高度
h：垂直方向 w：水平方向

CNN中Channels的理解

（1）最初输入的图片样本的 channels ，取决于图片类型，比如RGB_3或者灰度图_1
（2）卷积操作完成后输出的 out_channels ，取决于卷积核的数量。此时的 out_channels 也会作为下一次卷积时的卷积核的 in_channels
（3）卷积核中的 in_channels ，刚刚2中已经说了，就是上一次卷积的 out_channels ，如果是第一次做卷积，就是1中样本图片的 channels

池化（汇聚层，Pooling）

双重目的：降低卷积层对位置的敏感性，同时降低对空间降采样表示的敏感性
汇聚层也可以改变输出形状
最大汇聚层和平均汇聚层

Transposed Convolution 转置卷积（Upsampling）

核心：转置卷积就是卷积

上采样参数 align_corners

true：角点对齐，角点之间距离间隔相等
false：无论是true还是false对中间的像素插值没有影响，false会对边角不太友好
align_corners (bool, optional) – 如果为True，输入的角像素将与输出张量对齐，因此将保存下来这些像素的值。仅当使用的算法为’linear’, ‘bilinear’or ‘trilinear’时可以使用。默认设置为False

总结

对于给定输入元素，最大汇聚层会输出该窗口内的最大值，平均汇聚层会输出该窗口内的平均值。

汇聚层的主要优点之一是减轻卷积层对位置的过度敏感。

我们可以指定汇聚层的填充和步幅。

使用最大汇聚层以及大于1的步幅，可减少空间维度（如高度和宽度）。

汇聚层的输出通道数与输入通道数相同。