数字图像视频处理期末复习

用书《数字图像视频处理》IBSN 978-7-111-60177-7

光度学

光通量:单位:流[明](lmlm

发光强度:坎[德拉](cdcd

照度:勒[克斯](lx=lmm2lx = lm \cdot m^{-2}

色度学

彩色三要素:Lightness亮度、Hue色调、Saturation饱和度

图像视频处理基础

三基色原理

1.选择三种相互独立的颜色基色,将这三基色按不同比例进行组合,可获得自然界各种彩色感觉

2.任意两种非基色的彩色相混合也可以都得到一种新的彩色,但它应该等于把两种彩色各自分解为三基色,然后将基色分量分别相加后再混合而得到的颜色

3.三基色的大小决定彩色光的亮度,混合色的亮度等于各基色分量亮度值之和

4.三基色的比例决定混合色的色调,当三基色混合比例相同的时候,色调相同


颜色空间

RGB颜色空间

F=r[R]+g[G]+b[B]F=r[R]+g[G]+b[B]

image.png

不同颜色空间以及应用的领域:

  1. RGB(红绿蓝):显示器,
  2. CMY/CMYK(青、品红、黄):印刷机或者彩色打印机,
  3. YUV/YIQ(PAL/NTSC)(亮度、色差): 彩色电视
  4. YCbCr 数字电视
  5. HSI/HSV(色调、饱和度、亮度):从人的视觉系统出发

数字化

数字化表示:

I=f(x,y,z,λ,t)I=f(x,y,z,\lambda,t)

x,y,zx,y,z:空间中某个点的坐标,λ\lambda:光的波长,tt:时间轴坐标

z=z0z=z_0:二维图像

t=t0t=t_0:静态图像

λ=λ0\lambda=\lambda_0:单色图像

I=IR+IG+IB{IR=fR(x,y)IG=fG(x,y)IB=fB(x,y)I=I_R+I_G+I_B\\ \begin{align}\left\{\begin{aligned} I_R=f_R(x,y)\\ I_G=f_G(x,y)\\ I_B=f_B(x,y) \end{aligned}\right.\end{align}


image.png

QQ为每个像素的量化级数,kk为量化精度或量化位数,采样点数为M×NM \times N个,存储一幅数字图片所需的字节数BB

Q=2kB=M×N×k8Q=2^k\\ B=M \times N \times \frac{k}{8}


图像增强

增强的目的

要求将图像中感兴趣的部分加以处理或突出有用的图像特征


灰度线性变换

例题:请给出图像灰度分段线性变换的数学公式,并计算把灰度范围(0,80)压缩为(0,40),把灰度范围(80,120)拉伸为(40,240),把灰度范围(120,255)压缩为(240,255)的分段线性变换方程,并画出变换关系图形。

[解]

image.png

g(x,y)={caf(x,y)0f(x,y)<adcba[f(x,y)a]+c,af(x,y)<bMgdMfb[f(x,y)b]+dbf(x,y)<Mfg(x,y) = \begin{alignedat}{2} &\left\{ \begin{aligned} &\frac{c}{a}f(x,y) & 0 \leqslant f(x,y) < a\\ &\frac{d-c}{b-a}[f(x,y)-a]+c,& a \leqslant f(x,y) < b \\ &\frac{M_g-d}{M_f-b}[f(x,y)-b]+d & b \leqslant f(x,y) < M_f \end{aligned} \right. \end{alignedat}

Mf=255,Mg=255M_f=255,M_g=255,所以原来f(x,y)=MgMfx=xf(x,y)=\frac{M_g}{M_f}x=x,由题意,三段式线性变换关系数学表达式如上,因此:

(0,40)(0,80):g(x,y)=4080x=12x0x<80(0,40)-(0,80):g(x,y)=\frac{40}{80}x=\frac{1}{2}x \quad 0 \leqslant x < 80

(80,120)(40240):g(x,y)=2404012080[x80]+40=5x36080x<120(80,120)-(40-240):g(x,y)=\frac{240-40}{120-80}[x-80]+40=5x-360 \quad 80 \leqslant x < 120

(120,255)(240255):g(x,y)=255240255120[x120]+240=19x+20409120x<255(120,255)-(240-255):g(x,y)=\frac{255-240}{255-120}[x-120]+240=\frac{1}{9}x+\frac{2040}{9} \quad 120 \leqslant x < 255

g(x,y)={12x0x<805x36080x<12019x+20409120x<255g(x,y) = \begin{alignedat}{2} &\left\{ \begin{aligned} &\frac{1}{2}x & 0 \leqslant x < 80\\ &5x-360 & 80 \leqslant x < 120 \\ &\frac{1}{9}x+\frac{2040}{9} & 120 \leqslant x < 255 \end{aligned} \right. \end{alignedat}


均衡化

例题:一幅8灰度级图像的灰度级概率分布如下表,请先画出其直方图,判断此图整体偏亮还是偏暗;之后对其进行直方图均衡化,并画出均衡化后的直方图。

灰度级 0 1/7 2/7 3/7 4/7 5/7 6/7 1
像素数 790 1023 850 656 329 245 122 81
概率 0.19 0.25 0.21 0.16 0.08 0.06 0.03 0.02

[解]

sk=j=0kpr(rj)s_k=\sum\limits_{j=0}^{k}p_r(r_j)

画变换函数:用上式可以求出s0=0.19s1=0.44s3=0.65s4=0.81s5=0.89s6=0.95s6=0.98s7=1s_0=0.19 \quad s_1=0.44 \quad s_3=0.65 \quad s_4=0.81 \quad s_5=0.89 \quad s_6=0.95 \quad s_6=0.98 \quad s_7=1

对这8个值取最靠近的一个灰度级的值s017s137s257s367s467s51s61s71s_0 \approx \frac{1}{7} \quad s_1 \approx \frac{3}{7} \quad s_2 \approx \frac{5}{7} \quad s_3 \approx \frac{6}{7} \quad s_4 \approx \frac{6}{7} \quad s_5 \approx 1 \quad s_6 \approx 1 \quad s_7 \approx 1

只有173757671\frac{1}{7} \quad \frac{3}{7} \quad \frac{5}{7} \quad \frac{6}{7} \quad 1这几个灰度级存在

计算新图像各个灰度级像素个数并求新图像灰度级分布概率

1f6b3466b4645a35aa0541c6fa4257c8_720.jpg


领域平均法

4-邻域、8-邻域

用于图像平滑

方法:找到周边的 4/(或8)个格子求和除4(或8)

4—邻域平均法的四个格子找上下左右四个格子,

例题:8—领域平均法

5bee733fa07dfbe5e0b6a35e1527db66.jpeg


中值滤波

中值滤波式一种非线性的信号处理方法

对滤除脉冲干扰及图像去噪最为有效

变换方法:取一定窗口大小内的像素灰度值的中位数,全由中位数替代。


锐化

目的是为了突出图像的边缘信息,加强图像的特征轮廓,以便于人眼的观察和机器的识别

使用:梯度算子(P62)和拉普拉斯算子(P64)


形态学图像处理

四种运算

准则 示意
腐蚀 找出图像A内部可以放下结构元素B的区域,然后只留下结构元素原点(Origin)ABA㊀B image.png
膨胀 B的反射对这些元素移位操作的结果与A至少重叠一个元素ABA \bigoplus B image.png
开运算 (AB)B(A㊀B) \bigoplus B 先腐蚀,再膨胀,平滑图片外边缘image.png
闭运算 (AB)B(A\bigoplus B) ㊀ B 先膨胀,再腐蚀,平滑图片内边缘image.png

腐蚀和膨胀不是一对互逆运算,但是腐蚀在图像边缘的消减程度和膨胀在图像边缘的增长程度一样的。


图像分割

分割的目的

为了辨识和分析目标,需要将相关的区域分离出来,在此基础上才能进行特征提取和测量等一系列操作,进而进行图像识别和理解


分割的策略

1.基于区域边界灰度不连续性:边缘检测、边缘跟踪、Hough变换

2.基于区域内部灰度相似性:阈值化分割、区域生长、区域分裂和合并生长


基于灰度阈值化的图像分割

分割灰度直方图呈现双峰特性的图像。


基于边缘的图像分割

(重点算子)梯度,拉普拉斯

P108


边缘跟踪算法3个准则

1)参数准则:需要事先确定检测阈值d,跟踪阈值t,且要求d>t(检测阈值要大于跟踪阈值)

2)检测准则:对图像进行逐行扫描,依次将每一行中灰度值大于或等于检测阈值d的所有点(接受对象点)的位置记为1。

3)跟踪准则:逐行扫描图像,若图像中位于第i行的点(i,j)为已接受的对象点,则在第i+1行找(i,j)的相邻点(i+1,j-1)(i+1,j)(i+1,j-1)

将其中灰度值大于或等于跟踪阈值t的点确定为新的接受对象点,并将其记为1,重复直到最后一行扫描完为止。然后把位置为1的点连起来即为检测到的边缘。

例题:d=7,t=4

image.png


图像视频压缩

冗余

空间冗余、时间冗余、统计冗余(熵编码消除)、结构冗余、知识冗余、人眼的视觉冗余


游程编码

又名行成编码、游程(行程)长度编码,其基本思想是将具有相同数值(例如,像素的灰度值)的、连续出现的信源符号构成的符号序列用其数值及串的长度表示。

已知一个二值序列00101110001001…根据游程编码规则,可知其游程序列为21133121


哈夫曼编码

18616fcef1054b122e081956da94b14e_720.jpg


算数编码

输入内容为:CADACDB

757e16ccaf429c32ca802ac7ad79c909_720.jpg1e73941cb4c0da01c538ae419d0a2f49_720.jpg3bc1fa0724016b08ed7700fd6cf57ef3_720.jpg

预测编码

分帧内和帧间

帧内预测消除空间冗余

帧间预测消除时间冗余


DPCM和DCT

DPCM:P144

DCT:P151


H.264和AVS

H.264分层结构

从功能和算法上分为两层设计,即视频编码层(CVL)和网络抽象层(NAL)

视频编码层负责高效的视频编码压缩,采用了基于块的运动补偿预测、变换编码以及熵编码相结合的混合编码框架。图6-6

网络抽象层将VCL层编码的视频流进行进一步分割和打包封装,提供对不同网络性能匹配的自适应处理能力,负责网络的适配


H.264编码器原理框图

013cf48ddd5498951c42a8eafef7bb15.png 9570930d15ffd043766db89a9ea503ae.png

图像视频文件格式

RIFF

资源交换式文件格式(RIFF),基本组成单元为List和chunk,树状,叶子为chunk,节点为list,List相当于文件夹,可以包含多个List和Chunk。


图片格式

​ BMP

​ JPEG(电脑)图像文件格式

​ GIF(扫描仪和出版系统)图像文件格式

​ PNG(网络上使用)图像文件格式

还有TIF/TIFF、PCX、SVG


动画格式

FLI,SWF


视频格式

AVI、MPEG/MPG/DAT/DivX/XviD等


位图和调色板

  1. 位图:是使用像素阵列来描述或映射的图像
  2. 调色板:这里的调色板相当于颜色查找表。

数字水印技术

算法

最低有效位方法(LSB)、基于DCT域的方法

LSB:书本P256

基于DCT域的方法:书本P257

LSB:

嵌入image.png


水印的攻击方法和对策

简单攻击(做了什么)

简单攻击是试图对整个水印化数据(嵌入水印后的载体数据)进行操作来削弱嵌入的水印的幅度(而不是试图识别水印或分离水印),导致数字水印提取发生错误,甚至根本提取不出水印信号。常见的操作有线性滤波、通用非线性滤波、压缩(JPEG、 MPEG)、添加噪声、漂移、像素域量化、数模转换、y修正等。

简单攻击中的操作会给水印化数据造成类噪声失真,在水印提取和校验过程中将得到一个失真、变形的水印信号。可以采用两种方法抵抗这种类噪声失真:增加嵌入水印的幅度和冗余嵌入

同步攻击、排除攻击、混淆攻击


图像质量评价

MOS

平均主观意见分

P273


均方误差(Mean Squared Error,MSE)

原理:基于信号保真度(或误差信号敏感性)的IQA方法,认为失真图像
是由参考图像加上误差信号得到,通过测量误差信号的视觉感知强
度来评价图像失真的程度。

计算公式

MSE=1M×Ni=1Mj=1N[f(i,j)g(i,j)]2MSE=\frac{1}{M\times N}\sum\limits_{i=1}^{M} \sum\limits_{j=1}^{N} [f(i,j)-g(i,j)]^2


峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)

定义为信号最大可能的峰值功率与噪声信号的功率之比,因此可以
看作是对MSE从量纲上的一种转换。

计算公式:设L表示灰度图像最大的像素值,对于常见的8比特(bit)量化的
灰度图像,L=28-1=255,则PSNR的计算公式为:(单位为dB)

PSNR=10lg(L2MSE)PSNR=10 \lg(\frac{L^2}{MSE})

优点

  1. 具有明确的物理意义,易于理解,就是表示所有像素平均意义
    上的误差,即误差信号的能量
  2. 计算简单,只需要极小的计算量,在所有的质量评价算法中是
    最高效的
  3. 可微分的,便于数学运算和分析,因此适合作为质量优化的
    指标嵌入到图像处理系统中来指导优化算法的设计

缺点

  1. 完全忽视了二维图像信号内部像素之间的空间结构相关性即结构特性,将二维图像信号作为一维信号来处理
  2. MSE将误差信号与图像信号完全割裂开来,忽略了图像的局部特征对误差信号可见性的影响,即认为误差信号在不同的图像区域具有相同的视觉重要性。
  3. MSE没有反映人眼观察图像的过程,与人眼评价结果的一致性较低。MSE相同的失真图像,其主观质量可能差别很大,反之,主观质量相似的失真图像,MSE可能差别很大。

结构相似度测量SSIM

基于人眼对图像局部结构信息变化敏感的特性,同时考虑了图像的亮度和对比度的变化


信息保真度准则(Information Fidelity Criterion,IFC)

  • 从中高层语义级进行质量判定,与人眼感知机理较为一致,是另一 类有代表性的质量评价方法。
  • 这类方法从信息论的观点出发,将图像失真的过程看作是参考图像 的信息经过易错信道传输后信息丢失的过程。
  • 在信道传输过程中,引入的失真越大,则信息丢失的越多,接收到的图像中保留的信息越少,图像质量越低;反之亦然。

图像失真的类型

  1. 图像编码产生的压缩失真
  2. 图像采集时由于镜头器件缺陷产生的噪声失真
  3. 图像采集时由于镜头抖动或散焦产生的模糊失真
  4. 码流在易错信道中传输由于比特误码产生的传输失真

图像质量评价方法

  1. 主观评价、客观评价
  2. 根据不同的准则,客观评价可以有不同的分类方法
  3. 基于参考图像的可用性进行分类:全参考图像质量评价、半参考图像质量评价、无参考图像质量评价;
  4. 基于失真图像是否包含彩色信息进行分类:灰度图像质量评价、彩色图像质量评价
  5. 基于应用范围进行分类: 通用的质量评价、专用的质量评价

图像视频检索

基于内容的图像检索

P297

特征提取是基于内容的图像检索的基础

包括

a.颜色特征(常用颜色直方图),灰度图中,直方图用来统计图像灰度值的分布。彩色图像中,颜色直方图所描述的是不同色彩在整幅图像中所占的比例,即图像颜色分布的统计特性

b.纹理特征

c.形状特征

d.空间特征


基于内容的视频检索

P307

视频内容的结构组成

视频由帧、镜头、关键帧、场景这些结构组成

其中帧是组成视频的最小视频单位


图像识别

SVM支持向量机

人工神经网络Artificial Neural Network,ANN

卷积神经网络Convolutional Neural Network,CNN

人工神经单元的三个基本要素:连接强度、求和单元、激励函数(传递函数)