金沙检测线路js最根本的计算任务是求解判断矩阵 的最大特征根 及其所对应的特征向量

当前位置:金沙检测线路411166 > 金沙检测线路js > 金沙检测线路js最根本的计算任务是求解判断矩阵 的最大特征根 及其所对应的特征向量
作者: 金沙检测线路411166|来源: http://www.kemates.com|栏目:金沙检测线路js

文章关键词:金沙检测线路411166,地理计量学

  1、地理数据是用一定的测度方式描述和衡量地理对象的有关量化标志,是对地理问题进行 定量化描述和研究的基础,是一切数学方法在地理学中应用的先决条件。 2、相关分析 :分析地理要素之间的相关关系。 回归分析 :拟合地理要素之间的数量关系、预测发展趋势。 方差分析 :研究地理数据分布的离散程度。 时间序列分析 :用于地理过程时间序列的预测与控制研究。 主成分分析:用于地理数据的降维处理及地理要素的因素分析与综合评价。 聚类分析 :用于各种地理要素分类、各种地理区域划分 趋势面分析:用于拟合地理要素的空间分布形态。 3、对计量地理学的评价 评价一: 在地理学的学科体系中,“计量地理学”担负着方法论的任务,将数学方法应用于地理问题 的认识、分析和研究,有利于地理学由定性描述走向定量、定位的分析。地理系通过“计量 地理学”的教学,让本科学生了解学科发展的特点和趋势,掌握计量地理学的基础知识、常 用方法,理解数学模型在实际工作中的作用和意义。 结合实际问题的分析,是学生能够正确处理数据资料,建立起适宜的数学模型,把数学方法 同现实问题紧密结合,培养学生的实际动手能力,为其他课程的学习打下了良好的数理基础, 也为从事实际工作准备了条件, 可以说,这门课程的教学对于提高学生的素质发挥了积极 作用。 评价二: 计量地理学让本科学生了解学科发展的特点和趋势,掌握计量地理学基础知识、基本数学模 型,着重培养学生正确处理地理数据资料,利用定量方法解决实际问题的能力 。对于提高 学生的综合素质,起到了重要的作用。 4、地理数据的基本特征 (简答) 一、数量化、形式化与逻辑化 二、不确定性 三、多种时空尺度 四、多维性 一、数量化、形式化与逻辑化。定量化的地理数据是建立地理数学模型的基础,其作用为: 确定模型的参数、给定模型运行的初值条件;检验模型的有效性。形式化、逻辑化与数量化, 是所有地理数据的共同特征。 二、不确定性 。各种原因所导致的数据误差。 (1)地理系统的复杂性。 (2)数据误差。 三、多种时空尺度 。从空间尺度上来看,描述地理区域的各种地理数据,具有多种空间尺 度——既有全球尺度的、洲际尺度的、国家尺度的,也有流域尺度的、地区尺度的、城市尺 度的、社区尺度的。从时间尺度上来看,描述地理过程的各种地理数据具有多种时间尺度, 如历史年代、天、月、季度、年等。 四、多维性 。 对于一个地理对象的具体意义要从空间、属性、时间三个方面综合描述 5、地理数据的来源渠道 1 (一)来自于观测、测量部门的有关专业数据。 (二)来自于统计年鉴、统计公报中的有关自然资源及社会经济发展数据。 (三)来自于有关单位或个人的不定期的典型调查数据、抽样调查数据。 (四)来自于政府公报、中的有关数据。 (五)来自于档案、图书等文献资料中的有关数据。 (六)来自于互联网(internet)的有关共享数据。 (七)来自地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。 (八)来自遥感数据。主要包括各种航空遥感数据和卫星遥感数据。 (九)其他来源的有关数据。 6、数据的时间特征要求 (一)数据的即时程度。 (二)数据的时段长度。 (三)数据的时间完整性。 (四)数据的时间同步性。 (五)数据的时间代表性 (六)数据的时序间隔 (一)数据的即时程度。是指论文中获取的最新数据时间。 (二)数据的时段长度。论文需要分析有关资料数据在一定时间尺度的变化过程,各学科所 需要数据分析的时间尺度不尽相同。 (三)数据的时间完整性。日变化数据的完整性,年内变化数据的完整性,年际变化数据的 完整性 (四)数据的时间同步性。数据的时间序列要同步。 (五)数据的时间代表性 1.遥感数据,利用卫星影像估算森林覆盖率要说明是用何月的或者还是多年的平均值。1 月 份和 7 月份卫星影像估算的森林覆盖率、水域面积等的结果会存在很大的差距。 2.水文数据,在对比不同河段水体中泥沙或元素含量时,洪水期、枯水期的含量也大不一样。 因此,取样时机的一致性和可比性是至关重要的,必须在文中说明。 3.气象数据,对气象数据不能用秋末冬初之类的表述,要用具体月份的说明。 (六)数据的时序间隔 数据的时间密度选取要根据不同的研究要素变化特征来考虑。 1.气象、水文等观测数据变化数据要逐月的变化数据。 2.古气候研究的实验数据需要有年度数据,如冰芯、纹泥、树木年轮、珊瑚影像密度、碳酸 钙沉积层理等研究需要有年度变化数据。 7、 地理计算(Geocomputation)的实质是借助于现代化的计算理论、计算方法和计算技术, 通过对“整体”和“大容量”的地理数据进行处理,揭示复杂地理系统的运行机制,探索和 寻求新的地理系统理论。 8、 描述地理数据分布集中程度的指标 1.)平均数 2.)中位数 3.)众 数 2 平均数是集中趋势指标中最重要的一种指标,代表研究对象的一般水平。一般地,平均数包 括算术平均数和几何平均数两种类型,能反映出同质总体和样本数值的平均水平和一个数列 的数值的“集中趋势”。 中位数也称中央值,是地理数据按大小顺序排列,位居中间的那个数值。 众数是一个地理观测(或调查)系列中出现频数(次数)最多的数。它也有典型性和代表性 9、描述地理数据分布离散程度的指标 1.)极差 2.) 离差 3.)离差平方和 4.) 方差与标准差 5). 变异系数 极差是指所有数据中最大值与最小值之差,计算公式为:最大值减最小值 离差是指每一个地理数据与平均值的差 离差平方和是它从总体上衡量一组地理数据与平均值的离散程度 n 2 ? d 2 ? (xi ? x) i ?1 ? 2 ? 1 n i n ? ? ( 1 xi ? x) 2 方差是从平均概况衡量一组地理数据与平均值的离散程度 标准差为方差的平方根 变异系数表示地理数据的相对变化(波动)程度,其计算公式 Cv ? S x ?100% ? 1 x n ?(xi ? x)2 i?1 ?100% n ?1 10、罗伦次曲线 世纪初,意大利统计学家罗伦次(M. Lorenz),首先使用累计频率曲线研究工业化的集中 化程度。后来,这种曲线就被称之为罗伦次曲线 罗伦次曲线)列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重 p 与 w; (2)计算每一区域(部门)的比率 w/p; (3)根据 w/p 值,由小到大将每一地区(部门)排序; (4)按照上述顺序分别计算 p 和 w 的累计值 X 和 Y; (5)以 X 为横坐标,以 Y 为纵坐标,在直角坐标系中依次连接各点,得到一条下凸的罗伦次 曲线) 用于对经济发展、收入分配等均衡(不均衡)状况,进行定量化的描述。 1 1/ 2 ? ? G ? 0 f (X) ?1? 2 1 f ( X )dX (2.5.6) ? 1/ 2 0 Y ? f ( X ) X ?[0,1] , 假若罗伦次曲线的解析式为: Y ? A ? 1 f ( X )dX 。 0 显然,该曲线下方区域的面积为:A 对应于绝对均衡分布,其罗伦次曲线就是正方形的对角线,其下方区域的面积为 R=1/2。 4 12、锡尔系数又称锡尔熵,对经济发展、收入分配等不均衡状况进行定量化描述。 有两个锡尔系数指标,即锡尔系数 T 和锡尔系数 L 如果以人口比重加权,锡尔系数 L 的计算公式为 式中:n 为区域(部门)个数; 为 i 地区(部门)收入占全区(各部门总计)的份额; 为 i 地区(部门)的人口占全区(各部门总计)的份额 ? L ? n i ?1 pi log( pi ) yi ? T ? n i?1 yi log yi pi 如果以收入比重加权,则锡尔系数 T 的计算公式为 锡尔系数越大,就表示收入分配差异越大;反之,锡尔系数越小,就表示收入分配越均衡。 13、相关系数 rxy ? n ? (xi ? x)(yi ? y) i ?1 n n ? ? (xi ? x)2 ( yi ? y)2 i ?1 i ?1 - 1 = r = 1, 大于 0 时正相关,小于 0 时负相关。 r 的绝对值越接近于 1,两要素 的关系越密切;越接近于 0,两要素的关系越不密切。 14、秩相关系数(P52) 又称等级相关系数,金沙检测线路js或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以 各要素样本值的位次代替实际数据而求得的一种统计量 15.、相关分析与回归分析的区别(参照后面的 20、) 相关分析揭示了要素之间的相关程度。然而,诸要素之间关系的进一步具体化,譬如某一要 素与其他要素之间的关系若能用一定的函数形式予以近似地表达,那么其意义更大。 回归分析方法就是研究要素之间具体数量关系的一种强有力的工具,运用这种方法能够建立 反映地理要素之间具体数量关系的数学模型,即回归模型。 16、普通最小二乘法 不同的估计方法可得到不同的样本回归参数 β 1 和 β 2 也不同。 ●理想的估计方法应使 У 与 ( У 平均 ) 的差即剩余 e ●因 e 可正可负,所以可以取 ( e 的和 ) 最小 ? 即 min( ei2) ? min(Yi ? ??1 ? ??2Xi )2 ,所估计的 (У 平均 ) 越小越好 17、拟合优度 概念: 样本回归线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线 与样本观测值总有偏离。样本回归线对样本观测数据拟合的优劣程度——拟合优度 拟合优度的度量建立在对总变差分解的基础上 18、确定直线参数的方法与步骤 ① 第一步,根据观测值和设定的回归方程,列式如下 n n ? ? ( yi ? yi )2 ? ( yi ? a ? bxi )2 ? min i ?1 i ?1 ②第二步,根据取极值的必要条件(极值原理),有: ? ? n ?? i?1 ( yi ? a ? bxi ) ? 0 ?n ? ? ?? i ?1 ( yi ? a ? bxi ) xi ?0 ③第三步, 解上述正规方程组(3.2.4)式,得到参数 a 与 b 的拟合值,(x 平均 ) 和 (y 平均) 分别是观测值 x 和 y 的平均值。 a? ? y ? b?x n ? b? ? Lxy ? ( xi i ?1 ? x)(yi ? y) Lxx n ? (xi ? x)2 i ?1 ? ? ? ? n i ?1 xi yi ? 1n ( n i?1 n xi )( i ?1 yi ) ? ? n i ?1 xi2 ? 1n ( n i?1 xi ) 2 y? ? a? ? b?x 一元线性回归方程的意义 记 a? 和 b? 分别为参数 a 与 b 的拟合值,则一元线性回归模型为 此式代表 x 与 y 之间相关关系的拟合直线,称为回归直线; y? 是 y 的估计值,亦称回归值。 ?? a, b 的意义是:以 ? a 为基数,x 每增加 1 个单位,y 相应地平均增加 ? b 个单位。 19、可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度 越好。反之可决系数小,说明模型对样本观测值的拟合程度越差。 20、 相关与回归的区别与联系(接 15、) 相关关系的描述 相关关系最直观的描述方式——坐标图(散布图) 6 相关关系的类型 ● 从涉及的变量数量看 简单相关 多重相关(复相关) ● 从变量相关关系的表现形式看 线性相关——散布图接近一条直线 非线性相关——散布图接近一条曲线 ● 从变量相关关系变化的方向看 正相关——变量同方向变化,同增同减 负相关——变量反方向变化,一增一减 不相关 使用相关系数时应注意 x 和 y 都是相互对称的随机变量 ● 线性相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系 ● 样本相关系数是总体相关系数的样本估计值,由 于抽样波动,样本相关系数是个随机变量,其统 计显著性有待检验 ● 相关系数只能反映线性相关程度,不能确定因果 关系,不能说明相关关系具体接近哪条直线 计量学关心:变量间的因果关系及隐藏在随机性后面的统计规律性,这有赖于回归分析 方法 回归的现代意义: 一个应变量对若干解释变量 依存关系 的研究 回归的目的(实质): 由固定的解释变量去 估计应变量的平均值 21、趋势面分析的一般原理 趋势面分析,是利用数学曲面模拟地理系统要素在空间上的分布及变化趋势的一种数学方 法。 它实质上是通过回归分析原理,运用最小二乘法拟合一个二维非线性函数,模拟地理要 素在空间上的分布规律,展示地理要素在地域空间上的变化趋势。 趋势面分析方法常常被用来模拟资源、环境、人口及经济要素在空间上的分布规律,它在空 间分析方面具有重要的应用价值。 趋势面是一种抽象的数学曲面,它抽象并过滤掉了一些局域随机因素的影响,使地理要素 的空间分布规律明显化。 通常把实际的地理曲面分解为趋势面和剩余面两部分,前者反映地理要素的宏观分布规律, 属于确定性因素作用的结果;而后者则对应于微观局域,是随机因素影响的结果。 趋势面分析的一个基本要求,就是所选择的趋势面模型应该是剩余值最小,而趋势值最 大,这样拟合度精度才能达到足够的准确性。空间趋势面分析,正是从地理要素分布的实际 数据中分解出趋势值和剩余值,从而揭示地理要素空间分布的趋势与规律。 7 22、聚类分析是根据变量(或样品或指标) 的属性或特征的相似性或亲疏程度,用数学方 法把他们逐步地分型划类, 最后得到一个能反映样品之间或指标之间亲疏关系的客观的分 类系统,样品或指标逐步归并最后可形成分类系统图, 即系统聚类图。 在地理学研究方面,聚类分析是定量研究地理事物分类问题和地理分区问题的重要方法之 一。 23、标准化的原因 在地理分类和分区研究中,聚类对象常常是多个要素构成的。不同要素的数据往往具有不同 的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。因此,在进行聚 类分析之前,首先要对聚类要素进行数据处理。 在聚类分析中,常用的聚类要素的数据处理方法有如下几种: ①总和标准化。 ② 标准差标准化。 ③ 极大值标准化。 ④ 极差标准化。 24、极差标准化,即 经过这种标准化所得的新数据,各要素的极大值为 1,极小值为 0,其余的数值均在 0 与 1 之间。 ? ? ? ?? ? xij ? xij ? min i xij max i xij ? min i xij (i ? 1,2,?,m; j ? 1,2,?,n) 24、距离的计算 距离是事物之间差异性的测度,差异性越大,则相似性越小,所以距离是系统聚类分析的依 据和基础。 常见的距离 ① 绝对值距离 ② 欧氏距离 ③ 明科夫斯基距离 ④ 切比雪夫距离 8 欧氏距离 n ? dij ? (xik ? x jk )2 k ?1 绝对值距离 (如下) (i, j ? 1,2,?,m) ?0 ? ??1.52 0 ? ? ?3.10 2.70 0 ? ??2.19 1.47 1.23 0 ? ? D ? (d ij ) 9?9 ? ?5.86 ? 6.02 3.64 4.77 0 ? ? ?4.72 4.46 1.86 2.99 1.78 0 ? ??5.79 5.53 2.93 4.06 0.83 1.07 0 ? ? ?1.32 0.88 2.24 1.29 5.14 3.96 5.03 0 ? ??2.62 1.66 1.20 0.51 4.84 3.06 3.32 1.40 0 ? ? 25、直接聚类法 原理: 先把各个分类对象(如每个地区)单独视为一类,然后根据距离最小的原则,依次选 出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类; 如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象 所在的列与列序相同的行。经过 m-1 次就可以把全部分类对象归为一类,这样就可以根据 归并的先后顺序作出聚类谱系图 分类举例: 第一步:原始数据标准化处理(极差标准化) 第二步 计算区际绝对值距离 第三步 利用直接聚类法进行聚类分析 (1)在距离矩阵 D 中,除去对角线 区并为一类,划去第 9 行和第 9 列; 9 (2)在余下的元素中,除对角线 区 并为一类,划掉第 7 行和第 7 列; (3)在第 2 步之后余下的元素之中,除对角线 区并为一类,划去第 8 行和第 8 列; (4)在第 3 步之后余下的元素中,除对角线 区并为一类,划去第 4 行和第 4 列 此时,第 3、4、9 区已归并为一类(因为第一步中 4 区已和 9 区归为一类,而 3 区和 4 区也 归为一类,所以 3、4、9 区为一类)。 (5)在第 4 步之后余下的元素中,除对角线 区并为一类,划去第 2 行和第 2 列,此时,第 1、2、8 区已归并为一类; (6)在第 5 步之后余下的元素中,除对角线 区并为一类,划去第 6 行和第 6 列,此时,第 5、6、7 区已归并为一类; (7)在第 6 步之后余下的元素中,除对角线 区并为一类,划去第 3 行和第 3 列,此时,第 1、2、3、4、8、9 区已归并为一类; (8) 在第 7 步之后余下的元素中,除去对角线 区并为一类,划去第 5 行和第 5 列,此时,第 1、2、3、4、5、6、7、8、9 区均归 并为一类。 根据上述步骤,可以作出聚类过程的谱系图。 还有最短距离聚类法,最远距离聚类法…… 26、马尔可夫(Markov)预测方法 对事件的全面预测,不仅要能够指出事件发生的各种可能结果,而且还必须给出每一种结果 出现的概率。 马尔可夫(Markov)预测方法,就是一种预测事件发生的概率的方法。它是基于马尔可 夫链,根据事件的目前状况预测其将来各个时刻(或时期)的变动状况的一种预测方法。 马尔可夫预测法是对地理事件进行预测的基本方法,它是地理预测中常用的重要方法之 一。 基本概念 1)状态 :指某一事件在某个时刻(或时期)出现的某种结果。 2)状态转移过程: 事件的发展,从一种状态转变为另一种状态,称为状态转移。 3)马尔可夫过程: 在事件的发展过程中,若每次状态的转移都仅与前一时刻的状态有关, 10 而与过去的状态无关,或者说状态转移过程是无后效性的,则这样的状态转移过程就称为马 尔可夫过程。 4)状态转移概率:在事件的发展变化过程中,从某一种状态出发,下一时刻转移到其他状态 的可能性,称为状态转移概率。 5)状态转移概率矩阵:假定某一个事件的发展过程有 n 个可能的状态,即 E1,E2,…,En。 记为从状态 率矩阵 Ei 转变为状态 Ej 的状态转移概率是 P(Ei ? Ej) ,则矩阵称为状态转移概 ?P11 P12 ? P1n ? P ? ??P21 P22 ? P2n ? ? ?? ? ?? ??Pn1 Pn2 ? Pnn ? ? 6)概率矩阵 ?0 ? Pij ? 1 ? ? ? n ? Pij ? 1 ? j ?1 (i, j ? 1,2,?, n) (i ? 1,2,?, n) 一般地,将满足上述条件的任何矩阵都称为随机矩阵,或概率矩阵。 归纳:马尔可夫预测方法的应用思路 第一步 求状态转移概率矩阵。 第二步 预测未来某时刻的状态概率。 第三步 预测终极状态概率。 马尔可夫预测方法应用的注意事项 1)在地理事件的预测中,被预测对象所经历的过程中各个阶段(或时点)的状态和状态之 间的转移概率最为关键。 2)马尔可夫预测方法的基本要求是状态转移概率矩阵必须具有一定的稳定性。因此,必须 具有足够的统计数据,才能保证预测的精度与准确性。换句话说,马尔可夫预测模型必须建 立在大量的统计数据的基础之上。 3)马尔可夫预测模型必须建立在大量的统计数据的基础之上。这一点也是运用马尔可夫预 测方法预测地理事件的一个最为基本的条件。现实中考虑到马尔科夫转移矩阵在中长期内可 能出现的变化,因此利用该方法预测时以中短期为宜。 27、AHP 决策分析法 决策是指在面临多种方案时需要依据一定的标准选择某一种方案。 AHP 决策分析法,是一种解决多目标的复杂问题的定性与定量相结合的决策分析方法。 该方法将定量分析与定性分析结合起来,用决策者的经验判断各衡量目标能否实现的标准之 间的相对重要程度,并合理地给出每个决策方案的每个标准的权数,利用权数求出各方案的 优劣次序,比较有效地应用于那些难以用定量方法解决的问题。 AHP 决策分析法,是解决复杂的非结构化的地理决策问题的重要方法,是计量地理学 的主要方法之一。 11 分析过程 第一步 明确问题 第二步 建立层次结构模型。最高层(目标层)—中间层(准则层)—最低层(措施层/对 象层)的次序排列起来。 第三步 构造判断矩阵 从第二层开始用成对比较矩阵和 1~9 尺度 第四步 层次单排序及其一致性检验 对每个成对比较矩阵计算最大特征值及其对应的特征向量,利用一致性指标、随机一致性指 标和一致性比率做一致性检验。若检验通过,特征向量(归一化后)即为权向量;若不通过, 需要重新构造成对比较矩阵。 第五步 层次总排序及其一致性检验 计算方法 通过前面的介绍,我们知道,在 AHP 决策分析方法中,最根本的计算任务是求解判断矩阵 的最大特征根 及其所对应的特征向量。判断矩阵的最大特征根及其对应的特征向量的计算, 并不需要追求太高的精度。这是因为判断矩阵本身就是将定性问题定量化的结果,允许存在 一定的误差范围——精确计算不必要。 【和积法】 首先,将判断矩阵每一列归一化 其次,对按列归一化的判断矩阵,再按行求和 AHP 方法评价 层次分析法的优点 系统性——将对象视作系统,按照分解、比较、判断、综合的思维方式进行决策。成为成为 继机理分析、统计分析之后发展起来的系统分析的重要工具; 实用性——定性与定量相结合,能处理许多用传统的最优化技术无法着手的实际问题,应用 范围很广,同时,这种方法使得决策者与决策分析者能够相互沟通,决策者甚至可以直接应 用它,这就增加了决策的有效性; 简洁性——计算简便,结果明确,具有中等文化程度的人即可以了解层次分析法的基本原理 并掌握该法的基本步骤,容易被决策者了解和掌握。便于决策者直接了解和掌握。 层次分析法的局限 囿旧——只能从原有的方案中优选一个出来,没有办法得出更好的新方案; 粗略——该法中的比较、判断以及结果的计算过程都是粗糙的,不适用于精度较高的问题; 主观—— 从建立层次结构模型到给出成对比较矩阵,人主观因素对整个过程的影响很大, 这就使得结果难以让所有的决策者接受,存在着较大的随意性。譬如,对于同样一个决策问 题,如果在互不干扰、互不影响的条件下,让不同的人同样都采用 AHP 决策分析方法进行 研究,则他们所建立的层次结构模型、所构造的判断矩阵很可能是各不相同的,分析所得出 的结论也可能各有差异。当然采取专家群体判断的办法是克服这个缺点的一种途径。 为了克服这种缺点,在实际运用中,特别是在多目标、多准则、多要素、多层次的非结构化 的战略决策问题的研究中,对于问题所涉及的各种要素及其层次结构模型的建立,往往需要 多部门、多领域的专家共同会商、集体决定;在构造判断矩阵时,对于各个因素之间的重要 程度的判断,也应该综合各个专家的不同意见。 (1)合理选择咨询对象(专长及熟悉的领域)。 12 (2)创造适合于咨询工作的良好环境(介绍 AHP 方法,提供信息,独立思考)。 (3)正确的咨询方法(通过咨询确定递阶层次结构,设计好表格)。 (4)及时分析专家咨询信息,必要时要进行反馈及多轮次咨询。 可取各个专家的判断值的 平均数、众数或中位数。 应用:基于 AHP 决策分析方法的兰州市主导产业选择 28、主成分分析的基本原理 主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。 从数学角度来看,这是一种降维处理技术。 假定有 n 个地理样本,每个样本共有 p 个变量,构成一个 n×p 阶的地理数据矩阵 ? x11 x12 ? x1 p ? X ? ? ? x21 ?? x22 ? ? x2 p ? ? ?? ? ?? xn1 xn 2 ? xnp ? ?? 当 p 较大时,在 p 维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理, 即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多 地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。 定义:记 x1,x2,…,xP 为原变量指标,z1,z2,…,zm(m≤p)为新变量指标 ? z1 ? l11x1 ? l12 x2 ? ? ? l1p xp ? ? z2 ? l21x1 ? l22 x2 ??? l2 p xp ? ? ............ ??zm ? lm1x1 ? lm2 x2 ? ? ? lmp xp 系数 lij 的确定原则: ① zi 与 zj(i≠j;i,j=1,2,…,m)相互无关; ② z1 是 x1,x2,…,xP 的一切线性组合中方差最大者,z2 是与 z1 不相关的 x1,x2,…, xP 的所有线性组合中方差最大者;…; zm 是与 z1,z2,……,zm-1 都不相关的 x1,x2,… xP, 的所有线性组合中方差最大者。 则新变量指标 z1,z2,…,zm 分别称为原变量指标 x1,x2,…,xP 的第 1,第 2,…, 第 m 主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量 xj(j=1,2 ,…, p)在诸 主成分 zi(i=1,2,…,m)上的荷载 lij( i=1,2,…,m; j=1,2 ,…,p)。 从数学上可以证明,它们分别是相关矩阵 m 个较大的特征值所对应的特征向量。 13

网友评论

我的2016年度评论盘点
还没有评论,快来抢沙发吧!