基于样式生成对抗网络的风景园林方案生成及设计特征识别
详细信息Generation and Design Feature Recognition of Landscape Architecture Scheme Based on Style-Based Generative Adversarial Network
More Information-
摘要:目的
人工智能算法能否有效习得风景园林设计特征是一个值得探讨的问题。
方法采用样式生成对抗网络2代(style generative adversarial network2, StyleGAN2)算法,通过算法训练生成风景园林设计方案;之后拆解StyleGAN2算法中的w向量,采用主成分分析(principal component analysis, PCA)降维方法和无监督学习K均值聚类方法可视化w向量特征;最后根据w向量的数据特征和生成结果的关联,分析算法对设计方案特征的提取能力。
结果StyleGAN2可以为不同类型的场地生成高质量和多样化的设计方案,并且可以识别和提取一些高维抽象设计特征,如植被密度、水域面积、铺装面积、道路网络结构等。
结论神经网络不仅可以识别图像形态特征,还可以在没有人类指导的情况下,无监督学习识别部分抽象的高维设计特征。但目前大部分设计特征耦合性较高,这是风景园林工作的复杂性和算法低可解释性共同导致的,需要未来进一步探索。
Abstract:ObjectiveThis research explores a new question: how can artificial intelligence (AI) understand design features? This question is important and urgent for the field of landscape architecture, which can benefit from the new possibilities offered by AI technology. Especially, some image generation models based on deep learning, such as Midjourney, Dall-E, Stable Diffusion and other new tools, can create creative images based on simple user input, and seem to be able to produce satisfactory design results. However, can they capture the essence, logic and rules of design works? Or are they just generating graphics based on graphics? Despite their significant theoretical and practical implications, the aforesaid questions also face huge challenges and involve a number of problems. This research focuses on one aspect of these questions: How can AI algorithms identify and recognize high-dimensional design features based on StyleGAN (a style-based generative adversarial network)? This is a challenging technical problem that involves both design understanding and feature disentanglement. The research aims to use StyleGAN to train design schemes, capture the latent space features inside the StyleGAN algorithm, analyze whether the algorithm can recognize abstract design features of landscape architecture schemes, what features it can recognize, and whether it can disentangle feature coupling.
MethodsThe research adopts StyleGAN as the main method to generate and analyze landscape architecture schemes. StyleGAN is a style-based generative adversarial network proposed by Karras et al. in 2018, which aims to generate high-quality, high-resolution and diverse images. It can control different levels of style features to achieve fine-grained editing of generated images. The StyleGAN algorithm consists of two parts: a mapping network and a synthesis network. The mapping network can transform a random noise vector z into a latent vector w, which contains different levels of style features. The synthesis network can generate an image from a constant vector by progressively adding details from coarse to fine resolution. The style features are injected into each layer of the synthesis network by adaptive instance normalization (AdaIN) operations. The research adopts two datasets for training: one is a general dataset with 4,047 diverse design schemes collected from public sources; the other one is a directional dataset with 105 “multiple solutions for one problem” schemes for a specific site in Beijing. The research trains two generators (a general generator and a directional generator) based on StyleGAN2 model with 512 × 512 resolution. The research adopts two techniques to analyze the latent vector w: dimensionality reduction and truncation trick. Dimensionality reduction is used to visualize and cluster w vectors in a two-dimensional space by principal component analysis (PCA) and k-means methods. Truncation trick is used to manipulate and edit w vectors by changing their influence strength on different layers of the synthesis network. The truncation trick is adopted to compare each generated scheme with an “average scheme” that erases specific design features, and thus infers what kind of design features are contained in each w vector.
ResultsThe research shows the analysis results in two parts: data feature analysis and semantic information analysis. In data feature analysis, the research adopts PCA to reduce the dimensionality of w vectors and compare them with z vectors, finding that w vectors have more distinctive features than z vectors, which are close to standard normal distribution. The research also adopts k-means to cluster w vectors and embed images into them finding that w vectors can roughly extract and classify some features from diverse design schemes, but the classification logic is different for different categories. Some categories are based on morphology, water area, hard-soft ratio, road network structure, park type and other design features, while some others are based on the frequency of appearance of certain design nodes. In semantic information analysis, the research adopts truncation trick to manipulate w vectors by changing their influence strength from 0 to 1, finding find that w vectors can control different levels of design features in generated schemes, such as vegetation density, water area, pavement area, road network structure and other high-level design attributes. The research also finds that some features are entangled with each other, which means that changing one feature may affect other features as well. This is due to the complexity of landscape design and the difficulty of feature disentanglement.
ConclusionThe research concludes that AI algorithms can identify and extract some high-dimensional design features from landscape architecture schemes, not only image morphology, but also semantic-rich design features. However, most features are still difficult to disentangle due to the complexity of landscape design and the uninterpretability of algorithms. The research proposes that it is necessary to conduct feature disentanglement before exploring how AI algorithms understand design logic and rules, and that feature interpretation is an important topic for intelligent evidence-based design research, as it can help constrain algorithms to meet designers’ needs.
-
人工智能如何理解设计特征?这是一个关键而亟待解决的新问题。近年来,人工智能技术在图像处理、语音处理、自然语言处理(natural language progressing, NLP)等领域取得了突破,为风景园林设计领域提供了新的可能性。尤其是一些基于深度学习技术的图像生成模型(如Midjourney、Dall-E、Stable Diffusion等新应用工具),可以根据用户简单输入生成具有创造力的图像,似乎能产出令人满意的设计结果。然而它们能否捕捉到设计作品的本质、规律和逻辑?还是仅能基于图形生成图形?这些问题具有重要的理论和实践意义,也面临着巨大的挑战,涉及诸多方面问题。
1)“AI算法驱动的设计循证”——当今技术背景下产生的新问题。大多数传统数字景观技术是用人工逻辑进行正向推导,从而产生可“循证”的设计结果。深度学习与传统方法不同,它不是用人工逻辑进行正向推导,而是利用海量数据训练,从中发现隐式规律,并用它们进行再创造。但由于“黑盒”效应,神经网络所习得的“隐式规律”可解释性较低,也难以循证,这是关乎技术落地的重要问题。
2)“AI算法驱动的人机协同方式”——敏感且尖锐的行业问题。神经网络在生成设计方案时,本质上是通过海量数据训练,拟合从条件到设计结果之间的“映射关系”。这个“映射关系”就是设计师最核心的工作——生成方案。探究算法理解并生成方案的逻辑是重要的科学问题,这关系到算法可以从什么方面、什么角度辅助设计师工作。
3)“算法可解释性”——富有挑战性的高难度技术问题。从设计师的角度,风景园林设计本身就是一项难以量化的工作,设计工作往往依赖于直觉、经验、情感等难以表达和传递的因素,其思维过程也不一定是线性和逻辑性的,很难用量化和标准化的方式来定义和评价;从算法的角度,算法可解释性研究是目前学界无法完全解决的问题,也是持续的研究热点。
1. 相关研究
1.1 从深度学习到AI生成设计
人工智能技术的快速发展对设计领域产生极大冲击,得益于深度学习技术特殊的学习能力。深度学习是人工智能的关键技术,可以通过大量数据训练拟合事物间的映射关系,挖掘事物规律。
深度学习于20世纪60年代被提出,但近10年来才开始迅速发展,逐渐被社会各界所认识。2012年,AlexNet由Alex Krizhevsky[1]提出,在ImageNet视觉识别比赛中获得第一名,自此深度学习开启了新的纪元。2015年,微软ResNet系统在ImageNet图像分类竞赛中刷新了纪录,实现3.6%的错误率,首度超过人类表现[2]。2016年,AlphaGo算法以深度学习和强化学习为核心,击败了围棋世界冠军,人工智能开始走进公众视野[3]。仅隔一年,AlphaZero在2017年被提出。它无需人类的数据和指导,用自我博弈强化学习的方式,在40天内打败AlphaGo,证明了强化学习的特殊能力[4]。同年,Pytorch[5]、Tensorflow[6]等框架相继发布,方便了更多的研究者快速调用成熟的深度学习算法。自此,深度学习在各个领域百花齐放。
深度学习主要应用领域包括NLP、计算机视觉(computer vision, CV)。在NLP领域中:2017年,Vaswani、Ashish等提出了框架Transformer[7],2018年,openAI公司在其基础上提出了GPT系列模型,从此GPT系列每年一更新,从GPT-3、Embeddings、GPT-3.5,到现在的ChatGPT[8]。在CV领域中:2017年,循环生成对抗网络(CycleGAN)[9]、图到图翻译的条件生成对抗网络(Pix2Pix)[10]等算法开始进入设计领域,奠定了AI生成内容(artificial intelligence generated content, AIGC)[11]的基础,随后,在2018年,英伟达公司提出了样式生成对抗网络(StyleGAN)[12],又于2019年提出了GauGAN[13],直到2021年,openAI公司提出CLIP多模态图文处理模型[14]、DALLE图像生成工具[15],2022年Midjourney公司、Stability AI公司、Adobe公司等相继推出Midjourney、Stable Diffusion、Adobe Firefly等商用级产品,AIGC开始进入高速发展期,与设计领域产生越来越多的交互。
也正是在近几年,风景园林智能化革命逐步从参数化时代走向人工智能时代,AI技术与设计行业走向交汇处[16-17]。人工智能算法类型众多,分类方法众多,在风景园林中的应用可以分为人工生命类、智能随机优化类和机器学习类[18]。其中机器学习是最为关键的分支之一,它具有强大的学习能力,可以通过大量数据训练拟合事物间的映射关系。机器学习在风景园林中的应用又包括景观评价[19]、景观格局模拟预测、生成设计(generative design)[20]。其中深度学习比其他机器学习算法的学习能力更强,神经网络的深度更深,有更强的拟合能力,更加适配生成设计问题。
1.2 深度学习在生成设计中的应用
生成设计是一种由设计师和计算机协同工作的设计流程[21],即在设计师给定设计空间的基础上,借助计算机的数据计算高效生成大量设计方案,其次基于用户限定筛选出符合要求的高质量方案。生成设计的发展大致经历了参数化、智能化、深度学习3个阶段[16-17]。参数化设计方法扩展了传统设计方法的可能性,推动了计算机辅助设计在设计过程中的位置[22];智能化时代,生成设计领域产生了元胞自动机应用、遗传算法应用、多智能体系统应用等多种技术手段[23]。近年来,深度学习的快速发展为生成设计优化和广泛应用提供了可能性,也成为当前风景园林智能化改革的主要技术路线之一。
生成设计主要应用深度学习中的生成算法,包括生成对抗网络(generative adversarial network, GAN)系列、扩散模型(diffusion models)系列、流形模型(flow models)系列、自编码器(auto encoder, AE)系列。GAN系列通过多个神经网络之间相互对抗约束,而不是单纯逼近最优解,生成结果既能约束,也富有多样性,在生成设计中应用较多[16, 24]。
基于GAN的场景效果图生成领域的研究涉及的专业较多。由于效果图与自然场景图像较为相似,数据量较大,主要研究问题不仅是规划设计的专业问题,更多集中于基于GAN的城市场景及城市要素分析,比如城市建筑足迹提取及变化检测[25-29]、城市建筑细部分析[30-32]、城市车辆轨迹预测[30, 33-37]、城市扩张分析[34, 38]、城市遥感影像分析[39-45]等。
基于GAN的平面图生成包括了大量空间规划的设计专业性问题,相关研究主要集中于规划设计行业。该领域从建筑室内方案生成开始[46-54],逐渐拓展到规律性较强的室外空间生成,如住区、校园等[24, 55-60],近年开始往风景园林等复杂空间对象发展[61-65]。该领域研究问题主要集中于如何约束算法进行空间规划和优化。
可见,基于深度学习的平面图生成相关研究更加契合规划设计本质,是“人工智能理解设计”的核心部分。
1.3 从设计理解到高维特征识别
如前文所述,平面图生成的研究是“人工智能理解设计”的核心部分,但目前还较少有“人工智能理解设计”相关的探索,主要研究问题集中于如何构建生成设计技术流程,以及如何将该流程迁移到更复杂的空间规划工作。
在基于深度学习的生成设计技术中,设计条件和结果间的映射关系由算法训练习得,可解释性较低,“人工智能理解设计”的研究就集中在如何构建、提取、分析这个映射关系。目前已有研究主要集中在基于图(graph)的建筑室内生成设计,图是一种可以凝练大量实体和实体间关系的数据结构,该细分方向主要的技术方法是将设计要素(如建筑室内的功能布局、建筑室内设计要素)凝练于图中,用于约束算法进行可解释的生成任务[47, 49]。
但由于风景园林设计工作过于复杂,包含了大量非线性逻辑的推理过程,以及大量难以界定的模糊边界、多种复合功能的空间,甚至难以确定设计要素、要素关系分类(例如,拓宽的园路属于广场还是园路?应该以实体要素还是以视觉感知为分割界限限定围合空间?)这种难以量化的评价逻辑限制了图神经网络(graph neural network, GNN)在风景园林生成设计中的应用。
从算法的角度,该问题本质上是因为风景园林方案包含大量难以解释的抽象特征,而且特征之间存在大量的特征耦合性(feature coupling,是Tero Karras在StyleGAN算法原文中提出的概念,指不同数据特征之间的影响程度)[12],因此“如何解开风景园林特征耦合性、探究高维抽象设计特征”是在研究“人工智能理解设计”之前的必要步骤,也是笔者研究的关键科学问题。
因此本研究拟借助StyleGAN技术,通过大量的设计方案训练算法,抓取算法内部隐空间特征,分析算法能否识别风景园林方案抽象设计特征,可以识别哪些特征,以及能否解开特征耦合性。
2. 研究方法
本研究首先运用设计方案数据集进行StyleGAN的算法训练,令算法生成多样化的设计方案;然后利用主成分分析(principal component analysis, PCA)降维方法可视化算法内部隐空间,分析算法以何种特征指引多样化的设计方案生成,以探究神经网络如何理解设计特征。
2.1 StyleGAN原理
StyleGAN可以通过控制不同层次的风格特征实现对生成图像的细粒度编辑。该算法主要由映射网络(mapping network)、生成网络(synthesis network)2个部分组成。整个正向传播过程如下。
1)随机噪声向量z(一种服从标准正态分布的随机向量,无规律的随机噪声可以增加生成图像的多样性)通过8个全连接网络层得到w向量。w向量是一种经过特征解耦的隐空间向量,难以直接可视化,其中包含了不同层次的风格特征,这也是本研究关键的研究内容。
2)w向量再控制生成网络进行多样化图像生成。在生成网络中,常数向量(一种服从标准正态分布的固定向量,无规律的固定噪声可以作为生成图像的初始状态)通过类似于渐进式增长生成对抗网络(progressive growing of GANs, ProGAN)的架构,从4×4到8×8逐步生成高分辨率图像,生成内容从低分辨率逐渐到高分辨率。在这个过程中,不同深度层(风格特征层)上的w向量分别控制生成方案的不同尺度信息。w向量就在这个过程中,传到与每个层次相对应的部分,通过自适应实例归一化(adaptive instance normalization, AdaIN)操作控制不同尺度的特征,不同深度层(风格特征层)上的w向量分别控制生成的设计方案的不同尺度信息,如从空间布局,到路网结构,再到细部纹理、树种等。这种架构使得StyleGAN能够实现风格特征和生成网络之间的解耦,即不同风格特征层上的w向量可以独立地影响生成方案的不同尺度信息,而不会相互干扰。此外,为增加图像多样化,w向量与随机噪声通过加法操作同时控制每个层次的细节信息(此处的随机噪声与向量z不同,是另一个服从标准正态分布的随机向量,目的是增加生成图像的细节变化)。
2.2 StyleGAN应用方法
该算法通过大量数据训练习得不同的设计特征,生成不同的方案。其中,w向量包含了每个生成方案的特征。因此本研究的关键部分是探究w向量,包括“w向量数据特征分析”“w向量语义信息分析”。
2.2.1 w向量数据特征分析方法
在本研究中,我们使用了2个概念来描述和分析StyleGAN生成的图像:风格特征和设计特征。风格特征是指w向量在不同深度层(风格特征层)上控制图像生成的不同尺度信息,是算法的概念,包含了部分设计特征,也包含了其他图像特征。它反映了StyleGAN如何将随机噪声向量z映射到具有不同风格特征的向量w,并且如何将w注入合成网络中生成高质量的图像。设计特征是我们对图像进行研究和分析所使用的概念,它反映了我们如何从图像中识别或提取具有语义的特征,如风景园林方案抽象设计特征。w向量包含了风格特征(算法概念);风格特征中既包含了设计方案中的设计特征,也包含了非设计特征的其他特征。本研究目标是研究w向量中能提取什么设计特征。
w向量存在于高维空间,难以可视化,因此笔者通过降维、聚类与图像嵌入2个步骤完成w向量的分析。
1)降维:由于w向量(设计特征)由z向量(随机噪声)经过映射网络得来。因此将w向量与z向量同时降维并可视化,通过数据分布初步分析算法能否提取有规律的特征信息。
2)聚类与图像嵌入:仅根据数据分布难以分析算法习得的特征是否为设计特征,因此进一步将多个w向量进行聚类,并将每个对应的生成方案嵌入w向量的数据分布中,通过生成方案的设计特征差异进一步分析算法能否有效提取设计特征。
2.2.2 w向量语义信息分析方法
在本研究中,我们假设存在一个所有方案的“平均方案”(即抹除了特定设计特征的方案),来分析每一个生成方案与“平均方案”的差异,从而得到该生成方案对应的w向量包含的最重要的设计特征信息。
为了实现这一目标,我们需要借鉴StyleGAN框架中的截断(truncation)技巧。这种技巧可以通过调节不同层次的特征影响强度,观察在同一w向量影响下,生成结果的连续变化。这与本研究的假设有相似之处,即不同层次的特征对风格迁移的影响程度不同。截断后的特征向量
w′ 的计算式如下:w′=¯w+φ(w−¯w), (1) 式中,
w 为每个生成方案对应的原始特征w向量;¯w 为平均特征w向量,是W空间中分布的所有特征点的平均点;φ 为截断系数,是可人为调整的超参数,一般情况下0⩽ 1(但实际操作中\varphi 也可以在这个范围之外)。该方法通过计算\overline {\bf{w}} 到所有点的距离,再进行统一压缩,将所有数据点聚拢。因此,当
\varphi 为1时,截断后的特征向量为原始特征,对应的生成方案保留特定设计特征:{\bf{w}}'={\bf{w}} {\text{,}} (2) 当
\varphi 为0时,截断后的特征向量为平均特征,对应的生成方案即“平均方案”:{\bf{w}}'={\overline{\bf{w}}} {\text{。}} (3) 因此,通过截断技巧,调节
\varphi 从0到1,可以分析方案在同一w向量不同强度影响下,从抹除所有特征信息的“平均方案”,到包含该w向量完整特征的“特定生成方案”的连续变化。以此回应前述假设,分析每一个w向量所内含的设计特征语义。2.3 数据来源
本研究数据来源包括2个部分:4 047个多样化设计方案(下称通用数据集)、105个针对同一场地的“一题多解”方案(下称定向数据集)。其中通用数据集来源于公开资料,由27个风景园林专业本科生、研究生在设计网站上搜集、处理,包含了多种类型绿地空间设计方案;定向数据集来源于北京林业大学园林专业学生作业,包括针对同一场地(北京市海淀区西北旺一处10 hm2绿地空间)的105种不同风格的设计方案。
这2套数据集分别用于探究不同内容。数据集的选择会影响StyleGAN拟合映射关系和提炼通用设计特征的难度和效果。如果数据集风格过少,即数据集中包含的设计特征过于单一或相似,那么StyleGAN可能无法学习到足够多样或丰富的设计特征,也无法反映出不同设计特征之间的差异或联系。如果数据集风格过多,即数据集中包含的设计特征过于多样或复杂,那么StyleGAN可能难以拟合映射关系,也难以提炼出通用的设计特征,因为不同设计特征之间可能存在冲突或干扰。
2.4 算法训练
StyleGAN3多用于多角度动图的训练生成,而风景园林设计方案是静态的平面图图像数据,因此StyleGAN3不适用于本研究。本研究采用StyleGAN2模型,训练采用512×512分辨率,在双卡NVIDIA 3090 GPU上运行,显存为64 GB。其中,为更好习得设计规律,针对通用数据集的训练开启数据镜像增强功能;而针对定向数据集的训练中,为保持场地红线不变,不开启数据镜像增强功能。
3. 结果分析
本研究针对2个数据集训练了2个生成器(下称通用生成器和定向生成器),通用生成器生成的方案风格多样,包括了多尺度、多类型方案,其生成结果多样性高,但由于数据风格差距过大,方案局部细节效果较差(图1)。定向生成器生成了同一场地的不同风格设计方案,整体设计内容稳定,细节丰富,但多样性较差(图2)。
生成结果并不是本研究的主要目的,拆解算法并理解算法才是关键问题,因此下一步进行算法内部的向量推理,以理解算法如何习得设计特征。
3.1 w向量数据特征分析结果
设计方案由w向量控制,w向量中包含了设计方案的所有特征,每一个w向量控制一张图像。下面将从“w向量降维分析”和“w向量聚类和图像嵌入”2个方面进行分析。
3.1.1 w向量降维分析
w向量的降维分析包括2个步骤:1)单w向量分析:将单个生成方案的w向量拆解分析,初步分析w向量是否有习得特征;2)多w向量分析:将多个生成方案的w向量展平到二维空间,从整体分布上验证是否有习得特征。
w向量(设计特征)由z向量(随机噪声)经过映射网络得来。在同一个生成器中,所有的生成结果都来自同一分布,但不同的z向量会对应不同的w向量,w向量决定了图像的风格特征。因此笔者采用PCA将2种向量分别降到二维,并可视化,以分析z向量和w向量之间的变换关系。
在单w向量分析中,我们选取最有代表性的平均特征w向量(
\overline{\mathbf{w}} )进行分析。该特征向量为16×512的数据矩阵,即16行,每行512个数据。由于w向量进入生成网络前未逐层经过AdalN,所以16层信息是均布的,即16行数据是相同的。因此只取w向量中的第一行进行数据分布统计,并与输入的z向量对比,可见w向量经过映射网络之后已经将趋近于标准正态分布的z向量转换为带有特征的w向量(图3)。这证明了映射网络可以将随机噪声z向量转换为带有特征的新的向量,初步证明了映射网络已经习得某种特征。平均特征只证明了算法可以习得特征,而多样化的特征需要随机输入大量z向量测试。因此进一步输入多个随机z向量,通过映射网络转换为多个w向量,对比多个z向量分布和多个w向量的分布,分析算法能否生成不同的设计方案特征。
w向量与z向量都是高维数据,无法直接可视化。因此将所有向量展平、合并、降维到二维平面。这些z向量代表了多个抹除所有信息的随机噪声,w向量代表了生成器生成的多个多样化设计方案的特征信息。
对比多个z向量和多个w向量分布结果(图4),发现输入的多个z随机向量是完全随机分布的,而输出的w向量带有明显的特征,初步证明映射网络可以习得多样化设计方案特征,且可以猜测特征中心即设计方案中的特征均值。
3.1.2 w向量聚类和图像嵌入
经过分析,发现w向量带有一定的特征信息,而这些信息能否反映设计方案信息,则需要进一步进行聚类和图像嵌入可视化。
1)采用K均值聚类方法,根据特征相似度对w向量进行聚类。对通用生成器和定向生成器的100个生成方案进行测试,不同分类用坐标点颜色表示,包含3个要素以上的类别用连线框选。
2)将图像嵌入不同的w向量,分析算法习得的设计方案特征。每张图像对应一个w向量(图5)。生成结果显示,通用生成器所生成的w向量中,算法可以大致提炼并归类特征,但分类逻辑不同,有根据形态、根据水体面积、根据软硬质比例、根据路网结构、根据公园类型等多种分类逻辑,甚至有的类别是根据同一设计节点出现的频率分类。
算法根据w向量特征相似度分类,因此聚为一类的图像中,w向量特征是较为相似的。而w向量代表了方案的特征,因而可以推断算法将聚为一类的图纸视为同一类型设计特征。 通用生成器的生成结果表明,该生成器难以提炼出准确的分类逻辑。在分类结果中,同一类别设计方案差距较大,可以初步推断是数据集风格差异过大导致的。该数据集包含的数据内容涵盖了风景园林大多数设计风格,差异极大,相对于如此复杂的设计特征,数据集样本数据量小、网络体量参数量少、训练时间短,因此难以拟合如此复杂的设计规律。
定向生成器的生成结果表明,当数据集里的图像相似度较高时,分类逻辑更清晰,特征解耦程度较高。从整体上分析,类别间差异较大,多样性高,可以生成不同类型的设计方案。从聚类图像局部分析,每个类别中的设计方案较为相似,但设计细节存在差异(图6)。
3.2 w向量语义信息分析结果
本节采用截断技巧截断w向量:设置截断系数
\varphi 为0~0.9的10个连续浮点数(步长为0.1),基于前文100个随机z向量,共同约束算法生成1000个w向量。进一步嵌入图像分析,可以可视化生成器生成的平均方案。定向生成器可以从多种方案中总结通用的设计框架,该设计方案可以代表最适宜该场地的设计方案,其他的多样性方案都是基于此框架进行设计内容上的微调(图7)。
将定向生成器的完整w向量(
\varphi 为1)标红、聚类、嵌入生成结果,得到100个带有完整设计特征的多样化设计方案(图8),从中选取5个方案(图9~13)深入分析。从0到0.9调节\varphi ,分析w向量在不同的截断系数影响下的变化。受到截断系数的影响,方案特征向特定方向变化,可基于方案特征变化的方向分析该w向量所包含的语义特征。在案例一、案例二中,w向量代表的意义分别是植物郁闭度、水体面积。从结果可见,算法可以在完全没有其他信息的情况下,仅通过大量设计方案习得植物郁闭度与水体面积等抽象指标含义。在截断系数的影响下,案例一的方案基本结构保持不变,植物郁闭度整体增加,植物围合的草坪空间减少。算法能考虑植物群落边缘丰富灵活的点状种植,创造多样植物空间。案例二在截断系数的影响下,方案基本结构保持不变,水体面积整体减少。算法能灵活地降低水域深度,从湖面逐渐变为湿地最后再变为草地,将整个河道变为小溪。
案例三、案例四都是针对铺装广场相关指标的变化,但由于铺装广场分布变化会影响整个方案结构布局,因此在案例三中硬质铺装面积与分布持续变化,与此同时,整体的植物、水体都有细微的变化。同样问题出现在案例四中,方案在保持硬质广场总体面积基本不变的情况下,硬质铺装位置分布连续变化,也会影响部分植物种植的布局。这种问题是特征缠绕引起的,说明算法无法完全解耦特征,但由于设计工作的特殊性,这种特征缠绕一定会出现。例如铺装广场的布局变化会导致空间视域方向的变化,必然会导致植物种植群落的改变。
案例五则出现了更严重的特征缠绕,算法在修改水体布局的时候,整个方案的多种特征同时变化。甚至在方案变化过程中,不同阶段的截断系数变化主要影响的特征不同,如
{\varphi} 取值0~0.4的时候主要修改方案铺装广场分布和路网结构,取值0.5~0.9的时候主要修改水体形态和种植群落分布。可见,如果再对w向量进行微调,可以挖掘同一个w向量中的不同设计特征。基于此,本研究最后进行了4个w向量的截断系数微调测试。结果表明:通过微调截断系数,算法可以区分出植物郁闭度、路网密度、驳岸硬化程度、路网结构4种高级设计属性(图14)。4. 结论与展望
本研究应用StyleGAN2算法挖掘风景园林设计方案设计特征,通过数据分布可视化、聚类、图像嵌入等技术方法探究神经网络中人类不可解的部分,以探究人工智能算法如何理解风景园林设计特征,推进智能设计循证研究。笔者发现,人工智能算法可以识别、提取设计方案中部分高维设计特征。算法识别的特征中,不仅包含了图像形态特征,也包含了富含设计语义的高维设计特征。
但目前算法识别的大部分特征还是难以解耦:一方面是因为风景园林设计工作的复杂性,评价指标难以量化;另一方面是因为算法本身的不可解释性,从神经网络黑盒中提取出有效信息难度较大。但即便难度大,算法驱动下的设计循证依然是一个非常重要的研究问题,因为算法正在逐步介入真实设计工作,可解释性研究与算法开发研究是同等重要的。可解释性研究有助于约束算法以满足设计师需求,目前本研究暂未涉及该问题,这也是未来可以继续深入的研究方向。
-
-
[1] KRIZHEVSKY A,SUTSKEVER I,HINTON G. ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems,2012,25 (2): 1097-1105.
[2] HE K, ZHANG X, REN S, SUN J. Deep Residual Learning for Image Recognition[C]//IEEE. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 770-778.
[3] SILVER D,HUANG A,MADDISON C J,et al. Mastering the Game of Go with Deep Neural Networks and Tree Search[J]. Nature,2016,529: 484-489. doi: 10.1038/nature16961
[4] SILVER D,SCHRITTWIESER J,SIMONYAN K,et al. Mastering the Game of Go without Human Knowledge[J]. Nature,2017,550: 354-359. doi: 10.1038/nature24270
[5] PASZKE A, GROSS S, MASSA F, et al. PyTorch: An Imperative Style, High-Performance Deep Learning Library[C]//HANNA M W, HUGO L, ALINA B. Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2019: 8026–8037.
[6] ABADI M, BARHAM P, CHEN J, et al. TensorFlow: A System for Large-Scale Machine Learning[C]//KIMBERLY K, TIMOTHY R. Proceedings of the 12th USENIX Conference on Operating Systems Design and Implementation. Savannah: USENIX Association, 2016: 265-283.
[7] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is All You Need[C]//ULRIKE V L, ISABELLE G, SAMY B, et al. Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc., 2017: 6000-6010.
[8] WU T,HE S,LIU J,et al. A Brief Overview of ChatGPT: The History,Status Quo and Potential Future Development[J]. IEEE/CAA Journal of Automatica Sinica,2023,10 (5): 1122-1136. doi: 10.1109/JAS.2023.123618
[9] ZHU J, PARK T, ISOLA P, et al. Unpaired Image-to-image Translation Using Cycle-Consistent Adversarial Networks[C]//IEEE. Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 2242-2251
[10] ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-Image Translation with Conditional Adversarial Networks[C]//IEEE. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE Computer Society, 2017: 1125-1134.
[11] KALPOKIENE J,KALPOKAS I. Creative Encounters of a Posthuman Kind: Anthropocentric Law,Artificial Intelligence,and Art[J]. Technology in Society,2023,72: 102197. doi: 10.1016/j.techsoc.2023.102197
[12] KARRAS T, LAINE S, AILA T. A Style-Based Generator Architecture for Generative Adversarial Networks[C]//IEEE. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach: IEEE, 2019: 4396-4405.
[13] PARK T, LIU M, WANG T, et al. Semantic Image Synthesis with Spatially-adaptive Normalization[C]//IEEE. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach: IEEE, 2019: 2337-2346.
[14] RADFORD A, KIM J W, HALLACY C, et al. Learning Transferable Visual Models from Natural Language Supervision[C]//MEILA M, ZHANG T. Proceedings of the 38th International Conference on Machine Learning. Vienna: PMLR, 2021: 8748-8763.
[15] RAMESH A, PAVLOV M, GOH G, et al. Zero-Shot Text-to-image Generation[C]//MEILA M, ZHANG T. Proceedings of the 38th International Conference on Machine Learning. Vienna: PMLR, 2021: 8821-8831
[16] 赵晶,陈然,鲍贝.生成对抗网络在小尺度空间布局生成设计中的研究进展与未来展望[J].装饰,2022(3):80-85. doi: 10.3969/j.issn.0412-3662.2022.03.018 ZHAO J,CHEN R,BAO B. Research Progress and Prospects for Generative Adversarial Network in the Generation Design of Small Scale Spatial Layout[J]. Zhuangshi,2022 (3): 80-85. doi: 10.3969/j.issn.0412-3662.2022.03.018
[17] 包瑞清.基于机器学习的风景园林智能化分析应用研究[J].风景园林,2019,26(5):29-34. BAO R Q. Research on Intellectual Analysis and Application of Landscape Architecture Based on Machine Learning[J]. Landscape Architecture,2019,26 (5): 29-34.
[18] 赵晶, 曹易.风景园林研究中的人工智能方法综述[J].中国园林, 2020, 36(5): 82-87. ZHAO J, CAO Y. Architecture Review of Artificial Intelligence Methods in Landscape Architecture[J]. Chinese Landscape Architecture, 2020, 36(5): 82-87.
[19] 陈然,赵晶,郝慧超,等.基于多模态深度学习的审美认知规律大规模测度方法[J].装饰,2021(7):106-111. doi: 10.3969/j.issn.0412-3662.2021.07.018 CHEN R,ZHAO J,HAO H C,et al. A Large-Scale Measurement Method of Esthetical Appreciation Laws Based on the Multimodal Machine Learning[J]. Zhuangshi,2021 (7): 106-111. doi: 10.3969/j.issn.0412-3662.2021.07.018
[20] 赵晶,陈然,郝慧超,等.机器学习技术在风景园林中的应用进展与展望[J].北京林业大学学报,2021,43(11):137-156. doi: 10.12171/j.1000-1522.20200313 ZHAO J,CHEN R,HAO H C,et al. Application Progress and Prospect of Machine Learning Technology in Landscape Architecture[J]. Journal of Beijing Forestry University,2021,43 (11): 137-156. doi: 10.12171/j.1000-1522.20200313
[21] 李飚,韩冬青.建筑生成设计的技术理解及其前景[J].建筑学报,2011(6):96-100. LI B,HAN D Q. Technical Comprehension of Architectural Generative Design and Its Prospects[J]. Architectural Journal,2011 (6): 96-100.
[22] 蔡凌豪.风景园林数字化规划设计概念谱系与流程图解[J].风景园林,2013,20(1):48-57. doi: 10.3969/j.issn.1673-1530.2013.01.010 CAI L H. The Concept Hierarchy and Procedure Diagram of Digital Planning and Design for Landscape Architecture[J]. Landscape Architecture,2013,20 (1): 48-57. doi: 10.3969/j.issn.1673-1530.2013.01.010
[23] 李飚,郭梓峰,季云竹.生成设计思维模型与实现:以“赋值际村”为例[J].建筑学报,2015(5):94-98. doi: 10.3969/j.issn.0529-1399.2015.05.014 LI B,GUO Z F,JI Y Z. Modeling and Realizing Generative Design: A Case Study of the Assignment of Ji Village[J]. Architectural Journal,2015 (5): 94-98. doi: 10.3969/j.issn.0529-1399.2015.05.014
[24] WU A N,STOUFFS R,BILJECKI F. Generative Adversarial Networks in the Built Environment: A Comprehensive Review of the Application of GANs Across Data Types and Scales[J]. Building and Environment,2022,223: 109477. doi: 10.1016/j.buildenv.2022.109477
[25] LIANG J,HE X Y,ZENG G M,et al. Integrating Priority Areas and Ecological Corridors into National Network for Conservation Planning in China[J]. Science of the Total Environment,2018,626: 22-29. doi: 10.1016/j.scitotenv.2018.01.086
[26] JI S P,SHEN Y Y,LU M,et al. Building Instance Change Detection from Large-Scale Aerial Images Using Convolutional Neural Networks and Simulated Samples[J]. Remote Sensing,2019,11 (11): 1343. doi: 10.3390/rs11111343
[27] SAHA S,BOVOLO F,BRUZZONE L. Building Change Detection in VHR SAR Images via Unsupervised Deep Transcoding[J]. IEEE Transactions on Geoscience and Remote Sensing,2021,59 (3): 1917-1929. doi: 10.1109/TGRS.2020.3000296
[28] SHI Y L,LI Q Y,ZHU X X. Building Footprint Generation Using Improved Generative Adversarial Networks[J]. IEEE Geoscience and Remote Sensing Letters,2019,16 (4): 603-607. doi: 10.1109/LGRS.2018.2878486
[29] TANG L,NIKOLOPOULOU M,ZHAO F Y,et al. CFD Modeling of the Built Environment in Chinese Historic Settlements[J]. Energy and Buildings,2012,55: 601-606. doi: 10.1016/j.enbuild.2012.09.025
[30] REN Z L,HOU B,WU Q,et al. A Distribution and Structure Match Generative Adversarial Network for SAR Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing,2020,58 (6): 3864-3880. doi: 10.1109/TGRS.2019.2959120
[31] KELLY T,GUERRERO P,STEED A,et al. FrankenGAN: Guided Detail Synthesis for Building Mass Models Using Style-Synchonized GANs[J]. ACM Transactions on Graphics,2018,37: 1-14.
[32] SUN C,ZHOU Y R,HAN Y S. Automatic Generation of Architecture Facade for Historical Urban Renovation Using Generative Adversarial Network[J]. Building and Environment,2022,212: 108781. doi: 10.1016/j.buildenv.2022.108781
[33] ZHANG Y X,WANG S Y,CHEN B,et al. TrafficGAN: Network-Scale Deep Traffic Prediction with Generative Adversarial Nets[J]. IEEE Transactions on Intelligent Transportation Systems,2021,22 (1): 219-230. doi: 10.1109/TITS.2019.2955794
[34] BOULILA W,GHANDORH H,KHAN M A,et al. A Novel CNN-LSTM-based Approach to Predict Urban Expansion[J]. Ecological Informatics,2021,64: 101325. doi: 10.1016/j.ecoinf.2021.101325
[35] LEVY N,RENDER M,BENENSON I. Spatially Explicit Modeling of Parking Search as a Tool for Urban Parking Facilities and Policy Assessment[J]. Transport Policy,2015,39: 9-20. doi: 10.1016/j.tranpol.2015.01.004
[36] CHOI S,KIM J,YEO H. TrajGAIL: Generating Urban Vehicle Trajectories Using Generative Adversarial Imitation Learning[J]. Transportation Research Part C-Emerging Technologies,2021,128: 103091. doi: 10.1016/j.trc.2021.103091
[37] LI D Z,LIN C,GAO W,et al. Capsules TCN Network for Urban Computing and Intelligence in Urban Traffic Prediction[J]. Wireless Communications and Mobile Computing,2020,2020: 1-15.
[38] LI R N,ZHENG H,LÜ S Y,et al. Development and Evaluation of a New Index to Assess Hydrologic Regulating Service at Sub-watershed Scale[J]. Ecological Indicators,2018,86: 9-17. doi: 10.1016/j.ecolind.2017.12.023
[39] GUO D E,XIA Y,LUO X B. GAN-based Semisupervised Scene Classification of Remote Sensing Image[J]. IEEE Geoscience and Remote Sensing Letters,2021,18 (12): 2067-2071. doi: 10.1109/LGRS.2020.3014108
[40] TAO Y,MULLER J-P. Super-Resolution Restoration of MISR Images Using the UCL MAGiGAN System[J]. Remote Sensing,2019,11 (1): 52.
[41] LI J X,HONG D F,GAO L R,et al. Deep Learning in Multimodal Remote Sensing Data Fusion: A Comprehensive Review[J]. International Journal of Applied Earth Observation and Geoinformation,2022,112: 102926. doi: 10.1016/j.jag.2022.102926
[42] WU A N,BILJECKI F. GANmapper: Geographical Data Translation[J]. International Journal of Geographical Information Science,2022,36 (7): 1394-1422. doi: 10.1080/13658816.2022.2041643
[43] CHEN B,LI J,JIN Y F. Deep Learning for Feature-Level Data Fusion: Higher Resolution Reconstruction of Historical Landsat Archive[J]. Remote Sensing,2021,13 (2): 167. doi: 10.3390/rs13020167
[44] MAO K,ZHU Q M,SONG M Z,et al. Machine-Learning-Based 3-D Channel Modeling for U2V mmWave Communications[J]. IEEE Internet of Things Journal,2022,9 (18): 17592-17607. doi: 10.1109/JIOT.2022.3155773
[45] ANDRADE H J A,FERNANDES B J T. Synthesis of Satellite-Like Urban Images from Historical Maps Using Conditional GAN[J]. IEEE Geoscience and Remote Sensing Letters,2022,19: 3000504.
[46] WANG S D,ZENG W,CHEN X,et al. ActFloor-GAN: Activity-Guided Adversarial Networks for Human-Centric Floorplan Design[J]. IEEE Transactions on Visualization and Computer Graphics,2021,29 (3): 1610-1624.
[47] NAUATA N, CHANG K, CHENG C, et al. House-GAN: Relational Generative Adversarial Networks for Graph-constrained House Layout Generation[C]//VEDALDI A, BISCHOF H, BROX T, et al. European Conference on Computer Vision (ECCV). Glasgow: Springer-Verlag, 2020: 162-177.
[48] NEWTON D. Deep Generative Learning for the Generation and Analysis of Architectural Plans with Small Datasets[C]//SOUSA J P, HENRIQUES G C, XAVIER J P. Proceedings of 37 eCAADe and XXIII SIGraDi Joint Conference, “Architecture in the Age of the 4Th Industrial Revolution”. Porto: eCAADe, 2019: 21-28.
[49] HU R Z,HUANG Z Y,TANG Y H,et al. Graph2Plan: Learning Floorplan Generation from Layout Graphs[J]. ACM Transactions on Graphics,2020,39 (4): 118.
[50] ZHOU Y F, PARK H-J. Sketch with Artificial Intelligence (AI): A Multimodal AI Approach for Conceptual Design[C]//CAADRIA. Proceedings of the 26th International Conference of the Association for Computer-Aided Architectural Design Research in Asia (CAADRIA) 2021. Hong Kong: CAADRIA, 2021: 201-210.
[51] LI Y Q, XU W G. Using CycleGAN to Achieve the Sketch Recognition Process of Sketch-Based Modeling[C]//YUAN P F, CHAI H, YAN C, et al. Proceedings of the 2021 DigitalFUTURES. Singapore: Springer, 2022: 26-34.
[52] CHAILLOU S. ArchiGAN: Artificial Intelligence x Architecture[C]//YUAN P F, XIE M, LEACH N, et al. Architectural Intelligence: Selected Papers from the 1st International Conference on Computational Design and Robotic Fabrication (CDRF 2019). Singapore: Springer, 2020: 117-127.
[53] HUANG W, ZHENG H. Architectural Drawings Recognition and Generation Through Machine Learning[C]//ANZALONE P, DEL SIGNORE M, WIT A J. Recalibration: on Imprecision and Infidelity: Proceedings of the 38th Annual Conference of the Association for Computer Aided Design in Architecture, ACADIA 2018. Mexico: ACADIA, 2018: 156-165.
[54] ZHENG H. Drawing with Bots: Human-Computer Collaborative Drawing Experiments[C]//HUANG W, WILLIAMS M, LUO D, et al. Learning, Adapting and Prototyping: 23rd International Conference on Computer-Aided Architectural Design Research in Asia (CAADRIA 2018). Hong Kong: CAADRIA, 2018:127-132.
[55] 陈梦凡, 郑豪, 吴建.基于生成对抗网络的复合功能体系计算性设计: 以职业技术学院校园平面生成为例[J].建筑学报, 2022(S1): 103-108. CHEN M F, ZHENG H, WU J. Computational Design of Multi-Functional System Based on Generative Adversarial Networks Taking the Layout Generation of Vocational and Technical College as an Example[J]. Architectural Journal, 2022(S1): 103-108.
[56] PAN Y Z, QIAN J, HU Y D. A Preliminary Study on the Formation of the General Layouts on the Northern Neighborhood Community Based on GauGAN Diversity Output Generator[C]//YUAN P F, YAO J, YAN C, et al. Proceedings of the 2020 DigitalFUTURES. Singapore: Springer, 2021: 179-188.
[57] 孙澄, 丛欣宇, 韩昀松.基于CGAN的居住区强排方案生成设计方法[J].哈尔滨工业大学学报, 2021, 53(2): 111-121. SUN C, CONG X Y, HAN Y S, Generative Design Method of Forced Layout in Residential Area Based on Cgan[J]. Journal of Harbin Institute of Technology, 2021, 53(2): 111-121.
[58] 林文强.基于深度学习的小学校园设计布局自动生成研究[D].广州: 华南理工大学: 2020. LIN W Q. Research on Automatic Generation of Primary School Schoolyard Layout Based on Deep Learning[D]. Guangzhou: South China University of Technology, 2020.
[59] 张彤.基于深度学习的住宅群体排布生成实验[D].南京: 南京大学, 2020. ZHANG T. Experiments on Generation of the Arrangement of Residential Groups Based on Deep Learning[D]. Nanjing: Nanjing University, 2020.
[60] LIU Y, LUO Y, DENG Q, et al. Exploration of Campus Layout Based on Generative Adversarial Network[C]//YUAN P F, YAO J, YAN C, et al. CDRF 2020: Proceedings of the 2020 DigitalFUTURES. Singapore: Springer, 2021: 169-178.
[61] YE X Y,DU J X,YE Y. MasterplanGAN: Facilitating the Smart Rendering of Urban Master Plans via Generative Adversarial Networks[J]. Environment and Planning B: Urban Analytics and City Science,2022,49 (3): 794-814. doi: 10.1177/23998083211023516
[62] 周怀宇,刘海龙.人工智能辅助设计:基于深度学习的风景园林平面识别与渲染[J].中国园林,2021,37(1):56-61. ZHOU H Y,LIU H L. Artificial Intelligence Aided Design: Landscape Plan Recognition and Rendering Based on Deep Learning[J]. Chinese Landscape Architecture,2021,37 (1): 56-61.
[63] YANG L L,LI Z C,MA S L,et al. Artificial Intelligence Image Recognition Based on 5G Deep Learning Edge Algorithm of Digestive Endoscopy on Medical Construction[J]. Alexandria Engineering Journal,2022,61 (3): 1852-1863. doi: 10.1016/j.aej.2021.07.007
[64] CHEN R,ZHAO J,YAO X Q,et al. Generative Design of Outdoor Green Spaces Based on Generative Adversarial Networks[J]. Buildings,2023,13 (4): 1083. doi: 10.3390/buildings13041083
[65] 陈然.基于生成对抗网络的风景园林生成设计研究[D].北京: 北京林业大学, 2022. CHEN R. Research on Generative Design of Landscape Garden Based on Generative Adversarial Network[D]. Beijing: Beijing Forestry University, 2022.
-
期刊类型引用(12)
1. 谭铃千,郝培尧. 面向城市建成环境的公众情感体验研究综述. 风景园林. 2024(03): 106-114 . 本站查看
2. 陈崇贤,刘康,刘京一. 风景园林理论知识体系发展溯源. 风景园林. 2024(03): 27-35 . 本站查看
3. 周怀宇,向双斌. 人工智能“图生图”式景观平面生成技术的适用性评价与反思. 景观设计学(中英文). 2024(02): 58-73 . 百度学术
4. 卢喆,盛力. 基于数字技术的风景园林新质生产力发展脉络探析. 住宅产业. 2024(06): 53-55 . 百度学术
5. 李向坡. 植物资源多样性在景观设计应用中的AI优化策略. 分子植物育种. 2024(19): 6554-6559 . 百度学术
6. 陈然,罗晓敏,何越衡,赵晶. 生成式算法在风景园林生成设计中的适应性研究. 风景园林. 2024(09): 12-23 . 本站查看
7. 李金诺,马玥祺,尹豪. 计算性设计在种植设计中的研究进展. 风景园林. 2024(09): 51-58 . 本站查看
8. 冯璐,余辰雯,孙雨婷,赵晶. 基于生成对抗网络的植物景观生成设计——以花境平面图生成为例. 风景园林. 2024(09): 59-68 . 本站查看
9. 徐蕴博. 基于稳定扩散模型的中小尺度风景园林空间布局方案生成探索. 建筑与文化. 2024(09): 268-271 . 百度学术
10. 汪洁琼,江卉卿,陈俊延,柯楠,王敏. 人工智能赋能城市滨水空间秋季景观特征识别与活力提升——以上海市黄浦江为例. 中国园林. 2024(09): 15-21 . 百度学术
11. 陈然,罗晓敏,凌霄,赵晶. 风景园林平面图生成设计数据集增强方法研究. 中国园林. 2024(09): 36-42 . 百度学术
12. 林燕. 福建省风景园林的施工及养护技术. 中国建筑金属结构. 2023(09): 68-70 . 百度学术
其他类型引用(0)