Optimisation du mélange de fluides avec apprentissage par renforcement
Rapports scientifiques volume 12, Numéro d'article : 14268 (2022) Citer cet article
2479 accès
2 Citations
103 Altmétrique
Détails des métriques
Le mélange des fluides est crucial dans divers procédés industriels. Dans cette étude, en nous concentrant sur les caractéristiques selon lesquelles l'apprentissage par renforcement (RL) convient à l'optimisation globale dans le temps, nous proposons d'utiliser RL pour l'optimisation du mélange de fluides des champs scalaires passifs. Pour le problème de mélange de fluides bidimensionnel décrit par les équations d'advection-diffusion, un mélangeur formé réalise un mélange exponentiellement rapide sans aucune connaissance préalable. L'étirement et le pliage par le mélangeur formé autour des points de stagnation sont essentiels dans le processus de mélange optimal. De plus, cette étude introduit une méthode d'apprentissage par transfert physiquement raisonnable du mélangeur entraîné : réutiliser un mélangeur entraîné à un certain nombre de Péclet vers le problème de mélange à un autre numéro de Péclet. Sur la base des résultats d'optimisation du mélange laminaire, nous discutons des applications de la méthode proposée aux problèmes de mélange industriel, y compris le mélange turbulent.
Le mélange des fluides joue un rôle fondamental dans divers procédés industriels. Cependant, la plupart des processus de mélange sont conçus de manière empirique en utilisant des méthodes d'essais et d'erreurs à travers des expériences physiques, plutôt qu'une optimisation mathématique. Bien que la turbulence soit un "mélangeur efficace"1, dans certains cas (par exemple, un bioréacteur ou un mélangeur dans les procédés de l'industrie alimentaire), le mélange turbulent n'est pas approprié car les écoulements à fort cisaillement endommagent les matériaux à mélanger. De plus, le maintien d'écoulements turbulents dans les micro-mélangeurs est difficile en raison des faibles nombres de Reynolds ; ceci nécessite un brassage renforcé par flux laminaires. Par conséquent, l'optimisation du mélange par flux laminaires est cruciale. Plusieurs études analytiques ont évalué l'efficacité des protocoles de mélange laminaire2,3,4,5, par exemple, prouvant les limites exponentielles de la vitesse de mélange ; cependant, la recherche sur les méthodes d'optimisation constructive reste limitée.
Cette étude propose une optimisation du mélange basée sur l'apprentissage par renforcement (RL) comme méthode constructive. Pour illustrer l'efficacité de l'algorithme RL pour l'optimisation du mélange de fluides, nous résumons d'abord son cadre mathématique. L'algorithme RL est formulé en termes de processus de décision de Markov (MDP)6,7 : \(M= \{ {S}, {A}, p_{0}, P, R\}\), où S désigne le ensemble d'états, \({S}=\{s_1, \cdots s_{|{S}|} \}\); A désigne l'ensemble des actions, \({A}=\{ a_{1}, \cdots a_{|{A}|} \}\); \(p_{0}\) désigne la distribution de probabilité de l'état initial, \(p_{0} : {S} \rightarrow [0,1]\) ; P désigne la probabilité de transition, \(P : {S} \times {S}\times {A} \rightarrow [0,1]\); et R désigne la fonction de récompense, \(R :{S} \times {A} \rightarrow \mathbb {R}\). L'état initial, \(s_{0}\), est déterminé par \(p_{0}(\cdot )\), et à l'étape suivante, l'état est déterminé par la probabilité de transition, \(P(\cdot |s_{0},a_{0})\), qui nécessite l'action \(a_0\). L'action est déterminée par la politique, \(\pi : {S} \rightarrow {A}\), comme \(a=\pi (s)\). L'algorithme RL est implémenté pour déterminer la politique optimale, \(\pi ^*\), pour le MDP donné, qui maximise l'attente de la récompense cumulée, \(\sum _{t=0}^{\infty } \ gamma ^{t} R_{t+1}\). Ici, \(\gamma \in (0,1)\) désigne le facteur d'actualisation et \(R_{t+1} :=R(s_{t},a_{t})\).
L'algorithme RL maximise la récompense cumulative (c'est-à-dire globale dans le temps) plutôt que la récompense instantanée, \(R_{t}\) (c'est-à-dire locale dans le temps). Par conséquent, il convient aux problèmes d'optimisation globale en temps. La conception de protocoles de mélange efficaces est l'un des problèmes d'optimisation globaux dans le temps, car le champ scalaire final dépend de l'ordre temporel des actions dans l'ensemble du processus de mélange, qui comprend l'étirement et le repliement par les flux de fluides et son couplage avec la diffusion moléculaire. Un exemple illustratif a été présenté dans les Affaires d'Histoire de Villermaux8. Malgré l'efficacité des algorithmes RL pour résoudre un large éventail de problèmes en mécanique des fluides9,10,11, y compris la fusion nucléaire12 et la modélisation de la turbulence13, le problème du mélange des fluides reste inexploré.
L'algorithme RL convient aux problèmes d'optimisation globale dans le temps, mais pas aux problèmes avec un espace d'états de grande dimension en général, ce qui est connu sous le nom de malédiction de la dimensionnalité6. En particulier, la haute dimensionnalité de l'espace d'états pour le mélange de fluides rend la mise en œuvre de l'algorithme RL difficile. Cette étude examine un problème d'optimisation formulé par Mathew et al.2, dans lequel le champ de vitesse est donné par la superposition des champs prescrits. Ceci réduit la dimension de l'espace d'état pour le mouvement fluide à un2 ; un seul paramètre, noté \(\theta \) plus loin, détermine l'état du mouvement du fluide. Ce problème d'optimisation était basé sur une expérience physique utilisant le flux piloté électromagnétiquement14. La méthode de descente de gradient conjugué a été introduite comme prototype de l'optimisation du mélange de fluides2. Pour s'assurer que l'algorithme RL peut gérer le champ d'écoulement avec un degré de liberté réduit, nous nous concentrons sur le même problème d'optimisation.
Dans cet article, nous démontrons pour la première fois que l'algorithme RL est adapté aux optimisations de mélange de fluides. Cet algorithme identifie un contrôle de flux efficace, qui se traduit par un mélange exponentiellement rapide sans connaissance préalable. Les mécanismes derrière un mélange efficace sont découverts en se concentrant sur l'écoulement autour des points fixes du point de vue de la théorie des systèmes dynamiques15,16. Cette étude propose également une méthode efficace d'apprentissage par transfert pour le mélangeur formé en considérant l'effet de diffusion sur le mélange. Sur la base des résultats d'optimisation du mélange laminaire, nous discutons des applications de la méthode proposée aux problèmes de mélange industriel, y compris le mélange turbulent, dans la section "Conclusion et discussion".
Nous considérons le problème d'optimisation suivant formulé par Mathew et al.2 comme problème de référence, dans lequel le champ de vitesse, \(u(x,y,t) = \alpha _{1}(t) u_{1}(x ,y) + \alpha _{2}(t) u_{2}(x,y)\), est utilisé. Ici, \(u_1(x,y) = (-\sin (2 \pi x)\cos (2 \pi y), \cos (2 \pi x) \sin (2 \pi y))\) et \(u_2(x,y) = u_1(x-0.25,y-0.25)\) (voir Fig. 1a). L'évolution temporelle du scalaire passif, c(x, y, t), est décrite par les équations d'advection-diffusion sur le tore bidimensionnel, \(\mathbb {T}^2\) (la condition aux limites périodique) :
où \(\text {Pe} \in (0,\infty ]\) représente le nombre de Péclet. En tant que contrainte sur le contrôle de flux, l'intégrale temporelle de l'énergie cinétique, \(\frac{1}{2} \ int _0^{1} \int _{\mathbb {T}^2} u^{2} d\mathbf{x} dt = \int _0^{1} \alpha _i(t) R_{ij} \alpha _j (t) dt =:\mathscr {E}\), est fixe, où \(R_{ij} := \frac{1}{2} \int _{\mathbb {T}^2} u_i \cdot u_j d\mathbf{x}~~(i=1,2,~j=1,2)\). On pose \(\alpha (t)=2\sqrt{\mathscr {E}} (\cos \ theta (t), \sin \theta (t))\), par laquelle la contrainte est toujours satisfaite. Nous posons également \(\mathscr {E}=1.25\) comme dans Mathew et al.2. Dans ce problème, le champ de vitesse, u(x, y, t), est déterminé par un seul paramètre, \(\theta (t)\), appelé paramètre de débit.
Optimisation du mélange de fluides à l'aide de l'algorithme d'apprentissage par renforcement : (a) champs de vecteurs de vitesse de \(u_{1}(x,y)\) (gauche) et \(u_{2}(x,y)\) (à droite) sur le tore bidimensionnel, \(\mathbb {T}^2\) ; (b) des instantanés de l'évolution temporelle du champ scalaire, c(x, t), advecté par le flux optimisé ; (c) variance mixte, \(\Phi _{n}(t)~(t \in [0,1])\), pour le nième épisode (\(n=1\), 800, 1600, 2400 , 3200 et 4000); (d) mix-variance, \(\Phi _{n}(t=1)\), à la fin de chaque épisode.
La variance du champ scalaire est souvent utilisée pour mesurer le degré de mixité. Cependant, comme il s'agit d'une quantité conservée en l'absence de diffusion (c'est-à-dire, \(\frac{d}{dt} \int _{\mathbb {T}^2} c^{p}dx \equiv 0~~( \forall p \in \mathbb {N})\)), il ne convient pas comme mesure du processus de mélange. Au lieu de cela, nous utilisons la variance mixte définie par \(\Phi (c)=\Vert c \Vert ^2_{H^{-1/2}} := \sum _{k} \frac{1}{\ sqrt{1+ (2 \pi \Vert k \Vert )^2}} | c_k |^2\), où \(c_k\) désigne le coefficient de Fourier du champ scalaire17. Le mix-variance est équivalent au Mix-Norm qui a été introduit à l'origine pour caractériser la propriété multi-échelle du champ scalaire mixte17. De plus, Mathew et al.17 ont montré l'équivalence entre la décroissance de \(\Phi (c)\), la convergence faible en \(L^{2}\), et le mélange des systèmes dynamiques ergodiques dans le théorème 3.2 (voir aussi Lin et al.3 pour l'extension du théorème). Pour résumer le problème d'optimisation, nous utilisons l'algorithme RL pour déterminer la fonction, \(\theta : [0,1] \rightarrow \mathbb {R}\), qui minimise la variance de mélange à la fin du processus de mélange, \(\Phi ( c (\cdot , t=1))\).
Nous effectuons une simulation numérique des équations d'advection-diffusion (Eq. 1) en utilisant le schéma de Runge-Kutta du quatrième ordre pour l'intégration temporelle avec \(\Delta t=0.001\) et la méthode spectrale de Fourier pour la discrétisation spatiale avec une grille de \(250 \times 250\), qui est le même que celui utilisé dans Mathew et al.2.
Ici, nous considérons l'optimisation de la fonction action-valeur (fonction Q) \(Q^{\pi }(s,a):= \mathbb {E}[ \sum _{t=0}^{\infty } \gamma ^{t} R_{t+1}|S_{0}=s, A_{0}=a]\) au lieu de la politique \(\pi \), et obtenir la fonction Q optimale, \(Q ^* : {S} \times {A} \rightarrow \mathbb {R}\). Le théorème du point fixe de Banach garantit mathématiquement qu'une telle fonction Q optimale existe en tant que point fixe de l'opérateur de Bellman6,7. Nous obtenons la politique optimale comme \(\pi ^{*}(s) := \mathrm{argmax}_{a \in {A}} Q^{*}(s,a)\).
En tant qu'implémentation standard de l'algorithme RL, nous utilisons le réseau Q profond18, qui se rapproche de la fonction Q en utilisant le réseau neuronal profond désigné par \(Q^w : \mathbb {R}^{N_s} \times {A} \ flèche droite \mathbb {R}\). Ici, \(N_s\) et w désignent respectivement la dimension de l'espace d'états et les poids de connexion dans le réseau de neurones. Les entrées du réseau sont le champ scalaire, c(x, y, t), et le champ de vitesse, u(x, y, t). Les valeurs de ces champs sur \(\mathbb {T}^2\) sont observées sur la grille carrée \(83\times 83\), et l'état, s, du MDP est défini comme les valeurs observées de la vitesse champ, \(u(x_{i}, y_{i}, t)~~(i =1,\ldots , N_O)\), où \(N_O=83\times 83\), et celles du scalaire champs au cours des cinq dernières étapes ; c'est-à-dire \(s_{t} := (u (x_{i},y_{i}, t), \{ c(x_{i}, y_{i}, \tau ) \}_{\tau = t,~t- \Delta t_{O},\ldots ,~t - 4 \Delta t_{O}}) \in \mathbb {R}^{N_s}\), et \(\Delta t_O\) désigne l'intervalle de temps des observations successives. Par conséquent, la dimension de l'espace d'état est \(N_s=7 \times N_O\). Le réseau se compose de quatre couches cachées, et chaque fonction d'activation est ReLU comme Mnih et al.18. Le facteur d'actualisation est \(\gamma =0,99\). Plus de détails sur la structure du réseau Q profond et ses implémentations sont décrits dans les "Informations complémentaires". La distribution initiale, \(p_{0}\), est donnée par la fonction delta telle que \(\theta (0)=0\) et \(c(x,y,0)=\sin (2 \pi y)\).
L'intervalle de temps des observations successives est \(\Delta t_O=0.004\), qui est la même valeur utilisée dans le problème de référence2, et \(\Delta t_Q=5 \Delta t_O\), où \(\Delta t_Q\ ) désigne l'intervalle de temps des mises à jour successives de la fonction Q. Ainsi, pour chaque période de \(\Delta t_Q\), l'algorithme RL observe les champs scalaires déterminés par les équations d'advection-diffusion (Eq. 1) avec le champ de vitesse fixe. Ensuite, la fonction Q, c'est-à-dire les poids dans le réseau de neurones, est mise à jour. Une seule unité d'épisode correspond à un seul processus de mélange, c'est-à-dire la résolution du problème de la valeur initiale des équations d'advection-diffusion (Eq. 1) pour \(0 \le t \le 1\). Le nombre total, \(N_{e}\), d'épisodes pour la formation est \(N_{e}=4000\). Les résultats avec le plus grand nombre d'épisodes, \(N_{e} = 5000\), sont qualitativement identiques à ceux avec \(N_{e} = 4000\).
En tant qu'action, A, du MDP, l'algorithme RL peut modifier la valeur du paramètre de flux, \(\theta (t)~~(0\le t\le 1)\). Le champ de vitesse, u(x, y, t), est déterminé par le paramètre unique \(\theta (t)\), et le contrôle de flux est réalisé en modifiant \(\theta (t)\). La discrétisation du changement temporel du paramètre d'écoulement est \(\theta (t + \Delta t_{Q}) = \theta (t) + \omega \Delta t_{Q}\) avec \(\omega \in \ { 0, \omega _{+}, \omega _{-}\}(={A})\), où \(\omega _{+}=\pi /(4\Delta t_{Q})\ ) et \(\omega _{-}=-\pi /(4\Delta t_{Q})\). L'action, \(\omega \), est sélectionnée selon la méthode \(\varepsilon \)-gourmande6,7,18, qui change la valeur de \(\varepsilon \) linéairement de 1 à 0,001.
La fonction de récompense, R, est définie en utilisant la variance mixte, \(\Phi \), qui est définie comme une fonction monotone décroissante de \(\Phi \) pour garantir que la plus petite valeur de \(\Phi \ ) représente un meilleur champ scalaire mixte :
où \(\tilde{\Phi }\), \(\Phi _{0}\) et \(\Phi _{T}\) désignent un seuil, une valeur initiale et une valeur cible du mix- variance, respectivement. Par définition, \(R=-1\) initialement, et \(R = +1\) si la variance mixte, \(\Phi \), atteint la valeur cible. Les valeurs de \(\tilde{\Phi }\) et \(\Phi _{T}\) sont définies en fonction du nombre de Péclet : \((\tilde{\Phi },~\Phi _{T}) =(1 \times 10^{-2},~4 \times 10^{-3})\) pour \(\text {Pe} =\infty \) et \((\tilde{\Phi },~ \Phi _{T})=(5 \times 10^{-3},~1 \times 10^{-4})\) pour \(\text {Pe}=100\).
Les résultats d'optimisation sont présentés en l'absence de diffusion (\(\text {Pe}=\infty \)). La politique optimale, \(\pi ^*: \mathbb {R}^{N_s} \rightarrow {A}\), approchée par le réseau Q profond, est obtenue à partir de l'optimisation basée sur RL. Par la suite, le vecteur d'état, \(s_t \in \mathbb {R}^{N_s}\), détermine l'action optimale par \(\omega _t = \pi ^*(s_t)\). Cela détermine le champ de vitesse pendant l'intervalle suivant, \(\Delta t_Q\), qui advecte le champ scalaire, et le processus se poursuit jusqu'à l'observation suivante. Ce contrôleur de flux basé sur la politique optimale, \(\pi ^*\), est appelé mélangeur formé. La figure 1b montre de gauche à droite que le mélangeur formé fait évoluer le champ scalaire, c(x, t), dans le temps. Ici, les couleurs noir et blanc correspondent respectivement aux valeurs haute et basse du champ scalaire. Le mélangeur formé produit une structure en couches complexe du champ scalaire. La sous-section suivante présente une description détaillée des étirements et replis successifs de l'interface entre les deux couleurs.
La variance mixte, \(\Phi _{n}(t)~~(n=1,\ldots , 4000)\), est illustrée à la Fig. 1c. Au cours de la phase initiale de la formation, (c'est-à-dire dans la première moitié du total des épisodes tels que \(n=1, 800,\) et 1600), l'algorithme RL avec la méthode \(\epsilon \)-gourmande choisit actions au hasard. Bien que ce "mélangeur aléatoire" puisse diminuer la variance de mélange, un tel mélange est inefficace, comme expliqué ci-dessous.
Mathew et al.2 ont rapporté que la méthode de descente de gradient conjugué proposée a donné \(\Phi (t=1) \simeq 6 \times 10^{-3}\); cette valeur de la variance mixte est utilisée pour la comparaison comme référence. Dans la première moitié des épisodes totaux, la variance de mixage à la fin du processus de mixage, \(\Phi _{n}(t=1)\), est supérieure à la valeur de référence ; c'est-à-dire que l'entraînement insuffisant du mélangeur entraîne un mélange inefficace. Inversement, \(\Phi _{n}(t=1)\) est réduit dans la seconde moitié du nombre total d'épisodes, \(n=2400\), 3200 et 4000. En particulier, \(3 \times 10^ {-3}< \Phi _n(t=1) < 4 \times 10^{-3}\) pour \(n=4000\), qui sont presque identiques (légèrement inférieures) à la valeur de référence. Fait intéressant, la variance du mix diminue de façon exponentielle pour \(0,3 \le t \le 1\) pour les derniers épisodes tels que \(n=3200\) et \(n=4000\). Bien que nous nous concentrions ici sur la comparaison quantitative à l'aide de la variance mixte, il existe certaines différences qualitatives entre la méthode de Mathew et al.2 et notre méthode basée sur le RL. Dans la section "Conclusion et discussion", nous illustrons les avantages significatifs de la méthode basée sur RL.
La figure 1d présente la variance de mélange à la fin de chaque processus de mélange, \(\Phi _n(t=1)\), qui fluctue en raison des méthodes \(\varepsilon\)-gourmandes et du fait que la politique, \ (Q^{w}\), n'est pas convergé. Cependant, la fluctuation diminue à mesure que l'épisode progresse; voir également les Fig. S1 et S2 dans les "Informations complémentaires". L'algorithme RL diminue significativement la variance du mélange, \(\Phi _n(t=1)\); c'est-à-dire que l'optimisation basée sur RL améliore efficacement le mélange.
Le paramètre de flux dans l'épisode n est noté \(\theta _{n}(t)\). Dans la première moitié de l'entraînement, \(n<2000\), le paramètre de flux, \(\theta _{n}(t)\), évolue aléatoirement dans le temps en raison des méthodes \(\varepsilon \)-gourmandes et le fait que la politique n'est pas convergée. Cependant, au fur et à mesure que l'épisode progresse, \(\theta _{n}(t)\) converge vers une seule fonction, \(\theta ^*(t)\), sauf pour l'étape finale du processus, comme indiqué dans Figure 2a. La série temporelle de \(\theta _{n}(t)\) se compose d'ondes carrées, car le champ de vitesse (c'est-à-dire, \(\theta _{n}(t)\)) est fixe dans chaque intervalle, \ (\Delta t_Q\). Le processus de mélange optimal par le mélangeur formé correspondant à \(\theta ^{*}(t)\) est divisé en trois étapes :
Étape initiale (\(0< t \le 0.3\)) : le paramètre de débit est une constante ; \(\theta ^{*}(t) =\pi /4\), indiquant l'écoulement stationnaire, \(u(x,y)= - c \sin 2 \pi (x+y),~ v(x ,y)= c \sin 2 \pi (x+y)~~(c:\text {const.})\). Le vecteur vitesse est parallèle à la ligne diagonale ; par exemple, le flux le long de la ligne, \(x+y=1/4\), traverse le domaine, \(\mathbb {T}^2\), avec le vecteur vitesse \((u,v)=( -c,c)\).
Étape intermédiaire (\(0,3 < t \le 0,7\)) : le paramètre de débit change de manière linéaire ; \(\theta ^{*}(t) = \omega ^{*} t~~(\omega ^{*} \simeq 16)\), indiquant le flux temporellement périodique avec une fréquence angulaire constante.
Étape finale (\(0,7 < t \le 1\)) : il n'y a pas de caractéristiques communes de l'évolution temporelle du paramètre d'écoulement.
Caractéristiques du mélangeur formé. (a) Série chronologique du paramètre de flux, \(\theta _{n}(t)\), pour le n-ième épisode : \(n=2 000\), 3 000 et 4 000. L'axe vertical est \( \theta _{n}(t)/\pi \) et les lignes pointillées horizontales représentent \(k/4~(k \in \mathbb {Z})\). Encart : la variance de mélange, \(\Phi (t=1)\), dans le cas du paramètre d'écoulement avec la fréquence angulaire constante, \(\theta (t)= \omega t\). La ligne horizontale en pointillés indique la valeur de la variance de mélange par le mélangeur entraîné. (b) Évolution dans le temps du champ vectoriel de vitesse par le mélangeur entraîné. La ligne bleue et le point rouge représentent respectivement la ligne matérielle et l'un des points fixes : \(t=0,~0,1,~0,2,~0,3,~0,36,~0,46,~0,54\) et 0,68. ( c ) Fonctions de densité de probabilité de la variance de mélange, \ (\ Phi (t = 1) \), par le mélangeur complètement aléatoire et les mélangeurs partiellement aléatoires I et II des panneaux de haut en bas. ( d ) Champs scalaires, \ (c (x, t = 1) \), à la fin du processus de mélange par le mélangeur formé (à gauche) et le mélangeur complètement aléatoire (à droite).
Les différentes évolutions temporelles du paramètre d'écoulement, \(\theta (t)\), dans l'étape finale aboutissent à la valeur presque identique des variances de mélange, \(\Phi (t=1)\), à la fin du processus. Par conséquent, le processus essentiel du mélange n'est pas l'étape finale mais les étapes initiale et intermédiaire. Des expériences numériques soutenant ce point sont présentées dans la sous-section suivante.
La figure 2b présente l'évolution temporelle des champs de vitesse correspondant au paramètre d'écoulement obtenu dans l'épisode final, soit \(\theta _{n}(t)~(n=4000)\). La ligne bleue dans chaque panneau indique la ligne de matériau advectée par le flux, qui est initialement placée avec la ligne \(y=0.5\). Les panneaux supérieurs de la figure 2b illustrent le flux au stade initial, où la ligne de matériau est allongée pour avoir la longueur diagonale du domaine. Par la suite, le flux est temporellement périodique dans les étapes intermédiaires, qui sont illustrées dans les panneaux inférieurs de la figure 2b. Chaque champ de vitesse a huit points fixes (stagnation), \(u_1\) et \(u_2\). La moitié d'entre eux sont elliptiques ; c'est-à-dire que la matrice jacobienne a des valeurs propres purement imaginaires. L'autre moitié sont des points de selle; c'est-à-dire que la matrice jacobienne a des valeurs propres réelles15,16. Nous concentrons l'un d'eux sur \((x,y)=(0.5,0.5)\), qui est représenté par le point rouge dans chaque panneau de la Fig. 2b comme référence. La ligne matérielle autour du point fixe est étirée le long des directions propres instables lorsque le point fixe est une selle, alors qu'elle est pliée (environ \(\pi /2\) rotation) lorsque le point fixe est elliptique. L'étirement et le pliage locaux autour des huit points fixes se produisent simultanément, ce qui entraîne un mélange efficace. L'utilisation du protocole spécifique par le mélangeur formé avec la fréquence angulaire constante, \(\theta (t)=\omega ^{*} t\), est expliquée dans la section "Conclusion et discussion".
Remarquablement, la période de l'écoulement dans l'étage intermédiaire, \(2\pi /\omega ^*\), qui détermine la période de la commutation successive des types selle et elliptique des points fixes, est optimale dans le sens suivant . Outre l'algorithme RL, nous effectuons des simulations numériques du champ scalaire advecté par le flux déterminé par \(\theta (t)= \omega t\) avec une fréquence angulaire constante, \(\omega \), tout au long du processus de mélange , \(0\le t \le 1\). L'encart de la Fig. 2a montre \(\Phi (t=1)\) évalué pour \(\omega \in [0,30]\). Le minimum de \(\Phi (t=1)\) dans ce réglage est obtenu à \(\omega \simeq \omega ^{*}\). Cela implique que l'algorithme RL détermine la fréquence angulaire optimale, \(\omega ^{*}\), sans aucune connaissance préalable, et le mélangeur formé utilise le flux temporellement périodique avec la période optimale à l'étape intermédiaire du processus.
Pour caractériser l'écoulement par le mélangeur entraîné dans les phases initiale et intermédiaire, nous introduisons trois processus de mélange différents, appelés mélangeurs aléatoires :
Mélangeur complètement aléatoire : Il utilise le contrôleur aléatoire qui prend l'une des trois actions, \(\omega \in \{ 0, \omega _{+}, \omega _{-}\}\), indépendamment, avec le même probabilités pour toutes les étapes (\(0 \le t \le 1\)).
Mélangeur partiellement randomisé I : il utilise le mélangeur formé pour l'étape initiale (\(0 \le t < 0,3\)), puis passe à l'utilisation du contrôleur aléatoire pour \(0,3 \le t \le 1\).
Mélangeur partiellement randomisé II : il utilise le mélangeur formé pour les étapes initiale et intermédiaire (\(0 \le t < 0,7\)), puis passe à l'utilisation du contrôleur aléatoire pour \(0,7 \le t \le 1\).
Des simulations numériques sont réalisées 200 fois indépendamment pour chaque témoin. La figure 2c présente les fonctions de densité de probabilité (PDF) de la variance de mélange, \(\Phi (t=1)\), à la fin du processus de mélange. La ligne continue grise indique la valeur de la variance de mélange par le mélangeur formé, \(\Phi _{n}(t=1)~(n=4000)\) (voir Fig. S1 dans les "Informations supplémentaires" pour le PDF associé du mixeur formé).
Le panneau supérieur de la figure 2c représente le PDF dans le cas du mélangeur complètement randomisé, où les variances de mélange sont supérieures à la valeur de référence du mélangeur formé. Les panneaux gauche et droit de la Fig. 2d représentent l'état final du champ scalaire, \(c(x,t=1)\), produit par le mélangeur formé et un mélangeur complètement randomisé qui présente la variance de mélange, \( \Phi (t=1)\), proche de la valeur médiane du PDF. Les vidéos 1 et 2 dans les "informations supplémentaires" correspondent aux champs scalaires mélangés par le mélangeur formé et le mélangeur complètement randomisé, respectivement. De grandes gouttes non mélangées restent dans le champ scalaire produit par le mélangeur complètement aléatoire. C'est-à-dire que le mélangeur d'entraînement avec l'algorithme RL est efficace. Le deuxième panneau de la figure 2c représente le PDF dans le cas du mélangeur partiellement aléatoire I, qui est plus efficace que le mélangeur complètement aléatoire. Cependant, un écart substantiel existe entre les résultats du mélangeur partiellement randomisé I et ceux du mélangeur formé. Cela indique que le processus de mélange au cours de la phase intermédiaire est également crucial. Enfin, le troisième panneau de la figure 2c représente le PDF produit par le mélangeur partiellement randomisé II. Les résultats sont quasiment identiques à ceux obtenus à l'aide du mélangeur entraîné. Par conséquent, l'efficacité du mélangeur partiellement randomisé II est la même que celle du mélangeur entraîné. Ces observations démontrent que le processus de mélange au cours des étapes initiale et intermédiaire est essentiel pour l'efficacité du mélange, alors que le processus de mélange au cours de l'étape finale ne l'est pas.
Cette sous-section considère l'effet de diffusion sur l'optimisation RL du mélange décrit par les équations d'advection-diffusion (Eq. 1) avec des nombres de Péclet finis. Les détails des paramètres du problème sont identiques à ceux des sections précédentes, à l'exception des valeurs des nombres de Péclet. L'optimisation basée sur RL est appliquée au problème de mélange pour le cas de \(\text {Pe}=10^2, 10^3\), et \(10^4\), qui sont aussi efficaces que pour le cas de \(\text {Pe}=\infty \), quels que soient les nombres de Péclet. Par exemple, à \(\text {Pe}=100\), la variance mixte, \(\Phi _{n}(t)\), diminue plus rapidement pour les derniers épisodes, comme le montre l'encadré de la Fig. 3b, où \(n=1,600,1200,1800,2400\), et 3000 et les courbes plus légères (plus épaisses) correspondent à n plus grand. On remarque que les courbes de \(\Phi _{n}(t)\) pour \(n\ge 1200\) sont presque les mêmes, ce qui implique que l'algorithme RL converge pour trouver la politique optimale à \(n=1200 \). Fait intéressant, cette convergence est plus rapide que dans le cas de \(\text {Pe}=\infty \) (Fig. 1c). Le nombre d'épisodes requis pour la convergence est \(n \simeq 3000\) à \(\text {Pe}=\infty \); cependant, \(n \simeq 1200\) semble suffisant pour la convergence autour de \(\text {Pe}=100\).
Mix-variance \(\Phi (t)\) pour \(0 \le t \le 1\) en (a) \(\text {Pe} =\infty \) et en (b) \(\text { Pe} =100\). Les lignes bleues épaisses et rouges fines représentent les résultats du mélangeur formé à \(\text {Pe}_T =\infty \) et \(\text {Pe}_T =100\), respectivement. Les lignes pleines, en pointillés et en pointillés correspondent aux résultats avec différents nombres aléatoires utilisés pour l'apprentissage. Encart : la variance de mélange \(\Phi _{n}(t)\) à \(\text {Pe} =100\) et \(\text {Pe}_{T} = 100\) pour le n -ème épisode : \(n=1, 600, 1200, 1800, 2400\), et 3000, où les courbes plus claires (plus épaisses) correspondent à n plus grand.
L'effet de diffusion apparaît dans les contrôles de débit aux stades ultérieurs. Si le mélangeur génère avec succès des structures en couches fines à un stade précoce, le contrôle du débit devient moins important dans les stades ultérieurs du mélange en raison de l'effet de diffusion. En d'autres termes, à un faible nombre de Péclet, une fois que l'algorithme RL trouve le contrôle de mélange optimal à un stade précoce du mélange, rien n'est à apprendre car la diffusion réduit rapidement la variance du mélange, quel que soit le contrôle par le mélangeur. Cela peut entraîner la convergence plus rapide observée ci-dessus. Les implications de la convergence rapide aux faibles nombres de Péclet vers le mélangeur d'entraînement sont données dans la section "Conclusion et discussion".
Cet effet de diffusion implique la transférabilité asymétrique d'un mélangeur entraîné ; c'est-à-dire qu'un mélangeur formé à un nombre de Péclet élevé peut être utilisé pour mélanger à un nombre de Péclet inférieur, alors que l'inverse n'est pas vrai. Soit \(\text {Pe}_T\) le nombre de Péclet où le mélangeur est entraîné, et la transférabilité asymétrique est alors reformulée comme suit : le mélangeur entraîné peut être réutilisé pour le même processus de mélange pour la plage de \((0 ,\text {Pe}_T]\). La figure 3a présente la variance mixte, \(\Phi (t)\), pour \(0 \le t \le 1\) à \(\text {Pe} = \infty \). Les lignes bleues épaisses indiquent les résultats pour le cas de \(\text {Pe}_T =\infty \), et les lignes rouges fines indiquent les résultats pour le cas de \(\text {Pe}_T = 100 \). Dans les figures 3a, b, les lignes pleines, en pointillés et en pointillés indiquent les résultats avec différents nombres aléatoires pour l'apprentissage. Les mélangeurs qui se sont entraînés à \(\text {Pe}_T =\infty \) réaliser le mélange exponentiellement rapide pour l'ensemble du processus lorsque nous l'utilisons pour \(\text {Pe}=\infty \). D'autre part, les mélangeurs qui se sont entraînés à \(\text {Pe}_T =100\) réalisent le mélange exponentiellement rapide uniquement pendant la première moitié du processus, mais ne parvient pas à mélanger pendant la seconde moitié.
La figure 3b présente la variance mixte, \(\Phi (t)\), pour \(0 \le t \le 1\) à \(\text {Pe} =100\). Semblable à la Fig. 3a, les lignes bleues épaisses représentent les résultats pour le cas de \(\text {Pe}_T =\infty \), et les lignes rouges fines représentent les résultats pour le cas de \(\text {Pe} _T =100\). Contrairement au cas de \(\text {Pe}=\infty \), aucune différence significative n'existe entre les résultats pour les cas de \(\text {Pe}_T =100\) et \(\text {Pe}_T = \infty \), et les deux cas réalisent le mélange exponentiellement rapide. En résumé, les mélangeurs de \(\text {Pe}_T=\infty \) peuvent être utilisés pour le mélange à \(\text {Pe}=100\), alors que l'inverse n'est pas vrai. Par conséquent, un mélangeur formé à un nombre de Péclet plus élevé peut être utilisé pour le processus de mélange pour une plage plus large de \(\text {Pe}\).
En illustrant pourquoi l'algorithme RL convient à l'optimisation du mélange de fluides, nous avons démontré, en tant que preuve de concept, que le mélangeur entraîné à l'aide de l'algorithme RL est efficace pour le problème de mélange de fluides bidimensionnel (Fig. 1), qui ouvre la voie au développement de la formation des mélangeurs basée sur RL. La méthode proposée a été évaluée quantitativement en se concentrant sur le problème de référence de l'optimisation du mélange étudié dans le travail pionnier2. En plus de la comparaison des valeurs de mix-variance, nous notons que notre méthode basée sur RL résout le problème d'optimisation dans des conditions plus restrictives par rapport à la méthode proposée par Mathew et al.2. Par exemple, dans notre cadre, le nombre d'états du champ de vitesse est limité à huit, \(\theta = 0,\pi /4, \ldots , 7\pi /4\). De plus, la méthode proposée est plus flexible ; c'est-à-dire qu'il utilise uniquement le champ scalaire et de vitesse comme entrée du réseau neuronal. A condition que ces champs puissent être observés, des implémentations physiques sont en principe possibles, même si les équations d'évolution de ces champs sont inconnues. Par exemple, les problèmes de mélange de fluides granulaires ou viscoélastiques sont essentiels ; cependant, l'équation d'évolution d'un matériau aussi complexe n'est pas forcément établie, et par conséquent, la méthode de descente de gradient conjugué2 n'est pas applicable à ces problèmes industriels fondamentaux. D'autre part, la méthode basée sur RL est sans équation, elle est donc applicable si les données sensorielles des états de mélange sont disponibles en entrée du réseau neuronal.
Le processus de mélange optimisé a été divisé en trois étapes distinctes. Il est particulièrement intéressant de noter que, dans l'étage intermédiaire, l'écoulement optimisé est temporellement périodique à pulsation constante. Ici, nous expliquons pourquoi l'algorithme RL rend la fréquence angulaire constante. Les points fixes dans les deux champs de vitesse, \(u_{1}\) et \(u_{2}\), sont situés à la même position et sont placés de manière homogène dans le domaine, \(\mathbb {T}^{2 }\). Si la fréquence angulaire n'est pas constante, la période de commutation entre les types selle et elliptique du point fixe peut différer à chaque emplacement. Cette différence spatiale rend le champ scalaire inhomogène. L'inhomogénéité augmente l'amplitude du coefficient de Fourier du petit nombre d'onde, augmentant ainsi la variance de mélange. Par conséquent, la variation temporelle de la fréquence angulaire entraîne la plus grande valeur de la variance de mélange. L'algorithme RL utilise la fréquence angulaire constante pour éviter cet effet indésirable. La justification détaillée de l'interprétation précitée fait partie des travaux à venir.
Un autre travail futur connexe consiste à comprendre plus en détail le mélange optimal. Par exemple, nous affirmons que la variation aléatoire du paramètre d'écoulement dans l'étage final (\(t>0,7\)) n'est pas essentielle pour un mélange optimal, en ce sens que les résultats du mélangeur partiellement randomisé II (Fig. 2c) et le mélangeur formé (Fig. S1 dans les "Informations supplémentaires") sont presque identiques. Cependant, il existe une petite différence entre ces PDF, ce qui suggère que la randomisation des actions dans l'étape finale peut éliminer certaines actions, que l'algorithme RL considère comme essentielles, dans le processus de mélange optimisé.
Pour une application pratique, la réduction des coûts d'apprentissage est cruciale. Malgré l'efficacité de l'apprentissage par transfert dans la réduction des coûts d'apprentissage, son application aux problèmes de mécanique des fluides reste limitée19. À cet égard, cette étude a introduit la notion physiquement raisonnable de la transférabilité asymétrique du mélangeur formé. La démonstration dans cette étude (Fig. 3) indique qu'en termes d'apprentissage par transfert, le nombre de Péclet du domaine source \(\text {Pe}_{T}\) doit être le plus élevé possible, si le mélangeur entraîné est nécessaire de réutiliser pour la gamme plus large. Si le mélangeur est formé à un nombre de Péclet élevé, il peut apprendre à mélanger le champ scalaire pour créer les fines structures rayées. Si le mélangeur formé est transféré à un nombre de Péclet inférieur, il réalise les structures fines au début du processus de mélange. Ensuite, le lissage de ces structures par diffusion réduit la variance du mélange, quelles que soient les actions du mélangeur formé à l'étape ultérieure. Par conséquent, le transfert du mélangeur entraîné d'un nombre de Péclet élevé à un nombre inférieur est efficace.
Concernant un autre aspect des coûts d'apprentissage, nous avons constaté que l'apprentissage du mixage à un nombre de Péclet inférieur converge plus rapidement (Encadré de la Fig. 3b). Par conséquent, si un apprentissage rapide à un nombre de Péclet est requis, le nombre de Péclet du domaine source \(\text {Pe}_{T}\) doit être le plus bas possible. Compte tenu de la discussion du paragraphe précédent, les discussions ci-dessus suggèrent un compromis entre une large transférabilité et un apprentissage rapide ; en d'autres termes, il existe un nombre de Péclet optimal du domaine source qui équilibre ces deux avantages dans chaque application. Bien que cette étude se limite au transfert du mélangeur entraîné sur les différents nombres de Péclet, les développements futurs des méthodes d'apprentissage par transfert des mélangeurs entraînés pourraient être importants.
De grands écarts existent entre le problème mathématique du jouet discuté dans cette étude et les problèmes de mélange existants dans les procédés industriels. Cependant, les résultats de cette étude indiquent certaines directions pour surmonter ces lacunes. Tout d'abord, nous discutons des implications de cette étude sur le mélange turbulent. La turbulence comprend des paires multi-échelles contrarotatives de tourbillons cohérents20, et un fort mélange turbulent découle du mélange effectif autour de ces paires de tourbillons à chaque échelle1. Comme observé dans la méthode d'apprentissage par transfert, le mélange scalaire se produit d'échelles plus grandes à plus petites. Étant donné que l'échelle de temps du mélange turbulent est plus courte pour les petites échelles, l'efficacité totale du mélange est déterminée par le mélange à la plus grande échelle. Ainsi, mesurer la vitesse et le champ scalaire à la plus grande échelle peut être suffisant pour la méthode d'apprentissage proposée. Malgré l'écart important entre le mélange laminaire et turbulent, les connaissances de la présente étude seront utiles pour la formation des mélangeurs à écoulement turbulent.
De plus, dans l'industrie, les écoulements multiphasiques et/ou thermiques avec réactions chimiques peuvent être à considérer, ce qui augmente la complexité de la dynamique des écoulements. Dans de tels cas, l'intégration de connaissances préalables, telles que les équations d'évolution ou certaines contraintes physiques dans l'optimisation basée sur RL peut être efficace, comme discuté dans Brunton11. Comme autre tâche future pour l'optimisation basée sur RL dans les problèmes de mélange industriel, il sera important d'étudier la robustesse du contrôle de mélange avec la politique obtenue en ce qui concerne les changements dans le champ scalaire initial. De plus, alors que le réseau Q profond est utilisé comme première étape dans cette étude, une implémentation plus spécifique et à la pointe de l'art de l'algorithme RL serait nécessaire pour des flux aussi complexes. L'extension de la méthode proposée pour incorporer les connaissances sur la mécanique des fluides et les techniques de mise en œuvre RL appropriées peut encore améliorer le mélange même dans les processus industriels avec des écoulements laminaires et turbulents.
Les ensembles de données utilisés et/ou analysés au cours de la présente étude sont disponibles auprès de l'auteur correspondant sur demande raisonnable.
Goto, S. & Kida, S. Reynolds-number dependance of line and surface stretching in turbulence: Folding effects. J. Fluid Mech. 586, 59–81 (2007).
Article ADS MathSciNet Google Scholar
Mathew, G., Mezic, I., Grivopoulos, S., Vaidya, U. & Petzold, L. Contrôle optimal du mélange dans les flux de fluides stokes. J. Fluid Mech. 580, 261-281 (2007).
Article ADS MathSciNet CAS Google Scholar
Lin, Z., Thiffeault, J.-L. & Doering, CR Stratégies d'agitation optimales pour le mélange scalaire passif. J. Fluid Mech. 675, 465–476 (2011).
Article ADS MathSciNet CAS Google Scholar
Seis, C. Mélange maximal par écoulements fluides incompressibles. Non-linéarité 26, 3279–3289 (2013).
Article ADS MathSciNet Google Scholar
Alberti, G., Crippa, G. & Mazzucato, AL Mélange auto-similaire exponentiel par écoulements incompressibles. Confiture. Mathématiques. Soc. 32, 445–490 (2019).
Article MathSciNetGoogle Scholar
Szepesvàri, C. Algorithmes pour l'apprentissage par renforcement. (Conférences de synthèse sur l'intelligence artificielle et l'apprentissage automatique Morgan et Claypool Publishers, 2010)
Sutton, RS & Barto, AG Apprentissage par renforcement : une introduction (MIT Press, 2018).
MATH Google Scholar
Villermaux, E. Mélange versus agitation. Ann. Rév. Fluid Mech. 51, 245-273 (2019).
Article ADS MathSciNet Google Scholar
Garnier, P. et al. Une revue sur l'apprentissage par renforcement profond pour la mécanique des fluides. Calcul. Fluides 225, 104973–104996 (2021).
Article MathSciNetGoogle Scholar
Brunton, SL, Noack, BR & Koumoutsakos, P. Apprentissage automatique pour la mécanique des fluides. Ann. Rév. Fluid Mech. 52, 477-508 (2020).
Annonces d'article Google Scholar
Brunton, SL Application de l'apprentissage automatique à l'étude de la mécanique des fluides. Acta Mechanica Sinica. 37, 1718–1726. https://doi.org/10.1007/s10409-021-01143-6 (2021).
Annonces d'article Google Scholar
Degrave, J. et al. Contrôle magnétique des plasmas de tokamak par apprentissage par renforcement profond. Nature 602, 414–419 (2022).
Article ADS CAS Google Scholar
Novati, G., de Laroussilhe, HL & Koumoutsakos, P. Automatisation de la modélisation de la turbulence par apprentissage par renforcement multi-agents. Nat. Mach. Renseignement. 3, 87–96 (2021).
Article Google Scholar
Rothstein, D., Henry, E. & Gollub, J. Modèles persistants dans le mélange de fluides chaotique transitoire. Nature 401, 770–772 (1999).
Article ADS CAS Google Scholar
Wiggins, S. & Ottono, JM Fondements du mélange chaotique. Philos. Trans. R. Soc. Londres. Mathématiques de la série A. Phys. Ing. Sci. 362, 937–970 (2004).
Article ADS MathSciNet Google Scholar
Aref, H. et al. Frontières de l'advection chaotique. Rév. Modern Phys. 89, 025007 (2017).
Article ADS MathSciNet Google Scholar
Mathew, G., Mezic, I. & Petzold, L. Une mesure multi-échelles pour le mélange. Physica D Phénomènes non linéaires 211, 23–46 (2005).
Article ADS MathSciNet CAS Google Scholar
Mnih, V. et al. Contrôle au niveau humain grâce à l'apprentissage par renforcement profond. Nature 518, 529–533 (2015).
Article ADS CAS Google Scholar
Inubushi, M. & Goto, S. Apprentissage par transfert pour la dynamique non linéaire et son application à la turbulence des fluides. Phys. Rév. E. 102, 043301(8) (2020).
Annonces d'article Google Scholar
Goto, S., Saito, Y. & Kawahara, G. Hiérarchie de tubes vortex antiparallèles dans une turbulence spatialement périodique à des nombres de Reynolds élevés. Phys. Rév. Fluides 2, 064603 (2017).
Annonces d'article Google Scholar
Télécharger les références
Ce travail a été partiellement financé par JSPS Grant-in-Aid for Early-Career Scientists No. 19K14591 et JSPS Grants-in-Aid for Scientific Research Nos. 19KK0067, 20H02068, 20K20973 et 22K03420.
Ces auteurs ont contribué à parts égales : Mikito Konishi et Susumu Goto.
École supérieure des sciences de l'ingénieur, Université d'Osaka, Osaka, 560-8531, Japon
Mikito Konishi, Masanobu Inubushi et Susumu Goto
Département de mathématiques appliquées, Université des sciences de Tokyo, Tokyo, 162-8601, Japon
Masanobu Inubushi
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
MK et MI ont conçu et réalisé les expériences numériques ; MK, MI et SG ont analysé les résultats. Tous les auteurs ont examiné le manuscrit.
Correspondance à Masanobu Inubushi.
Les auteurs ne déclarent aucun intérêt concurrent.
Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.
Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.
Réimpressions et autorisations
Konishi, M., Inubushi, M. & Goto, S. Optimisation du mélange de fluides avec apprentissage par renforcement. Sci Rep 12, 14268 (2022). https://doi.org/10.1038/s41598-022-18037-7
Télécharger la citation
Reçu : 25 mars 2022
Accepté : 04 août 2022
Publié: 22 août 2022
DOI : https://doi.org/10.1038/s41598-022-18037-7
Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :
Désolé, aucun lien partageable n'est actuellement disponible pour cet article.
Fourni par l'initiative de partage de contenu Springer Nature SharedIt
En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.