24
views
0
recommends
+1 Recommend
1 collections
    0
    shares
      • Record: found
      • Abstract: found
      • Article: found
      Is Open Access

      Reconocimiento de rutas biosintéticas para semioquímicos mediante técnicas de aprendizaje de máquina Translated title: Recognition of biosynthetic pathways for semiochemicals using machine learning techniques Translated title: Reconhecimento de vias biossintéticas para semioquímicos usando técnicas de aprendizado de máquina

      research-article

      Read this article at

      Bookmark
          There is no author summary for this article yet. Authors can add summaries to their articles on ScienceOpen to make them more accessible to a non-specialist audience.

          Abstract

          Resumen En este trabajo consideramos 148 semioquímicos reportados para la familia Scarabaeidae, cuya estructura química fue caracterizada empleando un conjunto de 200 descriptores moleculares de cinco clases distintas. La selección de los descriptores más discriminantes se realizó con tres técnicas: análisis de componentes principales, por cada clase de descriptores, bosques aleatorios y Boruta-Shap, aplicados al total de descriptores. A pesar de que las tres técnicas son conceptualmente diferentes, seleccionan un número de descriptores similar de cada clase. Propusimos una combinación de técnicas de aprendizaje de máquina para buscar un patrón estructural en el conjunto de semioquímicos y posteriormente realizar la clasificación de estos. El patrón se estableció a partir de la alta pertenencia de un subconjunto de estos metabolitos a los grupos que fueron obtenidos por un método de agrupamiento basado en lógica difusa, C-means; el patrón descubierto corresponde a las rutas biosintéticas por las cuales se obtienen biológicamente. Esta primera clasificación se corroboró con el empleo de mapas autoorganizados de Kohonen. Para clasificar aquellos semioquímicos cuya pertenencia a una ruta no quedaba claramente definida, construimos dos modelos de perceptrones multicapa, los cuales tuvieron un desempeño aceptable.

          Translated abstract

          Abstract In this work we consider 148 semiochemicals reported for the family Scarabaeidae, whose chemical structure was characterized using a set of 200 molecular descriptors from five different classes. The selection of the most discriminating descriptors was carried out with three different techniques: Principal Component Analysis, for each class of descriptors, Random Forests and Boruta-Shap, applied to the total of descriptors. Although the three techniques are conceptually different, they select a similar number of descriptors from each class. We proposed a combination of machine learning techniques to search for a structural pattern in the set of semiochemicals and then perform their classification. The pattern was established from the high belonging of a subset of these metabolites to the groups that were obtained by a grouping method based on fuzzy C-means logic; the discovered pattern corresponds to the biosynthetic pathway by which they are obtained biologically. This first classification was corroborated with Kohonen's self-organizing maps. To classify those semiochemicals whose belonging to a biosynthetic pathway was not clearly defined, we built two models of Multilayer Perceptrons which had an acceptable performance.

          Translated abstract

          Resumo Neste trabalho consideramos 148 semioquímicos reportados para a família Scarabaeidae, cuja estrutura química foi caracterizada usando um conjunto de 200 descritores moleculares de 5 classes diferentes. A seleção dos descritores mais discriminantes foi realizada com três técnicas diferentes: Análise de Componentes Principais, para cada classe de descritores, Florestas Aleatórias e Boruta-Shap, aplicadas a todos os descritores. Embora as três técnicas sejam conceitualmente diferentes, elas selecionaram um número semelhante de descritores de cada classe. Nós propusemos uma combinação de técnicas de aprendizado de máquina para buscar um padrão estrutural no conjunto de semioquímicos e então realizar sua classificação. O padrão foi estabelecido a partir da alta pertinência de um subconjunto desses metabólitos aos grupos que foram obtidos por um método de agrupamento baseado em lógica fuzzy, C-means; o padrão descoberto corresponde às rotas biossintéticas pelas quais eles são obtidos biologicamente. Essa primeira classificação foi corroborada com o uso dos mapas auto-organizados de Kohonen. Para classificar os semioquímicos cuja pertença a uma rota não foi claramente definida, construímos dois modelos de Perceptrons Multicamadas que tiveram um desempenho aceitável.

          Related collections

          Most cited references27

          • Record: found
          • Abstract: not found
          • Book: not found

          Gaussian

            Bookmark
            • Record: found
            • Abstract: not found
            • Book: not found

            Handbook of Molecular Descriptors

              Bookmark
              • Record: found
              • Abstract: not found
              • Book: not found

              R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing

              (2020)
                Bookmark

                Author and article information

                Journal
                rcq
                Revista Colombiana de Química
                Rev.Colomb.Quim.
                Departamento de Química, Universidad Nacional de Colombia. (Bogotá, Distrito Capital, Colombia )
                0120-2804
                2357-3791
                August 2022
                : 51
                : 2
                : 35-40
                Affiliations
                [1] Bogotá D. C. orgnameUniversidad Nacional de Colombia Colombia
                Article
                S0120-28042022000200035 S0120-2804(22)05100200035
                10.15446/rev.colomb.quim.v51n2.101546
                77ac4535-810b-44d3-9acc-87ff62ccfdf6

                This work is licensed under a Creative Commons Attribution 4.0 International License.

                History
                : 09 March 2022
                : 13 July 2022
                Page count
                Figures: 0, Tables: 0, Equations: 0, References: 28, Pages: 6
                Product

                SciELO Colombia

                Categories
                Artículos originales de investigación

                redes neurais,perceptron multicamadas,família Scarabaeidae,descritores moleculares,C-means,florestas aleatórias,neural networks,multilayer perceptron,family Scarabaeidae,molecular descriptors,Random forests,redes neuronales,perceptrón multicapa,familia Scarabaeidae,descriptores moleculares,bosques aleatorios

                Comments

                Comment on this article