Soutenance de thèse de Camille Juigné
Amphi Matagrin, campus de Rennes
Intégration et analyse de données biologiques hétérogènes par exploitation de graphes multicouches pour mieux comprendre les variations d’efficience alimentaire chez le porc
Thèse dirigée par Florence Gondret, UMR Physiologie, Envionnement et Génétique pour l'Animal et les Systèmes d'Élevage (Pegase)
Spécialité : Sciences Agronomiques
Résumé
Les progrès technologiques d’étude du vivant ont conduit à une explosion de données multimodales et multicentriques. Ce phénomène soulève de nombreuses questions liées au stockage, à la standardisation et à l’analyse de ces données massives. Ainsi, ce travail de thèse porte sur le développement d’une méthode intégrative d’analyse de données biologiques, pour en extraire de la connaissance. Pour prendre en compte leur forte interdépendance, cette approche consiste à intégrer différents types d’entités biologiques (ARNm, protéines, métabolites, caractères observables) qui sont habituellement étudiés indépendamment les uns des autres. La solution informatique élaborée permet d’intégrer ces données hétérogènes dans un graphe multicouche, avec une couche par type d’entités. L’originalité est de relier les éléments d’une couche ou de couches différentes par des propriétés extraites des bases de données et de connaissances publiques à l’aide de technologies du Web Sémantique. A partir de ce graphe, le but est de caractériser les relations entre un groupe de molécules d’intérêt grâce à des métriques de la théorie des graphes. La méthode développée a été appliquée à des jeux de données expérimentaux (transcriptomique, métabolomique et phénotypes animaux) pour décrire et comprendre les relations entre les molécules et leur importance dans la variation d’efficience alimentaire de porcs. L’efficience alimentaire est un phénotype clé pour contribuer à un élevage durable, mais complexe. Ce travail a permis de mettre à disposition des méthodes d'analyse novatrices, à différentes échelles de l'organisation du vivant, favorisant une meilleure compréhension des processus biologiques.
Mots clés : efficience alimentaire, graphe multicouche, intégration de données, multi-omiques, web sémantique
Abstract
Recent technological advancements in biological data acquisition have resulted in an explosion of multimodal and multicentric data. This phenomenon raises numerous questions regarding the storage, standardization, and analysis of these massive datasets. This thesis focuses on the development of an integrative method for analyzing biological data to extract knowledge from them. To account for their strong interdependencies, this approach involves integrating different types of biological entities (mRNA, proteins, metabolites, observable traits) that are typically studied independently. The devised computational solution enables the integration of these heterogeneous data into a multilayer graph, with each layer representing a specific type of entity. The novelty lies in linking elements within a layer or across different layers by utilizing properties extracted from public knowledge databases through Semantic Web technologies. Based on this graph, the objective is to characterize the relationships among a group of molecules of interest using graph theory metrics. The method was applied to experimental datasets (transcriptomics, metabolomics and animal phenotypes) to describe and understand the relationships between specific molecules and determine their importance in feed efficiency variations in growing pigs. Feed efficiency is a key phenotype for sustainable farming, but is recognized as complex. This work provides innovative analysis methods to analyze and integrate various levels of biological organization, facilitating a better understanding of biological processes.
Keywords: Data integration, Feed efficiency, Multilayer graph, Multi-omics, Web Semantic