Octobre 2010
Bourse CNRS/Région.
Laboratoires GREYC/LCMT, Caen.
Les sous structures (groupements d'atomes) présentes dans une molécule déterminent une grande partie de leurs propriétés. Jusqu'à présent récemment l'analyse de ces sous structures pouvait s'effectuer de deux façon différentes: soit par construction d'un vecteur d'attributs décrivant la molécule, soit par l'utilisation d'algorithmes de graphes tels que le plus grand sous graphe commun.
Le premier type de méthode, permet d'utiliser de nombreux classifieurs (SVM, réseaux de neurones,...) et méthodes d'analyse de données mais restreint la description de la molécule aux données extraites lors de la construction du vecteur. Ce type de construction ne permet donc pas facilement de découvrir des propriétés qui n'ont pas été « devinées » au départ. Inversement les méthodes algorithmiques telle que le plus grand sous graphe commun permettent d'exploiter directement la structure des molécules. Ils utilisent donc l'ensemble des données disponibles. Malheureusement ces algorithmes modélisent les molécules par des graphes, l'espace des graphes étant très pauvre en terme de propriétés. Il est par exemple très complexe de définir et calculer le graphe moyen d'un ensemble de graphes. Par conséquent les méthodes de classification travaillant directement dans l'espace des graphes sont pour l'essentiel réduites à l'algorithme des k plus proche voisin qui reste assez primaire en comparaison des méthodes disponibles dans les espaces vectoriels.
Les méthodes à noyaux sur graphes permettent de combiner les avantages des deux familles de méthodes mentionnées précédemment. Les noyaux sur graphes correspondent en effet à un produit scalaire dans un espace indéterminé entre des vecteurs décrivant les graphes. On obtient donc des méthodes travaillant directement dans l'espace des graphes mais pouvant bénéficier de l'ensemble des avantages des méthodes travaillant dans l'espace des vecteurs.
Le projet mené conjointement par le GREYC et le LCMT vise à développer ces techniques de criblage de molécules afin de prévoir les relations entre la structure d'une molécule et ses propriétés physiques ou biologiques. On peut par exemple, concevoir des méthodes de régression permettant de « deviner » la température d'ébullition d'une famille de molécules ou classifier un ensemble de molécules vis à vis d'une propriété chimique ou biologique pour prédire l'effet d'une molécule inconnue. Les applications que nous comptons développer pour les propriétés physiques sont dans le domaine du génie chimique et de la pétrochimie, en particulier les prévisions des propriétés de nouveaux liquides ioniques solvants « verts » respectueux de l’environnement. Dans le domaine des propriétés biologiques on s’intéressera à la prévision des propriétés anti-HIV d'une famille de molécule, domaine déjà explorée par le LCMT. Une collaboration avec le groupe MIVIA (Uniersité.de Salermo, Italie) .sur ces sujets et en cours et des séjours dans cette université sont envisageables en fonction des contraintes du candidat.
Solides compétences en programmation C++,
bonnes bases mathématiques.
Des compétences en théorie des graphes, méthodes à noyaux ou classifications seraient appréciées mais ne sont pas obligatoires.
Luc Brun
Tel : 02 31 45 27 01
email: luc.brun@greyc.ensicaen.fr
Didier Villemin
Tel: 02 31 45 28 40
email: didier.villemin@ensicaen.fr