Proposition de thèse :

Applications des Méthodes à Noyaux sur Graphes à l'étude des propriétés chimiques de molécules.



Début de la thèse:

Octobre 2010

Type de financement:

Bourse CNRS/Région.

Lieu de déroulement de la thèse:

Laboratoires GREYC/LCMT, Caen.

Description du projet



Les sous structures (groupements d'atomes) présentes dans une molécule déterminent une grande partie de leurs propriétés. Jusqu'à présent récemment l'analyse de ces sous structures pouvait s'effectuer de deux façon différentes: soit par construction d'un vecteur d'attributs décrivant la molécule, soit par l'utilisation d'algorithmes de graphes tels que le plus grand sous graphe commun.

Le premier type de méthode, permet d'utiliser de nombreux classifieurs (SVM, réseaux de neurones,...) et méthodes d'analyse de données mais restreint la description de la molécule aux données extraites lors de la construction du vecteur. Ce type de construction ne permet donc pas facilement de découvrir des propriétés qui n'ont pas été « devinées » au départ. Inversement les méthodes algorithmiques telle que le plus grand sous graphe commun permettent d'exploiter directement la structure des molécules. Ils utilisent donc l'ensemble des données disponibles. Malheureusement ces algorithmes modélisent les molécules par des graphes, l'espace des graphes étant très pauvre en terme de propriétés. Il est par exemple très complexe de définir et calculer le graphe moyen d'un ensemble de graphes. Par conséquent les méthodes de classification travaillant directement dans l'espace des graphes sont pour l'essentiel réduites à l'algorithme des k plus proche voisin qui reste assez primaire en comparaison des méthodes disponibles dans les espaces vectoriels.

Les méthodes à noyaux sur graphes permettent de combiner les avantages des deux familles de méthodes mentionnées précédemment. Les noyaux sur graphes correspondent en effet à un produit scalaire dans un espace indéterminé entre des vecteurs décrivant les graphes. On obtient donc des méthodes travaillant directement dans l'espace des graphes mais pouvant bénéficier de l'ensemble des avantages des méthodes travaillant dans l'espace des vecteurs.

Le projet mené conjointement par le GREYC et le LCMT vise à développer ces techniques de criblage de molécules afin de prévoir les relations entre la structure d'une molécule et ses propriétés physiques ou biologiques. On peut par exemple, concevoir des méthodes de régression permettant de « deviner » la température d'ébullition d'une famille de molécules ou classifier un ensemble de molécules vis à vis d'une propriété chimique ou biologique pour prédire l'effet d'une molécule inconnue. Les applications que nous comptons développer pour les propriétés physiques sont dans le domaine du génie chimique et de la pétrochimie, en particulier les prévisions des propriétés de nouveaux liquides ioniques solvants « verts » respectueux de l’environnement. Dans le domaine des propriétés biologiques on s’intéressera à la prévision des propriétés anti-HIV d'une famille de molécule, domaine déjà explorée par le LCMT. Une collaboration avec le groupe MIVIA (Uniersité.de Salermo, Italie) .sur ces sujets et en cours et des séjours dans cette université sont envisageables en fonction des contraintes du candidat.



Profil du candidat

Contacts

Luc Brun

Tel : 02 31 45 27 01

email: luc.brun@greyc.ensicaen.fr



Didier Villemin

Tel: 02 31 45 28 40

email: didier.villemin@ensicaen.fr

Références :

Artificial neural Networks: Non-linear QSAR Studies of HEPT Derivatives as HIV-1 Reverse Transcriptase Inhibitors.
Latifa Douali, Didier Villemin, Abdelmajid Zyad, Driss Cherqaoui,
J. Mol. Div., 8, 1-8 (2004).

Exploring QSAR of NNRTIS by Neural Networks: TIBO Derivatives.
Latifa Douali, Didier Villemin, Driss Cherqaoui
Int. J. Mol. Sc., 5, 48-55 (2004).

Neural Networks and their applications in chemistry and biology
(Réseaux de neurones artificiels et leurs applications en chimie-biologie).
Latifa Douali, Andreea R. Schmitzer, Didier Villemin, Abdellah Jarid, Driss Cherqaoui,
Phys. Chem. News ,34, 131-144 (2007).

QSAR studies of HEPT derivatives using support vector machines.
Rachid Darnag, Andreea Schmitzer, Yamina Belmiloud, Didier Villemin, Abdellah Jarid, Abderrah man Chait, Maria Seyagh, Driss Cherqaoui,
QSAR Comb. Sc., 28(6-7) 709-718 (2009)

Edition within a graph kernel framework for shape recognition
Dupe,F. -X. & Brun, L.
In Graph Based Representation in Pattern Recognition 2009 , pages 11-21 2009 .


Tree covering within a graph kernel framework for shape classification
Dupe, F.-X. & Brun, L.
I.C.I.A.P 2009 , pages 2009 .



Shape classification using a flexible graph kernel.
Dupe,F. -X. & Brun, L..
In Xiaoyi Jiang editor. , Proceedings of CAIP 2009 , September 2009 .


Hierarchical Bag of Paths for Kernel Based Shape Classification
Dupe, F.-X. & Brun, L.
Proceedings of S+SSPR 2008 , pages 227-236 , Orlando 2008 .

Kernel-Based Implicit Regularization of Structured Objects
Dupe, F.-X, Bougleux, S., Brun, L and Lezoray, O. In Proceedings of ICPR 2010, to be published, Istambul 2010.