Thèse de doctorat d'état

1. Intégration du modèle Acteur dans les Systèmes de Gestion de Bases de Données de la nouvelle génération Soutenue

Thèses de doctorat classique

1. Intégration des structures de données distribuées et scalables ordonnées dans les systèmes distribués.   Soutenue

2 Vers une amélioration des résumés automatiques de textes  Soutenue

3. Hachage digital distribué  ( HD*)     Echec
4. IH* : vers une nouvelle approche de l’accès multidimensionnel sur les environnements distribués. Abondan

5. Problème de concurrences sur une nouvelle structure de données : P(n)-BST ( Partionned Binary Search Tree)  Abondan

6. Vers une optimisation de l'interrogation d'un système distribué de capteurs Abondan

7. Jointure parallèle et problèmes de déséquilibre de charge dans un schéma de répartition à base d'une nouvelle structure de données distribuée et scalable ( PBST*)     Echec   

8. Indexation d’images spatiales générées par bissection   Echec   

9. Évaluation automatique et Aide a l’enseignement : application à l’apprentissage de l’algorithmique séquentielle et parallèle  Abondan

10. Cubes Rolap  sous forme de SDDS multidimensionnelles En cours

11. Construction de profils dans un environnement Big-Data En cours

12. Fouille de programmes En cours

Thèses de doctorat LMD

1. Routage à base de la structure PBST*   Soutenue

2. Partitioned binary search trees as a generalization of Red-Black trees Soutenue

3. Toward a unique code for AVL and Red-Black trees Soutenue

4. Data Replication while Satisfying both Provider profit and Tenant objectives in Cloud Systems Abondan

5. PBST (Partitioned Binary Search Trees) as a family of partially balanced binary search trees En cours

6. Hybrid duplication of Partitioned Binary Search Trees to ensure adaptability and availability En cours
7. Réplication de données basée sur l’apprentissage par renforcement dans les systèmes Cloud  En cours

 

 

Thèses de doctorats co-dirigés

 


Intégration du modèle Acteur dans les Systèmes de Gestion de Bases de Données de la nouvelle génération   (Soutenu en juillet 2007 )

W. K   HIDOUCI

Les nouvelles applications base de données (CAO, Bureautique, multimédia ...) ont montré la faiblesse du modèle relationnel et ont conduit, entre autre, au développement des SGBD orientés objet s'appuyant typiquement sur le modèle objet populaire dit par 'classe'.

Le modèle objet par 'Acteur', peu connu, a été surtout utilisé dans la programmation de systèmes parallèles. Dans ce type de programmation, les objets, dits 'actifs' ou encore 'agents intelligents', collaborent en parallèle pour la réalisation d'une tâche.

Notre objectif est d'étudier les effets de l'intégration du modèle acteur dans les SGBD. Nous pensons qu'une telle approche pourrait être intéressante du fait qu'elle préserve les avantages des SGBD objets par classe tout en offrant d'autres. En particuliers, on peut citer les objectifs suivants :

- Faciliter la mise en œuvre des SGBD répartis et parallèles.
- Faciliter la manipulation des données du fait de l'uniformisation du concept Acteur dans le modèle de données et dans l'architecture même du SGBD.
- Étendre le champ d'application des SGBD actuels.

Le travail consiste donc à :

a) Définir un modèle de données objet par acteur:
Le modèle de données devra être uniformisé autour de la notion d'acteur. Le monde réel pourra alors être modélisé par une base d'objets actifs, communicant entre eux afin de réaliser une tâche précise (requête d'un utilisateur, programme d'application, ...). Les langages de définition et de manipulation de données (LDD et LMD) devront être conçus autour de la notion d'acteurs. Dans le but de développer des applications, un langage adéquat de programmation de base de données (LPBD) devra aussi être conçu.

b) Étudier et implanter un système de stockage lié au modèle 'acteurs' proposé :
Les nouvelles techniques et méthodes d'accès aux données seront étudiées afin de déterminer celles qui sont les plus adaptées à notre modèle de stockage. Ces méthodes devront permettre la manipulation aisée des objets actifs (acteurs) en mémoires centrale et secondaire. De plus l'aspect données-réparties doit être considéré dans l'élaboration du système de stockage.

top

Projet "ACT"

 


 

           

Hachage digital distribué  ( HD*)

M. ARIDJ

Email : [email protected]
(Echec) 

Les Sdds ont été récemment proposées par W. Litwin ( Université Paris Dauphine). Ce sont des structures de fichiers dédiées à des environnements distribués.

Les principales méthodes actuelles utilisent HVL et RP.

Jusqu'à présent, aucune méthode n'a été proposée sur la base du hachage digital, une technique de hachage de même niveau que HVL avec en plus la préservation de l'ordre.

Objectifs de la thèse:

- Trouver un schéma pour distribuer HD, le valider avec la conception de tous les algorithmes qui s'y rattachent.
- Montrer que le schéma proposé est au moins égal ( sinon supérieur) aux schémas proposés jusque là. Ceci suppose préalablement l'écriture d'un protocole de communications.

Matériel : réseau composé d'au moins 4 machines Unix. Programmation C sous Unix
Utilisation du protocole TCP/IP.

top  )

Projet "ACT"

 


 

IH* : vers une nouvelle approche de l’accès
multidimensionnel sur les environnements distribués.

D. BOUKHELEF

Email : [email protected]
(Abondant) 

Introduction

Nous assistons actuellement à une évolution poussée de l’informatique dans le domaine de la technologie notamment celle des réseaux informatiques. Ces derniers offrent des débits de plus en plus élevés. Plusieurs ordinateurs peuvent être interconnectés, permettant ainsi de cumuler leurs ressources en mémoire et disque pour le stockage de données, et d’augmenter leur puissance de calculs. De nouveaux concepts sont proposés pour désigner ces systèmes, tels que : multi-ordinateur, ou Réseau de Stations de Travail « Network of Workstation » ou, plus récemment, « Peer-to-Peer Computing » ou « Grid Computing ».

Cependant, les applications actuelles ne tirent pas profit maximum de ces avancées. Pour pallier à ce manque, une classe de structures de données est apparue afin d’ouvrir de nouvelles perspectives pour la gestion des données sur les multiordinateurs, il s’agit des Structures de Données Distribuées et Scalable (SDDS). Elles sont dites scalables car les performances d’accès sont indépendantes de la taille du fichier SDDS. Les SDDS sont une étape dans l’implémentation, à base du modèle client/serveur, des systèmes de gestion de bases de données distribuées et scalables, qui, actuellement, sont un challenge à relever. 

 

Historique

Dans un premier temps, des SDDS basées sur le hachage ont été proposées tels que LH* et ses variantes, DDH et EH*, celles-ci constituent une généralisation des algorithmes de hachage classiques. Cependant, dans le cas où le fichier doit supporter des requêtes par intervalles ou un parcours transversal de tous les enregistrements, les structures de données ordonnées telles que les arbres B offrent de bonnes performances par rapport aux techniques de hachage qui ne préservent pas l’ordre. Sur cette base, une autre famille de SDDS a été proposée pour construire des fichiers distribués qui préservent l’ordre des enregistrements. Citons à cet égard : RP* et DRT.

Des recherches poussées au sein de l’équipe CERIA à l’université Paris 9 Dauphine sous la direction du Professeur W. Litwin, notamment sur LH*, ont permis de construire de nouvelles structures
de données distribuées et scalable dites sécurisées et à haute disponibilité parmi lesquelles
nous trouvons : LH*s, LH*m, LH*g, LH*RS, ... .

Une autre tendance dans les recherches sur les SDDS a été initiée ces dernières années et concerne les SDDS multidimensionnelles telles que k-RP, k-DRT, etc.

Motivations

Cependant, une remarque importante concernant les SDDS développées jusqu’à présent est qu’elle constituent toutes une généralisation soit de certains k-d-arbres tels que les arbres B+ (RP*, k-RP*, Distributed B+-tree), soit des les arbres de recherche (DRT, DRT*, k-DRT,...) soit des techniques de hachage unidimensionnelles classiques.

Ceci nous a inciter à mettre en évidence une nouvelle approche dans le domaine des SDDS, il s’agit de la conception de Structures de Données Distribuées et Scalable à base du hachage multidimensionnel (Multidimensional Hash-based SDDS), et plus particulièrement, le hachage par interpolation de W.A.Burkhard.

IH* constitue la première SDDS multidimensionnelle à base du hachage. IH* supporte toutes les opérations standards sur les bases de données distribuées. Son point le plus forts est qu'elle supporte efficacement les requêtes à intervalles exactes,  partielles et totales (partial and exact match  queries).

Deux contributions ont été déjà faites sur IH* :

·        IH* : A New Hash-Based Multidimensional SDDS. Workshop on Distributed Data & Structures - WDAS-2002 Université Paris IX Dauphine. France. 20-23 Mars 2002.

 

·        Hachage Linéaire Multidimensionnel Distribué et Scalable.  CARI’02 : 6ième Colloque Africain sur la Recherche en Informatique. 14-17 octobre 2002 Yaoundé. Cameroun.

 

Définition et objectifs de la thèse

Le sujet de thèse s’inscrit comme une suite du travail déjà entamé dans le cadre d’une thèse de Magister (INI, 2002). L’objectif de la thèse est de réétudier la SDDS IH* et d'effectuer des recherches approfondies sur tous ses aspects. Ces études concerneront la perfectionnement du IH* (Protocole de communication et architecture du système) et l'ajout des fonctions non encore implémentées tel que la suppression et les requêtes par intervalles. Les objectifs suivants sont à atteindre :

·       Evaluation des requêtes à intervalles parallèle : nous avons montrer que le mode d’envoi ciblé du IH* constitue une amélioration considérable par rapport aux autres modes. Une perspective envisageable serait d’étudier des mécanismes plus optimaux de découpage et de terminaison des requêtes parallèles qui permettent d’alléger les charges sur les serveurs de données.

·       Etude d’une structure interne de la case IH* : Etant donné que l’accès aux enregistrements au niveau d’une case est séquentiel, la taille de cette dernière doit avoir une influence sur les performances des serveurs SDDS. Une étude intéressante serait d’étudier une organisation interne d’une case IH* plus optimales (IH*IH par exemple). Il serait aussi intéressant d’étudier l’influence de la taille d’une case sur le temps de réponse d’un serveur.

·       Politiques de scalabilité : par scalabilité on entend

Plusieurs cases par serveur : Une étude intéressante serait de traiter le cas de l’hébergement de plusieurs cases de données sur un même serveur à l’instar des travaux de R.Vingralek sur les SDDS DDH et LH*.

Un module de contrôle de charge du serveur : il serait intéressant d’ajouter un module de contrôle de charge du serveur. Ce module permettrait, à partir d’un certain seuil d’augmenter dynamiquement le nombre de threads d’écoutes ou éventuellement le nombre de threads de travail. Plusieurs problèmes peuvent se poser, tels que la gestion des ports d’écoutes, l’information des clients de l’existence de tels ports, l’accès concurrent aux files d’attentes, etc.

 

·       Introduction de la mémoire secondaire : toutes les SDDS déjà implémentées résident dans la mémoire distribué du multiordinateur. On parle pour certaines variantes de haute disponibilité, cela n'empêche pas de doter le système de gestion de la SDDS d'un module de sauvegarde /restauration de/vers la mémoires de masse pour des éventuelle opération de maintenance, transfert ou même de mise à niveau (upgrading) du système SDDS lui-même.

·       La mesure détaillée des performances : le premier prototype que nous avons développé ne nous a pas permis d’avoir des détails sur les performances réelles de la SDDS IH*. Une perspective intéressante serait d’implémenter un prototype plus complet sous un environnement Windows ou Linux réel et de mesurer ses performances réelles. Ce système ainsi développé doit être doté d’un module de contrôle de flux pour éviter le problème de perte de messages UDP. Ce module doit également gérer les time-out, les messages d’acquittement et les situations d’erreur.

 

 

Echéancier

1ière année :     - Etat de l’art sur les SDDS récentes ;

2ième année :    - Extension du protocole existant avec un module de contrôle de flux ;

                        - Etude de l’organisation interne d’un serveur SDDS ;

3ième année :    - Proposition d’un mécanisme d’exécution des requêtes par intervalles ;

                        - Etude de diverses politiques de scalabilité ;

4ième année :    - Mesure des performances et comparaison avec les SDDS concurrentes ;

- Rédaction et finalisation de la thèse.        

top  )

Projet "SD2M"

 

 


Problèmes de concurrence sur une nouvelle structure de données : P(n)-BST ( Partionned Binary Search Tree)

A. BENHOUHOU

Email :  [email protected]
(Abondant) 

    Description du travail de recherche :

On qualifie par structures de données parallèles, les structures qui permettent l'accès et la mise à jour simultanés aux données par plusieurs utilisateurs. L'objectif est bien sûr la rapidité des opérations et la disponibilité des données pour plusieurs utilisateurs et en temps réel. Les accès concurrents aux structures de données ont fait l'objet de plusieurs travaux de recherche. Les structures les plus populaires et les plus étudiées sont les 'B_trees', les 'AVL-trees' et les 'Red-Black trees'.

La structure P(n)-bst est un nouveau type d'arbre équilibré conçu spécifiquement pour le partitionnement dynamique d'un ensemble d'éléments. Contrairement aux structures citées précédemment, l'unité n'est plus un nœud mais toute une partition ( un ensemble de nœuds)

L'objectif de ce travail consiste : 
- d'une part à paralléliser les opérations de base sur la nouvelle arborescence proposée -partionnée de nature - et montrer les avantages et inconvénients par rapport aux autres méthodes.
- Et d'autre part à trouver les applications (et a les réaliser) pour lesquelles la structure proposée pourrait être intéressante.

Échéancier :

Année 1 : étude de la structure P(n)-BST, formaliser les algorithmes et réalisation d'une plate-forme.

Année 2 : greffer sur cette plate-forme les techniques assurant l'accès concurrent et procéder à des mesures. Une première publication dans une revue est à prévoir.

Année 3 : Comparer les résultats obtenus avec quelques structures de données parallèles et trouver quelques applications pratiques pour lesquelles la structure P(n)-bst pourrait être intéressante. Une deuxième publication dans une revue est à prévoir.

Année 4 : Finalisation et rédaction de la thèse

top  )

Projet DDD

 


           

Intégration des structures de données distribuées et scalables ordonnées dans les systèmes distribués.

M. ARIDJ

Email : [email protected]
(Soutenue) 

Ces dernières années ont vu des avancées considérables de l'informatique qui ont favorisé l'émergence de nouvelles architectures constituées d'ordinateurs géographiquement distribués. Il s'agit essentiellement de stations de travail et de PCs, provenant du marché grand public et reliés par des réseaux à haut débit.

Ces configurations offrent des capacités cumulées de stockage et de puissance de calcul quasi-illimitées. Elles deviennent de plus en plus accessibles au niveau des entreprises qui les utilisent massivement, grâce à leur rapport performance/prix imbattable à l’heure actuelle.

De nouveaux concepts ont été proposés pour désigner ces systèmes, tels que :  multi-ordinateur, ou Réseau de Stations de Travail ( « Network of Workstation » ) ou, plus récemment, « Peer-toPeer Computing » ou « Grid Computing ».

Bien que n’étant pas parfaitement identiques, ces différents concepts visent tous la création d'une plate-forme capable d'exploiter les ressources cumulées de stockage et de traitement. Cela nécessite tout particulièrement de nouvelles méthodes de gestion des données, efficaces  pour de grands volumes de donnés réparties. Il s'agit notamment des fichiers résidant en mémoire centrale  (RAM) distribuée, pour assurer des temps d’accès beaucoup plus rapides comparés aux structures de données classiques sur des disques. On exige aussi de plus en plus aux fichiers d'un multi-ordinateur la propriété de scalabilité qui signifie la capacité de maintenir les performances d'accès constantes malgré l'accroissement du volume de données stockées. La scalabilité est devenue une exigence capitale pour des applications modernes à usage intensive de données, telles qu'un SGBD, un serveur WEB, un serveur multimédia, un système de calcul scientifique à hautes performances, etc.

Les Structures de Données Distribuées et Scalables (SDDS) sont une classe de structures introduites vers les années 1993 spécifiquement pour la gestion de fichiers sur un multi-ordinateur. Un fichier SDDS peut s'étendre dynamiquement, au fur et à mesure des insertions, d'un seul site de stockage à n'importe quel nombre de sites. Les algorithmes d'adressage d'une SDDS sont conçus spécifiquement pour être scalables et plus particulièrement par l’absence d'un répertoire ou index central. La répartition de données est transparente pour les applications. Les données sont aussi stockées de préférence en RAM distribuée. Plusieurs SDDS ont été proposées.  Les plus connues sont celles basées sur le hachage linéaire (LH*) et celles utilisant le  partitionnement par intervalle (RP*).

La plupart des SDDS proposées présentent un inconvénient majeur qu’est le traitement des requêtes par intervalles (recherche, suppression, classement).  Aussi, l’objectif de la thèse est de proposer une SDDS permettant de traiter efficacement les requêtes par intervalle et de développer tous les aspects pour avoir une SDDS la plus complète possible.

Mots clés: Multi-ordinateur, scalabilité, Structures de Données Distribuées et Scalables, requêtes  parallèles, requêtes  par intervalle.

Echéancier

1 année : recherche bibliographique

   Etat de l'art  (9 mois).

   Test des protocoles SDDS existants (3 mois)

2 année : conception :

   Proposer une SDDS qui doit préserver l’ordre des clés (la structure et tous les algorithmes)

   Une publication est à prévoir pour présenter la méthode

3 année : implémentation

   Implémenter la SDDS proposée sur un multi ordinateur et effectuer des tests de performances.

4 année : finalisation :

   Une seconde publication des résultats obtenus est aussi à prévoir

   Rédaction de la thèse.   

 

top  )

Projet "SD2M"

 

 


Jointure parallèle et problèmes de déséquilibre de charge dans un schéma de répartition à base de PBST

Naima LOUNES                           Avec  WK  HIDOUCI  ( Professeur ESI)

Email :  n[email protected]
(Echec) 

PBST* est une structure de données arborescente dédiée à un environnement réparti. Elle permet de partitionner un ensemble suivant un schéma de distribution dynamique, ce qui pourrait favoriser le traitement des jointures parallèle qui traditionnellement souffrent du problème du déséquilibre de charge entre les différents noeuds participants.

 Le travail consiste à étudier différents algorithmes de traitement des jointures parallèle et d'en proposer un qui pourrait tirer profit de la structure particulière de PBST* afin de diminuer les effets du déséquilibre de charge.

 Echéancier

 - 1ere année: Etude de la structure PBST* et implémentation d'un noyau pour la gestion de tables relationnelles dans un environnement réparti

 - 2e année: Etude des différents algorithmes de jointure parallèle et des techniques d'adaptation au déséquilibre de charge durant l'opération de jointure.

 - 3e année: Proposition d'une solution adaptée à PBST*, l'implémenter et réaliser des tests de performances en vu de la comparer avec les autres approches

 - 4e année: Publication des résultats et rédaction de la thèse.

top  )

Projet DDD

 


          

Vers une optimisation de l'interrogation d'un système distribué de capteurs

Amina CHIKHAOUI

Co-promoteur :  Y. CHALLAL, Maître de Conférences à l'Université de Technologie de Compiègne

email : a[email protected]
(Abandon) 

Thème

 

Le rôle d’un capteur est de générer des données relatives à un  environnement physique.

 

Un réseau de capteurs définit donc une base de données virtuelle permettant à  des personnes de récolter le maximum d’information sur un  environnement donné.

 

Les réseaux de capteurs diffèrent par leur manière de communiquer en tenant compte des limites et des performances. Les capteurs sont multi-modaux et mesurent divers paramètres (température, humidité, pression, salinité, accélération, ....). Du fait que les capteurs sont sans fil, ils sont alimentés par des batteries à durée de vie limitée. D'après des études réalisées sur la consommation de l'énergie dans les réseaux de capteurs, il s’avère que 70% de l'énergie est consommée par la transmission sans fil (émission/réception).

 

Chaque nœud du réseau est doté, en plus de la mémoire vive, d'une mémoire permanente pour stocker les paramètres mesurés par ses capteurs. De ce fait, un réseau de capteurs peut être perçu comme un système de stockage distribué. L'interrogation du réseau revient alors à formuler des requêtes sur ce système de stockage distribué.

 

Aussi, l'optimisation du nombre de messages échangés, est un des critères de performance les plus importants dans la conception de protocoles et systèmes d'interrogation de ce type de réseaux.

 

Etant donnée les capacités limitées de stockage, de bande passante, d'énergie, ... tout système d'interrogation doit tenir compte de ces contraintes et optimiser les surcoûts induits par ses processus d'indexation, de recherche, ..... Ceci dans le but d'allonger la durée de vie du réseau au maximum.

 

 

Il s’agit dans cette thèse de :

-          faire un panorama sur les modèles de communications utilisés dans les réseaux de capteurs.

-          Proposer un système de stockage de données distribué permettant d’optimiser des requêtes à définir sur un réseau de capteurs.

-          Valider les résultats obtenus.

 

 

Échéancier

 

 Année 1 : Etude des réseaux de capteurs et réalisation d’une plateforme permettant la simulation d’un réseau de capteur classique.

 

 Année 2 :

-          Proposer un modèle de distribution de données sur un réseau de capteur à travers une structure de données distribuées et la simuler. Une première publication dans une revue est à prévoir.

-          Définir un langage d’interrogation sur le système projeté et montrer l’optimisation apportée.

 

 Année 3 : Comparer les résultats entre les approches classiques et la nouvelle approche.  Une réflexion portera sur la recherche d’applications pour lesquelles le nouveau modèle pourrait être intéressant. Une deuxième publication dans une revue est à prévoir.

 

 Année 4 : Finalisation et rédaction de la thèse

 

 

Bibliographie

 

[1] I. F. Akyildiz, W. Su, Y. Sankarasubramaniam, and E. Cayirci. "wireless sensor networks : a survey". Elsevier Science, 2002.

[2] L. Carvalho, J. Angeja, and A. Navarro. A new packet loss model of the ieee 802.11g wireless network for multimedia communications. In Consumer Electronics, IEEE Transactions, Aout 2005.

 [3] W.R. Heinzelman, A. Chandrakasan, and H Balakrishnan. "energy-efficient communication protocol for wireless microsensor networks". In IEEE Proc, pages 1–10, Janvier 2002.

[4] P. Levis, N. Lee, M. Welsh, and D. Culler. Tossim : accurate and scalable simulation of entire tinyos applications. In Proceedings of the 1st international conference on Embedded networked sensor systems, 2003.

[5]  Y. Challal, A. Ouadjaout, N. Lasla, M. Bagaa, A. Hadjidj: Secure and efficient disjoint multipath construction for fault tolerant routing in wireless sensor networks. Journal of Network and Computer Applications , 2011

[6] W. Bechkit, A. Bouabdallah, Y. Challal: Enhancing resilience of probabilistic key pre-distribution schemes for WSNs through hash chaining. In Proceedings of the 17th ACM conference on Computer and communications security, 2010.

[7] TinyOS Community. "an open-source os for the networked sensor regime". Site : http ://www.tinyos.net, 2004.

[8] A. Chikhaoui, D.E Zegour, W.K Hidouci. Towards dynamic data placement in grid.  International Conference on Information Systems and Technologies(ICIST), Avril 2011, Tebessa, Algérie

[9] D.E Zegour. Towards a complete scalable distributed data structure . IJIS : international journal of information studies. pp182-191. ISSN 1911-6414 (Online)/ 2009

[10] D.E Zegour. Scalable Distributed Compact Trie Hashing  - IST : Information Software Technology. Elseiver. 2004

 

top  )

Projet DDD

 

 


          

Indexation d’images spatiales générées par bissection

Mohamed GOUGACHE

(Echec) 

    Les applications spatiales sont l'un des domaines qui connaît depuis quelques années un formidable essor. Encore réservée à des spécialistes il y a une dizaine d'années, l'utilisation de données spatiales se répand au sein d'un public de plus en plus large. A l'origine cantonnées dans les applications traditionnelles de cartographie, aujourd'hui les données spatiales sont utilisées dans des domaines très variés, tels que le web-mapping, les entrepôts de données, les systèmes d’informations géographiques, la conception assistée par ordinateur (CAD)…, mais aussi dans la mise en œuvre de stratégies de prévention ou de planification (pour la protection de l'environnement, l'étude de la démographie, etc.).

 

    Les bases de données spatiales sont caractérisées par leurs importantes tailles. Et par conséquence, les requêtes spatiales prennent un temps considérable dans leurs exécutions. Afin de résoudre ce problème, les SGBD spatiaux font appel aux méthodes d’indexations. Et puisque les structures d’index unidimensionnels ne sont pas convenables à ce type de données, car  elles opèrent sur des données unidimensionnelles, les chercheurs ont proposé d’autres méthodes d’indexation qui s’adaptent  à ce type de données.

 

    Les index spatiaux à base d’arbre R (R trees) sont les plus recommandés à cause de plusieurs avantages qu’ils offrent : l’adaptation aux changement, la non-redondance des données, l’efficacité en temps de réponse.

 

   Dans un travail antérieur, le candidat s’est intéressé à la coupure d’images 3D  par des plans parallèles. Des  algorithmes originaux ont été proposés permettant l’obtention directe de l’index de l’image résultant de la bissection à partir de l’index de l’image originale. Une plateforme de tests existe donc et a permis l’implémentation de ces algorithmes.

 

   Les algorithmes proposés dans ses travaux de magistère présentent d’une part des inconvénients mineurs et d’autre part ne s’appliquent que pour les bissections parallèles.

 

   Dans le travail de la thèse, le candidat aura donc comme tache

-          d’améliorer ses propositions et de les valider

-          d’étendre la bissection des images par des plans non parallèles.

 

 

Bibliographies:

 

[RAM 03] Fabien RAMOS, «  Modélisation et validation d’un système d’information géographique  3D opérationnel » thèse doctorat, université de marne-la-valée, Ecole doctorale « information, communication, simulation, modélisation » 2003.

 [THE 96] Yannis Theodoridis   ,   Michael Vazirgiannis,   Timos Sellis « Spatio-Temporal Indexing for Large Multimedia Applications » , Computer Science Division, Department of Electrical and Computer Engineering, National Technical University of Athens, Zographou, Athens, 157 73 GREECE 1996.

 [MAN 03] YANNIS MANOLOPOULOS, ALEXANDROS NANOPOULOS, APOSTOLOS N. PAPADOPOULOS «R-trees Have Grown Everywhere», Aristotle University of Thessaloniki, Greece. University of Piraeus, Greece. 2003.

 [JEN 09] Christian S. Jensen  , Hua Lu  , and Bin Yang « Indexing the Trajectories of Moving Objects in Symbolic Indoor Space » Department of Computer Science, Aalborg University, Denmark. School of Computer Science, Fudan University, China. 2009.

top  )  
 

       

Vers une amélioration des résumés automatiques de textes

ARIES Abdelkrim

(Soutenue) 

Avec l’augmentation considérable du volume des informations sur Internet, il est devenu très difficile de sélectionner l’information pertinente. L’information est publiée simultanément sur plusieurs média avec différentes versions ( un journal papier, un journal web, message SMS, radio, etc.). Le résumé automatique apporte une solution à ce problème et automatise complètement ce travail. En plus, les documents deviennent accessibles par d'autres langues en les résumant premièrement avant traduction, ceci peut être, dans la plupart des cas, suffisant pour juger de la pertinence d'un document avec une langue étrangère. De ce fait, on peut éviter le travail de traduction de tout le document manuellement.

L’objectif de ce travail est d’étudier les techniques de résumé automatique de textes, ainsi que les techniques de recherche d’information et ceux de traitement automatique de langage naturel applicables au domaine de résumé automatique.  Ensuite, on veut utiliser ces techniques pour  (1) appliquer les techniques d’apprentissage pour améliorer le résumé résultant, en essayant de régler le problème d’absence des corpus étiquetés. (2) appliquer les techniques linguistiques pour avoir des résumés plus précis.

 

top  )  

 


        

Routage à base de la structure PBST*

Nassima MERABTINE

(Soutenue) 

Les algorithmes de routage utilisent

-          soit des tables dupliquées sur les nœuds

-          soit une table centralisée

Dans le premier cas, c’est intéressant pour la disponibilité mais il faut gérer la cohérence.

Dans le second cas, il y a un problème de disponibilité et problème de goulot d’étranglement.

Une autre alternative consiste à distribuer la table sur les nœuds selon une technique de répartition dynamique de la table de routage. On utilisera la méthode PBST* (Distributed Partitioned Binary Search tree).

Il s’agit de re considérer certains algorithmes de routage, de les adapter avec  les tables de routage distribuées dynamiques et de les comparer avec ceux existant.

top  )  

 


     

Partitioned binary search trees as a generalization of Red-Black trees

Seif-Eddine ZOUANA

(Soutenue) 

Actuellement, les arbres rouges et noir sont devenus très populaires et sont principalement utilisés pour implémenter les dictionnaires, les tableaux associatifs, les tables des symboles  dans quelques compilateurs (C++, Java …) et beaucoup d’autres systèmes.

Nous proposons une structure de données génératrice d’une famille d’arbres de recherche binaire équilibrés. La structure partitionne les éléments d’un arbre en classes. Chaque classe est en fait un sous arbre avec des hauteurs pouvant varier de 0 à n-1, n≥2. n est le paramètre de la structure.

La nouvelle structure généralise la structure des arbres rouges et noir avec des algorithmes plus simples. De cette manière, selon l’application nous pouvons régler le déséquilibre dans le but de rendre les algorithmes de mise à jour plus rapides.

Il s’agit d’étudier et d’approfondir la structure en vue de retrouver les algorithmes, de les simuler et de les comparer avec les autres méthodes.

Mots-clés : Binary search trees, AVL-trees, Red-Black trees, Partitioning.

top  )  

 

 


    

Toward a unique code for AVL and Red-Black trees

Lynda BOUNIF

(Soutenue) 

Les arbres AVL (Adelson, Velskii, Landis) et les arbres RB (Red Black) sont des arbres de
recherche binaire (ARB) équilibrés introduits en 1962 et 1978 respectivement.
Les arbres AVL sont plus équilibrés par rapport aux arbres RB, mais elles causent plus de
rotations durant les opérations d’insertion et de suppression. Si pour une application donnée, les
insertions et les suppressions sont fréquentes alors les arbres RB sont préferables aux arbres
AVL. Par contre, si les insertions et les suppressions sont moins fréquentes et de plus la
recherche est fréquente, alors les arbres AVL sont préférables aux arbres RB.
Nous proposons dans ce travail un code unique pour ces deux types d’ arbres. A l’aide d’un seul
paramètre, nous pouvons basculer de l’un à l’autre. Ceci est possible grace à un ARB
partitionné soit en une seule classe soit en plusieurs classes de hauteur 0 et 1. Dans le premier
cas, il s’agit d’un arbre AVL. Dans le second cas, il est question d’un arbre RB avec des
algorithmes plus simples totalement differents. Les classes sont en fait des sous arbres
renfermant des arbres AVL et forment ainsi un ARB parfaitement équilibré.
L'idée émergente de ce travail est de faire en sorte que la structure s'adpate dynamiquement à
l'application.
Objectifs à atteindre:
1. Montrer que la structure simule bien les deux types d’arbres.
2. Montrer par simulation que la nouvelle structure est au moins équivalente en temps d’
exécution.
3. Etudier le passage d’une structure à l’autre et vice versa.

Mots-clés : Binary search trees, AVL-trees, Red-Black trees, Partitioning.

top  )  

 


Cubes Rolap  sous forme de SDDS multidimensionnelles

Amel MECHRI

(En cours) 

Le travail rentre dans le cadre du nouveau projet de recherche D3P ayant pour thème distribution de données dynamiques polymorphes. Nous nous intéressons à l'amélioration des performances des systèmes décisionnels en utilisant les opportunités du traitement parallèle lié au modèle SDDS (Scalable Distributed Data Structure).

Le modèle SDDS est basé sur une distribution dynamique et équilibrée excluant  tous recours à un répertoire centralisé et offre de très hautes performances en dépit d’une  augmentation illimitée de données.

Nous nous intéressons dans ce travail plus particulièrement aux données multidimensionnelles d’un système décisionnel (entrepôt de données) utilisant les cubes de données.

Un cube peut être logiquement représenté principalement par un tableau multidimensionnel (MOLAP) ou plusieurs tableaux bidimensionnels englobant à la fois les faits et les dimensions (ROLAP).

Chaque cube ainsi représenté est distribué traditionnellement selon plusieurs schémas tels que  les distributions circulaires,  par hachage, par intervalle, etc.

Il est demandé d’étudier et d’implémenter un cube ROLAP dans un contexte réparti selon le modèle des SDDS multidimensionnelles. A travers des tests, montrer les bénéfices des opérations algébriques sur les cubes ainsi implémentés comparés aux formes classiques de distribution de données.  ///   Outils : MPI / C++ / Linux

top  )  

 

 


Construction de profils dans un environnement Big-Data

Atika BADAOUI

(En cours) 

L'élaboration de groupes de travail en général, passe par le choix des participants les mieux adaptés en fonction de leurs profils et des sujets abordés. Ces profils doivent renfermer le maximum d'informations en relation avec les tâches à affecter. Cela inclut des connaissances d'ordre métiers (comme les connaissances techniques sur le sujet de la tâche à effectuer) et des connaissances d'ordre sociologiques (comme les relations d'amitié ou de conflits avec d'autres membres).

 Par exemple la formation judicieuse d'un jury de soutenance pourrait nécessiter la prise en compte de connaissances métiers telles que les compétences ou les domaines d'intérêt des différents membres et de connaissances extra-professionnelles telles que les disponibilités, les liens sociaux, les langues parlées, les conflits, etc.

 Comme les informations de ce type de profiles ont tendance à évoluer dans le temps, nous nous proposons d'étudier les mécanismes permettant d'extraire toute connaissance pouvant être utile à la construction automatique et la mise à jours de profiles depuis des réseaux sociaux professionnels.  Ces connaissances peuvent aussi provenir de systèmes d'interrogation, de sondages, d'analyse de mails, etc.  à mettre en œuvre dans le cadre de la validation des résultats de cette thèse.

 Les objectifs principaux (Principales orientations) de ce travail sont donc :

 - L'extraction de connaissances d'ordre métiers et sociologiques à partir principalement de réseaux sociaux professionnels (tels que LinkdIn, ResearchGate, Viadeo, Xing, etc.)

 - La mise en œuvre d'une base de profiles pouvant être utilisée comme source de données pour l'élaboration de groupes de travail et d'affectation de tâches dans un contexte pédagogique et scientifique.

Mot-clés : Construction de profiles, Bases de profiles, affectation de tâches guidée par les profiles, Big Data, Social Big Data.

top  )  

 


Data Replication while Satisfying both Provider profit and Tenant objectives in Cloud Systems

LOUNIS Anis

(Abandon) 

Today applications produce huge volumes of data that may be accessed/shared on large-scale distributed sites. This constitutes good challenges regarding data access and data processing. In large-scale systems. Data management applications often use data replication, a well known technique that deals with the generated problems. It aims to increase data availability, reduce the bandwidth consumption and efficiently manage fault tolerance by storing multiple copies of data, called replicas, on multiple nodes. Data replication has been commonly used in: (i) database management systems (DBMS), (ii) parallel and distributed systems, (iii) mobile systems and large-scale systems including P2P and data grid systems. However, most of the proposed replication strategies in these environments are difficult to adapt to cloud environments. They aimed to obtain best system performance without achieving two important cloud provider goals:

(i)Satisfying a Service Level Agreement (SLA), a contract between a cloud provider and its tenants, i.e., consumers. Mainly, an SLA includes tenant Service Level Objectives (SLO), e.g., availability and performance, which must be satisfied by the provider.
(ii)Maximizing the provider profit while minimizing SLA violations.

The objective of this thesis is to provide:

(i)A comprehensive state of the art of existing data replication strategies in large-scale data management systems, e.g., data grids, with respect to different requirements (availability, performance, etc...).

(ii)A proposition of new data replication strategies dealing with performance objectives in cloud systems. The challenge is to find the best trade-off between the tenant requirement satisfaction and the benefit of the provider.

(iii)An experimental platform to demonstrate the viability and the performance of the proposals.

Keywords: Cloud Systems, Query Processing and Optimization, Data Replication, High Performance.
 

top  )  

 

 


PBST (Partitioned Binary Search Trees) as a family of partially balanced binary search trees

MEGUELATI Fahd Mustapha

(En cours) 

Bien que très peu de recherche se font actuellement sur le domaine des structures de données en RAM, ces dernières continuent néanmoins à susciter l’intérêt de chercheurs afin d’améliorer les structures existantes ou de proposer d’autres.

Les structures de données efficaces en RAM peuvent être classées en deux catégories. Les arbres 2-3 et 2-4 qui sont parfaitement équilibrés et les arbres de recherche binaire (arbres 1-2) qui tolèrent un certain degré de déséquilibre. Ce sont les structures de la seconde catégorie qui sont plus importantes du fait qu’elles n’utilisent pas d’espaces mémoire non utilisés (space overhead) bien qu’ils sont plus profonds.

Les arbres AVL trees, Red Black trees, Splay trees sont des exemples d’arbres 1-2 équilibrés classiques . Très récemment, quelques structures ont été proposées. Nous pouvons citer Weak Avl trees et Zip-trees offrant des performances concurrentes.

La plupart des arbres 1-2 équilibrés utilisent des informations additionnelles au niveau des nœuds de l’arbre et s’auto-équilibrent principalement au moyen des opérations de rotations. Ces dernières consistent à transformer l’arbre quand une insertion ou une suppression d’un nouvel élément viole le degré d’équilibrage toléré.

Nous proposons dans cette thèse une structure de données générant une famille d’arbres 1-2 partiellement équilibrés. La nouvelle structure partitionne les noeuds d'un arbre 1-2 et est équilibrée d'une manière différente des structures connues. La partition renferme des classes (sous arbres) de hauteur n-1 ou n-2, n étant le paramètre de la structure proposée.

Deux avantages rendent la nouvelle structure attrayante :

- si n est égal à 2, la nouvelle structure génère une structure de données équivalente à un arbre très populaire (Red Black tree).

- si n est inférieur à 7, la nouvelle structure génère une famille d'arbres 1-2 partiellement équilibrés réglables selon les applications. 

Travail du candidat:

A) État de l’art / - Programmer et s’expérimenter avec les structures classiques et récentes

B) Retrouver les algorithmes de la structure proposée / - Tests par simulation / Comparaison

C) Étude théorique de la complexité de la structure proposée

D) Publications des résultats

E) Rédaction de la thèse

Échéancier: 9 mois / B) et C) 12 mois / D) et E) 15 mois

Pré-requis : Structures de données, Algorithmes et Complexité. Bonne expérience en programmation.

 

top  )  

 


BENHABILES Kahina

(En cours) 

De nos jours, les mémoires des ordinateurs sont abondantes et disponibles. Elles deviennent de plus en plus très bon marché. Il est donc intéressant de dupliquer des données que ce soit sur un même ordinateur ou sur des ordinateurs distants.

La duplication hybride permet de représenter des données sous différentes formes (types d’arbres). Ainsi, elle assure la disponibilité des données.

 

PBST(n) est un framework offrant une famille d’arbres de recherche binaire dont le degré d’équilibrage est contrôlé par un paramètre de partitionnement. Ce framework généralise la structure très connue des arbres Rouge et Noir. En effet, PBST(2) est exactement un arbre rouge et noir. La structure PBST(n) offre une qualité d’équilibrage inversement proportionnel au paramètre n.

L’idée projetée dans cette thèse est de dupliquer d’abord les données sur p arbres (serveurs) sous diverses formes Pbst(2), Pbst(3),.., Pbst(p+1) puis de concevoir une bibliothèque offrant des opérations sur les données réglables en performances selon les besoins des applications. Techniquement, ces opérations se déroulent en parallèle sur les différents types d’arbre. Une application peut par exemple exiger des mises à jours rapides avec des recherches lentes ou inversement des recherches rapides avec des mises à jour lentes. Une application peut aussi combiner plusieurs arbres pour offrir les avantages cumulés de chaque type d’arbre en adoptant les protocoles de réplication synchrones et asynchrones.

Le travail de cette thèse consiste donc à étudier et développer les algorithmes de base ( recherche, insertion, suppression) ainsi que d’autres opérations nécessaires telles que le chargement initial, la journalisation, la reprise après panne, ...

Il consiste aussi à tester et valider le nouveau système en le comparant aux approches existantes.

Echéancier
Année 1 :

- Etat de l’art sur les arbres et les techniques de distribution de données (réplication, parallélisme)

- Programmation des opérations sur PBST
Année 2 : Proposition de solutions et réalisations préliminaires.
Année 3 : Expérimentations et raffinement des propositions.
Année 4 : Comparaison avec d’autres approches.
 

En parallèle sur les quatre années:

- 1 conférence : survey sur les approches existantes
- 1 conférence : ébauche d’une solution
- 1 article de revue
- Rédaction de la thèse
top  )  

 

 


Réplication de données basée sur l’apprentissage par renforcement dans les systèmes Cloud 
(Avec Riad MOKADEM (Laboratoire / Université : IRIT/ Université Paul Sabatier Toulouse III )

ARAR  M.

(En cours) 

1. Contexte et problématique
La popularité croissante des services et applications interconnectés (par exemple Internet des objets et les réseaux sociaux) ont conduit à la génération de gros volumes de données. Un des défis pour les applications est de pouvoir stocker et analyser ces données hétérogènes et réparties avec des coûts raisonnables d’infrastructure. Dans ce contexte, l’approche «Cloud Computing» permet de réduire considérablement ces coûts, soit en se basant sur des serveurs composés de machines à bas prix (Clouds privés), soit en louant des services auprès de fournisseurs Cloud suivant le modèle « pay-as you-go » (Clouds publics). Pour les applications analysant ces données, les problèmes d’accès et de disponibilité de données sont très importants. Une technique bien connue pour traiter ces problèmes est la réplication de données qui consiste à stocker plusieurs copies de données, appelées répliques, sur plusieurs sites. Elle vise à : (i) augmenter la disponibilité des données, (ii) réduire la consommation de la bande passante et (iii) gérer efficacement la tolérance aux pannes [1]. De nombreuses stratégies de réplication de données ont été proposées dans les environnements cloud. Elles visent à obtenir les meilleures performances du système tout en satisfaisant un contrat de niveau de service (SLA), établi entre un fournisseur de cloud et ses locataires, i.e., les consommateurs. Principalement, un SLA comprend des objectifs de niveau de service (SLO) du locataire, par exemple, la disponibilité et la performance, qui doivent être satisfaits par le fournisseur. D’un autre coté, le fournisseur Cloud vise àmaximiser son profit économique [2]. Il est alors important d’ajuster le nombre de répliques de manière dynamique afin de prendre en compte la rentabilité du fournisseur. 
Afin d’assurer le dimensionnement automatique des ressources, de nombreux fournisseurs de Cloud se basent sur la réplication de données basée sur des seuils à cause de sa nature intuitive. A titre d’exemple, un seuil de temps de réponse, intégré dans le SLA, est préalablement négocié entre le fournisseur et ses locataires. Dans ce contexte, certains travaux se basent sur l’observation des valeurs de métriques afin de les comparer par la suite à des seuils fixés d’avance [1]. D’autres travaux [3] combinent l’approche des seuils avec la théorie de contrôle permettant l’obtention de seuils dynamiques en se basant sur une modélisation mathématique de la charge de travail. Enfin, certains travaux se basent sur la prédiction des valeurs de métriques tels que le score de réplication par intervalle [4] ou encore la charge de travail [5] afin de les comparer à des seuils prédéfinis. Cette prédiction s’appuie sur l’utilisation de techniques telles que les séries chronologiques ou encore sur l’exploitation du journal de requêtes afin de prédire les périodes à forte charge de travail et les données qui seront les plus populaires dans le futur [6]. En conséquence, des ressources peuvent être allouées à l’avance, par exemple la création de nouvelles répliques. Cependant, le choix des métriques à considérer et la fixation de seuils de manière efficace nécessite une intervention humaine afin de fixer le seuil pour chaque métrique et une connaissance approfondie des tendances actuelles de la charge de travail, ce qui n'est pas facile à réaliser.
 

2. Objectifs et résultats attendus

Afin d’éviter l’intervention humaine lors de la définition des seuils, nous pourrons considérer une réplication de données basée sur l’apprentissage par renforcement [7]. Dans les algorithmes
d’apprentissage par renforcement tel que le Q-learning, un agent autonome dispose d’un certain nombre d’actions possibles permettant le changement de l’état d’un environnement. Il reçoit alors une récompense (ou une pénalité) pour chacune de ses actions. Ensuite, cet agent doit mémoriser la séquence des actions qui maximise sa récompense totale. Néanmoins, cette approche nécessite une période d’apprentissage. Seuls quelques travaux de dimensionnement automatique basés sur l’apprentissage par renforcement dans le Cloud sont dédiés à l’interrogation de bases de données relationnelles. La plupart se sont intéressé aux systèmes NoSQL [8]. Les méthodes existantes doivent alors être adaptées au contexte des bases de données relationnelles avec notamment, la prise en compte de nombreuses tâches dépendantes et des relations intermédiaires qui peuvent être stockées sur le disque. L’objectif de ce stage est la conception d’une stratégie de réplication de données efficace basée sur l’apprentissage par renforcement. La stratégie proposée pourra s’appuyer sur un agent informatique qui pourra mémoriser certaines actions lui permettant de privilégier la création rentable (pour le fournisseur) d’une réplique d’une relation, tout en satisfaisant les objectifs des locataires. Il est donc important de proposer, puis d’implémenter via simulation [9], une stratégie de réplication permettant  de répondre aux problématiques classiques telles que : (i) quelles données répliquer ? (ii) quand répliquer ces données ? (iii) où répliquer ces données mais aussi à des problématiques spécifiques aux environnements Cloud tels que (iv) déterminer le nombre de répliques nécessaires afin de satisfaire
simultanément les objectifs du locataire, i.e., objectifs SLO, avec un profit économique pour le fournisseur de Cloud.
En résumé, des solutions peuvent être apportées à ces problèmes. elles correspondent aux différentes étapes de la thèse :
(i) La proposition d'un modèle de coûts permettant une réplication de données rentable pour le fournisseur.
(ii) Un placement efficace des répliques de données et une gestion élastique du nombre de répliques.
(iii) La proposition d'un modèle de coût économique qui prend en compte le profit du fournisseur.
(iv) L'étude d'une mise en œuvre d’une stratégie de réplication de données basée sur l’apprentissage
par renforcement au sein des systèmes de gestion de bases de données (SGBD).
L'objectif de cette thèse est de fournir :
(i) Un état de l'art complet des stratégies de réplication des données existantes dans les systèmes de gestion de données à grande échelle, par exemple les systèmes Cloud, en ce qui concerne les exigences des locataires (disponibilité, performances, etc.) et le profit du fournisseur.
(ii) Un état de l'art des stratégies de réplication des données existantes sur l'apprentissage par renforcement
(i) Une proposition d'une nouvelle stratégie de réplication des données traitant des objectifs de performance dans les systèmes cloud. Le défi consiste à trouver le meilleur compromis entre les coûts économiques du locataire et le profit du fournisseur.
(ii) Implémentation et validation de la stratégie proposée par une comparaison expérimentale avec des travaux existants dans la littérature via des simulateurs tels que CloudSim [9]
 
top  )  

 

 

 


Évaluation automatique et Aide a l’enseignement : application à l’apprentissage de l’algorithmique séquentielle et parallèle

BENHOUHOU Amar

(Abandon) 

La thématique abordée dans cette thèse a trait à l’EIAH (Environnement Informatique d’Apprentissage Humain) et plus particulièrement à l’évaluation automatique de l’apprentissage.  

L’évaluation est un aspect primordial et inévitable dans une  démarche d’apprentissage.Elle est censée intervenir  avant, pendant et à la fin de l’apprentissage sous diverses formes: l’évaluation  pronostique,  l’évaluation  diagnostic,  l’évaluation  formative,  l’évaluation sommative  et  l’auto-évaluation.  Pour  pouvoir  évaluer,  l’enseignant construit  et  utilise  des outils adaptés à sa matière et qui lui permettent de récolter les informations indiquant l’état du savoir des apprenants.

Ceci lui permet d’effectuer un retour arrière sur sa technique d’enseignement pour résoudre les problèmes de mauvaise compréhension des apprenants et adopter de nouvelles stratégies permettant d’améliorer leur apprentissage.

Il est important aussi de prévoir des outils permettant a l’apprenant de s’entraîner aux exercices et examens et de s’auto-évaluer objectivement.

Objectif et approche de la thèse :   

L’objectif de ce travail de thèse est d’associer les méthodes et techniques d’évaluation des apprentissages  afin de proposer une approche d’évaluation automatique dédiée à l’apprentissage de l’algorithmique  séquentielle et parallèle.

Afin  de  tester  l’approche  proposée,  il  est  nécessaire  de  développer  une  plate-forme  spécifique centrée  sur  l’activité  d’évaluation  des  apprentissages.  Elle permettra de gérer l’ensemble des objets d’évaluation .  

Mots-clés :  

apprentissage,  ,  évaluation automatique , auto-évaluation , outils d’aide a l’enseignement , algorithmique.

Echéancier:  

1.  Un état de l’art sur les méthodes d’évaluation des apprentissages et un panorama complet des outils d’évaluation et des plates-formes dédiées et leurs possibilités  (9 mois).

2.  La proposition d’une approche méthodologique dédiée  (12 mois)

3.  Réalisation et test des outils et  plate-formes spécifiques a l’enseignant et a l’apprenant (12 mois)

4.  Publication et rédaction de la thèse (12 mois)  

Quelques références Bibliographiques:

1. Charle, H. « l’évaluation démystifiée », ESF Editeur, 1977.

2. D. Colleman, S. Levine, « Collaboration 2.0 », Happyaboutinfo, 2008.

3. F. Adafer, A. Balla, H. Amrouche, « L’évaluation de l’apprenant dans les environnements d’apprentissage: problématique et réflexions », Journal International des Sciences de l'Information et de la Communication, ISDM (Informations, Savoirs, Décisions, Médiations) N°25, Juin 2006. Disponible sur http://isdm.univ-tln.fr/PDF/isdm25/AdaferBallaAmrouche_TICE2006.pdf

4.  Balla A., « A Pedagogical Cooperative Learning Environment: Application to cooperation in hypermedia documents », 2nd International Future-Learning Conference On Innovations in Learning for the Future 2008: e-Learning, March 27-29th, 2008, Istanbul, Turquie. http://www.futurelearning.org.tr/fl2008/index_eng.php

5. Paquette, G., « L’ingénierie pédagogique pour construire l’apprentissage en réseau», Presse de l’Université du Québec, 2002

6. Peraya, D. & Jaccaz, B., Analyser, Soutenir, et Piloter l’innovation : un modèle « ASPI ». Actes du Colloque TICE 2004, Technologies de l’information et de la connaissance dans l’enseignement supérieur et l’industrie (pp. 283-289). Université de technologie. Compiègne (19 au 21 octobre) tecfa.unige.ch/~peraya/homepage/publi/04_analyser_soutenir_et_piloter.pdf,

7. Balla A., A proposed approach for learner evaluation in an open distance environment. Int. Arab J. Inf. Technol. 6(2): 132-137, 2009.

8. Arpin L., Capra L., L’apprentissage par projets, Montréal, Chenelière/McGraw-Hill,2001. Huber M., Apprendre en projets, Lyon, Chronique Sociale, 2005.

9. Jean-Guy Blais, Évaluation des apprentissages et technologies de l’information et de la communication : Enjeux, applications et modèles de mesure  Presses de l’Université Laval (Québec , Canada) 2009.

10. Denis Bouhineau,  Utilisation de traits sémantiques pour une méthodologie de construction d’un système d’aide dans un EIAH de  l’algorithmique,  https://hal.archives-ouvertes.fr/hal-00862437, 2013

11. Ismail Bouacha, Denis Bouhineau, Tahar Bensebaa, De la compréhension des programmes dans le génie logiciel à la reconnaissance des algorithmes d’apprenants en EIAH, https://hal.archives-ouvertes.fr/hal-01405967, 2016.

 

top  )  

 

 


Fouille de programmes

ZAIR Mustapha

(En cours) 

La fouille des programmes consiste à analyser des programmes en vue de découvrir des informations pertinentes sur plusieurs aspects.

Un des aspects est de déceler les ressemblances entre des programmes réalisant une même tache. Ces ressemblances peuvent résider au niveau des modules, des variables, des structures de données, des structures de contrôle, lexical et autres.

Un autre aspect est de voir comment les programmeurs conçoivent leurs solutions tant au niveau décomposition des programmes qu'aux niveaux structure de contrôle et structure de données.

La fouille des programmes ouvre ainsi une nouvelle branche sur laquelle une large réflexion peut être envisageable. Aussi l’objectif de la thèse a trait à cette branche.

Techniquement, il faut dans un premier temps compiler et mettre en RAM un ensemble de programmes. Les programmes sont découpés en modules. Chaque module est découpé en lignes (déclaration ou une instruction). Chaque ligne en unités lexicales.

Pour chaque module, on récupère toutes ses variables locales ainsi que sa signature.

La signature peut être l’ensemble des premiers mots-clés de chaque ligne représentant soit une déclaration ou une instruction.  La signature met donc en relief la structure du module.

Dans un deuxième temps, proposer

- des outils de détection de plagiat,

- analyser les programmes en vu de prendre connaissance de leurs structures afin de voir comment les programmeurs conçoivent leurs solution et donc éventuellement offrir des recommandations.

top  )