ZOUARI Firas

Approche à base de services et agents intelligents pour la recommandation et la gestion de crise : application à l'analyse et le management des maladies émergentes

Thèse en informatique, soutenue le 27 juin 2023.

Les échanges et les flux migratoires augmentent continuellement aujourd’hui. Avec les catastrophes naturelles, ils sont l’un des facteurs les plus influents de la propagation et de l’émergence des maladies infectieuses. La récente crise sanitaire mondiale de COVID-19 illustre bien ce phénomène. Dans ce contexte, les multiples sources de données, notamment les données ouvertes, issues de réseaux sociaux, des données des patients et d’IoT jouent un rôle crucial pour la génération desdites données liées à la santé et leur analyse. Elles sont caractérisées par un aspect très dynamique, hétérogène, complexe, et ayant un facteur de croissance élevé. Ces caractéristiques peuvent avoir un impact sur leurs utilités et handicaper le processus d'analyse, particulièrement dans les systèmes de gestion des crises sanitaires qui font l'objet de la présente thèse. Malgré les importants progrès technologiques, les systèmes actuels de gestion de crises sanitaires ne sont pas encore capables de traiter cette masse de données en toute autonomie et intelligence véritable, comme ils doivent toujours faire recours à des situations prévisibles et préprogrammées pour générer des recommandations. Par ailleurs, les utilisateurs utilisent souvent ces systèmes de gestion de crises dans différentes situations chaotiques qui impliquent plusieurs contraintes, entre autres le temps restreint pour prendre des décisions efficaces. Par conséquent, les préférences et les exigences des utilisateurs envers la qualité des données et les recommandations souhaitées peuvent être très variables en fonction des rôles des utilisateurs et du contexte de décision. Le défi de la présente thèse est de répondre au problème suivant : "Comment générer des recommandations de manière intelligente et autonome sur des données multi-sources, hétérogènes, incertaines et complexes, regroupées dans un lac de données/data lakehouse sans avoir des connaissances préalables ?". Nous avons identifié deux sous-problèmes concernant les systèmes de recommandation prenant compte des besoins d'une multitude des utilisateurs dans différents contextes. Plus précisément, nous nous sommes concentrés sur les sous-problèmes sous-jacents, à savoir (1) "Comment assurer la gestion de données hétérogènes, et plus spécifiquement, la curation de données collectées en batch et en streaming d'une manière adaptative en considérant les besoins fonctionnels et non fonctionnels de l'utilisateur ?" et (2) "Comment recommander des mesures de santé préventives tout en proposant des explications adaptées aux rôles des utilisateurs dans différents contextes de décision ?". Ainsi, notre objectif principal est de proposer une approche intégrant un système intelligent pour recommander les mesures de santé préventives appropriées en fonction des besoins de l'utilisateur via l'analyse de données provenant de sources multiples. Pour ce faire, nous avons proposé des contributions abordant chaque étape impliquée dans la recommandation des mesures sanitaires. Premièrement, nous avons proposé une approche de composition de services de curation des données adaptative dans les data lakehouses en tenant compte du rôle de l'utilisateur, de ses préférences, des contraintes et du contexte de décision. En effet, nous nous sommes appuyés sur les data lakehouses comme une solution pratique pour surmonter les défis de l'intégration des données massives. Nous avons donc tiré profit des technologies sémantiques et d'apprentissage par renforcement pour constituer un framework multicouche pour ladite curation des données. Deuxièmement, nous nous sommes concentrés sur les problèmes de prédiction de maladies et de recommandation de mesures de santé en proposant une approche basée sur les technologies sémantiques pour la recommandation de mesures de santé explicables adaptées à de multiples utilisateurs ayant des besoins différents. Les contributions présentées sont mises en œuvre et expérimentées sur des scenarii du domaine médical.

Mots-clés :Services Web ; Explicabilité en IA ; Curation de données massives ; Services de recommandation ; Gestion de crises sanitaires.

Today, we are witnessing an ever-increasing number of exchanges and migration flows of exchanges and migratory flows. These exchanges and natural disasters are among the most influential factors in spreading infectious diseases. This fact could be affirmed by the recent pandemic of COVID-19, which has caused an acute health crisis worldwide. In this context, we distinguish several sources that are crucial in the generation of health-related data, including open data, social networks, patient data, and IoTs. These data are characterized by a very dynamic aspect, heterogeneity, complexity, and a high growth factor. These characteristics may impact the data usefulness and handicap the data analysis process, especially in health crisis management systems, which are the focus of the present thesis. Further, despite the immense technological advances, current health crisis systems cannot still treat such massive data with genuine autonomy and intelligence since they still need to check predictable and preprogrammed situations to generate outcomes. In addition, the users of such systems may use them in different chaotic situations that imply several constraints, like restricting time to make decisions. Accordingly, they may have changing preferences and requirements regarding the data quality and the desired recommendations according to their user roles and decision context. Thus, the challenge of the present thesis is to answer the following problem. "How to generate recommendations intelligently and autonomously on multi-source, heterogeneous, uncertain, and complex data gathered in a data lake/lakehouse without prior knowledge?" For this purpose, we identified two sub-problems about the recommendation systems considering different users' needs in different contexts. More precisely, we focused on addressing the underlying sub-problems, namely (1) "How to ensure the management of heterogeneous data, and more specifically, the curation of data adaptively collected in batch and streaming while considering the functional and non-functional needs of the user?" and (2) "How to recommend preventive health measures while providing explanations adapted to user roles in different decision contexts?". Therefore, our main objective is to propose an approach integrating an intelligent system to recommend the appropriate preventive health measures according to the user requirements via analyzing data from multi-sources. Hence, we proposed contributions addressing each step involved in the prediction and recommendation to tackle our main objective. First, we proposed a service-based approach for adaptive data curation in data lakehouses by considering the user role, preferences, constraints, and decision context. Indeed, we relied on data lakehouses as a practical solution to overcome the big data integration challenges. Hence, we took advantage of semantic technologies and reinforcement learning techniques to constitute a multilayered framework for data curation. Subsequently, we focus on disease prediction and health measures recommendation problems by proposing a semantic-based approach for explainable health measures recommendations adapted for multiple users with different needs. The presented contributions are implemented and experimented on medical domain scenarios.

Keywords : Web services ; Explainable Artificial Intelligence (XAI) ; Data curation ; Recommendation services ; Health crisis management.

Directeur de thèse : Chirine GHEDIRA GUEGAN et Nadia KABACHI

Membres du jury :

- Mme GHEDIRA GUEGAN Chirine, Directrice de thèse, Professeure des universités, Université Jean Moulin Lyon 3, France,
- Mme KABACHI Nadia, Co-directrice de thèse, Maître de conférence, Université Claude Bernard Lyon 1, France,
- Mme MATTA Nada, Rapporteure, Professeure des universités, Université technologiques de Troyes, France,
- Mme ZARGAYOUNA Mahdi, Rapporteure, Chargée de recherche habilitée à diriger des recherches, Université Gustave Eiffel, Marne la vallée,
- Mr BENKHALIFA Elhadj, Professeur, Staffordshire University, Stafford, USA,
- Mr CHBEIR Richard, Professeur des universités, Université de Pau et des Pays de l'Adour, Anglet, France,
- Mr KARRAY Hedi, Professeur des universités, Ecole Nationale d'Ingénieurs de Tarbes, France.

Président du jury : Richard CHBEIR