Les scientifiques utilisent des modèles d’apprentissage automatique pour aider à identifier les patients COVID de longue date

Newswise – CHAPEL HILL, NC – Les scientifiques cliniciens ont utilisé des modèles d’apprentissage automatique (ML) pour explorer les données anonymisées des dossiers de santé électroniques (DSE) dans le National COVID Cohort Collaborative (N3C), une base de données clinique nationale financée par les National Institutes Health, pour aider à discerner les caractéristiques des personnes atteintes de COVID prolongé et les facteurs qui peuvent aider à identifier ces patients en utilisant les données des dossiers médicaux.

Les conclusions, publiées dans La santé numérique The Lancetils ont le potentiel d’améliorer la recherche clinique sur le COVID prolongé et d’informer un régime de soins plus standardisé pour la maladie.

“La caractérisation, le diagnostic, le traitement et les soins des patients atteints de COVID prolongé se sont avérés difficiles en raison de la liste des symptômes caractéristiques qui évoluent continuellement au fil du temps”, a déclaré la première auteure Emily R. Pfaff, PhD, professeure adjointe dans la Division d’endocrinologie et métabolisme à l’UNC School of Medicine. « Nous devions acquérir une meilleure compréhension des complexités du COVID-19 prolongé, et pour cela, il était logique de tirer parti des outils modernes d’analyse de données et d’une ressource de mégadonnées unique comme N3C, où de nombreuses caractéristiques du COVID-19 prolongé sont représentées. » .

Parrainée par le National Center for Advancing Translational Sciences (NCATS) des National Institutes of Health, l’enclave de données N3C comprend actuellement des informations représentant plus de 13 millions de personnes sur 72 sites à travers le pays, dont près de 5 millions de cas positifs de COVID-19. La ressource permet une recherche rapide sur les questions émergentes concernant les vaccins contre la COVID-19, les traitements, les facteurs de risque et les résultats pour la santé.

Cette nouvelle recherche fait partie de l’initiative Researching COVID to Enhance Recovery (RECOVER) des National Institutes of Health, qui a recruté des milliers de participants à travers le pays pour répondre à des questions de recherche critiques sur le syndrome afin d’identifier précisément qui présente des facteurs de risque de COVID prolongé. pour le long-COVID, et les interventions et traitements possibles.

À l’aide du N3C, les chercheurs ont développé des modèles d’apprentissage automatique (ML) XGBoost pour comprendre les caractéristiques des patients et mieux identifier les patients potentiels à long COVID.

Les chercheurs ont examiné la démographie, l’utilisation des soins de santé, les diagnostics et les médicaments de 97 995 patients adultes atteints de COVID-19. Ils ont utilisé ces fonctionnalités sur près de 600 patients COVID-19 de longue durée de trois cliniques spécialisées COVID-19 pour former et tester trois modèles d’apprentissage automatique, qui se sont concentrés sur l’identification des patients COVID-19 potentiels en trois groupes : parmi tous les patients COVID-19, parmi les patients hospitalisés avec COVID-19, et parmi les patients qui avaient COVID-19 mais n’ont pas été hospitalisés.

Les modèles se sont avérés précis pour identifier les patients potentiels à long COVID, atteignant des zones sous la courbe caractéristique de l’opérateur du récepteur, une mesure de précision utilisée par les chercheurs en apprentissage automatique, de 0,91 (tous les patients) ; 0,90 (hospitalisé) ; et 0,85 (non hospitalisé). Les patients marqués par les modèles peuvent être interprétés comme “des patients nécessitant des soins dans une clinique spécialisée COVID pendant une longue période”. L’application du modèle à la plus grande cohorte N3C peut également atteindre l’objectif urgent d’identifier les patients COVID à long terme pour les essais cliniques.

Les modèles ont également montré de nombreuses caractéristiques importantes qui différencient les patients potentiels à long COVID des patients à long non COVID. Ils se sont concentrés sur les patients avec un diagnostic positif de COVID qui étaient à au moins 90 jours de leur infection aiguë. Les caractéristiques les plus couramment identifiées parmi les patients potentiels atteints de COVID-19 comprennent les symptômes respiratoires post-COVID et les traitements associés, les symptômes non respiratoires largement signalés dans le cadre de la COVID-19 longue (telles que les troubles du sommeil, l’anxiété, les malaises, les douleurs thoraciques et la constipation) , facteurs de risque préexistants de symptômes pour une plus grande gravité aiguë du COVID (telles que les maladies pulmonaires chroniques, le diabète et les maladies rénales chroniques) et des proxys d’hospitalisation, suggérant une plus grande gravité aiguë du COVID. L’étude note également qu’il est plausible que le COVID-19 prolongé n’ait finalement pas de définition unique et qu’il soit mieux décrit comme un ensemble de conditions connexes avec leurs propres symptômes, trajectoires et traitements.

“Ces résultats témoignent de l’impact puissant des données cliniques du monde réel et des capacités potentielles du N3C pour aider à mieux comprendre et trouver des solutions à des problèmes de santé publique importants comme le COVID prolongé”, a déclaré le directeur par intérim du NCATS, Joni Rutter, PhD.

Josh Fessel, MD, PhD, conseiller clinique principal au NCATS et responsable du programme scientifique chez RECOVER, a ajouté : « Une fois que vous pouvez déterminer qui a prolongé le COVID dans une grande base de données de personnes, vous pouvez commencer à poser des questions sur ces personnes. différent à propos de ces personnes avant qu’elles ne développent un COVID à long terme, avaient-elles certains facteurs de risque, y avait-il quelque chose dans la façon dont ils ont été traités pendant la phase aiguë du COVID qui aurait pu augmenter ou diminuer leur risque de COVID à long terme ? ».

L’étude portait sur la manière dont les données des dossiers de santé électroniques (DSE) sont biaisées en faveur des patients qui utilisent le plus les systèmes de soins de santé. Pfaff dit qu’il est essentiel de reconnaître quelles données sont les moins susceptibles d’être représentées : les patients non assurés, les patients ayant un accès ou une capacité limitée à payer les soins, ou les patients cherchant des soins dans de petits cabinets ou des hôpitaux communautaires avec des capacités de partage de données limitées.

“Les dossiers de santé électroniques (DSE) ne contiennent des informations que pour les personnes qui vont chez le médecin”, a déclaré Pfaff, qui est également codirecteur du programme NC TraCS Informatics and Data Science (IDSci). «Ils ont également plus d’informations sur les personnes qui vont beaucoup chez le médecin. Ainsi, les personnes qui n’ont pas un bon accès aux soins ou celles qui ne vont pas chez le médecin, nous n’aurons tout simplement pas d’informations à leur sujet. C’est donc un avertissement que je propose avec chaque étude basée sur le DSE que je fais. Nous devons reconnaître qui n’est pas dans l’ensemble de données.”

L’équipe N3C continue d’affiner ses modèles à mesure que de nouvelles données du monde réel émergent. Ses données longitudinales pour les patients COVID-19 peuvent fournir une base complète pour développer des modèles ML afin d’identifier les patients potentiels COVID-19. Au fur et à mesure que de plus grandes cohortes de patients à long COVID seront établies, les travaux futurs comprendront des enquêtes pour identifier les sous-types de long COVID, rendant la maladie plus facile à étudier et à traiter.

“Selon où mène la recherche, nous pouvons constater que les patients présentant différentes présentations de COVID prolongé sont suffisamment différents pour justifier des traitements entièrement différents”, a déclaré Pfaff. “Par conséquent, il est important pour nous de déterminer si le COVID prolongé est une maladie ou une constellation de conditions connexes qui sont également liées au fait d’avoir eu un COVID-19 aigu.”

Avec l’aide de cette approche de mégadonnées, des efforts efficaces de recrutement d’études peuvent être mis à disposition pour approfondir la compréhension et les complexités du COVID-19 prolongé. Au-delà de l’identification des cohortes pour les études de recherche, la compréhension et la validation de la relation entre le COVID prolongé et les déterminants sociaux de la santé et la démographie, les comorbidités et les implications du traitement ne feront qu’améliorer l’algorithme dans ces modèles à mesure que davantage de preuves émergent. .

« Les études de recherche, en particulier les essais cliniques, sont l’un de nos meilleurs outils pour comprendre le COVID à long terme : sa présentation, ses facteurs de risque et ses traitements potentiels », a déclaré Pfaff. « Pour avoir les meilleures chances de succès, les études ont besoin de groupes nombreux et diversifiés de participants qualifiés, qui ne sont pas faciles à trouver. L’utilisation d’algorithmes comme celui que nous avons créé sur de grands ensembles de données cliniques peut réduire un grand nombre de patients à ceux qui pourraient se qualifier pour un long essai COVID, ce qui pourrait donner aux chercheurs une longueur d’avance sur le recrutement, rendre les essais plus efficaces et, espérons-le , accédez aux résultats. plus rapide.”

Cette étude a été financée par le NCATS et le NIH dans le cadre de l’initiative RECOVER.

À propos du National Center for Advancing Translational Sciences (NCATS) : Le NCATS mène et soutient la recherche sur la science et le fonctionnement de la traduction, le processus par lequel les interventions sont développées et mises en œuvre pour améliorer la santé, pour permettre à davantage de traitements d’atteindre plus de patients plus rapidement. Pour en savoir plus sur la façon dont le NCATS aide à raccourcir le parcours de l’observation scientifique à l’intervention clinique, visitez https://ncats.nih.gov.

.

Add Comment