Accueil > Encyclopédie > Probabilité(s) / Statistique(s)
Les derniers articles
26 Avril 2021
La crise sanitaire liée au coronavirus a mis en lumière une expression que les médecins et les experts utilisent quotidiennement, mais que le grand public connaît peu, la désormais fameuse « balance bénéfice-risque ».
17 Mai 2020
Sur l’en-tête des ordonnances de certains spécialistes, on peut lire la mention « ancien chef de clinique-assistant ».
25 Mars 2020
Les hémorroïdes sont des organes normaux, situés dans le canal anal, et dont absolument tout le monde est équipé ; mais le mot hémorroïdes est également utilisé pour désigner les problèmes hémorroïdaires, ce qui entraîne une certaine confusion dans l’esprit des patients.
11 Mars 2020
Les  trois termes « endémie », « épidémie » et « pandémie » appartiennent au vocabulaire de l’épidémiologie.
06 Mars 2020
Un médecin est toujours docteur en médecine ; un « docteur » n’est pas nécessairement un médecin.

Probabilité(s) / Statistique(s)

La science médicale n’étant pas une science « dure » comme la physique ou la chimie  progresse essentiellement grâce aux études statistiques et au calcul des probabilités, qui sont à la base de ce que l’on appelle la recherche clinique d’une part, l’épidémiologie d’autre part.


Tout médecin se doit d’avoir un vernis de connaissances en probabilités et en statistiques, ne serait-ce que pour comprendre les résultats publiés en épidémiologie et en recherche clinique.

Cet article comporte un petit lexique des termes les plus utilisés dans ces différents domaines ; afin d’éviter les redites, le vocabulaire de ces différentes disciplines est mélangé, puis classé par ordre alphabétique ; chaque terme est expliqué de manière volontairement très succincte.


Probabilité(s)

Le mot probabilité (du latin probabilitas) est le contraire de certitude. Hasard

Prenons un exemple très simple : lancer un dé constitue une expérience aléatoire. Les différents résultats d’une telle expérience s’appellent des éventualités. Lorsque l’on répète un grand nombre de fois cette expérience aléatoire, la fréquence d’apparition d’une éventualité tend vers une valeur idéale appelée probabilité. Dans le cas considéré, la probabilité d’obtenir la face 3 est de 1/6 (identique pour chacune des 6 faces).

 La probabilité d’un évènement est un nombre compris entre 0 et 1, le plus souvent exprimé sous forme de pourcentage. Plus on s’approche de 100%, plus le risque ou la chance que l’évènement se produise est grand. On peut utiliser indifféremment risque ou chance, mais il est plus judicieux d’utiliser chance quand l’évènement est favorable, comme la guérison,  et risque quand l’évènement est péjoratif, comme la survenue d’une récidive : c’est plus cohérent pour les patients car, dans le langage courant, le mot risque est en général asocié à la notion de perte, et le mot chance à celle de gain.

La théorie des probabilités ou plus simplement les probabilités (toujours au pluriel) est une branche des mathématiques.

Statistique(s)

StatistiquesQuand on parle de statistique en tant que science, on emploie volontiers le pluriel : les statistiques ; si l’on évoque une statistique particulière (par exemple le taux de réussite à un examen), on recourt alors au singulier. Tout nombre calculé à partir d’une population, et contribuant à décrire un aspect de cette population, est une statistique.

Les statistiques sont également une discipline mathématique, qui a partie liée, pour sa part théorique, avec les probabilités, les deux formant ce qu’il est convenu d’appeler les sciences de l’aléatoire. Quand on utilise les statistiques dans le domaine médical, elles deviennent des statistiques biomédicales.

EpidémiologieEpidémiologie

Historiquement, l’épidémiologie (du grec epi, au-dessus, demos, le peuple, et logos, discours) désignait l’étude des épidémies, autrement dit l’augmentation inhabituelle du nombre de cas d’une maladie infectieuse (la grippe par exemple) dans une population donnée et à un moment donné.

Puis la définition du mot épidémie s’est élargie à toute multiplication du nombre de cas de n’importe quelle maladie, et non plus seulement infectieuse (on parle notamment d’épidémie d’obésité dans les pays occidentaux), et même de n’importe quel phénomène anormal (comme les suicides). De ce fait, la définition de l’épidémiologie a changé : c’est l’étude des relations existant entre les maladies et les facteurs sociaux et environnementaux susceptibles d’influencer leur fréquence, leur distribution et leur évolution.Recherche clinique

Recherche clinique

La recherche médicale se divise en recherche fondamentale et recherche clinique ; la première  se pratique dans des laboratoires de recherche, et recourt à l’expérimentation in vitro ; la seconde dans les hôpitaux ou les cliniques, et procède par études cliniques menées in vivo sur des humains, malades ou sains. 

Lexique (glossaire) commun au vocabulaire des probabilités et des statistiques, et à celui de l’épidémiologie et de la recherche clinique

Voici un lexique non exhaustif des termes les plus fréquemment employés. Chacun de ces mots (ou expressions) a une signification très précise, et il est important d’employer toujours le mot exact, et de ne pas confondre, comme on l’entend souvent, incidence avec prévalence, par exemple.

  • Aléatoire : dû au seul hasard. Dans une expérience aléatoire comme le lancer d’un dé, seul le hasard intervient.
  • Appel à projets : permet aux équipes de recherche clinique d’obtenir un financement.

  • Balance bénéfice/risque : comparaison des risques d’un traitement avec ses éventuels bénéfices.
  • Biothèque : banque de données et d’échantillons biologiques en vue de recherche. Il existe ainsi des sérothèques et des tumorothèques.
  • Bras : dans un essai randomisé, les groupes de patients étudiés sont aussi appelés bras. L’un des bras sert de témoin à l’autre.

  • Centile : même définition que pour la médiane, les valeurs de la variable étant classées de 1% à 99%.
  • Chercheur : tout individu, médecin ou non, dont l’activité a pour but l’avancée des connaissances dans le domaine des sciences fondamentales aussi bien que des sciences appliquées (en l’occurrence la recherche clinique pour la médecine).
  • CNRS : Centre National de la Recherche  Scientifique : organisme public de recherche qui produit du savoir et le met à la disposition de la société.
  • Comité indépendant de suivi : groupe d’experts indépendants de l’investigateur et du promoteur d’un essai clinique, chargés de suivre le bon déroulement de l’essai.
  • Consentement éclairé : toute personne volontaire pour participer à un essai clinique doit signifier clairement à l’investigateur qui le lui a proposé son refus ou son accord. Dans le cas d’un accord, elle doit signer un formulaire de consentement éclairé.
  • Consentement par non opposition ou assentiment : forme dégradée du consentement éclairé, pour des recherches avec risques et contraintes négligeables (recherche en soins courants par exemple).
  • Coordonnateur (avec deux « n », contrairement à « coordinateur ») : dans un essai multicentrique, l’un des investigateurs est désigné pour coordonner l’étude.

  • Décile : même définition que pour la médiane, les valeurs de la variable étant classées de 10% à 90%.
  • Délai de réflexion : temps qui sépare l’information donnée  de la signature du consentement ou de l’expression de l’assentiment.
  • Dispersion : représente l’étendue des différentes valeurs que peut prendre une variable. Elle se mesure de différentes façons dont les plus courantes sont la variance et l’écart-type. La notion inverse est celle de position (ou tendance) centrale, mesurée par la moyenne ou la médiane.
  • Données (data en anglais) : ensemble des valeurs recensées, étudiées dans l’analyse des données.

  • Ecart-type : racine carrée de la variance. C’est une statistique de dispersion pour une variable quantitative.
  • Echantillon : une partie ciblée de l’effectif.
  • Effectif : nombre d’individus d’une population ou d’un sous-ensemble de cette population.
  • Effet indésirable : évènement négatif, qu’il soit attendu ou pas, survenant au cours d’une recherche.
  • Effet intercurrent : tout évènement inattendu se produisant pendant ou même après une recherche. Il peut être positif ou négatif.
  • Efficacité ou efficience : compare les effets bénéfiques de la méthode étudiée par rapport à la méthode de référence, servant de comparateur.
  • Essai en insu ou en aveugle : dans un essai en simple insu, l’une des composantes du couple testé/testeur ne sait pas quelle méthode est appliquée ; en double insu, les deux l’ignorent.
  • Essai multicentrique : une recherche est dite multicentrique quand elle est effectuée sur plusieurs sites géographiques (parfois de pays différents). Permet de disposer plus rapidement d’effectifs suffisants.
  • Etude cas-témoins : étude rétrospective utilisée pour mettre en évidence des facteurs qui peuvent être incriminés dans l’apparition d’une maladie en comparant des individus qui ont cette maladie (les cas) à d’autres qui en sont indemnes, mais similaires par ailleurs (les témoins ou contrôles). C’est ce type d’étude qui a permis de démontrer le lien entre le tabagisme et le cancer du poumon.
  • Etude de cohortes : étude prospective longitudinale entre deux groupes de sujets appelés les cohortes. Convient particulièrement pour évaluer le risque lié à l’exposition à des substances dangereuses pour la santé.
  • Evènement : partie (sous-ensemble) de l’ensemble des éventualités (appelé l’univers).
  • Eventualité : les différents résultats d’une expérience aléatoire sont des éventualités.

  • Facteur de risque : facteur associé à l’augmentation de la probabilité d’être atteint par une maladie, que ce soit une cause ou simplement un marqueur de risque. Les facteurs associés à une diminution du risque sont considérés comme des protecteurs.
  • Faux négatif (FN) : signe absent chez un individu atteint de la maladie. Terme utilisé dans l’évaluation de la valeur diagnostique d’un test.
  • Faux positif (FP) : signe présent chez un individu indemne de la maladie. Terme utilisé dans l’évaluation de la valeur diagnostique d’un test.
  • Fréquence (d’une maladie) : rapport d’un effectif particulier d’individus à la taille de la population. C’est une proportion, qui s’exprime à travers deux notions : l’incidence et la prévalence.

  • Hypothèse nulle : hypothèse postulant une égalité entre deux données d’un modèle. Elle est toujours testée contre une hypothèse alternative qui postule soit la différence entre les données, soit une inégalité entre elles.

  • Incidence (d’une maladie) : proportion des individus atteints de la maladie étudiée par rapport au nombre total d’individus présents dans la population étudiée et non malades au début de l’étude, pendant une période de temps donnée (un an par exemple). Elle indique le nombre de nouveaux cas de la maladie survenant pendant la période étudiée.
  • Indice : paramètre servant à estimer un taux quand le dénominateur de ce dernier ne peut pas être mesuré correctement.
  • INSERM : Institut National de la Santé et de la Recherche Médicale : organisme public de recherche entièrement dédié à la santé humaine.
  • Investigateur : personne, généralement médecin, qui dirige une recherche sur un site.

  • Létalité : nombre de décès survenus du fait d’une maladie donnée dans une population atteinte de cette affection. S’exprime par un rapport. 

  • Médiane : pour une variable ordinale ou quantitative, c’est la valeur qui correspond à 50% de l’effectif  rangé par valeurs croissantes. Diffère de la moyenne.
  • Morbidité : tout ce qui est relatif à la maladie étudiée. S’exprime par deux notions : l’incidence et la prévalence.
  • Mortalité : nombre de décès survenus pendant une période donnée, au sein d’une population étudiée, en relation avec une maladie déterminée. On peut la calculer selon différents paramètres (tranches d’âge, sexe…). A ne pas confondre avec la létalité.
  • Moyenne : pour une variable quantitative, c’est la valeur uniforme que devrait présenter chaque individu d’une population ou d’un échantillon pour que le total de l’ensemble reste inchangé. La moyenne arithmétique s’obtient en divisant la somme des valeurs par l’effectif. La moyenne est une statistique dite de tendance centrale.

  • Odds Ratio (OR) ou rapport des cotes (RC) : permet d’estimer le risque relatif (RR) quand il n’est pas directement mesurable. Terme utilisé dans les enquêtes de cohorte ou dans les enquêtes cas/témoins.

  • Participant : toute personne volontaire se prêtant à une recherche clinique.
  • Pénétrance : terme réservé aux maladies génétiques. C’est la probabilité qu’un individu présente le phénotype pathologique s’il est porteur du génotype à risque. La pénétrance peut être complète ou incomplète. Lorsqu’un gène dominant n’entraîne aucune manifestation, il est dit non pénétrant.
  • Placebo : produit ou méthode qui reproduit à l’identique le produit ou la méthode testés. Un médicament placebo est censé être chimiquement neutre mais biologiquement actif.
  • Population : ensemble des individus auxquels on décide de s’intéresser pour étudier un problème donné.
  • Prévalence (d’une maladie) : proportion des individus atteints de la maladie étudiée par rapport au nombre d’individus malades et non malades dans la population étudiée, à un instant « t ». Ce n’est pas un taux mais une proportion.
  • Probabilité alpha (ou risque alpha) : exprime la probabilité que la distribution observée ne résulte pas du hasard.
  • Promoteur : personne physique ou morale à l’initiative d’une recherche.
  • Proportion : c’est un rapport dans lequel le numérateur fait partie du dénominateur. Certaines proportions sont des taux (et certains taux sont des proportions).
  • Protocole de recherche : document dans lequel figurent l’ensemble des règles à suivre rigoureusement pour mener une recherche.

  • Quartile : même définition que pour la médiane, les valeurs de la variable étant classées à 25%, 50% et 75%.

  • Randomisation : attribution, par tirage au sort, des produits ou méthodes testés à chacun des groupes de participants indépendants les uns des autres.
  • Rapport : expression de la relation entre deux quantités, l’une étant le numérateur, l’autre le dénominateur. On utilise très souvent des rapports pour comparer des taux.
  • Recensement : recueil des valeurs (les données) de la totalité des individus de la population.
  • Représentation graphique des distributions : selon le type de variables (qualitative, ordinale ou quantitative), on aura recours au diagramme circulaire (le « camembert »), au graphique en bâtons, à un histogramme avec courbe des fréquences cumulées, ou au nuage de points.
  • Risque : probabilité pour un individu de développer la maladie.
  • Risque attribuable (RA) : différence entre les taux de la maladie chez les individus exposés et non exposés.
  • Risque relatif (RR) : rapport des taux de la maladie chez les individus exposés et non exposés. Permet d’exprimer facilement l’association entre l’exposition à un traitement ou à un facteur de risque et la survenue de la maladie : c’est le facteur par lequel le risque de la maladie est multiplié en présence de l’exposition.

  • Sensibilité (SE) : probabilité que le signe soit présent chez les individus atteints par la maladie. Terme utilisé dans l’évaluation de la valeur diagnostique d’un test.
  • Signification statistique : un résultat est dit statistiquement significatif lorsqu’il est improbable qu’il puisse être obtenu par le fruit du hasard. Dans les sciences biomédicales, on utilise un seuil de signification, la valeur p, assez restrictif, en général inférieur ou égal à 0,05, ce qui signifie que le résultat observé a moins de 5% de chances d’être obtenu par le simple fait du hasard (forte présomption). On peut aller plus loin avec une valeur p inférieure à 0,01% : très forte présomption.
  • Spécificité (SP) : probabilité que le signe soit absent chez les individus indemnes de la maladie. Terme utilisé dans l’évaluation de la valeur diagnostique d’un test.
  • Survie : la survie des patients est estimée par une probabilité cumulative de survie, comprise entre 0 et 1, à une certaine date après le diagnostic de la maladie (habituellement 5 ans, mais pas nécessairement).
  • Survie relative : rapport entre la survie observée dans un groupe de malades et la survie qui serait attendue dans la population générale. Elle est habituellement exprimée sous forme de pourcentage ; elle est souvent désignée par l’expression taux de survie.

  • Taux : mesure la probabilité de survenue d’un évènement au cours du temps, qui exprime le risque de survenue d’une maladie ou d’un décès au sein d’une population donnée, pendant une période donnée, et dans un lieu géographique donné. Certains taux sont des proportions (et certaines proportions sont des taux).
  • Taux d’erreur : alpha est le taux d’erreur de première espèce, qui consiste à rejeter à tort une hypothèse nulle vraie (conclure à une différence qui n’existe pas) ; béta est le taux d’erreur de seconde espèce, qui consiste à accepter à tort l’hypothèse nulle (ne pas conclure à une différence qui existe). Le risque béta sert à définir la puissance du test. 
  • Tolérance : comparaison, par rapport à la méthode de référence, de l’ensemble des effets intercurrents négatifs.
  • Traitement de référence (en anglais, gold standard) : produit ou méthode reconnus par la communauté scientifique internationale comme étant les plus employés car assurant la meilleure efficacité avec la meilleure tolérance.

  • Valeur p  (dite habituellement « petit p ») : nombre utilisé pour conclure sur le résultat d’un test statistique : si la valeur-p est inférieure au seuil préalablement défini (en général 5%, voire 1%), on rejette l’hypothèse nulle au profit de l’hypothèse alternative, et le résultat du test est dit statistiquement significatif. Si la valeur-p est supérieure au seuil défini, on ne rejette pas l’hypothèse nulle, et on ne peut rien conclure de l’étude.
  • Valeur prédictive négative (VPN) : probabilité que le diagnostic soit vrai si le signe est présent. Terme utilisé dans l’évaluation de la valeur diagnostique d’un test. Sert de comparateur pour le produit ou la méthode testés.
  • Valeur prédictive positive (VPP) : probabilité que le diagnostic soit faux si le signe est absent. Terme utilisé dans l’évaluation de la valeur diagnostique d’un test.
  • Variable (ou caractère) : peut être qualitative (nominale ou ordinale) ou quantitative, exprimée numériquement.
  • Variable d’intérêt : celle qui fait l’objet de l’étude statistique.
  • Variable explicative : variable influençant une variable d’intérêt, et pouvant servir à stratifier une population.
  • Variance : pour les variables quantitatives uniquement. C’est un indicateur de la dispersion des valeurs des individus autour de la moyenne. La variance est la moyenne des carrés des écarts à la moyenne ; sa racine carrée est l’écart-type.
  • Volontaire sain : individu indemne de maladie participant à une étude, éventuellement en tant que contrôle.
  • Vrai négatif (VN): signe absent chez un individu indemne de la maladie. Terme utilisé dans l’évaluation de la valeur diagnostique d’un test.
  • Vrai positif  (VP): signe présent chez un individu atteint de la maladie. Terme utilisé dans l’évaluation de la valeur diagnostique d’un test.

  • X² ou chi carré (on dit aussi chi 2) : test statistique permettant de vérifier s’il existe une relation entre le risque d’exposition et la maladie.

Article publié le 8 décembre 2014

Vous n'avez pas trouvé l'information recherchée dans cet article ? Consultez notre page de sites recommandés.