Modèle binaire definition

L`hypothèse de l`indépendance binaire est que les documents sont des vecteurs binaires. En d`autres termes, seule la présence ou l`absence de conditions dans les documents sont enregistrées. Les termes sont distribués indépendamment dans l`ensemble des documents pertinents et ils sont également distribués de manière indépendante dans l`ensemble des documents non pertinents. La représentation est un ensemble ordonné de variables booléennes. En d`autres termes, la représentation d`un document ou d`une requête est un vecteur avec un élément booléen pour chaque terme considéré. Plus précisément, un document est représenté par un vecteur d = (x1,..., XM) où XT = 1 si le terme t est présent dans le document d et XT = 0 si ce n`est pas le cas. De nombreux documents peuvent avoir la même représentation vectorielle avec cette simplification. Les requêtes sont représentées de la même manière. L`indépendance signifie que les termes du document sont considérés indépendamment les uns des autres et qu`aucune association entre les termes n`est modélisée.

Cette hypothèse est très limitative, mais il a été démontré qu`elle donne suffisamment de résultats pour de nombreuses situations. Cette indépendance est l`hypothèse «naïve» d`un classificateur Naive Bayes, où les propriétés qui s`impliquent mutuellement sont néanmoins traitées comme indépendantes par souci de simplicité. Cette hypothèse permet à la représentation d`être traitée comme une instance d`un modèle spatial vectoriel en considérant chaque terme comme une valeur de 0 ou 1 le long d`une dimension orthogonale aux dimensions utilisées pour les autres termes. Le modèle d`indépendance binaire (BIM) [1] [2] est une technique probabiliste d`extraction d`informations qui fait quelques hypothèses simples pour rendre possible l`estimation de la probabilité de similitude document/requête. Dans ce modèle binaire, le sexe, le genre et la sexualité peuvent être assumés par défaut pour s`aligner, avec des aspects du genre intrinsèquement liés à son sexe génétique ou à base de gamètes, ou avec son sexe assigné à la naissance. Par exemple, quand un mâle est né, le binarisme de genre peut supposer que le mâle sera masculin en apparence, traits de caractère, et comportement, y compris ayant une attraction hétérosexuelle aux femelles. [4] ces aspects peuvent inclure des attentes d`habillage, de comportement, d`orientation sexuelle, de noms ou de pronoms, de toilettes préférées ou d`autres qualités. Ces attentes peuvent renforcer les attitudes négatives, les préjugés et la discrimination à l`égard des personnes qui présentent des expressions de variance de genre ou de non-conformité ou dont l`identité de genre est incompatible avec leur sexe à la naissance. Le modèle d`indépendance binaire a été introduit par Yu et Salton [5]. Le nom Binary Independence Model est inventé par Robertson et Spärck Jones [1]. [2] compte tenu d`une requête binaire et du produit dot comme fonction de similarité entre un document et une requête, le problème est d`assigner des pondérations aux termes de la requête de telle sorte que l`efficacité de la récupération sera élevée.

Laissez p i {displaystyle P_ {i}} et q i {displaystyle Q_ {i}} être la probabilité qu`un document pertinent et un document non pertinent aient le ième terme respectivement. Yu et Salton [1], qui introduisent d`abord le BIM, proposer que le poids du ième terme soit une fonction croissante de Y i = p i ∗ (1 − q i) (1 − p i) ∗ q i {displaystyle y_ {i} = {frac {P_ {i} * (1-Q_ {i})} {(1-P_ {i}) * Q_ {i}}}}.