Question:
Pourquoi certains tests ont-ils un score minimum (différent de zéro)?
BowlesCR
2016-01-07 02:15:09 UTC
view on stackexchange narkive permalink

Certains tests ont des minimums dans leur plage de notes possible. La plage de 300 à 1000 points de Cisco et la plage de 200 à 800 points par section du SAT viennent à l'esprit.

À quoi cela sert-il? Je suppose qu'il y a une logique statistique derrière cela. Peut-être que cela aurait plus de sens pour moi si je comprenais comment ils calculent le score à partir d'un nombre donné de questions (in) correctes.

Il n'y a aucune raison statistique à cela, car le fait de déplacer les scores vers le bas de 200 entraînerait la même variance et une moyenne décalée de 200. J'ai toujours supposé que c'était pour épargner les sentiments des personnes qui obtenaient des scores très bas.
Par exemple, un test de style à choix multiples avec 5 options pour chaque question, une personne sans connaissance obtiendra ~ 20% de réponses correctes par pur hasard, il peut donc être logique de définir 20% comme score minimum, reconnaissant ainsi que l'obtention 20% de réponses au test n'indiquent pas une plus grande capacité que d'obtenir seulement 10% de bonnes réponses.
[Certains systèmes de notation] (https://en.wikipedia.org/wiki/Academic_grading_in_Denmark) ont un score minimum * négatif * différent de zéro.
Je suis surpris de voir que personne n'a contesté l'hypothèse de la question. Je n'ai pas pris SAT moi-même, mais si cela (http://www.snopes.com/college/exam/sat.asp) est vrai, alors il * est * possible d'obtenir moins de 200 points en SAT. Les autorités «ne communiquent tout simplement pas des scores inférieurs à 200». (C'est une question valable de demander «pourquoi?», Mais c'est une question différente, et probablement moins intéressante.)
Lien soigné @gerrit:. Je me demande pourquoi les équivalents numériques des notes sont 8, 7, 5, 1, -7 et -23. Quelle séquence étrange.
Sept réponses:
ff524
2016-01-07 02:33:19 UTC
view on stackexchange narkive permalink

Selon l ' Encyclopedia of Research Design (page 629), il signale qu'il s'agit de variables d'intervalle, pas de variables de rapport:

Les tests standardisés, y compris le quotient intellectuel (QI), le test de réussite scolaire (SAT), l'examen du dossier des diplômés (GRE), le test d'admission en gestion des diplômés (GMAT) et le test d'analogies de Miller (MAT) sont également des exemples d'échelle d'intervalle. Par exemple, dans l'échelle de QI, la différence entre 150 et 160 est la même que celle entre 80 et 90. De même, la distance dans les scores GRE entre 350 et 400 est la même que la distance entre 500 et 550.

Les tests standardisés ne sont pas basés sur un point "vrai zéro" qui représente le manque d'intelligence. Ces tests standardisés n'ont même pas de point zéro. Le score le plus bas possible pour ces tests standardisés n'est pas nul. En raison de l'absence d'un point «vrai zéro», les tests standardisés ne peuvent pas faire de déclaration sur le rapport de leurs scores. Ceux qui ont un score de QI de 150 ne sont pas deux fois plus intelligents que ceux qui ont un score de QI de 75. De même, un tel ratio ne peut pas s'appliquer à d'autres tests standardisés, y compris SAT, GRE, GMAT ou MAT.

Salkind, Neil J., éd. Encyclopédie de la conception de la recherche . Vol. 1. Sage, 2010.

Je ne suis pas sûr que cela réponde très bien à la question: il est certainement vrai que les scores sont des mesures d'intervalle, mais il semble étrange que les scores soient compensés UNIQUEMENT pour indiquer cela - cela semble juste étrangement subtil.
@Matt Je pense que ce que ff524 dit est la relation entre Celsius et Kelvin. Pourquoi 0C! = 0K mais 0C = 273,15K? La réponse est xC - yC = xK - yK pour tous les x et y. Et aucun autre rapport ne satisferait cette équation.
La citation en bloc semble faire autorité et précieuse et pour moi, elle n'est pas assez claire pour comprendre complètement. Souligner que la différence entre 150 et 160 est la même que la différence entre 80 et 90 ne m'éclaire en rien car c'est ce qui est normalement le cas pour les scores qui ** commencent ** à 0. Bref: je ne le fais toujours pas pas compris.
@ToddWilcox Vous avez raison: le premier paragraphe est également vrai pour les échelles de rapport (qui ont un «vrai zéro»). Le deuxième paragraphe est vrai pour les échelles d'intervalle mais * pas * vrai pour les échelles de rapport - c'est-à-dire que la multiplication et la division sont opérations valides pour les échelles de rapport mais non valable pour les échelles d'intervalle. Voir également [ce wikibook] (https://en.wikibooks.org/wiki/Handbook_of_Descriptive_Statistics/Types_of_Statistical_Variables).
J'ai remarqué cela mais je ne comprends pas la signification. Deux questions me viennent à l'esprit: 1) Pourquoi utiliser une échelle d'intervalle au lieu de tout autre type d'échelle (cela semble être le sens de la question initiale)? Et 2) Un score d'échelle d'intervalle peut-il être converti en score d'échelle de ratio? Sinon, que nous dit un score sur une échelle d'intervalle en premier lieu?
Ok, j'ai suivi le lien de commentaire et je suggère que cette réponse serait beaucoup améliorée en expliquant une partie de ce qui s'y trouve. Si je comprends bien, les résultats des tests qui n'ont pas de point zéro ne peuvent vous dire que si vous avez fait mieux ou moins bien que les autres qui ont passé le test, ** et ** ils peuvent vous dire dans quelle mesure vous avez fait mieux ou pire, ** et * * ils peuvent vous dire si vous avez fait mieux ou moins bien que la dernière fois, mais ils ne ** ne vous disent rien sur le nombre de questions que vous avez posées. Est-ce que je comprends bien?
@cagirici, bien sûr, je ne conteste pas que les scores sont censés être des mesures d'intervalle (c'est-à-dire "Celsius"), mais je pense que l'ajout d'un décalage aux scores (et en espérant que les gens le remarquent) est une façon étrange et subtile d'indiquer que . Ne serait-il pas plus facile d'écrire "MESURE D'INTERVALLE" ou quelque chose quelque part dans le guide d'interprétation des partitions?
@Todd Pas vraiment. L'idée clé est que l'échelle d'intervalle n'a pas de point de référence réel («zéro absolu»), et les relations impliquant une division ou une multiplication (par exemple «deux fois plus») n'ont aucune signification sans un point de référence réel. Par exemple: un score 800 est-il deux fois plus élevé qu'un score 400? Si je décale tous les scores de 200 (ce que je peux faire, car il n'y a pas de véritable point de référence), ces mêmes scores deviennent 600 et 200 - 600 est-il deux fois plus bon que 200? Non aux deux. C'est l'idée.
Cela ne répond pas du tout à la question. La question n'était pas «quelles sont les propriétés d'une échelle d'intervalle», mais pourquoi quelqu'un obtient-il 200 points pour remettre un papier vierge (aucun effort)?
@Falco Lorsque vous dites "obtenir 200 points", vous supposez que la référence est 0 (c'est-à-dire que vous obtenez 200 points de plus que 0.) Ce n'est pas valable sur une échelle d'intervalle, où il n'y a pas de référence absolue. Vous pourriez également dire que le score minimum de 200 signifie que vous obtenez 400 points pour un effort nul (400 de plus que -200) ou 1 point pour un effort nul (1 de plus que 199.) Toutes ces affirmations n'ont aucun sens sur une échelle d'intervalle.
@ff524 exactement qui rend le 200 complètement arbitraire! La page blanche pourrait également représenter 5 millions de points. Mais la plupart des gens attribueraient probablement intuitivement 0 point pour zéro effort, simplement parce que cela semble naturel. Alors pourquoi les 200 arbitraires? Même 100 semble plus naturel que 200.
@Falco La raison pour laquelle nous commençons souvent des échelles d'intervalle à un nombre qui n'est pas zéro est de signaler qu'il n'y a pas de vraie référence, et que les gens * ne devraient pas * appliquer des opérations qui «semblent naturelles» à cette échelle. La plupart des gens associent intuitivement un zéro à une référence absolue, comme vous le savez, ce qui serait une mauvaise chose à faire dans ce cas. (Le choix spécifique d'un nombre non nul n'est pas significatif, mais le fait qu'il soit différent de zéro est une convention qui sert de signal délibéré.)
Vous avez écrit "pas vraiment". Laquelle (s) de mes déclarations est / ne sont pas correct (s)?
@ToddWilcox "ils ne vous disent rien sur le nombre de questions que vous avez posées correctement." - Il est possible pour un score d'examen sur * n'importe quel * type d'échelle, y compris l'échelle de ratio, de ne pas vous dire combien de questions vous avez répondu. (par exemple, si les questions ne sont pas pondérées uniformément.) Mais pour une explication détaillée des différents types d'échelles de mesure, essayez [stats.se] - cela est probablement hors de portée de cette réponse.
TMP4
2016-01-08 07:31:30 UTC
view on stackexchange narkive permalink

Je pourrais peut-être aider à répondre à cette question à partir d'une expérience en psychométrie. Là où je travaille, nous produisons de nombreux tests qui sont tous standardisés, puis assimilés à la même échelle. Cependant, ces échelles, d'un test à l'autre, ne sont pas reliées, à moins bien sûr que les deux tests différents aient une étude de mise en équivalence terminée pour déterminer le facteur de décalage pour transférer une échelle du test 1 à l'échelle du test 2.

Pour construire une échelle, nous analysons d'abord les données du test, donc les données de réponse des élèves et les données d'item (question). Nous faisons l'analyse en utilisant le modèle de Rasch, qui ne prend en compte que deux variables, les capacités des élèves et les difficultés des items. Cela nous permet de construire un jeu de données contenant les niveaux logit des capacités des élèves et des difficultés des items.

Définition de Logit:

Un logit est une unité de mesure pour signaler les différences relatives entre les estimations des capacités des candidats et les difficultés liées aux items Les logits sont un niveau de mesure à intervalle égal, ce qui signifie que la distance entre chaque point de l'échelle est égale (1-2 = 99-100).

Une fois les tables logit créées ils peuvent être utilisés pour créer une échelle en appliquant une simple transformation linéaire, telle que:

scale score = 10 * logit difficulté + 250

Dans certains du travail que je fais, nous avons des scores d'échelle qui sont en fait inférieurs à 0, mais la plupart du travail que je fais, les scores d'échelle sont construits de telle sorte que le minimum soit d'environ 200 ou plus. La construction de l'échelle est pour la plupart entièrement arbitraire.

Si vous souhaitez voir comment les logits des élèves et des éléments sont calculés, veuillez lire:

https://en.wikipedia.org/wiki/Rasch_model#The_mathematical_form_of_the_Rasch_model_for_dichotomous_data

Également comme note supplémentaire: il existe d'autres modèles pour faire des analyses de test, tels que le 2PL (introduit un paramètre supplémentaire au modèle Rasch (1PL), la discrimination des éléments), le 3PL (introduit un paramètre supplémentaire au 2PL, ce qui est un facteur de supposition, cela crée une probabilité minimale d'obtenir l'élément incorrect qui dépend de votre valeur de supposition), il existe également un 4PL qui ajoute un paramètre supplémentaire (le paramètre de glissement, qui crée une probabilité plafond, qui n'est pas de 1, pour obtenir un élément correct).

J'espère que cela aide et fournit des informations supplémentaires qui peuvent être utiles.

Cela me semble le plus utile et le plus plausible. De plus, j'ai creusé ceci sur le SAT: https: //sat.collegeboard.org/scores/how-sat-is-scored "Nous faisons une analyse statistique pour nous assurer que le test est une représentation précise de vos compétences ...... l'équivalent ajuste les légères différences de difficulté entre les éditions du test et garantit que le score d'un élève ... sur une édition d'un test reflète la même capacité ... sur une autre édition du L'équation garantit également que le score d'un élève ne dépend pas de la façon dont les autres ont réussi ... "
Federico Poloni
2016-01-07 02:38:48 UTC
view on stackexchange narkive permalink

En plus des raisons déjà évoquées: parce que nous voulons une échelle plus naturelle pour les réponses : parfois les scores pour une réponse individuelle sont sur une échelle de 1 à 5 ou de 1 à 10, car il est plus convivial que 0-4 ou 0-9 (sauf si l'humain est un programmeur). L'ajout de scores individuels donne un minimum différent de zéro.

Pouvez-vous donner un exemple de question pour laquelle il est logique de dire "il est impossible de se tromper complètement" (ce que semble impliquer une échelle de 1 à 5)?
@MikeOunsworth Cela ressemble à une question piège. :) À mon avis, une échelle de 1 à 5 n'implique pas qu'il est impossible de se tromper complètement sur une question. C'est juste une plage arbitraire.
Compris. Il semble tout simplement bizarre d'obtenir un score différent de zéro pour avoir remis une page blanche, rien à ce sujet ne semble naturel.
@MikeOunsworth Vérifiez par exemple https://en.wikipedia.org/wiki/Grading_systems_by_country. Les pourcentages sont le système le plus utilisé, je suis d'accord, mais il y a quand même de nombreuses échelles basées sur 1 sur la liste.
Ces échelles concernent les notes cumulatives. Votre réponse à cette question consiste à noter les réponses individuelles * sur une échelle non nulle.
@MikeOunsworth Vous avez raison. Je n'ai malheureusement pas de données similaires pour les réponses individuelles.
Pour les examens comme le SAT, le GRE, la somme des scores de réponse («score brut») commence à zéro. Donc, au moins pour ces examens, ce n'est pas une raison probable.
Il existe de très nombreux questionnaires sur des problèmes subjectifs qui utilisent des [échelles de Likert] (https://en.wikipedia.org/wiki/Likert_scale), qui vont généralement de 1 à 5 ou 7 ou 10. Les scores de plusieurs éléments à l'échelle de Likert sont généralement additionné pour donner un score total, qui est nécessairement au moins le nombre d'éléments. Oui, ce n'est pas le SAT ou le GRE.
@FedericoPoloni, vous ne pouvez pas vraiment comparer les systèmes de notation à l'addition de points. Les systèmes de notation sont généralement un étiquetage fixe pour certains pourcentages (donc plus de 90% à droite vous donneront un A ou un «1» ou un «10») mais dans la plupart des pays, vous n'additionnez généralement pas ces notes être comme additionner As et Bs aux États-Unis), vous calculez généralement un score moyen sur la même échelle. - Ainsi, lors de la distribution des scores absolus AKA combien de points avez-vous marqués, presque tous les tests normaux vous rapporteront zéro point pour ne rien faire.
user283885
2016-01-08 01:31:37 UTC
view on stackexchange narkive permalink

Mon professeur de mathématiques du lycée avait l'habitude de dire que le simple fait de se présenter et d'écrire votre nom sur le papier vaut quelque chose ... du respect au strict minimum ... ainsi vous obtenez quelque chose pour l'effort d'être là. du point de vue de la gestion, il est certainement plus facile d'utiliser zéro pour des cas particuliers tels que les absences ou les expulsés, etc. et les éducateurs essaient d’être optimistes quant à leurs élèves.

Je soupçonne que c'est quelque chose que les enseignants disent lorsqu'ils n'ont pas assez de questions pour que les points d'examen totalisent 100.
Pas nécessairement. D'après mes antécédents scolaires, la notation commence de 1 à 10, 10 étant le plus élevé, mais la règle générale était de noter à partir de 4, car cela a lissé l'échelle des enfants qui apprennent et essaient mais échouent de loin. Nous essayons d'encourager ces enfants à réussir. Nous avons même des "points bonus". La convention était de noter à partir de 4 ci-dessous comme punition pour un mauvais comportement. N'oubliez pas qu'il y a des enfants qui essaient d'apprendre mais qui ont du mal, et il y a des gamins qui ont un besoin urgent de correction.
Le raisonnement pour marcher sur la ligne 4 était que si l'enfant avait un score de 2 sujets notés moins de 5, il sera retenu un an. Ou si l'enfant est une nuisance, alors transféré dans une classe spéciale. Ainsi, nous utilisons même des notes comme 4,5 avec l'option d'un résumé de 5 si l'enfant accepte de faire des devoirs supplémentaires par exemple. Rappelez-vous, en tant qu'enseignant, l'espoir est que l'enfant finira par transmettre son propre travail, et le but n'est pas pour l'écraser sous une marque de cause perdue. Cependant, vous ne pouvez pas faire beaucoup de choses en tant qu'enseignant et je ne peux en aucun cas corriger les notes ou parler de mauvais parents.
Dans l'ensemble, je pense que ce score qui vous donne quelque chose pour rien est également utilisé dans les examens critiques qui affectent les résultats de l'enfant et sont utilisés comme une correction pour réduire les chances d'échec. Ces types d'examens mettent généralement beaucoup de stress sur l'individu et certains enfants peuvent simplement se bloquer et geler sous la pression.
Matt
2016-01-08 13:07:48 UTC
view on stackexchange narkive permalink

Cela peut dépendre du test.


Le test de QI Wechsler SD15 est destiné à produire des scores tels que le score moyen est de 100 avec un écart type de 15, donc environ 5% de la population a un score de QI inférieur à 75 points. En supposant que les scores sont normalement distribués, les sujets recevant un score de zéro seraient si rares (un milliardième de pour cent des candidats) qu'il serait impossible de garantir que les scores restent valables jusqu'à présent. Il serait également très difficile de s'assurer que ces sujets très déficients réalisent cela / comment ils sont testés du tout. Épingler la valeur précise peut ne pas avoir beaucoup de valeur clinique non plus, de sorte que des scores extrêmement bas peuvent être rapportés comme <20 (ou autre).
Le SAT utilise un système de notation qui pénalise les devinettes aléatoires:
  • Les réponses correctes augmentent le score d'un point
  • Les réponses vierges ne gagnent ni ne perdent de points
  • Les réponses incorrectes réduisent le score d'une fraction de point.

En choisissant une fraction appropriée pour la pénalité, vous pouvez vous assurer que deviner n'a aucune valeur attendue. Cependant, à moins qu'un décalage ne soit ajouté, les sujets peuvent potentiellement recevoir des scores inférieurs à zéro s'ils réussissent moins bien que le hasard. Ces résultats très faibles peuvent ne pas être particulièrement informatifs, alors peut-être qu'ETS rapporte quelque chose comme max (score gagné, chance).

Le College Board ne rapporte pas le maximum (score obtenu, 0) pour le SAT. Si vous obtenez un score brut négatif, il est mis à l'échelle sur une note ajustée différente (inférieure) que si vous obtenez un score brut nul (par exemple en remettant un papier vierge).
[Ce graphique] (http://blog.prepscholar.com/how-is-the-sat-scored-scoring-charts) indique que tous les scores bruts inférieurs à -1 (mathématiques) ou -2 (lecture) sont signalés comme un 200.
Pour cet examen particulier, oui (chaque administration d'examen peut être mise à l'échelle légèrement différemment.) Et un score brut de 0 est mis à 220, ce qui est plus élevé.
Ezra
2016-01-09 21:14:40 UTC
view on stackexchange narkive permalink

Aux Pays-Bas, la plupart des enfants à la fin de l'école primaire passent le test Cito, qui ressemble beaucoup au test SAT, mais avec un score compris entre 501 et 550. Selon ceci (néerlandais ) article, il est fait pour empêcher les parents d'associer le score aux notes scolaires, allant de 1 à 10, et aux tests de QI, avec une moyenne de 100.

user47063
2016-01-07 02:34:50 UTC
view on stackexchange narkive permalink

Je pense que ce nombre inférieur pour les résultats des tests et la fourchette sont arbitrairement choisis au hasard, peut-être pour que les gens se sentent mieux lorsqu'ils obtiennent un score faible comme 300-500 ou là pour Cisco et 200 pour dire 400 SAT donc c'est fait de cette façon pour des raisons psychologiques et est arbitraire ... J'espère que cela répond à votre question, il peut y avoir d'autres possibilités possibles, mais je pense que celle-ci se distingue comme étant de la plus haute probabilité.

Avez-vous des preuves pour étayer vos suggestions ici, ou s'agit-il simplement de suppositions?
@DavidRicherby Je ne pense pas que ce soit non plus. Cela ressemble plus à une déduction plausible, sinon de l'intention de l'échelle, puis de ce qui est certainement un effet et un effet souhaité en plus. (Je fais en quelque sorte écho à la réponse, qui répond assez clairement à votre question en premier lieu).
Ce que je veux dire, c'est que les conjectures d'un inconnu anonyme sur Internet n'ont pas beaucoup de poids, car nous n'avons aucun moyen d'évaluer si votre supposition est susceptible d'être correcte. La raison pour laquelle j'ai demandé si vous aviez des preuves est que la réponse aurait pu être «oui». Il était possible que vous ayez formulé votre réponse très prudemment parce que vous la basiez sur quelque chose que vous vous rappeliez vaguement avoir lu il y a dix ans, par exemple.
@DavidRicherby À partir de cette réponse, j'ai appris que fixer un score minimum de 200 contre 0 a un impact psychologique important sur les candidats. La réponse ne présentait aucune preuve formelle mais soulignait cet effet. Maintenant je le crois. Je suis content que cette réponse ait été publiée.
@djechlin Vous croyez quelque chose après avoir lu cette réponse que vous ne croyiez pas avant de la lire? Si tel est le cas, cela n'a pas de valeur intrinsèque et serait en fait préjudiciable si ce que vous croyez maintenant n'est manifestement pas le cas. Les déductions plausibles sont précieuses comme points de départ pour la recherche, pas comme réponses finales. Je crois comprendre que ce dernier est préféré sur l'échange de pile. Pour moi, une déduction parfaitement plausible est qu'un score minimum de 200 n'a aucun avantage psychologique si tout le monde sait que c'est le minimum. Les candidats au test soustraient probablement mentalement 200 du score qu'ils ont obtenu.
@ToddWilcox Il serait préjudiciable que vous lisiez une réponse et ce n'est manifestement pas le cas par la suite. Votre déduction n'est pas plausible pour moi car elle contredit beaucoup la psychologie, à savoir le fait que nous n'effectuons généralement pas de mathématiques chaque fois que nous regardons quelque chose.


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...