Guía para Principiantes del Sistema de Valoración Revisado de la ICCF

31.08.2023

Mark Glickman, Departamento de Estadística, Universidad de Harvard

A partir de 2023, la ICCF adoptará un nuevo sistema de clasificación para evaluar los resultados de las partidas jugados en eventos de la ICCF. La decisión de revisar el sistema de calificación fue el resultado de darse cuenta de que el antiguo sistema ya no podía calcular adecuadamente. Esto era particularmente evidente en los niveles más altos de juego, donde la frecuencia de las tablas aumentó hasta un punto en el que las calificaciones de los mejores jugadores apenas cambiaban. En 2021, los delegados de la ICCF reconocieron la necesidad de un nuevo sistema que abordara la cuestión de una mayor frecuencia de tablas. Para ello encargaron el desarrollo de un sistema hecho a medida por el Dr. Mark Glickman, un respetado experto en sistemas de evaluación y profesor titular en la Universidad de Harvard. El Dr. Glickman es muy conocido por su trabajo en los sistemas de clasificación Glicko y Glicko-2, que se han implementado en

varias organizaciones de ajedrez como chess.com y lichess.org. También fue uno de los

co desarrolladores del sistema de clasificación universal utilizado por Grand Chess Tour.

El Dr. Glickman desarrolló el revisado sistema de la ICCF desde agosto de 2021 hasta mayo de 2022. Utilizando más de seis años de resultados en la ICCF e información de clasificación actual para afinar las fórmulas. Los detalles del nuevo sistema fueron presentados a los delegados de la ICCF en junio de 2022, y fueron aceptados en agosto de 2022. La implementación de las fórmulas para uso de la ICCF comenzó poco después. Este documento describe las características básicas del nuevo sistema de calificación y está destinado para una audiencia no técnica.

Evaluaciones y desviaciones

Uno de los cambios significativos del antiguo sistema de clasificación es la adición de una desviación en la evaluación (abreviado RD) para cada jugador. Este es un concepto tomado del sistema de clasificación Glicko1 que se desarrolló hace unos 30 años.

La evaluación, como en el antiguo sistema de la ICCF es una medida de la fuerza de juego de cada uno. Un RD es una medida de la falta de fiabilidad de la evaluación, cuanto mayor sea el RD de un jugador, menos fiable será su evaluación. Un RD de alrededor de 75 o menos indica que la evaluación de un jugador es fiable y digna de confianza.

Los jugadores que no tienen rating (suponiendo que no haya otro externo, como una clasificación de la FIDE), comienzan con un rating de 1800 y un RD de 250, el RD más grande posible en el nuevo sistema. Esta asignación significa que nuestra mejor estimación de la calificación del jugador, sin ninguna información adicional, es 1800. Sin embargo, el RD de 250 indica que la clasificación de 1800 es muy incierta. Para los jugadores de la FIDE que no están clasificados por la ICCF, el RD inicial se establece en 150.

Normalmente, los jugadores que tienen RD altos son jugadores provisionales o aquellos que no han competido recientemente y tienen un rating obsoleto. Por el contrario, los jugadores que tienen un rating establecido y que compiten con frecuencia tienden a tener un RD bajo. La inclusión del RD en el sistema de calificación revisado de la ICCF tiene algunas implicaciones importantes para la evaluación de las partidas.

Los RD pueden afectar cuánto cambia la calificación de un jugador según los resultados de la partida y también la de su oponente.

Por ejemplo, digamos que dos jugadores, Sara y Juan, con el mismo rating, juegan una partida y Sara gana. Si ambos tienen RD bajos, significa que sus ratings son fiables reflejos de su fuerza, entonces el nuevo sistema de clasificación probablemente no cambiaría mucho la evaluación de ambos, debido en gran medida a que sus evaluaciones ya eran fiables antes de jugar. Pero si el RD de Sara es bajo y la de Juan es alta, esto indica que su evaluación no es fiable, entonces el rating de Sara apenas aumentaría porque derrotó a un oponente con un rating poco fiable. Sin embargo, la calificación de Juan probablemente disminuirá significativamente porque perdió contra un oponente con un rating preciso, y el suyo no era fiable. Finalmente, si el RD de Sara era alto y el RD de Juan era bajo, entonces el rating de Sara aumentará en gran medida dado que su rating era poco fiable y el de Juan era preciso.

En general, cuando el RD de un jugador es grande, se puede esperar que sus cambios en la evaluación sean más significativos. Por el contrario, cuando el RD de un jugador es bajo, sus cambios tienden a ser menores. Además, cuando se compite contra un oponente con un RD grande, el resultado de la partida, normalmente tiene poco impacto en el propio rating. Pero al competir contra un oponente con un RD pequeño, el resultado puede causar cambios más sustanciales en la calificación del jugador. El sistema de evaluación revisado de la ICCF ha sido diseñado para proporcionar a los jugadores con RD altos una oportunidad de mejorar su rating a un ritmo más rápido que antes. Porque los jugadores con los RD altos tienden a recibir mayores aumentos de rating (en términos absolutos) que aquellos con bajos RD, un jugador con un RD alto puede jugar múltiples partidas y mejorar rápidamente su rating en un período de tiempo relativamente corto. Este enfoque tiene como objetivo incentivar a los jugadores nuevos en los eventos de la ICCF para comenzar a jugar partidas evaluadas y recompensar a los jugadores provisionales que compiten y participan constantemente en más partidas evaluadas.

Procedimiento de evaluación

El sistema revisado de evaluación de la ICCF actualiza el rating de los jugadores y los RD cada tres meses, al igual que el antiguo sistema. Estos son los pasos involucrados en el proceso de calificación, que es repetido cada trimestre:

1. Determina el rating y el RD de cada jugador al comienzo del período de calificación de 3 meses.

2. Actualiza el rating y el RD de cada jugador usando las nuevas fórmulas de calificación, basadas en partidas completadas durante el período de 3 meses. Este paso resultará en un RD de disminución para cada jugador.

3. Utiliza las fórmulas para aumentar el RD de cada jugador debido al paso del tiempo hasta producir un nuevo RD que se utilizará al inicio del siguiente período de 3 meses.

Vale la pena mencionar algunos comentarios para profundizar en este proceso. Primero, al inicio de cada período de evaluación, a cada jugador se le asigna un rating y un RD, incluso si no están evaluados. A los jugadores no evaluados se les asigna un rating y un RD (normalmente un valor alto) que no se basan en los resultados de partidas ICCF. Podrían basarse en información de rating conocido de otro sistema de evaluación (por ejemplo, FIDE), o como se mencionó anteriormente, se les asignaría una clasificación de 1800 y un RD de 250 si no hay otra información disponible. En segundo lugar, todos los resultados de las partidas en un período de 3 meses se evalúan simultáneamente. Esto significa que la evaluación y el RD de cada jugador se actualizan simultáneamente en función de las partidas completadas durante el período de evaluación. Si bien el rating de un jugador puede subir o bajar, el RD basado en el Paso 2 siempre disminuye. Esto refleja la idea de que cuantos más resultados registrados hay, el rating actualizado del jugador se convierte en una medida más fiable de su fuerza de juego.

Finalmente, es importante tener en cuenta que después de la disminución de RD debido a los resultados de la partida en el paso 2, el RD luego se incrementa en el paso 3 para tener en cuenta el paso del tiempo, y este nuevo valor se utiliza al inicio del siguiente período de calificación de 3 meses. Incluso si un jugador no termina cualquier partida durante el período, su RD seguirá aumentando. Esto se debe a que a medida que pasa el tiempo, hay más incertidumbre sobre la capacidad de un jugador: podrían participar activamente mejorando su juego, o podrían oxidarse al descuidar el ajedrez. El aumento del RD refleja la idea de que estamos un poco menos seguros de la fuerza del jugador después de varios meses. Sin embargo, vale la pena señalar que los RD superiores a 120 no aumentan debido al paso del tiempo; solo pueden aumentar una vez que los RD caen por debajo de 120.

Probabilidades separadas de victorias, derrotas y empates

Una de las principales motivaciones para revisar el sistema de evaluación de la ICCF fue la mayor frecuencia de tablas entre los jugadores mejor evaluados en relación con los que lo estaban peor. Esto resultó en cambios de rating típicamente más pequeños para los mejores jugadores que rara vez tienen partidas decididas contra oponentes de fuerza similar. Una limitación del anterior sistema era que se basaba en las fórmulas de Arpad Elo de la década de 1950, que no cuenta la probabilidad de un empate en función de los niveles de habilidad de los jugadores. El sistema se basó únicamente en una fórmula para determinar el resultado esperado o la expectativa de ganancia de una partida que se basaba únicamente en la diferencia de calificación entre dos jugadores. Como resultado, el sistema no pudo abordar el problema de la alta frecuencia de tablas entre los jugadores mejor evaluados.

El sistema revisado, incluye tres probabilidades separadas para cada tipo de resultado (victoria, derrota o empate), en lugar de una única expectativa de ganancia basada únicamente en la diferencia de rating entre los jugadores involucrados. Las probabilidades de cada resultado se calculan en función de las evaluaciones y RD de los jugadores. Cuanto más cerca estén entre sí, mayor será la probabilidad de un empate. Además, cuanto mayores sean los RD para los dos jugadores, lo que indica la falta de fiabilidad de las evaluaciones de ambos, mayor será la probabilidad de empate. Además, el sistema revisado reconoce que las personas con evaluaciones altas tienden a empatar entre sí a un ritmo más alto que los jugadores con evaluaciones más bajas. Como consecuencia de reconocer que los jugadores de alto rating empatan entre sí más

que las ganan o pierden los cambios de evaluación basados en partidas decisivas pueden ser más pronunciados. Por ejemplo, un jugador con una puntuación de 1500 que derrota a un jugador con una puntuación de 1300 da como resultado una ganancia de calificación de 20 puntos (asumiendo RD de 100 para ambos jugadores), mientras que una calificación de 2500 Si un jugador derrota a un jugador con una calificación de 2300, su calificación aumentará en 24 puntos, más que la ganancia de calificación para la pareja de jugadores con menor rating. Las fórmulas para calcular las probabilidades de cada resultado de la partida y su evaluación basados ​​en estas probabilidades se derivan del análisis de más de seis años. de resultado anteriores en la ICCF. Optimizar el sistema de evaluación con el único objetivo de producir probabilidades precisas provocaría que las evaluaciones cambiaran en cantidades demasiado grandes, y las evaluaciones de los mejores jugadores apenas cambiarían según las partidas empatadas. En cambio, la derivación de las fórmulas fue un compromiso entre tres factores: (1) producir cálculos de probabilidad precisos de los resultados del juego, (2) evitar la inflación de evaluaciones, y (3) mantener la distribución de evaluaciones a lo largo del tiempo. Mientras que la tasa de paridas empatadas entre los mejores jugadores en los últimos años supera con creces el 95%, las fórmulas finales calculan probabilidades que rondan el 80%. Esta ligera imprecisión permite un mayor movimiento de rating en los niveles más altos y evita desviaciones no deseadas en el promedio de todas las evaluaciones. A continuación, se muestran gráficos que ilustran las probabilidades de ganar, empatar y perder para un jugador con un rating y RD determinados, y el cambio de calificación correspondiente para cada resultado del juego.

La figura anterior corresponde a un jugador con un rating de 1500 y RD de 100. El gráfico de la izquierda muestra las probabilidades de ganar (curva azul), empate (curva gris) y derrota (curva roja) contra un oponente con una calificación indicada en el eje horizontal (y con un RD de 100). Por ejemplo, al competir contra un oponente con una calificación de 1400 y RD de 100, la probabilidad de perder contra este oponente es aproximadamente 0,16, la de entablar es aproximadamente 0,565 y la de ganar es aproximadamente 0,28. La probabilidad de un empate es mayor (punto más alto en la curva gris en el gráfico de la izquierda) cuando el rating del oponente también es 1500. Vale la pena señalar que la probabilidad de empate contra un oponente con una puntuación de 1900 (400 puntos más que el jugador con una puntuación de 1500) es un poco mayor que la probabilidad de un empate contra un oponente con una calificación de 1100 (400 puntos menos que el jugador con calificación 1500), como se puede ver comparando la altura de la curva gris en los lados derecho e izquierdo del gráfico. Esto se debe a que el sistema de evaluación revisado reconoce que las parejas de jugadores con mayor rating tienden a empatar con más frecuencia que parejas de jugadores de menor valoración. En este caso, la probabilidad de empate entre ugadores evaluados 1500 y 1900 es mayor que la probabilidad de un empate entre jugadores evaluados 1500 y 1100 porque el primer conjunto de evaluaciones es, en promedio, más alto que el segundo.

El gráfico de la derecha muestra el cambio de rating basado en la derrota (azul), empate (gris) y perder (rojo) contra un oponente con un rating indicado en el eje horizontal. Si el rating del oponente es 1500 (y su RD es 100), el rating del jugador no cambia si el resultado es un empate, pero la ganancia de rating es de aproximadamente 27 puntos por una victoria y una caída de 27 puntos por una derrota. Nuevamente, vale la pena señalar la asimetría en el cambio de rating al jugar contra un oponente con una calificación de 400 puntos más frente a otro con 400 puntos menos.

Por ejemplo, al enfrentarse a un oponente con una puntuación de 400 puntos superior, la ganancia para el jugador de1500 puntos son 11 puntos. Pero al enfrentarse a un oponente con una puntuación de 400 puntos menos, la pérdida de rating para el jugador de 1500 es de 13 puntos. Esta asimetría refleja que entablar es más probable entre oponentes con un rating más alto que entre oponentes con uno menor, porque la probabilidad de un resultado decisivo es mayor.

El mismo análisis se puede ilustrar para un jugador con un rating de 2500 y RD de 100. 

Hay varias diferencias que señalar en comparación con el análisis del jugador de1500. Según el gráfico de la izquierda, la probabilidad de empate es muy superior a 0,6 cuando un jugador con rating de 2500 juega contra un oponente con un rating de entre 2100 y 2900 (y un RD de 100), con un pico de aproximadamente 0,8 cuando el rating del oponente es también 2500. Esto es mucho mayor que la probabilidad de un empate para un jugador con un rating de 1500 al jugar contra un oponente con 400 puntos de rating menos. El gráfico de la derecha, que muestra el cambio de rating como resultado de una victoria, un empate o una derrota tiene algunas características importantes que vale la pena hacer notar. Mientras que el aumento de rating por una victoria contra un oponente con la misma evaluación es aproximadamente lo mismo (27 puntos para jugadores de 1500 y 28 puntos para jugadores de 2500), el aumento de rating por una victoria de un jugador de 2500 no depende tanto del rating del oponente como lo hace para un jugador con calificación 1500. En otras palabras, un rating de 2500 que derrota a un oponente con una calificación de 200 puntos menor (con un RD de 100) resulta en un aumento de 24 puntos, mientras que un jugador de 1500 que derrota a un oponente con calificación de 200 puntos por debajo experimentarían sólo un aumento de 20. Las curvas en el gráfico de la derecha para los jugadores de 2500 son "más planas" que las curvas en el gráfico de la derecha para los jugadores de 1500 Esto significa que, para los jugadores con mayor puntuación, los resultados decisivos pueden conducir a cambios de calificación más significativos.

Resumen

El sistema de clasificación revisado reconoce que las parejas de jugadores con mayor puntuación tienden a empatar. con más frecuencia que las parejas con menor evaluación, lo que resulta en cambios algo mayores para resultados decisivos para jugadores con evaluaciones más altas. Además, incorporar un RD como medida de la falta de fiabilidad de la evaluación beneficia a los jugadores de todos los ratings, lo que da como resultado evaluaciones más precisas que reflejan mejor el nivel de habilidad de un jugador. Para convertir al nuevo sistema de calificación, la ICCF utilizará calificaciones existentes de hace varios años como punto de partida. Cuando se inicie el nuevo sistema, el RD de un jugador será iniciado en función del número de partidas recientes completadas. Habrá más detalles sobre la implementación del nuevo sistema próximamente.

La calculadora que implementa las nuevas fórmulas de calificación está disponible en

https://ratingscalculator.azurewebsites.net/, que permite a los jugadores calcular sus propios cambios de calificación.