El modelo de agregación de encuestas que utilizamos es un modelo bayesiano dinámico que utiliza resultados de los encuestadores en la contienda electoral de interés, así como su desempeño histórico en relación con los resultados oficiales de la elección.
En nuestro modelo, pretendemos estimar una preferencia latente del electorado, que es una especie de agregado de todas las estimaciones de las distintas casas encuestadoras, bajo el principio de que combinar la opinión de distintas fuentes produce típicamente estimaciones más confiables que si escogiéramos solamente una fuente.
Las casas encuestadoras buscan estimar la preferencia por el voto. Pero todas las metodologías tienen defectos. Los tres tipos de errores que consideramos son:
El resultado es que es más informativo ver el conjunto de encuestas de distintas casas que muchas encuestas de una casa, y que las encuestas con menor error muestral reportado son más informativas. Esto es una mejora en contraste con promedios simples, que tienden a dar más peso a las casas que publican más encuestas, o no toman en cuenta los tamaños de muestra de cada encuesta.
Nuestro modelo también considera que la preferencia es una cantidad que evoluciona en el tiempo. Esto implica que en un día dado, no sólo utilizamos las encuestas de ese día para hacer nuestra estimación y su tendencia, sino que también tomamos en cuenta encuestas recientes. Encuestas muy recientes tendrán más peso que encuestas menos recientes.
En contiendas que van mostrando ser muy dinámicas, sólo las encuestas más recientes se consideran en la estimación del nivel actual y la tendencia, y en contiendas más estables, podemos hacer promedios más largos para tener mejor precisión. Estos parámetros se estiman conforme vamos observando los datos.
Como nuestro modelo es dinámico, podemos hacer proyecciones al día de la elección. Producimos una gran cantidad de escenarios, en donde hay distintos choques futuros al nivel y la tendencia de los candidatos. La proporción de estos posibles escenarios donde un candidato particular gana, es la probabilidad de ganar la contienda.
Cuando estamos lejos de la fecha de la elección, puede ser que las probabilidades no indiquen a un ganador claro. Conforme nos vamos acercando a la fecha de la elección, puede suceder que un candidato se perfile más claramente como ganador con probabilidad alta, o que la competencia entre dos o tres candidatos sea más cerrada.
Es importante interpretar las probabilidades correctamente. Por ejemplo, supongamos que obtuviéramos el siguiente resultado: el candidato A tiene 85% de probabilidad de ganar, y el B tiene 15% de probabilidad. Esto no quiere decir que la elección está decidida por A: por ejemplo, tirar un seis con un dado tiene probabilidad de un poco más de 15%, y no es tan sorprendente tirar un seis en un dado. Por lo mismo, con estas probabilidades, no sería tan sorprendente que B terminara ganando la elección.
Aunque quisiéramos dar certeza días antes de la elección, esto en muchos casos simplemente no es posible, pero consideramos que estas probabilidades son sin embargo informativas y útiles.
Las líneas muestran las estimaciones de preferencia que agregan todas las encuestas, bajo nuestro modelo bayesiano. Cada línea tiene una banda de 90% que representa la incertidumbre en esta estimación.
Nuestro modelo corre en la plataforma Stan para modelación y cómputo estadístico.
El power ranking es un modelo dinámico bayesiano para jerarquizar las preferencias sobre los posibles candidatos a la presidencia de México (“presidenciables”), a la jefatura de Gobierno de la Ciudad de México, así como a las gubernaturas de los ocho estados (“aspirantes”) que tendrán elecciones en 2024 (Chiapas, Guanajuato, Jalisco, Morelos, Puebla, Tabasco, Veracruz y Yucatán).
El objetivo es utilizar un gran número de encuestas de careos o enfrentamientos entre presidenciables/aspirantes para dar un ordenamiento completo de las preferencias de los personajes en distintos momentos del tiempo, ajustando de la mejor manera posible los resultados observados.
En deportes como ajedrez, fútbol americano, baloncesto, entre muchos otros, son populares índices para medir el desempeño de equipos o jugadores. Estos índices de desempeño buscan reflejar el posible resultado de un enfrentamiento cara cara entre cada par de posibles jugadores o equipos, aún cuando estos dos jugadores nunca se hayan enfrentado.
Esa es la idea detrás de nuestro modelo, produce un índice que nos da un ordenamiento completo de los presidenciables/aspirantes, reflejando las preferencias de encuestas realizadas e hipotéticas. Su validación no puede hacerse con datos “finales” (como en votaciones presidenciales o de gubernaturas), de modo que nuestra estrategia de validación es un proceso donde eliminamos algunas encuestas de los datos, ajustamos el modelo, y vemos si nuestro índice puede deducir con suficiente precisión el resultado de esos enfrentamientos no incluidos.
Nuestro modelo busca predecir estos enfrentamientos con los márgenes de error propios de las encuestas incluidas. Los tipos de errores que consideramos son:
Nuestro modelo también considera que las preferencias son cantidades que evolucionan en el tiempo. Esto se incorpora de dos formas (calibradas según el proceso de validación mencionado arriba):
Con esto, el Power Ranking de los candidatos incorpora distintas facetas del interés público por los personajes presidenciables y por los aspirantes a la jefatura de Gobierno de la Ciudad de México.
Nuestro modelo corre en la plataforma Stan para modelación y cómputo estadístico.