Facebook Pixel

LOS LÍDERES DE LA POLÍTICA

MODELO POLLS.MX DE AGREGACIÓN DE ENCUESTAS

El modelo de agregación de encuestas que utilizamos es un modelo bayesiano dinámico que utiliza resultados de los encuestadores en la contienda electoral de interés, así como su desempeño histórico en relación con los resultados oficiales de la elección.

Preferencias y encuestas

En nuestro modelo, pretendemos estimar una preferencia latente del electorado, que es una especie de agregado de todas las estimaciones de las distintas casas encuestadoras, bajo el principio de que combinar la opinión de distintas fuentes produce típicamente estimaciones más confiables que si escogiéramos solamente una fuente.

Las casas encuestadoras buscan estimar la preferencia por el voto. Pero todas las metodologías tienen defectos. Los tres tipos de errores que consideramos son:

  • Puede ser que una casa encuestadora particular consistentemente sobreestime o subestime a algún candidato (por la población que se alcanza con esa metodología, o por la formulación de la pregunta de intención de voto). Las casas encuestadoras hacen todo lo posible por reducir este tipo de errores, pero dichos errores pueden ser considerablemente grandes, dependiendo de la metodología y la votación particular.
  • Puede ser que todos los encuestadores en conjunto presenten también errores comunes: por ejemplo, cuando cierto tipo de votante es difícilmente alcanzado por todas las metodologías. Este error tiende a ser menos grande, gracias a los distintos puntos de vista y metodologías que aporta cada casa encuestadora.
  • Adicional a los efectos discutidos arriba, está el error muestral, que también debemos tomar en cuenta para decidir qué tan informativa de la preferencia es cada encuesta, y proviene del hecho de que las encuestas pueden variar de muestra a muestra de personas.

El resultado es que es más informativo ver el conjunto de encuestas de distintas casas que muchas encuestas de una casa, y que las encuestas con menor error muestral reportado son más informativas. Esto es una mejora en contraste con promedios simples, que tienden a dar más peso a las casas que publican más encuestas, o no toman en cuenta los tamaños de muestra de cada encuesta.

Preferencia en el tiempo

Nuestro modelo también considera que la preferencia es una cantidad que evoluciona en el tiempo. Esto implica que en un día dado, no sólo utilizamos las encuestas de ese día para hacer nuestra estimación y su tendencia, sino que también tomamos en cuenta encuestas recientes. Encuestas muy recientes tendrán más peso que encuestas menos recientes.

En contiendas que van mostrando ser muy dinámicas, sólo las encuestas más recientes se consideran en la estimación del nivel actual y la tendencia, y en contiendas más estables, podemos hacer promedios más largos para tener mejor precisión. Estos parámetros se estiman conforme vamos observando los datos.

Probabilidad de ganadores

Como nuestro modelo es dinámico, podemos hacer proyecciones al día de la elección. Producimos una gran cantidad de escenarios, en donde hay distintos choques futuros al nivel y la tendencia de los candidatos. La proporción de estos posibles escenarios donde un candidato particular gana, es la probabilidad de ganar la contienda.

Cuando estamos lejos de la fecha de la elección, puede ser que las probabilidades no indiquen a un ganador claro. Conforme nos vamos acercando a la fecha de la elección, puede suceder que un candidato se perfile más claramente como ganador con probabilidad alta, o que la competencia entre dos o tres candidatos sea más cerrada.

Es importante interpretar las probabilidades correctamente. Por ejemplo, supongamos que obtuviéramos el siguiente resultado: el candidato A tiene 85% de probabilidad de ganar, y el B tiene 15% de probabilidad. Esto no quiere decir que la elección está decidida por A: por ejemplo, tirar un seis con un dado tiene probabilidad de un poco más de 15%, y no es tan sorprendente tirar un seis en un dado. Por lo mismo, con estas probabilidades, no sería tan sorprendente que B terminara ganando la elección.

Aunque quisiéramos dar certeza días antes de la elección, esto en muchos casos simplemente no es posible, pero consideramos que estas probabilidades son sin embargo informativas y útiles.

Resumen Corto (gráfica de preferencias)

Las líneas muestran las estimaciones de preferencia que agregan todas las encuestas, bajo nuestro modelo bayesiano. Cada línea tiene una banda de 90% que representa la incertidumbre en esta estimación.

Implementación y referencias

Nuestro modelo corre en la plataforma Stan para modelación y cómputo estadístico.

  1. Heidemanns, M., Gelman, A., & Morris, G. E. (2020). An Updated Dynamic Bayesian Forecasting Model for the US Presidential Election. Harvard Data Science Review, 2(4). https://doi.org/10.1162/99608f92.fc62f1e1
  2. Gschwend, T., Müller, K., Munzert, S., Neunhoeffer, M., & Stoetzer, L. (2022). The Zweitstimme Model: A Dynamic Forecast of the 2021 German Federal Election. PS:
  3. Political Science & Politics, 55(1), 85-90. doi:10.1017/S1049096521000913 Stan Development Team. 2021. Stan Modeling Language Users Guide and Reference Manual. https://mc-stan.org

MODELO POLLS.MX DE POWER RANKING

El power ranking es un modelo dinámico bayesiano para jerarquizar las preferencias sobre los posibles candidatos a la presidencia de México (“presidenciables”), a la jefatura de Gobierno de la Ciudad de México, así como a las gubernaturas de los ocho estados (“aspirantes”) que tendrán elecciones en 2024 (Chiapas, Guanajuato, Jalisco, Morelos, Puebla, Tabasco, Veracruz y Yucatán).

El objetivo es utilizar un gran número de encuestas de careos o enfrentamientos entre presidenciables/aspirantes para dar un ordenamiento completo de las preferencias de los personajes en distintos momentos del tiempo, ajustando de la mejor manera posible los resultados observados.

Power Ranking de Presidenciables y Power Ranking de la Ciudad de México, Chiapas, Guanajuato, Jalisco, Morelos, Puebla, Tabasco, Veracruz y Yucatán

En deportes como ajedrez, fútbol americano, baloncesto, entre muchos otros, son populares índices para medir el desempeño de equipos o jugadores. Estos índices de desempeño buscan reflejar el posible resultado de un enfrentamiento cara cara entre cada par de posibles jugadores o equipos, aún cuando estos dos jugadores nunca se hayan enfrentado.

Esa es la idea detrás de nuestro modelo, produce un índice que nos da un ordenamiento completo de los presidenciables/aspirantes, reflejando las preferencias de encuestas realizadas e hipotéticas. Su validación no puede hacerse con datos “finales” (como en votaciones presidenciales o de gubernaturas), de modo que nuestra estrategia de validación es un proceso donde eliminamos algunas encuestas de los datos, ajustamos el modelo, y vemos si nuestro índice puede deducir con suficiente precisión el resultado de esos enfrentamientos no incluidos.

Nuestro modelo busca predecir estos enfrentamientos con los márgenes de error propios de las encuestas incluidas. Los tipos de errores que consideramos son:

  • Puede ser que una casa encuestadora particular consistentemente sobreestime o subestime a algún candidato (por la población que se alcanza con esa metodología, o por la formulación de la pregunta de preferencia). Las casas encuestadoras hacen todo lo posible por reducir este tipo de errores, pero dichos errores pueden ser considerablemente grandes.
  • Puede ser que todos los encuestadores en conjunto presenten también errores comunes: por ejemplo, cuando cierto tipo de votante es difícilmente alcanzado por todas las metodologías. Este error tiende a ser menos grande, gracias a los distintos puntos de vista y metodologías que aporta cada casa encuestadora.
  • Adicional a los efectos discutidos arriba, está el error no sistemático, que también debemos tomar en cuenta para decidir qué tan informativa de la preferencia es cada encuesta, y proviene del hecho de que las encuestas pueden variar de muestra a muestra de personas o tener sesgos propios por su ejecución.

Ranking en el tiempo

Nuestro modelo también considera que las preferencias son cantidades que evolucionan en el tiempo. Esto se incorpora de dos formas (calibradas según el proceso de validación mencionado arriba):

  • Componente de suavizamiento bayesiano: en un día dado, no sólo utilizamos las encuestas de ese día para hacer nuestra estimación y su tendencia, sino que también tomamos en cuenta encuestas recientes. Encuestas muy recientes tendrán más peso que encuestas menos recientes.
  • Componente autorregresiva: Candidatos que son ignorados por las encuestas por periodos largos son penalizados en su preferencia. Candidatos con mayores mediciones reciben menos penalización en el tiempo.

Con esto, el Power Ranking de los candidatos incorpora distintas facetas del interés público por los personajes presidenciables y por los aspirantes a la jefatura de Gobierno de la Ciudad de México.

Implementación y referencias

Nuestro modelo corre en la plataforma Stan para modelación y cómputo estadístico.

  1. Krese B, Štrumbelj E (2021) A Bayesian approach to time-varying latent strengths in pairwise comparisons. PLoS ONE 16(5): e0251945. https://doi.org/10.1371/journal.pone.0251945
  2. Knorr-Held, Leonhard. “Dynamic Rating of Sports Teams.” Journal of the Royal Statistical Society. Series D (The Statistician), vol. 49, no. 2, 2000, pp. 261–76. JSTOR,
  3. Stan Development Team. 2021. Stan Modeling Language Users Guide and Reference Manual. https://mc-stan.org