¿Son tan distintos los backtests en el diseño, los backtests sin sobreajuste y los datos históricos reales?

Leyendo las interesantísimas aportaciones de @agenjordi y @jvas en el hilo de Esfera III Adarve Altea (Esfera III Adarve Altea), a quienes reitero las gracias por compartir con nosotros posts que le hacen a uno reflexionar, me he decidido ha abrir este tema sobre algo a lo que hace tiempo que le doy vueltas.

Me gustaría preguntarles su opinión sobre una reflexión alrededor de la naturaleza, diferencias, semejanzas y utilidad de:

A) Backtests utilizados para diseñar una estrategia (sobreajustandola)

B) Backtests utilizados simplemente para compobar qué habría pasado, pero no usados como elemento principal a la hora de diseñar la estrategia. Según entiendo, este sería más o menos el caso de IW

C) Resultados históricos (de un fondo, estrategia, método o lo que sea)

Creo que gran parte de los miembros de este foro ponen en duda la utilidad de A. Estoy de acuerdo con dicha opinión. Quienes trabajamos con modelos a diario sabemos lo fácil que es diseñar una fórmula que obtenga un resultado óptimo a toro pasado. Dicha fórmula quizás consiga, por suerte o no, captar la señal (causas fundamentales) para repetir dichos resultados en el futuro. Pero, no nos engañemos, probablemente capte más ruido que señal y nuestros resultados futuros sean decepcionantes. Últimamente me pregunto si B y C son en realidad tan distintos (o incluso si son distintos en absoluto) a A.

Empecemos con B. Evidentemente, si yo creo una fórmula (pongamos que es mi primera fórmula, pero aunque no fuese así) y al “backtestearla” (B) consigo unos “resultados” (del backtest) espectaculares, tenderé a creer que está captando señal y no ruido. Al fin y al cabo, no he creado la fórmula iterando backtests y modificando parámetros, sin tener una razón fundamental para ello. Ha sido al revés, he escrito dicha fórmula basándome en cosas que creo que tienen sentido y, al ponerla a prueba, resulta que hubiese funcionado bien en el pasado. Ya sería mucha casualidad (es decir, sería poco probable) que hubiese acertado por chiripa. Pero, ¿lo sería?

Hombre, en cierto modo sí sería poco probable. Igual que sería muy poco probable que me tocase el premio gordo de la lotería. Pero… vaya… a alguien le toca. ¿Significa esto que el método para elegir el décimo ganador captaba la señal? En principio no. Y tampoco significa que la fórmula que he creado para invertir la capte. Ojo, quizás lo hace, pero también puede ser que simplemente capte ruido, como en el caso de A.

Si solamente se crease una fórmula en el mundo, entonces sí que sería poco probable acertar a la primera. Pero hay miles o millones de personas creando fórmulas por ahí. Algunas no captan ni ruido ni señal, algunas ruido, otras señal. No digo que fijarse en backtest del tipo B no sirva absolutamente de nada. Quizás nos ayude a descartar las fórmulas que no captan ni ruido ni señal. Pero cada vez me temo más que no sirve para discernir si capta señal o solo ruido. Al fin y al cabo, si se crean millones de fórmulas (y da un poco igual que las cree un mismo equipo o miles de personas dispersas por el mundo) alguna acertará porque ha captado señal y otras por ruido. ¿No creen?

Y, EMHO, estos argumentos puesen aplicarse también a C. Corríjanme si me equivoco, pero creo que los datos históricos reales no son más que una suerte de backtest diferido. Me explico. En el momento de creación de la fórmula, ”backtest” se refiere al pasado y ”resultados reales” al futuro. Pero si cojo hoy todas las fórmulas existentes y comparo resultados históricos reales, en realidad hoy estoy haciendo una suerte de backtest. ¿No creen?

Está claro que hay diferencias. B es probablemente más costoso que A, ya que no me limito a crear una fórmula que optimice el resultado al aplicarla a ciertos datos, sino que tengo que dedicar tiempo a pensar en los fundamentos y, a partir de ellos, escribir una fórmula que creo que tiene sentido y probarla a posteriori.

C es mucho más costoso que B. No so tengo que crear una fórmula con sentido en mi opinión. Además tengo que esperar años a que haya resultados reales para aplicar lo que he denominado “backtest diferido”. Esto me lleva a intuir que quizás sea más probable que dicha fórmula capte señal que en el caso anterior. Pero ¿creen que es esta probabilidad suficiente? Supongo que dependerá de la cantidad de fórmulas que se creen en el mundo. No deja de haber un sesgo de supervivencia y, está claro, las fórmulas que capten señal tenderán a sobrevivir. Pero también lo harán durante un tiempo las que capten ruido hayan acertado por suerte.

Insisto, no digo que fijarse en B y C no sirva de nada. Al menos, hacerlo con datos de un periodo suficiente nos tendría que servir, al menos, para descartar las fórmulas que ni captan señal ni tienen suerte. ¿No creen?

@agenjordi, @jvas y @arturop, me gustaría especialmente, si son tan amables, conocer su opinión al respecto. Pero también la del resto de miembros que tengan a bien participar, está claro.

14 Me gusta

Después de leer a Taleb creo que ni el A ni el B ni el C me darían un sueño reparador y el caso es que me gusta dormir bien.

No se equivoca, pero tampoco se equivoca si afirma estar analizando el pasado ‘tranquilo’ y eso es bastante previsible, no obstante donde uno menos se lo espera salta la liebre y ahí es donde falla todo, precisamente porque no se lo espera. Después se suele decir, nunca antes había ocurrido que…

5 Me gusta

A mí la facilidad que tienen los modelos de quitar el “White Noise” (El ruido blanco o sonido blanco que es una señal aleatoria que se caracteriza por el hecho de que sus valores de señal en dos tiempos diferentes no guardan correlación estadística) y hacer que luego el modelo sea explicable siempre me ha generado dolor de cabeza.

Luego si además intentamos según esos datos lanzar dichos modelos hacia el futuro (Económicamente hablando) imagen me ha parecido siempre una locura.

Si ya le añadimos a que cuando luego el modelo no se cumple o no funciona en el futuro, el econometra de turno dice como explicación “El modelo no recogía la información suficiente y no explicaba los datos”

Siempre en base a datos pasados intentar hacer una regresión me ha parecido complicadísimo.
Al final, estamos sesgados a la hora de utilizar los datos e introduciéndolos en el modelo dado que se asigna o se puede asignar más peso o no en datos más antiguos o más recientes.

También luego está el factor de elegir modelos con datos de larga duración o sesgar la información limitando el tiempo para intentar que a uno le cuadre más el asunto.


Cuando uno ve esto en una gráfica, se le encienden los ojos y cree haber encontrado el patrón y la explicación al asunto.
Pero es muy probable que al final las hipótesis o modelos que explicaron el pasado, no acabarán explicando el pasado o en su caso, el futuro.

Muchas gracias por el hilo, me parece un tema interesantísimo para debatir.

Probablemente y casi seguro que tengamos en este foro auténticos expertos en estos modelos que puedan ayudarme/ayudarnos a intentar comprender estos modelos mejor.

9 Me gusta

Soy de formación científica (y en parte deformación) así que los datos no me disgustan, al revés.

Se haya obtenido de las formas A,B o C que usted comenta. Otra cosa es la interpretación de estos datos, que veo complicada. Fíjese que su propia distinción entre A y B se complica a medida que uno vaya probando “distintas” posibilidades. Vamos que en teoría se ve fácil distinguir entre A y B pero en la práctica suele serlo bastante menos.

Luego también hay situaciones donde el hecho de probar algo a toro pasado nos da una perspectiva parcial de la situación. Si por ejemplo diseñamos una forma de actuar que compra de forma agresiva cuando el mercado cae mucho, al aplicarla en la práctica vamos a encontrarnos que tener esta convicción cuando llegue ese momento, va a ser bastante más complicado de lo que puede parecer a toro pasado.

Le voy a poner otro ejemplo sobre lo que usted comenta de la opción B. La mayoría de teorías económicas son capaces de interpretar los hechos ya pasados en el marco de su teoría sin necesidad de manipular los datos pasados ni de forzarlos en exceso. Teorías económicas que en algunos casos están en las antípodas. ¿como es posible?

Si uno mira sólo lo que dice una teoría concreta va a creer que no hay ni trampa ni cartón dado que esa teoría parece tener la capacidad de explicar razonablemente bien los hechos pasados. Sin embargo si intentamos hacer predicciones sobre hechos futuros, se complica muchísimo.

Si miramos otras teorías parecen tener también esa misma capacidad partiendo de unas premisas casi contrarias en algunos casos.
La clave está en como se interpretan los datos pasados. Esa mera interpretación produce gran cantidad de escenarios distintos a partir de en teoría los mismos datos.

10 Me gusta

El problema con cualquier modelo predictivo es que si uno no conoce el funcionamiento real-interno de un mecanismo que se trata de modelar, inferir su funcionamiento en base a resultados que podemos medir nos puede llevar a grandes sorpresas. Si medimos durante mucho tiempo el comportamiento de la naturaleza podemos inferir que el sol siempre nos iluminará hasta desaparecer por el oeste, no conocemos la rotación de los planetas, ni la gravedad, pero un día nos topamos con un eclipse y se nos va la cartera un -60%. Además como seres humanos no estamos realmente dotados de capacidad puramente objetiva por lo que no somos conscientes continuamente de qué está influyendo en nuestra decisión o con qué peso lo hace.

En el caso de la bolsa, conocer el funcionamiento real del mecanismo es muy complejo, por que se compone de muchos agentes diferenciados que en su suma componen, una especie de simbionte y mezcla/refleja los comportamientos/intereses de los miembros del mecanismo ( sociedades, gobiernos, inversores, empresas, etc … ). Estos agentes en cierta manera compiten y/o colaboran/coexisten entre ellos, dando lugar a patrones de todo tipo. Esto hace que sea tremendamente cambiante y que cosas como el mero hecho de obtener más conocimiento sobre su funcionamiento en base a resultados altere sus patrones respecto a su historia, por lo que para poder construir algo sólido deberíamos intentar buscar a más alto nivel que simplemente utilizar estadísticas ya conocidas aunque puedan servir de guía para hipótesis.

Respecto a lo que pregunta:
A) Me parece una estrategia correcta cuando se pueden predecir con cierta certidumbre las variables de un modelo que se quieren optimizar. Si encuentra una variable que piense que pueda mantenerse en el tiempo por que se comprende su funcionamiento intrínseco, go for it.
Ahora, el peligro de darle una explicación a posteriori es grande… Pretender conocer algo en base a la sombra proyectada en una caverna es arriesgado.
Se puede ver entre académicos que luchan por demostrar que tal o cual factor funciona por x razones o las ya tan famosas narrativas.
B) Entiendo que también existe la posibilidad de descubrir ideas en un backtest y después darle un margen de seguridad para intentar hacerlo más flexible, no lo veo diferente de A).
De hecho una persona que diseña una estrategia no se diferencia de A), esta persona prueba en su cabeza diferentes ideas y se queda con las mejores en base a X criterios, uno de esos criterios puede ser un backtest a posteriori que valide su hipótesis inicial. El problema, como se indica, es el peso que se le quiere dar a esa prueba y si es uno consciente de sus limitaciones.
C) Lo veo igual A = B = C, la estadística y la historia no dejan de ser una sombra en la caverna en el momento que entran en nuestra cabezas y empezamos a darles sentido a nuestro modo.

Ya no sé ni qué he escrito, ahí queda el ladrillo :sweat_smile:

12 Me gusta

Que post más interesante.

Y todavía es más sangrante cuando lo que se modela es el comportamiento humano.

El otro día tuve la suerte de descubrir que un buen amigo matemático trabaja en temas de bancos y Basilea. Según le entendí, la cosa viene a ser lo mismo que un backtesting de RV. Utilizar los datos históricos para construir un modelo exitoso (en el caso de bancos: gestión de riesgo, requerimientos de capital…).

Tuvimos una agradable conversación y mi tesis giró en torno a 2 problemas muy concretos y muy fáciles de ver: (1) la recursividad que se da en todos los modelos sociales (construir modelos basados en comportamiento humano pasado para guiar comportamiento humano futuro) y (2) que “los pedos huelen antes de manchar” y si neutralizas el olor te mancharás más a menudo.

El punto 2 no lo veo directamente aplicable a los backtesting de RV ya que tiene que ver con cómo una imposición regulatoria top-down podría modificar la distribución de probabilidades disminuyendo las de eventos un poco malos a costa de aumentar las de eventos catastróficos.

Pero el punto 1 creo que es determinante.

9 Me gusta

Mi observación iría en el sentido de que el hecho de pensar en ciertos parámetros para un modelo creo que lleva implícito el que el diseñador ya ha percibido la realidad (B). En este caso, hacer este tipo de backtest estaría en cierto modo probando sobre los mismos datos desde los que se ha conformado esta opinión en forma de modelo… Por eso yo no veo más alternativa que ir hacia adelante.

Respecto a lo que comenta en C pues el reto está entre distinguir, tras haber pasado el tiempo, si hemos observado “señal” o “suerte”. Evidentemente escoger entre los mejores tras haber visto los resultados es bastante peligroso porque caemos en la profecía que se cumple a sí misma. Diría en conclusión, y he de reconocer que soy un converso y que puedo sufrir un conflicto de interés, que es mucho más útil refinar el proceso si uno es diseñador o empaparse bien de él si uno es “cliente”. El proceso y el cambio que se detecte en el mismo es pues, al igual que la previsión que se haga de los flujos de caja futuros como única manera de hacer una valoración correctamente, la forma de intentar disponer las probabilidades, aunque sea sutilmente, a nuestro favor.

7 Me gusta

El C puede que sea imperfecto, pero es con lo único que podemos contar para avanzar. Seguramente los primeros acueductos tuvieron problemas estructurales (y hay evidencias de ello en los más antiguos) hasta que se ajustó y se dio con una solución que se veía que aguantaba y duraba muchos años. Eso no quita para que llegara una catástrofe no esperada, la gráfica de C se viniera abajo, y hubiera que redefinir lo que se creía no tenía fallos. Y vuelta a empezar intentando interpretar dónde se ha fallado y sacar las conclusiones para mejorar (ojo, una tarea dificilísima)

El problema lo veo en no ser modesto y asumir que todo a fin de cuentas no deja de ser provisional y tentativo. Y creer que la economía se puede reducir a fórmulas como la física, cuando ni siquiera es fácil refutar si sus teorías son válidas o no.

3 Me gusta

Al hilo del post de @DanGates Blogs, artículos y demás voy a poner algunos extractos interesantes que creo que se aplican en esta conversación.

Sometimes the whys don’t matter. One of the reasons Simons and his researchers have been successful is they didn’t come from an investing background.

So they didn’t care about how or why something worked, just that it did.

These trends and oddities sometimes happened so quickly that they were unnoticeable to most investors. They were so faint, the team took to calling them ghosts, yet they kept reappearing with enough frequency to be worthy additions to their mix of ideas. Simons had come around to the view that the whys didn’t matter, just that the trades worked.

By 1997, though, more than half of the trading signals Simons’s team was discovering were nonintuitive, or those they couldn’t fully understand.

Human behavior makes the market go round. Even after reading the book it’s still impossible to succinctly explain how Simons figured out how to mint money. But this was the best simplistic explanation from one of his researchers:

“What you’re really modeling is human behavior,” explains Penavic, the researcher. “Humans are most predictable in times of high stress — they act instinctively and panic. Our entire premise was that human actors will react the way humans did in the past…we learned to take advantage.”
:thinking::thinking::thinking:

6 Me gusta