28 de abril de 2024

Fingindo um modelo logarítmico de crescimento de preços de Bitcoin

Nem o cachorro nem a estrada - apenas um bêbado.

Breve revisão

Este artigo é dedicado a explorar a questão de saber seexiste alguma relação entrehora e preço do bitcoin. Verificaremos o modelo logarítmico duplo [aqui: 1, 2, 3] proposto para confiabilidade estatística usando o método dos mínimos quadrados, bem como para estacionariedade em relação a cada variável e possíveis dependências falsas, usando o método Angle - Granger para análise de cointegração. Os resultados de todos os testes, exceto um, refutam a hipótese de que o tempo pode ser um importante preditor do preço do bitcoin.

1. Introdução

Preço do log do modelo ~ tempo do log (aka modelo de crescimento logarítmico) foi proposto por vários autores [1, 2, 3] para explicar uma parte significativa dos movimentos de preços do Bitcoin no passado e, como resultado, para prever preços futuros.

O método científico é difícil de entendera maioria das pessoas. É contra-intuitivo. Isto pode levar a conclusões que não refletem crenças pessoais. Para compreender este método é necessário compreender e aceitar a sua ideia fundamental:cometer erros normalmente.

De acordo com o grande filósofo da ciência KarlPopper, testar uma hipótese para sua falácia é a única maneira confiável de acrescentar peso ao argumento de que é verdade. Se testes múltiplos rigorosos não puderem provar que a hipótese é incorreta, em cada um desses testes a probabilidade de ser verdadeira aumenta. Esse conceito é chamado de falsificabilidade (ou potencial reprovação) da hipótese. Neste artigo, tentarei falsificar o modelo do crescimento logarítmico do preço do bitcoin na forma como foi formulado nas três fontes indicadas acima: 1, 2, 3.

Notas:

  • Para todas as análises, foi utilizado o software Stata 14.
  • O artigo não contém recomendações financeiras.

Definição do problema

Para falsificar uma hipótese, primeiro você precisa estabelecer exatamente o que consiste:

Hipótese Zero (H0): O preço do Bitcoin é uma função do número de dias que o Bitcoin existe.

Hipótese Alternativa (H1): Preço do Bitcoinnãoé uma função do número de dias de existência do Bitcoin.

Os autores das fontes acima decidiram verificarH0 selecionando a regressão de mínimos quadrados ordinários (OLS) para o logaritmo natural do preço do Bitcoin e o logaritmo natural do número de dias da existência do Bitcoin. Nenhum dos autores forneceu nenhum diagnóstico concomitante ou qualquer motivo específico para a transformação logarítmica de ambas as variáveis. O modelo não levou em consideração a possibilidade de estabelecer uma falsa dependência devido à não estacionariedade, a possibilidade de interação ou outros fatores de distorção.

Método

No artigo de hoje, veremos esse modelo,diagnosticaremos a regressão normal e determinaremos se a transformação do logaritmo foi necessária ou apropriada (ou ambas) e também examinaremos possíveis fatores de distorção (fatores de confusão), interações e a sensibilidade do modelo a distorções.

Outra questão que estamos investigando éproblema não estacionário. A estacionariedade (invariância no tempo) é um pré-requisito para a maioria dos modelos estatísticos. Isso se refere à ideia de que, se uma tendência relativa ao tempo estiver ausente nos valores médios (ou variância), ela estará ausente a qualquer momento.

Além da análise de estacionariedade, também estamos explorando a possibilidade de cointegração.

Legend

Tradicionalmente, o valor calculado de um parâmetro estatístico é indicado por um «cap» acima do símbolo. Aqui usaremos [ ], ou seja, valor calculadoβ= [β].Representaremos a matriz 2×2 como [r1c1, r1c2 r2c1, r2c2], etc. Para denotar elementos indexados, usaremos o símbolo @ — por exemplo, para a 10ª posição em um vetor X, normalmente usaríamos X com o subscrito 10. Em vez disso, escreveremos X@10.

Mínimos quadrados comuns

A regressão regular de mínimos quadrados é um método para encontrar uma relação linear entre duas ou mais variáveis.

Primeiro, vamos definir um modelo linear como alguma função X, que é igual a Y com algum erro.

Y = βX + ε

onde Y é a variável dependente, X é a variável independente,εé a magnitude do erro, eβ– multiplicadorX. O trabalho do OLS é gerar o valorβde modo a minimizarε.

Para obter um valor calculado confiável [β], é necessário observar algumas condições básicas (conhecidas como condições para o Teorema de Gauss - Markov):

  1. A presença de uma relação linear entre variáveis ​​dependentes e independentes
  2. Homocedasticidade (ou seja, dispersão constante) de erros
  3. O valor médio da distribuição de erro é geralmente zero
  4. Falta de autocorrelação de erros (ou seja, eles não se correlacionam com a sequência de erros cometidos com uma mudança de horário)

Linearidade

Começamos analisando a relação entre o preço e o número de dias que não foram convertidos em um diagrama de dispersão (dados da Coinmetrics).

Fig. 1 - A proporção do preço para o número de dias. Os dados estão espalhados demais para determinar visualmente a linearidade.

A Figura 1 mostra claramente uma razão suficiente paratomando o logaritmo do preço: o intervalo de valores é muito grande. Ao pegar o logaritmo do preço (mas não o número de dias) e re-plotar o gráfico, obtemos um padrão familiar (Figura 2).

Fig. 2 - A proporção do logaritmo do preço para o número de dias. Existe um padrão logarítmico distinto.

Tomando o logaritmo do número de dias e plotando um gráfico já com ele, obtemos um padrão linear óbvio identificado pelos autores de nossas três fontes (veja o início do artigo) na Figura 3.

Fig. 3 - surge uma relação linear óbvia.

Isso confirma a escolha correta do logaritmo duplo como a única opção que resulta em um relacionamento linear bem visível.

Fig. Transformações de raiz quadrada de 4 não oferecem resultados muito melhores do que dados não transformados

Assim, a análise preliminar não refuta H0.

Os resultados da regressão logarítmica dupla são mostrados na Figura 5 abaixo, onde [β] =5,8.

Figura 5 - Resultados para uma regressão logarítmica dupla.

Usando esse modelo, agora podemos determinar os resíduos [ε] e valores calculados [Y] e também verifique a conformidade com outras condições.

Homoskedasticity

Se a condição de dispersão constante emQuanto à magnitude do erro (ou seja, homocedasticidade), o erro para cada valor do custo previsto flutua aleatoriamente em torno de zero. Portanto, o gráfico da relação entre o valor residual e o valor estimado (Fig. 6) é uma forma simples, mas eficaz de verificar graficamente o cumprimento desta condição. Na Figura 6, vemos um padrão claramente definido em vez de uma dispersão aleatória, indicando que a variação na magnitude do erro é inconsistente (ou seja, heterocedasticidade).

Fig. 6 (a) é um gráfico da razão entre o valor residual e o estimado. A presença de um padrão aqui indica um problema provável.

A consequência dessa heterocedasticidade é uma maior dispersão e, consequentemente, uma menor precisão dos valores calculados dos coeficientes [β] Além disso, leva a maior do que deveria ser, a significância dos valores de p, uma vez que o método OLS não revela aumento da variância. Portanto, para calcular os valores t e F, usamos um valor de dispersão subestimado, levando a uma significância maior. Também afeta o intervalo de confiança de 95% para [β], que também é uma função da variação (através de erro padrão).

Os resultados do teste de autocorrelação de Broch - Godfrey também indicam a presença desse problema.

Fig. 6 (b) - Autocorrelação em resíduos

Geralmente vale a pena parar nesta fase eesclareça o modelo. No entanto, considerando que sabemos o efeito desses problemas, será relativamente seguro continuar com uma regressão entendendo que esses problemas existem. Existem maneiras de lidar com eles (pelo menos na sua forma mais leve) - por exemplo, coletando amostras de bootstrap ou uma estimativa de dispersão robusta.

Fig. 7 - O efeito da heterocedasticidade em várias avaliações.

Como pode ser visto na Figura 7, apesar de um pequenoum aumento na variância (ver intervalo de confiança estendido), em geral, a presente heterocedasticidade na realidade não tem muito efeito prejudicial.

Distribuição de erro normal

Satisfação da condição de que o erro nodistribuído com um valor médio de zero não é tão importante quanto satisfazer as condições de linearidade ou homocedasticidade. Se os resíduos não corresponderem à distribuição normal, mas não forem distorcidos, os intervalos de confiança serão excessivamente otimistas. Se os resíduos forem distorcidos, o resultado final poderá ser distorcido. Como pode ser visto nas Figuras 8 e 9, os resíduos são altamente distorcidos. O teste de normalidade pelo critério Shapiro-Wilk fornece um valor p igual a 0. Eles não correspondem à curva normal o suficiente para que os intervalos de confiança não sejam afetados.

Fig. 8 - Histograma do erro com a curva de distribuição normal (verde) sobreposta. O erro deve ser normal, mas não é.

Fig. 9 é um gráfico com quantis normais do valor do erro. Quanto mais próximos os pontos da linha, melhor o ajuste normal.

Alavancagem

Alavancagem é um conceito que nem todosos pontos de dados em regressão contribuem igualmente para a estimativa dos coeficientes. Alguns pontos com alta alavancagem podem alterar significativamente o coeficiente, dependendo de estarem presentes ou não. Na Figura 10, é claramente visto que existem muitos pontos questionáveis ​​(acima do saldo médio e acima da alavancagem média).

Fig. 10 - Alavancagem e remanescentes quadrados.

Resumo do OLS

O diagnóstico básico indica uma violação de quase todas as condições de Gauss-Markov, com exceção da linearidade. Esta é uma prova bastante forte da insolvência do H0.

Stationarity

Um processo com ordem total igual a 0 é chamado estacionário.(por exemplo, eu(0)). Um processo não estacionário é I(1) ou mais. Calcular uma integral neste contexto é mais uma soma de diferenças com uma mudança de tempo. I(1) significa que subtrair o primeiro atraso de cada valor da série resulta em um processo I(0). É bem sabido que a regressão em séries temporais não estacionárias pode levar à identificação de relações espúrias.

As figuras 12 e 13 abaixo mostram que não podemosrefutar a hipótese nula do teste estendido de Dickey-Fuller (ADF). A hipótese nula do teste ADF é que os dados não são estacionários. Isso significa que não podemos dizer que os dados são estacionários.

</p>

Figuras 11 e 12 - Teste avançado de Dickey-Fuller para uma raiz unitária do logaritmo do preço e do logaritmo do número de dias.

O teste Kwiatkowski-Phillips-Schmidt-Shin (KPSS) é um teste complementar de estacionariedade aos testes ADF. A hipótese nula do KPSS é queos dados são estacionários.Como pode ser visto nas Figuras 13 e 14, podemos refutar a estacionariedade para a maioria dos atrasos nas duas variáveis.

</p>

Fig. 13 e 14 - Teste KPSS contra a hipótese nula de estacionariedade

Os testes KPSS provam que essas duas séries, foratodas as dúvidas são instáveis. E isso, em geral, é um problema. Se a série não for estacionária, pelo menos em relação à tendência, o método OLS poderá identificar dependências falsas. A única coisa que poderíamos fazer era pegar a diferença entre o logaritmo e o valor diário de cada variável e reconstruir nossos mínimos quadrados. No entanto, devido ao fato de essa questão ser bastante difundida nos círculos econométricos, temos uma estrutura muito mais confiável chamada cointegração.

Cointegração

Cointegração é uma maneira de lidar com um casal(ou mais) processa I (1) e determina se existe uma relação entre eles e em que consiste. Para ilustrar a cointegração, um exemplo simplificado de um bêbado e seu cachorro é frequentemente dado. Imagine um homem bêbado indo para casa, passeando com um cachorro na coleira. Um bêbado oscila de maneira imprevisível ao longo de toda a largura da estrada. O cachorro também está se mexendo bastante bagunçado: farejando árvores, latindo, cavando algo com as patas - um cachorrinho tão inquieto. No entanto, a amplitude de movimento do cão será limitada pelo comprimento da trela mantida pelo bêbado. Ou seja, pode-se argumentar que, em qualquer ponto da rota do bêbado, o cão estará a uma distância da trela dele. (É claro que não podemos prever em que direção o bêbado ela estará a cada momento, mas ela estará dentro da trela.) Essa é uma metáfora muito simplificada para a cointegração - o cachorro e seu dono se movem juntos.

Compare isso com a correlação: digamos que um cão vadio segue o cão de um bêbado ao longo de 95% do caminho e depois foge com um latido do outro lado atrás de um carro que passava. A correlação entre as rotas de um cão vadio e um bêbado seria muito forte (literalmente R²: 95%), no entanto, como muitas conexões aleatórias de um bêbado, essa relação não significaria nada - não pode ser usada para prever a localização de um bêbado, pois para alguns Um fragmento do caminho, a previsão com base nesses dados estará correta, mas para algumas partes será completamente imprecisa.

Para encontrar a localização de um bêbado, primeiro precisamos entender qual especificação de ordem de atraso deve ser usada em nosso modelo.

Fig. 15 é uma especificação de uma ordem de atraso. O valor mínimo do AIC usado para determinar.

Aqui, determinamos a ordem de atraso mais adequada para o estudo, escolhendo o valor mínimo de AIC da ordem 6.

Em seguida, precisamos determinar a disponibilidaderelação de cointegração. Com o método Angle - Granger simples (consulte as fontes no final do artigo original), isso é relativamente fácil. Se as estatísticas negativas do teste excederem os valores críticos, haverá uma relação de cointegração.

Fig. 16 - Estatísticas do teste e próximas a não inferiores a qualquer valor crítico.

Os resultados da Figura 16 não dão motivos para dizer que entre o logaritmo do preço e o logaritmo do número de dias há uma equação de cointegração.

Limitações

Neste estudo não levamos em consideração nenhumfatores de distorção (confundidores). Dadas as evidências acima, é extremamente improvável que quaisquer fatores de confusão possam ter um impacto significativo na nossa conclusão - podemos rejeitar H0. Pode-se argumentar quenão há conexão entre o logaritmo do número de dias e o logaritmo do preço do bitcoin. Se houvesse tal conexão, teria que haver uma relação de cointegração.

Conclusão

A violação de todas as condições de Gauss-Markov para regressão linear real, exceto uma, juntamente com a não estacionariedade de ambas as variáveis, fornece evidência suficiente pararefutaçõesH0, portanto,não há relação linear real entre o logaritmo de preço e o logaritmo do número de dias, e esse relacionamento não pode ser usado para prever valores de preços fora da amostra.

&nbsp;

</p>