Fingindo um modelo logarítmico de crescimento de preços de Bitcoin

Nem o cachorro nem a estrada - apenas um bêbado.

Breve revisão

Este artigo é dedicado a explorar a questão de saber seexiste alguma relação entrehora e preço do bitcoin. Verificaremos o modelo logarítmico duplo [aqui: 1, 2, 3] proposto para confiabilidade estatística usando o método dos mínimos quadrados, bem como para estacionariedade em relação a cada variável e possíveis dependências falsas, usando o método Angle - Granger para análise de cointegração. Os resultados de todos os testes, exceto um, refutam a hipótese de que o tempo pode ser um importante preditor do preço do bitcoin.

1. Introdução

Preço do log do modelo ~ tempo do log (aka modelo de crescimento logarítmico) foi proposto por vários autores [1, 2, 3] para explicar uma parte significativa dos movimentos de preços do Bitcoin no passado e, como resultado, para prever preços futuros.

O método científico é difícil de entendera maioria das pessoas. É contra-intuitivo. Isto pode levar a conclusões que não refletem crenças pessoais. Para compreender este método é necessário compreender e aceitar a sua ideia fundamental:cometer erros normalmente.

De acordo com o grande filósofo da ciência KarlPopper, testar uma hipótese para sua falácia é a única maneira confiável de acrescentar peso ao argumento de que é verdade. Se testes múltiplos rigorosos não puderem provar que a hipótese é incorreta, em cada um desses testes a probabilidade de ser verdadeira aumenta. Esse conceito é chamado de falsificabilidade (ou potencial reprovação) da hipótese. Neste artigo, tentarei falsificar o modelo do crescimento logarítmico do preço do bitcoin na forma como foi formulado nas três fontes indicadas acima: 1, 2, 3.

Notas:

Para todas as análises, foi utilizado o software Stata 14.
O artigo não contém recomendações financeiras.

Definição do problema

Para falsificar uma hipótese, primeiro você precisa estabelecer exatamente o que consiste:

Hipótese Zero (H0): O preço do Bitcoin é uma função do número de dias que o Bitcoin existe.

Hipótese Alternativa (H1): Preço do Bitcoinnãoé uma função do número de dias de existência do Bitcoin.

Os autores das fontes acima decidiram verificarH0 selecionando a regressão de mínimos quadrados ordinários (OLS) para o logaritmo natural do preço do Bitcoin e o logaritmo natural do número de dias da existência do Bitcoin. Nenhum dos autores forneceu nenhum diagnóstico concomitante ou qualquer motivo específico para a transformação logarítmica de ambas as variáveis. O modelo não levou em consideração a possibilidade de estabelecer uma falsa dependência devido à não estacionariedade, a possibilidade de interação ou outros fatores de distorção.

Método

No artigo de hoje, veremos esse modelo,diagnosticaremos a regressão normal e determinaremos se a transformação do logaritmo foi necessária ou apropriada (ou ambas) e também examinaremos possíveis fatores de distorção (fatores de confusão), interações e a sensibilidade do modelo a distorções.

Outra questão que estamos investigando éproblema não estacionário. A estacionariedade (invariância no tempo) é um pré-requisito para a maioria dos modelos estatísticos. Isso se refere à ideia de que, se uma tendência relativa ao tempo estiver ausente nos valores médios (ou variância), ela estará ausente a qualquer momento.

Além da análise de estacionariedade, também estamos explorando a possibilidade de cointegração.

Legend

Tradicionalmente, o valor calculado de um parâmetro estatístico é indicado por um «cap» acima do símbolo. Aqui usaremos [ ], ou seja, valor calculadoβ= [β].Representaremos a matriz 2×2 como [r1c1, r1c2 r2c1, r2c2], etc. Para denotar elementos indexados, usaremos o símbolo @ — por exemplo, para a 10ª posição em um vetor X, normalmente usaríamos X com o subscrito 10. Em vez disso, escreveremos X@10.

Mínimos quadrados comuns

A regressão regular de mínimos quadrados é um método para encontrar uma relação linear entre duas ou mais variáveis.

Primeiro, vamos definir um modelo linear como alguma função X, que é igual a Y com algum erro.

Y = βX + ε

onde Y é a variável dependente, X é a variável independente,εé a magnitude do erro, eβ– multiplicadorX. O trabalho do OLS é gerar o valorβde modo a minimizarε.

Para obter um valor calculado confiável [β], é necessário observar algumas condições básicas (conhecidas como condições para o Teorema de Gauss - Markov):

A presença de uma relação linear entre variáveis dependentes e independentes
Homocedasticidade (ou seja, dispersão constante) de erros
O valor médio da distribuição de erro é geralmente zero
Falta de autocorrelação de erros (ou seja, eles não se correlacionam com a sequência de erros cometidos com uma mudança de horário)

Linearidade

Começamos analisando a relação entre o preço e o número de dias que não foram convertidos em um diagrama de dispersão (dados da Coinmetrics).

A Figura 1 mostra claramente uma razão suficiente paratomando o logaritmo do preço: o intervalo de valores é muito grande. Ao pegar o logaritmo do preço (mas não o número de dias) e re-plotar o gráfico, obtemos um padrão familiar (Figura 2).

Tomando o logaritmo do número de dias e plotando um gráfico já com ele, obtemos um padrão linear óbvio identificado pelos autores de nossas três fontes (veja o início do artigo) na Figura 3.

Isso confirma a escolha correta do logaritmo duplo como a única opção que resulta em um relacionamento linear bem visível.

Assim, a análise preliminar não refuta H0.

Os resultados da regressão logarítmica dupla são mostrados na Figura 5 abaixo, onde [β] =5,8.

Usando esse modelo, agora podemos determinar os resíduos [ε] e valores calculados [Y] e também verifique a conformidade com outras condições.

Homoskedasticity

Se a condição de dispersão constante emQuanto à magnitude do erro (ou seja, homocedasticidade), o erro para cada valor do custo previsto flutua aleatoriamente em torno de zero. Portanto, o gráfico da relação entre o valor residual e o valor estimado (Fig. 6) é uma forma simples, mas eficaz de verificar graficamente o cumprimento desta condição. Na Figura 6, vemos um padrão claramente definido em vez de uma dispersão aleatória, indicando que a variação na magnitude do erro é inconsistente (ou seja, heterocedasticidade).

A consequência dessa heterocedasticidade é uma maior dispersão e, consequentemente, uma menor precisão dos valores calculados dos coeficientes [β] Além disso, leva a maior do que deveria ser, a significância dos valores de p, uma vez que o método OLS não revela aumento da variância. Portanto, para calcular os valores t e F, usamos um valor de dispersão subestimado, levando a uma significância maior. Também afeta o intervalo de confiança de 95% para [β], que também é uma função da variação (através de erro padrão).

Os resultados do teste de autocorrelação de Broch - Godfrey também indicam a presença desse problema.

Geralmente vale a pena parar nesta fase eesclareça o modelo. No entanto, considerando que sabemos o efeito desses problemas, será relativamente seguro continuar com uma regressão entendendo que esses problemas existem. Existem maneiras de lidar com eles (pelo menos na sua forma mais leve) - por exemplo, coletando amostras de bootstrap ou uma estimativa de dispersão robusta.

Como pode ser visto na Figura 7, apesar de um pequenoum aumento na variância (ver intervalo de confiança estendido), em geral, a presente heterocedasticidade na realidade não tem muito efeito prejudicial.

Distribuição de erro normal

Satisfação da condição de que o erro nodistribuído com um valor médio de zero não é tão importante quanto satisfazer as condições de linearidade ou homocedasticidade. Se os resíduos não corresponderem à distribuição normal, mas não forem distorcidos, os intervalos de confiança serão excessivamente otimistas. Se os resíduos forem distorcidos, o resultado final poderá ser distorcido. Como pode ser visto nas Figuras 8 e 9, os resíduos são altamente distorcidos. O teste de normalidade pelo critério Shapiro-Wilk fornece um valor p igual a 0. Eles não correspondem à curva normal o suficiente para que os intervalos de confiança não sejam afetados.

Alavancagem

Alavancagem é um conceito que nem todosos pontos de dados em regressão contribuem igualmente para a estimativa dos coeficientes. Alguns pontos com alta alavancagem podem alterar significativamente o coeficiente, dependendo de estarem presentes ou não. Na Figura 10, é claramente visto que existem muitos pontos questionáveis (acima do saldo médio e acima da alavancagem média).

Resumo do OLS

O diagnóstico básico indica uma violação de quase todas as condições de Gauss-Markov, com exceção da linearidade. Esta é uma prova bastante forte da insolvência do H0.

Stationarity

Um processo com ordem total igual a 0 é chamado estacionário.(por exemplo, eu(0)). Um processo não estacionário é I(1) ou mais. Calcular uma integral neste contexto é mais uma soma de diferenças com uma mudança de tempo. I(1) significa que subtrair o primeiro atraso de cada valor da série resulta em um processo I(0). É bem sabido que a regressão em séries temporais não estacionárias pode levar à identificação de relações espúrias.

As figuras 12 e 13 abaixo mostram que não podemosrefutar a hipótese nula do teste estendido de Dickey-Fuller (ADF). A hipótese nula do teste ADF é que os dados não são estacionários. Isso significa que não podemos dizer que os dados são estacionários.

</p>

O teste Kwiatkowski-Phillips-Schmidt-Shin (KPSS) é um teste complementar de estacionariedade aos testes ADF. A hipótese nula do KPSS é queos dados são estacionários.Como pode ser visto nas Figuras 13 e 14, podemos refutar a estacionariedade para a maioria dos atrasos nas duas variáveis.

</p>

Os testes KPSS provam que essas duas séries, foratodas as dúvidas são instáveis. E isso, em geral, é um problema. Se a série não for estacionária, pelo menos em relação à tendência, o método OLS poderá identificar dependências falsas. A única coisa que poderíamos fazer era pegar a diferença entre o logaritmo e o valor diário de cada variável e reconstruir nossos mínimos quadrados. No entanto, devido ao fato de essa questão ser bastante difundida nos círculos econométricos, temos uma estrutura muito mais confiável chamada cointegração.

Cointegração

Cointegração é uma maneira de lidar com um casal(ou mais) processa I (1) e determina se existe uma relação entre eles e em que consiste. Para ilustrar a cointegração, um exemplo simplificado de um bêbado e seu cachorro é frequentemente dado. Imagine um homem bêbado indo para casa, passeando com um cachorro na coleira. Um bêbado oscila de maneira imprevisível ao longo de toda a largura da estrada. O cachorro também está se mexendo bastante bagunçado: farejando árvores, latindo, cavando algo com as patas - um cachorrinho tão inquieto. No entanto, a amplitude de movimento do cão será limitada pelo comprimento da trela mantida pelo bêbado. Ou seja, pode-se argumentar que, em qualquer ponto da rota do bêbado, o cão estará a uma distância da trela dele. (É claro que não podemos prever em que direção o bêbado ela estará a cada momento, mas ela estará dentro da trela.) Essa é uma metáfora muito simplificada para a cointegração - o cachorro e seu dono se movem juntos.

Compare isso com a correlação: digamos que um cão vadio segue o cão de um bêbado ao longo de 95% do caminho e depois foge com um latido do outro lado atrás de um carro que passava. A correlação entre as rotas de um cão vadio e um bêbado seria muito forte (literalmente R²: 95%), no entanto, como muitas conexões aleatórias de um bêbado, essa relação não significaria nada - não pode ser usada para prever a localização de um bêbado, pois para alguns Um fragmento do caminho, a previsão com base nesses dados estará correta, mas para algumas partes será completamente imprecisa.

Para encontrar a localização de um bêbado, primeiro precisamos entender qual especificação de ordem de atraso deve ser usada em nosso modelo.

Aqui, determinamos a ordem de atraso mais adequada para o estudo, escolhendo o valor mínimo de AIC da ordem 6.

Em seguida, precisamos determinar a disponibilidaderelação de cointegração. Com o método Angle - Granger simples (consulte as fontes no final do artigo original), isso é relativamente fácil. Se as estatísticas negativas do teste excederem os valores críticos, haverá uma relação de cointegração.

Os resultados da Figura 16 não dão motivos para dizer que entre o logaritmo do preço e o logaritmo do número de dias há uma equação de cointegração.

Limitações

Neste estudo não levamos em consideração nenhumfatores de distorção (confundidores). Dadas as evidências acima, é extremamente improvável que quaisquer fatores de confusão possam ter um impacto significativo na nossa conclusão - podemos rejeitar H0. Pode-se argumentar quenão há conexão entre o logaritmo do número de dias e o logaritmo do preço do bitcoin. Se houvesse tal conexão, teria que haver uma relação de cointegração.

Conclusão

A violação de todas as condições de Gauss-Markov para regressão linear real, exceto uma, juntamente com a não estacionariedade de ambas as variáveis, fornece evidência suficiente pararefutaçõesH0, portanto,não há relação linear real entre o logaritmo de preço e o logaritmo do número de dias, e esse relacionamento não pode ser usado para prever valores de preços fora da amostra.