Wednesday 22 November 2017

Mover Média Sazonalidade


Implementação da planilha de ajuste sazonal e suavização exponencial É direto realizar ajustes de sazonal e ajustar modelos de suavização exponencial usando o Excel. As imagens de tela e os gráficos abaixo são retirados de uma planilha que foi configurada para ilustrar o ajuste sazonal multiplicativo e o alisamento exponencial linear nos seguintes dados trimestrais de vendas da Outboard Marine: Para obter uma cópia do próprio arquivo de planilha, clique aqui. A versão do alisamento exponencial linear que será usada aqui para fins de demonstração é a versão Brown8217s, meramente porque pode ser implementada com uma única coluna de fórmulas e há apenas uma constante de suavização para otimizar. Normalmente, é melhor usar a versão Holt8217s que possui constantes de suavização separadas para nível e tendência. O processo de previsão prossegue da seguinte forma: (i) primeiro os dados são ajustados sazonalmente (ii), então, as previsões são geradas para os dados sazonalmente ajustados através de alisamento exponencial linear e (iii) finalmente, as previsões sazonalmente ajustadas são quantitativas para obter previsões para a série original . O processo de ajuste sazonal é realizado nas colunas D a G. O primeiro passo no ajuste sazonal é calcular uma média móvel centrada (realizada aqui na coluna D). Isso pode ser feito tomando a média de duas médias de um ano que são compensadas por um período relativo um ao outro. (Uma combinação de duas médias de compensação em vez de uma única média é necessária para fins de centralização quando o número de estações é igual.) O próximo passo é calcular a proporção para a média móvel - i. e. Os dados originais divididos pela média móvel em cada período - o que é realizado aqui na coluna E. (Isso também é chamado de quottrend-cyclequot componente do padrão, na medida em que os efeitos da tendência e do ciclo comercial podem ser considerados como sendo tudo isso Permanece após uma média de um ano inteiro de dados. Claro, as mudanças de mês a mês que não são devidas à sazonalidade podem ser determinadas por muitos outros fatores, mas a média de 12 meses suaviza sobre eles em grande medida. O índice sazonal estimado para cada estação é calculado pela primeira média de todos os índices para essa estação específica, o que é feito nas células G3-G6 usando uma fórmula AVERAGEIF. Os rácios médios são então redimensionados de modo que somam exatamente 100 vezes o número de períodos em uma estação, ou 400 neste caso, o que é feito nas células H3-H6. Abaixo na coluna F, as fórmulas VLOOKUP são usadas para inserir o valor do índice sazonal apropriado em cada linha da tabela de dados, de acordo com o quarto do ano que representa. A média móvel centrada e os dados sazonalmente ajustados ficam assim: note que a média móvel normalmente se parece com uma versão mais suave da série ajustada sazonalmente, e é mais curta em ambas as extremidades. Outra planilha no mesmo arquivo do Excel mostra a aplicação do modelo linear de suavização exponencial aos dados dessazonalizados, começando na coluna G. Um valor para a constante de alisamento (alfa) é inserido acima da coluna de previsão (aqui, na célula H9) e Por conveniência, é atribuído o nome do intervalo quotAlpha. quot (O nome é atribuído usando o comando quotInsert / Name / Createquot.) O modelo LES é inicializado definindo as duas primeiras previsões iguais ao primeiro valor real da série sazonalmente ajustada. A fórmula usada aqui para a previsão LES é a forma recursiva de equação única do modelo Brown8217s: Esta fórmula é inserida na célula correspondente ao terceiro período (aqui, célula H15) e copiada a partir daí. Observe que a previsão LES para o período atual refere-se às duas observações precedentes e aos dois erros de previsão precedentes, bem como ao valor de alfa. Assim, a fórmula de previsão na linha 15 refere-se apenas a dados que estavam disponíveis na linha 14 e anteriores. (É claro que, se desejássemos usar um alisamento exponencial linear em vez de linear, poderíamos substituir a fórmula SES aqui em vez disso. Também poderíamos usar Holt8217s em vez do modelo LES Brown8217s, o que exigiria mais duas colunas de fórmulas para calcular o nível e a tendência Que são usados ​​na previsão). Os erros são computados na próxima coluna (aqui, coluna J) subtraindo as previsões dos valores reais. O erro quadrático médio é calculado como a raiz quadrada da variância dos erros mais o quadrado da média. (Isso se segue à identidade matemática: VARIÂNCIA MSE (erros) (MÉDIA (erros)) 2. No cálculo da média e variância dos erros nesta fórmula, os dois primeiros períodos são excluídos porque o modelo na verdade não inicia a previsão até O terceiro período (linha 15 na planilha). O valor ideal de alfa pode ser encontrado alterando o alfa manualmente até que o RMSE mínimo seja encontrado, ou então você pode usar o quotSolverquot para executar uma minimização exata. O valor de alfa que o Solver encontrou é mostrado aqui (alfa0.471). Geralmente é uma boa idéia traçar os erros do modelo (em unidades transformadas) e também calcular e traçar suas autocorrelações em atrasos de até uma estação. Aqui está uma série de séries temporais dos erros (ajustados sazonalmente): as autocorrelações de erro são computadas usando a função CORREL () para calcular as correlações dos erros com elas mesmas atrasadas por um ou mais períodos - os detalhes são mostrados no modelo de planilha . Aqui está um enredo das autocorrelações dos erros nos primeiros cinco atrasos: as autocorrelações nos intervalos 1 a 3 são muito próximas de zero, mas o pico no intervalo 4 (cujo valor é 0.35) é um pouco incômodo - sugere que o O processo de ajuste sazonal não foi completamente bem sucedido. No entanto, na verdade, é apenas marginalmente significativo. 95 bandas de significância para testar se as autocorrelações são significativamente diferentes de zero são aproximadamente mais ou menos 2 / SQRT (n-k), onde n é o tamanho da amostra e k é o atraso. Aqui n é 38 e k varia de 1 a 5, então a raiz quadrada de n-menos-k é em torno de 6 para todos eles e, portanto, os limites para testar a significância estatística de desvios de zero são aproximadamente mais - Ou menos de 2/6, ou 0,33. Se você variar o valor do alfa à mão neste modelo do Excel, você pode observar o efeito na série de tempo e nos gráficos de autocorrelação dos erros, bem como no erro da raiz-médio-quadrado, que será ilustrado abaixo. Na parte inferior da planilha, a fórmula de previsão é citada no futuro, simplesmente substituindo as previsões por valores reais no ponto em que os dados reais se esgotaram - ou seja. Onde quotthe futurequot começa. (Em outras palavras, em cada célula onde um futuro valor de dados ocorreria, uma referência de célula é inserida que aponta para a previsão feita para esse período.) Todas as outras fórmulas são simplesmente copiadas de cima para cima: Observe que os erros para as previsões de O futuro é calculado para ser zero. Isso não significa que os erros reais serão zero, mas sim reflete apenas o fato de que, para fins de predição, estamos assumindo que os dados futuros serão iguais às previsões em média. As previsões resultantes de LES para os dados dessazonalizados são assim: com este valor particular de alfa, otimizado para previsões de um período de antecedência, a tendência projetada é ligeiramente ascendente, refletindo a tendência local observada nos últimos 2 anos ou então. Para outros valores de alfa, uma projeção de tendência muito diferente pode ser obtida. Geralmente, é uma boa idéia ver o que acontece com a projeção de tendência de longo prazo quando o alfa é variado, porque o valor que é melhor para a previsão de curto prazo não será necessariamente o melhor valor para prever o futuro mais distante. Por exemplo, aqui está o resultado que é obtido se o valor de alfa for ajustado manualmente para 0.25: A tendência de longo prazo projetada agora é negativa em vez de positiva. Com um menor valor de alfa, o modelo está colocando mais peso em dados mais antigos em A estimativa do nível e da tendência atual e suas previsões de longo prazo refletem a tendência de queda observada nos últimos 5 anos em vez da tendência ascendente mais recente. Este gráfico também ilustra claramente como o modelo com um menor valor de alfa é mais lento para responder aos pontos de referência nos dados e, portanto, tende a fazer um erro do mesmo sinal por vários períodos seguidos. Seus erros de previsão de 1 passo a frente são maiores em média do que os obtidos antes (RMSE de 34,4 em vez de 27,4) e fortemente auto-correlacionados positivamente. A autocorrelação de lag-1 de 0,56 excede muito o valor de 0,33 calculado acima para um desvio estatisticamente significativo de zero. Como alternativa para diminuir o valor do alfa, a fim de introduzir mais conservadorismo em previsões de longo prazo, um fator de amortecimento de quotstend às vezes é adicionado ao modelo, a fim de tornar a tendência projetada abrandar depois de alguns períodos. O passo final na construção do modelo de previsão é para quantificar as previsões do LES, multiplicando-os pelos índices sazonais apropriados. Assim, as previsões reestruturadas na coluna I são simplesmente o produto dos índices sazonais na coluna F e as previsões de LES temporariamente ajustadas na coluna H. É relativamente fácil calcular intervalos de confiança para previsões de um passo a frente feitas por este modelo: primeiro Computa o RMSE (erro da raiz-meio-quadrado, que é apenas a raiz quadrada do MSE) e depois calcula um intervalo de confiança para a previsão ajustada sazonalmente, adicionando e subtraindo duas vezes o RMSE. (Em geral, um intervalo de confiança 95 para uma previsão de um período anterior é aproximadamente igual ao ponto de previsão mais-ou-menos-duas vezes o desvio padrão estimado dos erros de previsão, assumindo que a distribuição do erro é aproximadamente normal e o tamanho da amostra É grande o suficiente, digamos, 20 ou mais. Aqui, o RMSE, em vez do desvio padrão da amostra dos erros, é a melhor estimativa do desvio padrão dos futuros erros de previsão porque leva também o viés, bem como variações aleatórias.) Os limites de confiança Para a previsão ajustada sazonalmente são então resgatados. Juntamente com a previsão, multiplicando-os pelos índices sazonais apropriados. Nesse caso, o RMSE é igual a 27,4 e a previsão ajustada sazonalmente para o primeiro período futuro (dezembro-93) é 273,2. Então o intervalo de confiança 95 ajustado sazonalmente é de 273,2-227,4 218,4 a 273,2227,4 328,0. Multiplicando esses limites pelo índice sazonal Decembers de 68,61. Obtemos limites de confiança inferiores e superiores de 149,8 e 225,0 em torno da previsão do ponto 93 de 187,4. Os limites de confiança para as previsões mais de um período adiante geralmente se ampliarão à medida que o horizonte de previsão aumentar, devido à incerteza sobre o nível e a tendência, bem como os fatores sazonais, mas é difícil computá-los em geral por métodos analíticos. (A maneira apropriada de calcular os limites de confiança para a previsão LES é usando a teoria ARIMA, mas a incerteza nos índices sazonais é outra questão.) Se você quer um intervalo de confiança realista para uma previsão de mais de um período adiante, tomando todas as fontes de Erro na sua conta, a sua melhor opção é usar métodos empíricos: por exemplo, para obter um intervalo de confiança para uma previsão anterior de 2 passos, você poderia criar outra coluna na planilha para calcular uma previsão de duas etapas para cada período ( Por bootstrapping a previsão one-step-ahead). Em seguida, calcule o RMSE dos erros de previsão de 2 passos e use isso como base para um intervalo de confiança de 2 passos. Na prática, a média móvel proporcionará uma boa estimativa da média das séries temporais se a média for Constante ou lentamente mudando. No caso de uma média constante, o maior valor de m dará as melhores estimativas da média subjacente. Um período de observação mais longo significará os efeitos da variabilidade. O objetivo de fornecer um m mais pequeno é permitir que a previsão responda a uma mudança no processo subjacente. Para ilustrar, propomos um conjunto de dados que incorpora mudanças na média subjacente das séries temporais. A figura mostra as séries temporais usadas para ilustração juntamente com a demanda média da qual a série foi gerada. A média começa como uma constante em 10. Começando no tempo 21, ela aumenta em uma unidade em cada período até atingir o valor de 20 no tempo 30. Depois, ela se torna constante novamente. Os dados são simulados adicionando à média, um ruído aleatório de uma distribuição Normal com média zero e desvio padrão 3. Os resultados da simulação são arredondados para o inteiro mais próximo. A tabela mostra as observações simuladas utilizadas para o exemplo. Quando usamos a tabela, devemos lembrar que, em qualquer momento, apenas os dados passados ​​são conhecidos. As estimativas do parâmetro do modelo, para três valores diferentes de m, são mostradas em conjunto com a média das séries temporais na figura abaixo. A figura mostra a estimativa média móvel da média em cada momento e não a previsão. As previsões mudariam as curvas médias móveis para a direita por períodos. Uma conclusão é imediatamente aparente da figura. Para as três estimativas, a média móvel está atrasada por trás da tendência linear, com o atraso crescente com m. O atraso é a distância entre o modelo ea estimativa na dimensão temporal. Devido ao atraso, a média móvel subestima as observações à medida que a média está aumentando. O viés do estimador é a diferença em um momento específico no valor médio do modelo e o valor médio previsto pela média móvel. O viés quando a média está aumentando é negativo. Para uma média decrescente, o viés é positivo. O atraso no tempo e o viés introduzido na estimativa são funções de m. Quanto maior o valor de m. Maior a magnitude do atraso e do viés. Para uma série cada vez maior com tendência a. Os valores de lag e de polarização do estimador da média são dados nas equações abaixo. As curvas de exemplo não combinam essas equações porque o modelo de exemplo não está aumentando continuamente, antes ele começa como uma constante, muda para uma tendência e depois se torna constante novamente. Além disso, as curvas de exemplo são afetadas pelo ruído. A previsão média móvel de períodos no futuro é representada pela mudança das curvas para a direita. O atraso e o desvio aumentam proporcionalmente. As equações abaixo indicam o atraso e a polarização de um período de previsão para o futuro em relação aos parâmetros do modelo. Novamente, essas fórmulas são para uma série de tempo com uma tendência linear constante. Não devemos nos surpreender com esse resultado. O estimador da média móvel baseia-se no pressuposto de uma média constante, e o exemplo tem uma tendência linear na média durante uma parcela do período de estudo. Como as séries em tempo real raramente obedecerão exatamente aos pressupostos de qualquer modelo, devemos estar preparados para esses resultados. Também podemos concluir a partir da figura que a variabilidade do ruído tem o maior efeito para m menores. A estimativa é muito mais volátil para a média móvel de 5 do que a média móvel de 20. Temos os desejos conflitantes de aumentar m para reduzir o efeito da variabilidade devido ao ruído e diminuir m para tornar a previsão mais sensível às mudanças Em média. O erro é a diferença entre os dados reais e o valor previsto. Se a série temporal é verdadeiramente um valor constante, o valor esperado do erro é zero e a variância do erro é composta por um termo que é uma função e um segundo termo que é a variância do ruído. O primeiro termo é a variância da média estimada com uma amostra de m observações, assumindo que os dados provêm de uma população com uma média constante. Este termo é minimizado fazendo o m o mais grande possível. Um grande m faz com que a previsão não responda a uma mudança nas séries temporais subjacentes. Para tornar as previsões sensíveis às mudanças, queremos m o mais pequeno possível (1), mas isso aumenta a variação do erro. A previsão prática requer um valor intermediário. Previsão com o Excel O suplemento de previsão implementa as fórmulas da média móvel. O exemplo abaixo mostra a análise fornecida pelo suplemento para os dados da amostra na coluna B. As primeiras 10 observações são indexadas -9 a 0. Comparadas com a tabela acima, os índices do período são deslocados em -10. As primeiras dez observações fornecem os valores de inicialização para a estimativa e são usadas para calcular a média móvel para o período 0. A coluna MA (10) (C) mostra as médias móveis calculadas. O parâmetro médio móvel m está na célula C3. A coluna Fore (1) (D) mostra uma previsão para um período no futuro. O intervalo de previsão está na célula D3. Quando o intervalo de previsão é alterado para um número maior, os números na coluna Fore são deslocados para baixo. A coluna Err (1) (E) mostra a diferença entre a observação e a previsão. Por exemplo, a observação no tempo 1 é 6. O valor previsto feito a partir da média móvel no tempo 0 é 11,1. O erro então é -5.1. O desvio padrão eo desvio médio médio (MAD) são calculados nas células E6 e E7, respectivamente.

No comments:

Post a Comment