David, Sí, MapReduce está diseñado para operar en una gran cantidad de datos. Y la idea es que en general, el mapa y las funciones de reducción no deberían cuidar cuántos mapeadores o cuántos reductores hay, esa es sólo la optimización. Si piensas cuidadosamente sobre el algoritmo que publiqué, puedes ver que no importa qué asignador obtiene qué partes de los datos. Cada registro de entrada estará disponible para cada operación de reducción que lo necesite. Ndash Joe K Sep 18 12 at 22:30 En el mejor de mi entendimiento el promedio móvil no está bien mapas al paradigma de MapReduce ya que su cálculo es esencialmente la ventana deslizante sobre datos ordenados, mientras que MR es el procesamiento de los rangos no intersectados de los datos ordenados. Solución que veo es como sigue: a) Para implementar particionador personalizado para poder hacer dos particiones diferentes en dos ejecuciones. En cada ejecución, los reductores obtendrán diferentes rangos de datos y calcularán el promedio móvil cuando sea apropiado. Voy a tratar de ilustrarlo: En la primera ejecución, los datos de los reductores deberían ser: R1: Q1, Q2, Q3, Q4 R2: Q5, Q6, Q7, Q8 . Aquí usted cacluate el promedio móvil para algunos Qs. En la próxima ejecución, los reductores deberían obtener datos como: R1: Q1. Q6 R2: Q6. Q10 R3: Q10..Q14 Y caclular el resto de promedios móviles. A continuación, tendrá que agregar los resultados. Idea de particionista personalizado que tendrá dos modos de funcionamiento - cada vez que se divide en rangos iguales, pero con algún cambio. En un pseudocódigo se verá así. Partición (keySHIFT) / (MAXKEY / numOfPartitions) donde: SHIFT se tomará de la configuración. MAXKEY valor máximo de la clave. Supongo que por simplicidad empiezan con cero. RecordReader, IMHO no es una solución ya que se limita a la división específica y no se puede deslizar sobre el límite de divisiones. Otra solución sería implementar la lógica personalizada de dividir datos de entrada (es parte del InputFormat). Se puede hacer para hacer 2 diapositivas diferentes, similar a la partición. Respondió Sep 17 12 at 8: 59Moving averages Promedio a las medias Con conjuntos de datos convencionales, el valor medio es a menudo el primero, y uno de los más útiles, las estadísticas de resumen para calcular. Cuando los datos están en forma de series temporales, la media de la serie es una medida útil, pero no refleja la naturaleza dinámica de los datos. Los valores medios calculados en periodos de cortocircuito, ya sea antes del período actual o centrados en el período actual, suelen ser más útiles. Debido a que tales valores medios variarán o se moverán, a medida que el periodo actual se desplaza desde el tiempo t2, t3, etc., se conocen como medias móviles (Mas). Un promedio móvil simple es (típicamente) el promedio no ponderado de k valores previos. Una media móvil exponencialmente ponderada es esencialmente la misma que una media móvil simple, pero con contribuciones a la media ponderada por su proximidad al tiempo actual. Debido a que no hay una, sino toda una serie de promedios móviles para cualquier serie dada, el conjunto de Mas puede ser trazado en gráficos, analizado como una serie, y utilizado en el modelado y la predicción. Una gama de modelos puede ser construida usando medias móviles, y éstos se conocen como modelos del MA. Si estos modelos se combinan con modelos autorregresivos (AR), los modelos compuestos resultantes se conocen como modelos ARMA o ARIMA (el I es para integrado). Promedios móviles simples Puesto que una serie temporal puede considerarse como un conjunto de valores, t 1,2,3,4, n se puede calcular el promedio de estos valores. Si asumimos que n es bastante grande, y seleccionamos un entero k que es mucho menor que n. Podemos calcular un conjunto de promedios de bloques, o medias móviles simples (de orden k): Cada medida representa el promedio de los valores de datos sobre un intervalo de k observaciones. Obsérvese que la primera MA posible de orden k gt0 es que para t k. De forma más general, podemos eliminar el subíndice extra en las expresiones anteriores y escribir: Esto indica que la media estimada en el tiempo t es el promedio simple del valor observado en el tiempo t y los pasos de tiempo anteriores k -1. Si se aplican pesos que disminuyen la contribución de las observaciones que están más lejos en el tiempo, se dice que el promedio móvil se alisa exponencialmente. Los promedios móviles se usan a menudo como una forma de pronóstico, por lo que el valor estimado para una serie en el tiempo t 1, S t1. Se toma como la MA para el período hasta e incluyendo el tiempo t. p. ej. La estimación de hoy se basa en un promedio de valores anteriores registrados hasta e incluyendo ayer (para datos diarios). Los promedios móviles simples pueden ser vistos como una forma de suavizado. En el ejemplo ilustrado a continuación, el conjunto de datos sobre contaminación atmosférica que se muestra en la introducción a este tema se ha aumentado con una línea de 7 días de media móvil (MA), que se muestra aquí en rojo. Como se puede ver, la línea de MA suaviza los picos y valles en los datos y puede ser muy útil para identificar las tendencias. La fórmula estándar de cálculo de forward significa que los primeros k -1 puntos de datos no tienen ningún valor MA, pero a partir de entonces los cálculos se extienden hasta el punto final de datos de la serie. Una razón para calcular promedios móviles simples de la manera descrita es que permite calcular los valores para todos los intervalos de tiempo desde el tiempo tk hasta el presente, y A medida que se obtiene una nueva medida para el tiempo t1, se puede añadir el MA del tiempo t1 al conjunto ya calculado. Esto proporciona un procedimiento sencillo para conjuntos de datos dinámicos. Sin embargo, hay algunos problemas con este enfoque. Es razonable argumentar que el valor medio en los últimos 3 períodos, digamos, debería estar situado en el tiempo t -1, no en el tiempo t. Y para una MA sobre un número par de períodos tal vez debería estar situado en el punto medio entre dos intervalos de tiempo. Una solución a este problema es usar cálculos de MA centrados, en los que la MA en el tiempo t es la media de un conjunto simétrico de valores alrededor de t. A pesar de sus obvios méritos, este enfoque no se utiliza generalmente porque requiere que los datos estén disponibles para eventos futuros, lo que puede no ser el caso. En casos donde el análisis es enteramente de una serie existente, el uso de Mas centrado puede ser preferible. Los promedios móviles simples pueden considerarse como una forma de suavizado, eliminando algunos componentes de alta frecuencia de una serie temporal y destacando (pero no eliminando) las tendencias de manera similar a la noción general de filtrado digital. De hecho, las medias móviles son una forma de filtro lineal. Es posible aplicar un cálculo del promedio móvil a una serie que ya ha sido suavizada, es decir, suavizar o filtrar una serie ya suavizada. Por ejemplo, con un promedio móvil de orden 2, podemos considerar que se calcula usando pesos, por lo que la MA en x 2 0,5 x 1 0,5 x 2. Igualmente, la MA en x 3 0,5 x 2 0,5 x 3. Si Aplicar un segundo nivel de suavizado o filtrado, tenemos 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 es decir, el filtro de 2 etapas Proceso (o convolución) ha producido una media móvil simétrica ponderada variablemente, con pesos. Las convoluciones múltiples pueden producir promedios móviles ponderados bastante complejos, algunos de los cuales se han encontrado de uso particular en campos especializados, como en los cálculos del seguro de vida. Medias móviles se pueden utilizar para eliminar los efectos periódicos si se calcula con la longitud de la periodicidad como un conocido. Por ejemplo, con datos mensuales, las variaciones estacionales pueden ser eliminadas (si este es el objetivo) aplicando una media móvil simétrica de 12 meses con todos los meses ponderados igualmente, excepto el primero y el último que se ponderan en 1/2. Esto es porque habrá 13 meses en el modelo simétrico (tiempo actual, t. / - 6 meses). El total se divide por 12. Se pueden adoptar procedimientos similares para cualquier periodicidad bien definida. Promedios móviles ponderados exponencialmente (EWMA) Con la fórmula del promedio móvil simple: todas las observaciones son igualmente ponderadas. Si llamamos a estos pesos iguales, alfa t. Cada uno de los k pesos sería igual a 1 / k. Por lo que la suma de los pesos sería 1, y la fórmula sería: Ya hemos visto que las aplicaciones múltiples de este proceso resultan en los pesos que varían. Con las medias móviles ponderadas exponencialmente se reduce la contribución al valor medio de las observaciones que se eliminan más en el tiempo, haciendo hincapié en los acontecimientos más recientes (locales). Esencialmente se introduce un parámetro de suavizado, 0lt alfa lt1, y la fórmula se revisa a: Una versión simétrica de esta fórmula sería de la forma: Si los pesos en el modelo simétrico son seleccionados como los términos de los términos de la expansión binomial, (1/21/2) 2q. Se sumarán a 1, y cuando q se haga grande, se aproximará a la distribución Normal. Esta es una forma de peso del núcleo, con el binomio actuando como la función del núcleo. La convolución de dos etapas descrita en la subsección anterior es precisamente esta disposición, con q1, dando los pesos. En el suavizado exponencial es necesario utilizar un conjunto de pesos que suman a 1 y que se reducen en tamaño geométricamente. Los pesos utilizados son típicamente de la forma: Para mostrar que estos pesos suman a 1, considere la expansión de 1 / como una serie. Podemos escribir y expandir la expresión entre paréntesis usando la fórmula binomial (1-x) p. Donde x (1-) y p -1, lo que da: Esto proporciona entonces una forma de media móvil ponderada de la forma: Esta suma puede escribirse como una relación de recurrencia: lo que simplifica enormemente el cálculo y evita el problema de que el régimen de ponderación Debe ser estrictamente infinito para que los pesos sumen a 1 (para valores pequeños de alfa, esto no suele ser el caso). La notación utilizada por diferentes autores varía. Algunos usan la letra S para indicar que la fórmula es esencialmente una variable suavizada y escriben: mientras que la literatura de la teoría de control usualmente usa Z en lugar de S para los valores exponencialmente ponderados o suavizados (ver, por ejemplo, Lucas y Saccucci, 1990, LUC1 , Y el sitio web del NIST para más detalles y ejemplos trabajados). Las fórmulas citadas anteriormente derivan del trabajo de Roberts (1959, ROB1), pero Hunter (1986, HUN1) utiliza una expresión de la forma: que puede ser más apropiada para su uso en algunos procedimientos de control. Con alfa 1, la estimación media es simplemente su valor medido (o el valor del elemento de datos anterior). Con 0.5 la estimación es el promedio móvil simple de las mediciones actuales y anteriores. En los modelos de predicción el valor, S t. Se utiliza a menudo como estimación o valor de pronóstico para el siguiente período de tiempo, es decir, como la estimación de x en el tiempo t 1. Así, tenemos: Esto muestra que el valor pronosticado en el tiempo t 1 es una combinación de la media móvil ponderada exponencial anterior Más un componente que representa el error de predicción ponderado, epsilon. En el tiempo t. Suponiendo que se da una serie de tiempo y se requiere una predicción, se requiere un valor para alfa. Esto puede estimarse a partir de los datos existentes mediante la evaluación de la suma de los errores de predicción al cuadrado obtenidos con valores variables de alfa para cada t 2,3. Estableciendo la primera estimación como el primer valor de datos observado, x 1. En aplicaciones de control, el valor de alfa es importante porque se usa en la determinación de los límites de control superior e inferior y afecta a la longitud de ejecución media (ARL) esperada Antes de que estos límites de control se rompen (bajo el supuesto de que las series temporales representan un conjunto de variables independientes aleatorias, distribuidas de forma idéntica con varianza común). En estas circunstancias, la varianza de la estadística de control es (Lucas y Saccucci, 1990): Los límites de control se establecen usualmente como múltiplos fijos de esta varianza asintótica, p. / - 3 veces la desviación estándar. Si alfa 0.25, por ejemplo, y se supone que los datos que se están supervisando tienen una distribución Normal, N (0,1), cuando están en control, los límites de control serán / - 1.134 y el proceso alcanzará uno u otro límite en 500 Pasos en promedio. Lucas y Saccucci (1990 LUC1) derivan los ARLs para una amplia gama de valores alfa y bajo diversas suposiciones usando procedimientos de cadena de Markov. Ellos tabulan los resultados, incluyendo el suministro de ARLs cuando la media del proceso de control ha sido desplazada por un múltiplo de la desviación estándar. Por ejemplo, con un cambio de 0.5 con alfa 0.25 el ARL es menos de 50 pasos de tiempo. Los enfoques descritos anteriormente se conocen como suavizado exponencial simple. Ya que los procedimientos se aplican una vez a la serie temporal y luego los procesos de análisis o control se llevan a cabo en el conjunto de datos suavizado resultante. Si el conjunto de datos incluye una tendencia y / o componentes estacionales, se puede aplicar el suavizado exponencial de dos o tres etapas como un medio para eliminar (modelar explícitamente) estos efectos (véase más adelante la sección sobre Pronóstico y el ejemplo trabajado del NIST ). CHA1 Chatfield C (1975) El Análisis de la Serie de Tiempos: Teoría y Práctica. Chapman y Hall, Londres HUN1 Hunter J S (1986) La media móvil exponencialmente ponderada. J of Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Esquemas de control del promedio móvil ponderado exponencialmente: Propiedades y mejoras. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Pruebas de gráficos de control basadas en medias móviles geométricas. Technometrics, 1, 239-250Moviendo los promedios y los promedios móviles centrados Un par de puntos sobre la estacionalidad en una serie de tiempo se repiten, aunque parezcan obvios. Una es que el término 8220season8221 no se refiere necesariamente a las cuatro estaciones del año que resultan de la inclinación del eje Earth8217s. En la analítica predictiva, 8220season8221 a menudo significa precisamente eso, porque muchos de los fenómenos que estudiamos varían con la progresión de la primavera a través del invierno: ventas de engranajes de invierno o de verano, incidencia de ciertas enfermedades generalizadas, eventos meteorológicos causados por la ubicación del Corriente de chorro y cambios en la temperatura del agua en el Océano Pacífico oriental, y así sucesivamente. Igualmente, los acontecimientos que ocurren regularmente pueden actuar como estaciones meteorológicas, a pesar de que sólo tienen una conexión tenue con los solsticios y los equinoccios. Los turnos de ocho horas en hospitales y fábricas a menudo se expresan en la incidencia de consumos y gastos de energía allí, una temporada es de ocho horas de duración y las estaciones ciclo todos los días, no todos los años. Las fechas de vencimiento de los impuestos señalan el inicio de una inundación de dólares en los tesoros municipales, estatales y federales, la temporada puede ser de un año (impuestos a la renta personal), seis meses (impuestos sobre la propiedad en muchos estados), trimestrales ), y así. Es un poco extraño que tengamos la palabra 8220season8221 para referirnos generalmente al período de tiempo que se repite regularmente, pero no hay término general para el período de tiempo durante el cual ocurre una vuelta completa de las estaciones. 8220Cycle8221 es posible, pero en analítica y pronóstico ese término se suele considerar un período de duración indeterminada, como un ciclo económico. En ausencia de un término mejor, se utilizó en este y en los siguientes capítulos. Esto no es sólo reflexión terminológica. Las formas en que identificamos las estaciones y el período de tiempo durante el cual las estaciones tienen repercusiones reales, aunque a menudo menores, en cómo medimos sus efectos. En las siguientes secciones se discute cómo algunos analistas varían la forma en que calculan los promedios móviles según si el número de estaciones es impar o incluso. Usando los promedios móviles en lugar de los promedios simples Suponga que una gran ciudad está considerando la reasignación de su policía de tránsito para abordar mejor la incidencia de la conducción mientras está deteriorada, lo que la ciudad cree que ha ido aumentando. Hace cuatro semanas, entró en vigor una nueva legislación que legalizaba la posesión y el uso recreativo de la marihuana. Desde entonces, el número diario de arrestos por tráfico de DWI parece estar subiendo. La complicación es el hecho de que el número de detenciones parece aumentar los viernes y los sábados. Para ayudar a planificar los requerimientos de mano de obra en el futuro, le gustaría prever cualquier tendencia subyacente que se establezca. A usted también le gustaría tiempo el despliegue de sus recursos para tener en cuenta cualquier temporada relacionada con el fin de semana que ocurra. La Figura 5.9 tiene los datos relevantes con los que tiene que trabajar. Figura 5.9 Con este conjunto de datos, cada día de la semana constituye una temporada. Incluso observando el gráfico de la figura 5.9. Usted puede decir que la tendencia del número de detenciones diarias está para arriba. You8217ll tiene que planificar para ampliar el número de oficiales de tráfico, y esperamos que la tendencia se estabilice pronto. Además, los datos corroboran la idea de que más arrestos ocurren rutinariamente los viernes y sábados, por lo que su asignación de recursos necesita abordar esos picos. Pero usted necesita cuantificar la tendencia subyacente, para determinar cuántos policías adicionales tienen que traer. También es necesario para cuantificar el tamaño esperado de los picos de fin de semana, para determinar cuántos policías adicionales que necesita para ver los conductores erráticos en esos días. El problema es que aún no sabes cuánto del aumento diario se debe a la tendencia y cuánto se debe a ese efecto de fin de semana. Usted puede comenzar por detrending la serie de tiempo. Anteriormente en este capítulo, en 8220Simple Seasonal Averages, 8221 usted vio un ejemplo de cómo detrend una serie de tiempo con el fin de aislar los efectos estacionales usando el método de promedios simples. En esta sección usted verá cómo hacerlo utilizando promedios móviles, probablemente, el enfoque de promedios móviles se usa más a menudo en el análisis predictivo que el enfoque de promedios simples. Hay varias razones para la mayor popularidad de las medias móviles, entre ellas, que el enfoque de las medias móviles no le pide que colapse sus datos en el proceso de cuantificación de una tendencia. Recordemos que el ejemplo anterior hizo necesario colapsar los promedios trimestrales con los promedios anuales, calcular una tendencia anual y luego distribuir una cuarta parte de la tendencia anual en cada trimestre del año. Este paso era necesario para eliminar la tendencia de los efectos estacionales. Por el contrario, el enfoque de las medias móviles le permite desviar la serie de tiempo sin recurrir a ese tipo de maquinación. La figura 5.10 muestra cómo funciona el enfoque de las medias móviles en el presente ejemplo. Figura 5.10 El promedio móvil en el segundo gráfico aclara la tendencia subyacente. La Figura 5.10 añade una columna de media móvil y una columna para estaciones específicas. Al conjunto de datos de la figura 5.9. Ambas adiciones requieren cierta discusión. Los picos en los arrestos que tienen lugar los fines de semana le da razón para creer que usted está trabajando con temporadas que se repiten una vez cada semana. Por lo tanto, comience por obtener el promedio para el período que abarca8212, es decir, las primeras siete temporadas, de lunes a domingo. La fórmula para el promedio en la celda D5, la primera media móvil disponible, es la siguiente: Esta fórmula se copia y se pega a través de la celda D29, por lo que tiene 25 promedios móviles basados en 25 ciclos de siete días consecutivos. Observe que para mostrar las primeras y últimas observaciones de la serie temporal, he ocultado las filas 10 a 17. Puede mostrarlas, si lo desea, en el libro de este capítulo, disponible en el sitio web del editor. Haga una selección múltiple de filas visibles 9 y 18, haga clic con el botón secundario en uno de sus encabezados de fila y elija Mostrar en el menú contextual. Cuando ocultas las filas de una hoja de trabajo, como he hecho en la figura 5.10. Los datos cartografiados en las filas ocultas también se ocultan en el gráfico. Las etiquetas del eje x sólo identifican los puntos de datos que aparecen en el gráfico. Debido a que cada promedio móvil en la Figura 5.10 abarca siete días, ningún promedio móvil se empareja con las tres primeras o últimas tres observaciones reales. Copiar y pegar la fórmula en la celda D5 hasta un día a la celda D4 lo hace fuera de las observaciones8212 no hay ninguna observación registrada en la celda C1. Del mismo modo, no hay media móvil registrada por debajo de la celda D29. Copiar y pegar la fórmula en D29 en D30 requeriría una observación en la celda C33, y no hay observación disponible para el día que la célula representaría. Sería posible, por supuesto, acortar la longitud de la media móvil a, digamos, cinco en lugar de siete. Hacerlo significaría que las fórmulas de promedio móvil en la Figura 5.10 podrían comenzar en la celda D4 en lugar de D5. Sin embargo, en este tipo de análisis, desea que la duración de la media móvil sea igual al número de estaciones: siete días en una semana para eventos que se repiten semanalmente implica un promedio móvil de siete y cuatro trimestres en un año para eventos que Recur anualmente implica un promedio móvil de longitud cuatro. En líneas similares, generalmente cuantificamos los efectos estacionales de tal manera que se suman a cero dentro del período de tiempo abarcador. Como se vio en la primera sección de este capítulo, en los promedios simples, esto se hace calculando el promedio de (digamos) los cuatro trimestres de un año y luego restando el promedio del año de cada cifra trimestral. De este modo se asegura que el total de los efectos estacionales es cero. A su vez, ese 8217s útil porque pone los efectos estacionales en un pie de igualdad 8212a efecto de verano de 11 es tan lejos de la media como un efecto de invierno de 821111. Si desea promedio de cinco estaciones en lugar de siete para obtener su promedio móvil, you8217re mejor De encontrar un fenómeno que se repite cada cinco temporadas en lugar de cada siete. Sin embargo, cuando se toma el promedio de los efectos estacionales más tarde en el proceso, es improbable que estos promedios sumen a cero. Es necesario en ese punto recalibrar, o normalizar. Los promedios para que su suma sea cero. Cuando se hace esto, los promedios promedio estacionales expresan el efecto en un período de tiempo de pertenecer a una estación particular. Una vez normalizados, los promedios estacionales se denominan los índices estacionales que este capítulo ya ha mencionado varias veces. En la Figura 5.10 también se muestra lo que se conoce como estaciones estacionales específicas en la columna E. Estas son las que quedan después de restar el promedio móvil de la observación real. Para tener una idea de lo que representan los temporales específicos, considere el promedio móvil en la celda D5. Es la media de las observaciones en C2: C8. Las desviaciones de cada observación de la media móvil (por ejemplo, C2 8211 D5) se garantiza que suman a cero 8212 que es una característica de un promedio. Por lo tanto, cada desviación expresa el efecto de estar asociado con ese día en particular en esa semana en particular. Es una temporada específica, entonces específica porque la desviación se aplica a ese lunes o martes particular y así sucesivamente, y estacional, porque en este ejemplo se trata cada día como si fuera una estación en el período abarcador de una semana. Debido a que cada temporada específica mide el efecto de estar en esa temporada frente a la media móvil para ese grupo de (aquí) siete temporadas, puede posteriormente mediar las estaciones específicas de una temporada en particular (por ejemplo, todos los viernes en su Series temporales) para estimar ese efecto general, más que específico, de la temporada. Ese promedio no se confunde con una tendencia subyacente en la serie temporal, ya que cada estación específica expresa una desviación de su propio promedio móvil. Alinear los promedios móviles también es la cuestión de alinear las medias móviles con el conjunto de datos original. En la Figura 5.10. He alineado cada promedio móvil con el punto medio de la gama de observaciones que incluye. Así, por ejemplo, la fórmula en la celda D5 promedia las observaciones en C2: C8, y la he alineado con la cuarta observación, el punto medio del rango promedio, colocándolo en la fila 5. Esta disposición se denomina una media móvil centrada . Y muchos analistas prefieren alinear cada media móvil con el punto medio de las observaciones que promedia. Tenga en cuenta que en este contexto, 8220midpoint8221 se refiere a la mitad de un período de tiempo: el jueves es el punto medio de lunes a domingo. No se refiere a la mediana de los valores observados, aunque, por supuesto, podría funcionar de esa manera en la práctica. Otro enfoque es el promedio móvil de arrastre. En ese caso, cada media móvil se alinea con la observación final de que promedia 8212 y, por lo tanto, sigue detrás de sus argumentos. Esta es a menudo la disposición preferida si se desea utilizar un promedio móvil como pronóstico, como se hace con el suavizado exponencial, porque su promedio móvil final coincide con la observación disponible final. Centrado Medios móviles con números pares de las estaciones Normalmente adoptamos un procedimiento especial cuando el número de estaciones es incluso en lugar de impar. Ese es el estado típico de las cosas: tienden a haber incluso números de estaciones en el período abarcador para temporadas típicas, como meses, trimestres y períodos cuadrienales (para las elecciones). La dificultad con un número par de estaciones es que no hay punto medio. Dos no es el punto medio de un rango que comienza en 1 y termina en 4, y tampoco es 3 si se puede decir que tiene uno, su punto medio es 2,5. Seis no es el punto medio de 1 a 12, y tampoco es 7 su punto medio puramente teórico es 6,5. Para actuar como si existiera un punto medio, debe agregar una capa de promediación encima de los promedios móviles. Vea la Figura 5.11. Figura 5.11 Excel ofrece varias maneras de calcular una media móvil centrada. La idea detrás de este enfoque para conseguir una media móvil que se centró en un punto medio existente, cuando hay un número par de temporadas, es tirar de ese punto medio hacia delante por la mitad de una temporada. Usted calcula un promedio móvil que sería centrado en, digamos, el tercer punto en el tiempo si cinco estaciones en lugar de cuatro constituyeran una vuelta completa del calendario. Esto se realiza tomando dos promedios móviles consecutivos y haciendo un promedio de ellos. Así en la Figura 5.11. Hay un promedio móvil en la celda E6 que promedia los valores en D3: D9. Debido a que hay cuatro valores estacionales en D3: D9, el promedio móvil en E6 se considera centrado en la temporada imaginaria 2.5, medio punto por debajo de la primera temporada candidata disponible, 3. (Las estaciones 1 y 2 no están disponibles como puntos medios para Falta de datos al promedio antes de la Temporada 1.) Tenga en cuenta, sin embargo, que el promedio móvil en la celda E8 promedia los valores en D5: D11, el segundo a través del quinto en la serie de tiempo. Ese promedio se centra en (imaginario) punto 3.5, un período completo por delante de la media centrada en 2,5. Mediante el promedio de los dos promedios móviles, por lo que el pensamiento va, puede tirar el punto central del primer promedio móvil hacia adelante por medio punto, de 2,5 a 3. That8217s lo que los promedios en la columna F de la figura 5.11 hacer. La celda F7 proporciona el promedio de las medias móviles en E6 y E8. Y el promedio en F7 está alineado con el tercer punto de datos en la serie de tiempo original, en la celda D7, para enfatizar que el promedio se centra en esa temporada. Si se expande la fórmula en la celda F7 así como las medias móviles en las celdas E6 y E8, verá que resulta ser un promedio ponderado de los primeros cinco valores de la serie temporal, con el primer y el quinto valor dados un peso De 1 y el segundo a cuarto valores dados un peso de 2. Eso nos lleva a una forma más rápida y sencilla de calcular una media móvil centrada con un número par de estaciones. Todavía en la Figura 5.11. Los pesos se almacenan en el rango H3: H11. Esta fórmula devuelve el primer promedio móvil centrado, en la celda I7: Esa fórmula devuelve 13.75. Que es idéntico al valor calculado por la fórmula de doble promedio en la celda F7. Haciendo la referencia a los pesos absolutos, por medio de los signos de dólar en H3: H11. Puede copiar la fórmula y pegarla en la medida de lo necesario para obtener el resto de las medias móviles centradas. Detrender la serie con los promedios móviles Cuando haya substraído las medias móviles de las observaciones originales para obtener las estaciones específicas, ha eliminado la tendencia subyacente de la serie. Lo que se deja en las estaciones estacionales es normalmente una serie horizontal y estacionaria con dos efectos que hacen que los estacionales específicos se aparten de una línea absolutamente recta: los efectos estacionales y el error aleatorio en las observaciones originales. La figura 5.12 muestra los resultados de este ejemplo. Figura 5.12 Los efectos estacionales específicos para el viernes y el sábado permanecen claros en la serie de tendencias. El gráfico superior de la figura 5.12 muestra las observaciones diarias originales. Tanto la tendencia general al alza como los picos estacionales del fin de semana son claros. El gráfico inferior muestra los datos estacionales específicos: el resultado de la detrensión de la serie original con un filtro de media móvil, como se describió anteriormente en 8220. Entendiendo las estaciones específicas.8221 Puede ver que la serie detrended es ahora prácticamente horizontal (una línea de tendencia lineal para los estacionales específicos Tiene una ligera desviación hacia abajo), pero los picos estacionales del viernes y del sábado todavía están en su lugar. El siguiente paso es pasar de los datos estacionales específicos a los índices estacionales. Vea la Figura 5.13. Figura 5.13 Los efectos estacionales específicos se promedian primero y luego se normalizan para alcanzar los índices estacionales. En la figura 5.13. Las series estacionales específicas en la columna E se reordenan en la forma tabular mostrada en el intervalo H4: N7. El propósito es simplemente hacer más fácil calcular los promedios estacionales. Estos promedios se muestran en H11: N11. Sin embargo, las cifras en H11: N11 son promedios, no desviaciones de un promedio, y por lo tanto podemos esperar que suman a cero. Todavía tenemos que ajustarlos para que expresen desviaciones de un gran medio. Esa gran media aparece en la celda N13, y es el promedio de los promedios estacionales. Podemos llegar a los índices estacionales restando la media grande en N13 de cada uno de los promedios estacionales. El resultado está en el rango H17: N17. Estos índices estacionales ya no son específicos de un promedio móvil determinado, como es el caso de las estaciones específicas en la columna E. Debido a que se basan en un promedio de cada instancia de una temporada dada, expresan el efecto promedio de una temporada dada a lo largo de la temporada Cuatro semanas en la serie de tiempo. Además, son medidas de una estación, un día en las detenciones de tráfico frente a la media durante un período de siete días. Ahora podemos usar esos índices estacionales para desestacionalizar la serie. Utilizaremos la serie desestacionalizada para obtener pronósticos a través de la regresión lineal o el método Holt8217s de suavizar las series de tendencias (discutidas en el Capítulo 4). Entonces simplemente agregamos los índices estacionales de nuevo en los pronósticos para reseasonalized ellos. Todo esto aparece en la figura 5.14. Figura 5.14 Después de tener los índices estacionales, los toques finales que se aplican aquí son los mismos que en el método de promedios simples. Los pasos ilustrados en la figura 5.14 son en gran parte los mismos que los de las figuras 5.6 y 5.7. En las siguientes secciones. Desestacionalización de las observaciones Reste los índices estacionales de las observaciones originales para desestacionalizar los datos. Puede hacerlo como se muestra en la Figura 5.14. En el que las observaciones originales y los índices estacionales se disponen como dos listas que comienzan en la misma fila, las columnas C y F. Esta disposición hace que sea un poco más fácil estructurar los cálculos. También puede hacer la resta como se muestra en la Figura 5.6. En el que se muestran en un formato tabular las observaciones trimestrales originales (C12: F16), los índices trimestrales (C8: F8) y los resultados desestacionalizados (C20: F24). Ese arreglo hace que sea un poco más fácil concentrarse en los índices estacionales y los trimestres desastrosos. Pronóstico de las observaciones desestacionalizadas En la Figura 5.14. Las observaciones desestacionalizadas están en la columna H y en la figura 5.7 se encuentran en la columna C. Independientemente de si se desea usar un enfoque de regresión o un enfoque de suavizado para el pronóstico, es mejor organizar las observaciones desestacionalizadas en una lista de una sola columna. En la Figura 5.14. Las previsiones están en la columna J. La siguiente fórmula de matriz se introduce en el rango J2: J32. Anteriormente en este capítulo, señalé que si omite el argumento x-values de los argumentos de la función TREND () function8217s, Excel proporciona los valores predeterminados 1. 2. N. Donde n es el número de valores y. En la fórmula dada, H2: H32 contiene 31 valores y. Dado que falta el argumento que normalmente contiene los valores x, Excel proporciona los valores predeterminados 1. 2. 31. Estos son los valores que queremos utilizar de todos modos, en la columna B, por lo que la fórmula dada es equivalente a TREND (H2: H32, B2: B32). Y eso 8217s la estructura utilizada en D5: D24 de la Figura 5.7: Haciendo el pronóstico de un paso hacia adelante Hasta ahora se han arreglado para los pronósticos de las series temporales desestacionalizadas de t 1 a t 31 en la figura 5.14. Y de t 1 a t 20 en la figura 5.7. Estas previsiones constituyen información útil para diversos fines, incluida la evaluación de la exactitud de las previsiones mediante un análisis RMSE. Pero su propósito principal es pronosticar por lo menos el siguiente período de tiempo aún no observado. Para obtenerlo, se puede pronosticar primero con la función TREND () o LINEST () si se utiliza la regresión, o de la fórmula de suavizado exponencial si se utiliza el método Holt8217s. Then you can add the associated seasonal index to the regression or smoothing forecast, to get a forecast that includes both the trend and the seasonal effect. In Figure 5.14. you get the regression forecast in cell J33 with this formula: In this formula, the y-values in H2:H32 are the same as in the other TREND() formulas in column J. So are the (default) x-values of 1 through 32 . Now, though, you supply a new x-value as the function8217s third argument, which you tell TREND() to look for in cell B33. It8217s 32 . the next value of t . And Excel returns the value 156.3 in cell J33. The TREND() function in cell J33 is telling Excel, in effect, 8220Calculate the regression equation for the values in H2:H32 regressed on the t values 1 through 31 . Apply that regression equation to the new x-value of 32 and return the result.8221 You8217ll find the same approach taken in cell D25 of Figure 5.7. where the formula to get the one-step-ahead forecast is this: Adding the Seasonal Indexes Back In The final step is to reseasonalize the forecasts by adding the seasonal indexes to the trend forecasts, reversing what you did four steps back when you subtracted the indexes from the original observations. This is done in column F in Figure 5.7 and column K in Figure 5.14 . Don8217t forget to add the appropriate seasonal index for the one-step-ahead forecast, with the results shown in cell F25 in Figure 5.7 and in cell K33 in Figure 5.14. (I8217ve shaded the one-step-ahead cells in both Figure 5.7 and Figure 5.14 to highlight the forecasts.) You can find charts of three representations of the traffic arrest data in Figure 5.15. the deseasonalized series, the linear forecast from the deseasonalized data, and the reseasonalized forecasts. Note that the forecasts incorporate both the general trend of the original data and its Friday/Saturday spikes. Figure 5.15 Charting the forecasts.
No comments:
Post a Comment