Outoregressiewe geïntegreerde bewegende gemiddelde ARIMA (p, d, q) Modelle vir Tydreeksanalise Deur Michael Saal-Moore op 15 September 2015 In die vorige reeks artikels (Dele 1. 2 en 3) ons het in beduidende detail oor die AR ( p), MA (Q) en ARMA (p, q) lineêre tydreeksmodelle. Ons gebruik hierdie modelle te gesimuleerde data stelle, toegerus modelle om parameters te herstel genereer en dan toegepas hierdie modelle om finansiële aandele data. In hierdie artikel gaan ons 'n uitbreiding van die ARMA model, te bespreek, naamlik die outoregressiewe geïntegreerde bewegende gemiddelde model, of ARIMA (p, d, q) model. Ons sal sien dat dit nodig is om die ARIMA model in ag neem wanneer ons 'n nie-stilstaande reeks. Sulke reeks kom in die teenwoordigheid van stogastiese tendense. Vinnige Recap en Volgende stappe Tot op datum het ons van mening dat die volgende modelle (die skakels sal jou neem na die toepaslike artikels): Ons het stadig maar seker opgebou ons begrip van tydreekse met konsepte soos serial korrelasie, stasionariteit, lineariteit, residue, correlograms, simuleer, toebehore, seisoenaliteit, voorwaardelike heteroskedastisiteit en hipotesetoetsing. Vanaf nog het ons nie 'n voorspelling of voorspelling van ons modelle uitgevoer en so het geen meganisme vir die vervaardiging van 'n handel stelsel of aandele kurwe het. Sodra ons ARIMA bestudeer (in hierdie artikel), boog en GARCH (in die volgende artikels), sal ons in staat wees om 'n basiese langtermyn handel strategie wat gebaseer is op die voorspelling van aandelemark-indeks opbrengste te bou. Ten spyte van die feit dat ek gegaan het in 'n baie detail oor modelle wat ons weet sal uiteindelik nie 'n groot prestasie (AR, MA, ARMA), wat ons nou goed vertroud met die verloop van tyd reeks modelle. Dit beteken dat wanneer ons kom om te studeer meer onlangse modelle (en selfs diegene wat tans in die navorsingsliteratuur), sal ons 'n beduidende kennisbasis waarop om te trek het, ten einde hierdie modelle effektief te evalueer, eerder as om hulle te behandel soos 'n beurt sleutel voorskrif of black box. Nog belangriker, sal dit ons met die vertroue op ons eie te brei en te verander hulle en verstaan wat ons doen wanneer ons dit doen id graag dankie sê vir die feit dat die pasiënt tot dusver, soos dit mag lyk dat hierdie artikels is ver weg van die werklike aksie van werklike handel. Maar waar kwantitatiewe handel navorsing is versigtig, gemeet en neem baie tyd om reg te kry. Daar is geen kitsoplossing of ryk skema in Quant handel. Was byna gereed om ons eerste handel model, wat 'n mengsel van ARIMA en GARCH sal wees oorweeg, en daarom is dit noodsaaklik dat ons 'n paar keer die begrip van die ARIMA model spandeer goed Sodra ons ons eerste handel model gebou het, gaan ons meer te oorweeg gevorderde modelle soos lang geheue prosesse, state-ruimte modelle (dws die Kalman filter) en Vector outoregressiewe (VAR) modelle, wat ons sal lei tot ander, meer gesofistikeerd, handel strategieë. Outoregressiewe geïntegreerde bewegende gemiddelde (ARIMA) Models van orde p, d, is Q Rasionaal ARIMA modelle gebruik omdat hulle 'n nie-stasionêre reeks om 'n stilstaande reeks met behulp van 'n reeks breukmetodes stappe kan verminder. Ons kan onthou uit die artikel oor wit geraas en ewekansige loop dat as ons die verskil operateur van toepassing op 'n ewekansige loop reeks ( 'n nie-stasionêre reeks) ons gelaat met 'n wit geraas ( 'n stilstaande reeks): begin nabla xt xt - x wt einde ARIMA wese voer hierdie funksie, maar doen dit herhaaldelik, d keer, ten einde 'n nie-stasionêre reeks te verminder tot 'n stilstaande een. Met die oog op ander vorme van nie-stasionariteit hanteer buite stogastiese tendense kan bykomende modelle gebruik word. Seisoenaliteit effekte (soos dié wat in kommoditeitspryse) aangepak kan word met die seisoenale ARIMA model (SARIMA), maar ons sal nie bespreek SARIMA veel in hierdie reeks. Voorwaardelike heteroscedastic effekte (soos met wisselvalligheid groepering in aandele indekse) aangepak kan word met ARCH / GARCH. In hierdie artikel sal ons oorweeg nie-stasionêre reeks met stogastiese tendense en pas ARIMA modelle om hierdie reeks. Ons sal ook uiteindelik produseer voorspellings vir ons finansiële reeks. Definisies Voor definieer ARIMA prosesse wat ons nodig het om die konsep van 'n geïntegreerde reeks bespreek: Geïntegreerde Reeks van orde d A tydreekse geïntegreer orde d. Ek (d) indien: begin nablad xt wt einde Dit is, as ons verskil die reeks d tye waarin ons 'n diskrete wit geraas reeks ontvang. Alternatiewelik, met behulp van die agterste Shift Operateur ekwivalente toestand is: Noudat ons 'n geïntegreerde reeks kan ons die ARIMA proses self definieer gedefinieer: outoregressiewe geïntegreerde bewegende gemiddelde Model van orde p, d, q 'n tydreeks is 'n outoregressiewe geïntegreerde bewegende gemiddelde model van orde p, d, q. ARIMA (p, d, q). As nablad xt is 'n outoregressiewe bewegende gemiddelde van orde p, q, ARMA (p, q). Dit is, as die reeks is differenced d keer, en dit dan volg 'n ARMA (p, q) proses, dan is dit 'n ARIMA (p, d, q) reeks. As ons gebruik maak van die polinoom notasie uit Deel 1 en Deel 2 van die ARMA reeks, dan 'n ARIMA (p, d, q) proses kan geskryf word in terme van die agterste Shift-operateur. : Waar WT is 'n diskrete wit geraas reeks. Daar is 'n paar punte om daarop te let oor hierdie definisies. Sedert die ewekansige loop gegee word deur xt x wt dit kan gesien word dat ek (1) is 'n ander voorstelling, aangesien nabla1 xt wt. As ons vermoed dat 'n nie-lineêre tendens dan kan ons in staat wees om herhaalde breukmetodes (dit wil sê d GT 1) gebruik om 'n reeks te stilstaande wit geraas te verminder. In R kan ons die verskil opdrag gebruik met bykomende parameters, bv diff (x, d3) om uit te herhaal verskille dra. Simulasie, Correlogram en modelpassing Aangesien ons reeds gebruik van die arima. sim opdrag om 'n ARMA (p, q) proses na te boots het, sal die volgende prosedure soortgelyk aan dié in Deel 3 van die ARMA reeks gedra word. Die groot verskil is dat ons nou sal stel D1, dit is, sal ons 'n nie-stasionêre tydreekse met 'n stogastiese trending komponent produseer. Soos voorheen kan ons 'n ARIMA model aan ons gesimuleerde data pas, probeer om die parameters te herstel, te skep vertrouensintervalle vir hierdie parameters, produseer 'n correlogram van die residue van die toegeruste model en uiteindelik uit te voer 'n Ljung-Box toets om vas te stel of ons ' 'n goeie passing. Ons gaan 'n ARIMA (1,1,1) model simuleer, met die outoregressiewe koëffisiënt alpha0.6 en die bewegende gemiddelde koëffisiënt beta-0.5. Hier is die R-kode te simuleer en plot so 'n reeks: Noudat ons ons gesimuleerde reeks gaan ons probeer inpas n ARIMA (1,1,1) model om dit te. Aangesien ons die einde sal ons dit eenvoudig spesifiseer in die pas te weet: Die vertrouensintervalle word bereken as: Beide parameterberaming binne die vertrouensintervalle val en is naby aan die ware parameterwaardes van die gesimuleerde ARIMA reeks. Vandaar, behoort nie ons verbaas wees om te sien die residue op soek na 'n verwesenliking van diskrete wit geraas Uiteindelik, kan ons 'n Ljung-Box toets hardloop om statistiese bewyse van 'n goeie passing bied: Ons kan sien dat die p-waarde is aansienlik groter as 0.05 en as sodanig kan ons sê dat daar 'n sterk bewyse vir diskrete wit geraas wat 'n goeie passing vir die residue. Vandaar die ARIMA (1,1,1) model is 'n goeie passing, soos verwag. Finansiële inligting en voorspelling In hierdie afdeling gaan ons ARIMA modelle te pas by Amazon, Inc. (AMZN) en die SampP500 VSA Equity Index (GPSC, in Yahoo Finansies). Ons sal gebruik maak van die voorspelling biblioteek, geskryf deur Rob J Hyndman maak. Kom ons gaan voort en die installering van die biblioteek in R: Nou kan ons gebruik quantmod om die daaglikse prys reeks Amazon aflaai vanaf die begin van 2013 Sedert ons reeds die eerste orde verskille van die reeks sal geneem, die ARIMA inpas binnekort uitgevoer sal nie vereis dat d GT 0 vir die geïntegreerde komponent: Soos in Deel 3 van die ARMA reeks, ons is nou van plan om lus deur die kombinasies van p, d en Q, om die optimale ARIMA (p, d, q) model te vind. Deur optimale bedoel ons die einde kombinasie wat die Akaike Inligting Criterion (AIC) verminder: Ons kan sien dat 'n bevel van P4, D0, K4 is gekies. Veral D0, soos ons reeds die eerste orde verskille hierbo geneem: As ons plot die correlogram van die residue kan ons kyk of ons het bewyse vir 'n diskrete wit geraas reeks: Daar is twee belangrike pieke, naamlik by K15 en K21, hoewel ons moet verwag om statisties beduidende pieke sien bloot as gevolg van steekproefneming variasie 5 van die tyd. Kom ons doen 'n Ljung-Box toets (sien vorige artikel) en kyk of ons bewyse vir 'n goeie passing: Soos ons kan sien die p-waarde groter as 0.05 en so ons het bewyse vir 'n goeie passing op die vlak 95. Ons kan nou gebruik maak van die voorspelling opdrag van die voorspelling biblioteek ten einde 25 dae voor voorspel vir die opbrengste reeks Amazon: Ons kan die punt voorspellings sien vir die volgende 25 dae met 95 (donkerblou) en 99 (ligblou) fout bands . Ons sal gebruik word om hierdie voorspellings in ons eerste keer reeks handel strategie wanneer ons kom ARIMA en GARCH kombineer. Kom ons dieselfde prosedure vir die SampP500 uit te voer. Eerstens het ons die data verkry uit quantmod en skakel dit om na 'n daaglikse log opbrengste stroom: Ons pas 'n ARIMA model deur herhaling oor die waardes van p, d en Q: Die AIC sê vir ons dat die beste model is die ARIMA (2,0, 1) model. Let weereens dat D0, soos ons reeds die eerste orde verskille van die reeks geneem het: Ons kan die residue van die toegeruste model plot om te sien of ons 'n bewys van diskrete wit geraas: Die correlogram lyk belowend, sodat die volgende stap is om te hardloop die Ljung-Box toets en bevestig dat ons 'n goeie model pas: Aangesien die p-waarde groter as 0.05 het ons bewyse van 'n goeie model pas. Hoekom is dit dat in die vorige artikel ons Ljung-Box toets vir die SampP500 het getoon dat die ARMA (3,3) was 'n swak passing vir die daaglikse log opbrengste Let daarop dat ek doelbewus kapt die SampP500 data om te begin van 2013 af in hierdie artikel , wat gerieflik sluit die wisselvallige tydperke rondom 2007-2008. Vandaar het ons 'n groot gedeelte van die SampP500 waar ons moes buitensporige wisselvalligheid groepering uitgesluit. Dit impak die korrelasie van die reeks en vandaar het die uitwerking van die maak van die reeks lyk meer stilstaande as wat dit in die verlede was. Dit is 'n baie belangrike punt. Wanneer die ontleding van tydreekse wat ons nodig het om uiters versigtig van voorwaardelik heteroscedastic reeks, soos aandelemark indekse te wees. In kwantitatiewe finansies, probeer om tye van verskillende wisselvalligheid is dikwels bekend as regime opsporing te bepaal. Dit is een van die moeiliker take aan Wel bereik bespreek hierdie punt breedvoerig in die volgende artikel as ons kom tot die boog en GARCH modelle te oorweeg. Kom nou plot 'n voorspelling vir die volgende 25 dae van die SampP500 daaglikse log opbrengste: Nou dat ons die vermoë om aan te pas en weer modelle soos ARIMA, was baie naby aan die vermoë om strategie aanwysers te skep vir verhandeling. Volgende stappe in die volgende artikel gaan ons 'n blik op die algemene outoregressiewe voorwaardelike Heteroskedastisiteit (GARCH) model neem en dit gebruik om meer van die reeks korrelasie verduidelik in sekere aandele en aandele-indeks reeks. Sodra ons GARCH bespreek sal ons in staat wees om dit te kombineer met die ARIMA model en skep sein aanwysers en dus 'n basiese kwantitatiewe handel strategie. Michael Saal-Moore Mike is die stigter van QuantStart en is betrokke by die kwantitatiewe finansiële sektor vir die afgelope vyf jaar, in die eerste plek as 'n quant ontwikkelaar en later as 'n quant handelaar konsultasie vir verskansingsfondse. Verwante ArticlesA Rima staan vir outoregressiewe geïntegreerde bewegende gemiddelde modelle. Eenveranderlike (enkele vektor) ARIMA is 'n vooruitskatting tegniek wat die toekomstige waardes van 'n reeks ten volle gebaseer op sy eie traagheid projekte. Die belangrikste aansoek is op die gebied van korttermyn voorspelling wat ten minste 40 historiese data punte. Dit werk die beste wanneer jou data toon 'n stabiele of konsekwent patroon met verloop van tyd met 'n minimum bedrag van uitskieters. Soms genoem word Posbus-Jenkins (ná die oorspronklike skrywers), ARIMA is gewoonlik beter as gladstrykingstegnieke eksponensiële wanneer die data is redelik lank en die korrelasie tussen die verlede waarnemings is stabiel. As die data is kort of baie volatiel, dan kan 'n paar smoothing metode beter te presteer. As jy nie ten minste 38 datapunte het, moet jy 'n ander metode as ARIMA oorweeg. Die eerste stap in die toepassing van ARIMA metode is om te kyk vir stasionariteit. Stasionariteit impliseer dat die reeks bly op 'n redelik konstante vlak met verloop van tyd. As 'n tendens bestaan, soos in die meeste ekonomiese of besigheid aansoeke, dan is jou data nie stilstaan. Die data moet ook 'n konstante stryd in sy skommelinge oor tyd te wys. Dit is maklik gesien met 'n reeks wat swaar seisoenale en groei teen 'n vinniger tempo. In so 'n geval, sal die wel en wee van die seisoen meer dramaties met verloop van tyd. Sonder hierdie stasionariteit voorwaardes voldoen word, baie van die berekeninge wat verband hou met die proses kan nie bereken word nie. As 'n grafiese plot van die data dui stationariteit, dan moet jy verskil die reeks. Breukmetodes is 'n uitstekende manier om die transformasie van 'n nie-stationaire reeks om 'n stilstaande een. Dit word gedoen deur die aftrekking van die waarneming in die huidige tydperk van die vorige een. As hierdie transformasie slegs een keer gedoen word om 'n reeks, sê jy dat die data het eers differenced. Hierdie proses elimineer wese die tendens as jou reeks groei teen 'n redelik konstante tempo. As dit groei teen 'n vinniger tempo, kan jy dieselfde prosedure en verskil die data weer aansoek doen. Jou data sal dan tweede differenced. Outokorrelasies is numeriese waardes wat aandui hoe 'n data-reeks is wat verband hou met self met verloop van tyd. Meer presies, dit meet hoe sterk datawaardes op 'n bepaalde aantal periodes uitmekaar gekorreleer met mekaar oor tyd. Die aantal periodes uitmekaar is gewoonlik bekend as die lag. Byvoorbeeld, 'n outokorrelasie op lag 1 maatreëls hoe waardes 1 tydperk uitmekaar gekorreleer met mekaar oor die hele reeks. 'N outokorrelasie op lag 2 maatreëls hoe die data twee periodes uitmekaar gekorreleer regdeur die reeks. Outokorrelasies kan wissel van 1 tot -1. 'N Waarde naby aan 1 dui op 'n hoë positiewe korrelasie, terwyl 'n waarde naby aan -1 impliseer 'n hoë negatiewe korrelasie. Hierdie maatreëls is meestal geëvalueer deur middel van grafiese plotte genoem correlagrams. A correlagram plotte die motor - korrelasie waardes vir 'n gegewe reeks by verskillende lags. Dit staan bekend as die outokorrelasie funksie en is baie belangrik in die ARIMA metode. ARIMA metode poog om die bewegings in 'n stilstaande tyd reeks beskryf as 'n funksie van wat is outoregressiewe en bewegende gemiddelde parameters genoem. Dit is waarna verwys word as AR parameters (autoregessive) en MA parameters (bewegende gemiddeldes). 'N AR-model met slegs 1 parameter kan geskryf word as. X (t) 'n (1) X (t-1) E (t) waar x (t) tydreekse wat ondersoek word 'n (1) die outoregressiewe parameter van orde 1 X (t-1) die tydreeks uitgestel 1 periode E (t) die foutterm van die model beteken dit eenvoudig dat enige gegewe waarde X (t) kan verduidelik word deur 'n funksie van sy vorige waarde, X (t-1), plus 'n paar onverklaarbare ewekansige fout, E (t). As die beraamde waarde van A (1) was 0,30, dan is die huidige waarde van die reeks sal wees met betrekking tot 30 van sy waarde 1 periode gelede. Natuurlik, kan die reeks word wat verband hou met meer as net 'n verlede waarde. Byvoorbeeld, X (t) 'n (1) X (t-1) A (2) X (t-2) E (t) Dit dui daarop dat die huidige waarde van die reeks is 'n kombinasie van die twee onmiddellik voorafgaande waardes, X (t-1) en X (t-2), plus 'n paar random fout E (t). Ons model is nou 'n outoregressiewe model van orde 2. bewegende gemiddelde modelle: 'n Tweede tipe Box-Jenkins model is 'n bewegende gemiddelde model genoem. Hoewel hierdie modelle lyk baie soortgelyk aan die AR model, die konsep agter hulle is heel anders. Bewegende gemiddelde parameters verband wat gebeur in tydperk t net om die ewekansige foute wat plaasgevind het in die verlede tyd periodes, naamlik E (t-1), E (t-2), ens, eerder as om X (t-1), X ( t-2), (xt-3) as in die outoregressiewe benaderings. 'N bewegende gemiddelde model met 'n MA termyn kan soos volg geskryf word. X (t) - B (1) E (t-1) E (t) Die term B (1) genoem word 'n MA van orde 1. Die negatiewe teken voor die parameter is slegs vir konvensie en word gewoonlik gedruk uit motor - dateer deur die meeste rekenaarprogramme. Bogenoemde model eenvoudig sê dat enige gegewe waarde van X (t) direk verband hou net aan die ewekansige fout in die vorige tydperk, E (t-1), en die huidige foutterm, E (t). Soos in die geval van outoregressiemodelle, kan die bewegende gemiddelde modelle uitgebrei word na 'n hoër orde strukture wat verskillende kombinasies en bewegende gemiddelde lengtes. ARIMA metode kan ook modelle gebou word dat beide outoregressiewe en gemiddelde parameters saam beweeg inkorporeer. Hierdie modelle word dikwels na verwys as gemengde modelle. Hoewel dit maak vir 'n meer ingewikkelde voorspelling instrument, kan die struktuur inderdaad die reeks beter na te boots en produseer 'n meer akkurate skatting. Suiwer modelle impliseer dat die struktuur bestaan slegs uit AR of MA parameters - nie beide. Die ontwikkel deur hierdie benadering modelle word gewoonlik genoem ARIMA modelle omdat hulle 'n kombinasie van outoregressiewe (AR) te gebruik, integrasie (I) - verwys na die omgekeerde proses van breukmetodes die voorspelling te produseer, en bewegende gemiddelde (MA) operasies. 'N ARIMA model word gewoonlik gestel as ARIMA (p, d, q). Dit verteenwoordig die orde van die outoregressiewe komponente (p), die aantal breukmetodes operateurs (d), en die hoogste orde van die bewegende gemiddelde termyn. Byvoorbeeld, ARIMA (2,1,1) beteken dat jy 'n tweede orde outoregressiewe model met 'n eerste orde bewegende gemiddelde komponent waarvan die reeks is differenced keer om stasionariteit veroorsaak. Pluk die reg spesifikasie: Die grootste probleem in die klassieke Box-Jenkins probeer om te besluit watter ARIMA spesifikasie gebruik - i. e. hoeveel AR en / of MA parameters in te sluit. Dit is wat die grootste deel van Box-Jenkings 1976 is gewy aan die identifikasieproses. Dit was afhanklik van grafiese en numeriese eval - uation van die monster outokorrelasie en gedeeltelike outokorrelasiefunksies. Wel, vir jou basiese modelle, die taak is nie te moeilik. Elk outokorrelasiefunksies dat 'n sekere manier te kyk. Maar wanneer jy optrek in kompleksiteit, die patrone is nie so maklik opgespoor. Om sake nog moeiliker maak, jou data verteenwoordig slegs 'n voorbeeld van die onderliggende proses. Dit beteken dat steekproeffoute (uitskieters, meting fout, ens) die teoretiese identifikasie proses kan verdraai. Dit is waarom tradisionele ARIMA modellering is 'n kuns eerder as 'n science. Forecasting - outoregressiewe geïntegreerde bewegende gemiddelde (ARIMA) Hierdie diens implemente outoregressiewe geïntegreerde bewegende gemiddelde (ARIMA) om voorspellings te produseer gebaseer op die historiese data wat verskaf is deur die gebruiker. Sal die vraag na 'n spesifieke produk te verhoog vanjaar Kan ek voorspel my produk verkope vir die Kersseisoen, sodat ek effektief kan beplan my inventaris voorspellingsmodelle is geneig om sulke vrae aan te spreek. Gegewe die afgelope data, hierdie modelle te ondersoek verborge tendense en seisoenaliteit om toekomstige tendense te voorspel. Probeer blou masjien Leer gratis Geen kredietkaart of blou inskrywing nodig. Begin nou GT Hierdie web diens deur gebruikers moontlik deur 'n foon kan verteer word, deur middel van 'n webwerf, of selfs op 'n plaaslike rekenaar, byvoorbeeld. Maar die doel van die web diens is ook om te dien as 'n voorbeeld van hoe blou masjien Leer gebruik kan word om die web dienste te skep bo-op R-kode. Met net 'n paar lyne van R-kode en klik van 'n knoppie binne blou masjien Leer Studio, kan 'n eksperiment word geskep met R-kode en gepubliseer as 'n web diens. Die web diens kan dan na die blou Marketplace gepubliseer en verteer deur gebruikers en toestelle regoor die wêreld met geen opstel infrastruktuur deur die skrywer van die web diens. Verbruik van web dienste Hierdie diens aanvaar 4 argumente en bereken die ARIMA voorspellings. Die insette argumente is: Frekwensie - Dui die frekwensie van die rou data (daagliks / weekliks / maandeliks / kwartaalliks / jaarlikse). Horizon - Toekomstige voorspelling tydraamwerk. Datum - Voeg in die nuwe tydreeksdata vir tyd. Waarde - Voeg in die nuwe tydreeksdata waardes. Die uitset van die diens is die berekende voorspelling waardes. Monster insette kan wees: Frequency - 12 Horizon - 12 Datum - 1/15/20122/15/20123/15/20124/15/20125/15/20126/15/20127/15/20128/15/20129/15/201210 / 15/201211/15/201212/15/2012 1/15/20132/15/20133/15/20134/15/20135/15/20136/15/20137/15/20138/15/20139/15/201310 / 15/201311/15/201312/15/2013 1/15/20142/15/20143/15/20144/15/20145/15/20146/15/20147/15/20148/15/20149/15/2014 Waarde - 3.4793.683.8323.9413.7973.5863.5083.7313.9153.8443.6343.5493.5573.7853.7823.6013.5443.5563.653.7093.6823.511 3.4293.513.5233.5253.6263.6953.7113.7113.6933.5713.509 Hierdie diens, as gasheer op die blou Marketplace, is 'n OData diens hierdie mag genoem word deur die pos of kry metodes. Daar is verskeie maniere om die verbruik van die diens in 'n outomatiese mode ( 'n voorbeeld app is hier). Begin C-kode vir web diens verbruik: Skep van web diens Dit web diens is geskep met behulp van blou masjien Leer. Vir 'n gratis toets, sowel as inleidende video's op die skep van eksperimente en publiseer web dienste. sien blou / ml. Hier is 'n kiekie van die eksperiment wat die web diens en voorbeeld kode vir elk van die modules in die eksperiment. Van binne blou masjienleer, is 'n nuwe leeg eksperiment geskep. Monster insette data is gelaai met 'n vooraf gedefinieerde data skedule. Gekoppel aan die data-skedule is 'n uitvoer R script module, wat die ARIMA voorspelling model met behulp van auto. arima en voorspelling funksies van R. Medley vloei genereer: Module 1: Module 2: Beperkings Dit is 'n baie eenvoudige voorbeeld vir ARIMA vooruitskatting. Soos gesien kan word uit die voorbeeld kode hierbo, vang geen fout is geïmplementeer, en die diens aanvaar dat al die veranderlikes is deurlopende / positiewe waardes en die frekwensie moet 'n heelgetal groter as 1. wees Die lengte van die datum en waarde vektore moet wees dieselfde. Die datum veranderlike moet voldoen aan die formaat mm / dd / jjjj. Vrae Vir vrae oor die verbruik van die web diens of publikasie te mark, kyk hier. ARIMA vooruitskatting met Excel en R Hallo Vandag gaan ek om jou te wandel deur 'n inleiding tot die ARIMA model en sy komponente, sowel as 'n kort verduideliking of the Box-Jenkins metode van hoe ARIMA modelle gespesifiseer. Laastens, ek geskep n Excel implementering met behulp van R, wat I8217ll jou wys hoe om te stel en te gebruik. Outoregressiewe bewegende gemiddelde (ARMA) Models Die outoregressiewe bewegende gemiddelde model word gebruik vir modellering en voorspelling van skryfbehoeftes, stogastiese time-reeks prosesse. Dit is die kombinasie van twee voorheen ontwikkel statistiese tegnieke, die outoregressiewe (AR) en bewegende gemiddelde (MA) modelle en is oorspronklik beskryf deur Peter Whittle in 1951. George E. P. Boks en Gwilym Jenkins gewild die model in 1971 deur die spesifiseer van diskrete stappe om identifisering, beraming en verifikasie model. Hierdie proses sal later beskryf word ter inligting weergegee. Ons sal begin deur die instelling van die ARMA model deur sy verskillende komponente, die AR, en MA modelle en dan aan te bied 'n gewilde veralgemening van die ARMA model, ARIMA (outoregressiewe geïntegreerde bewegende gemiddelde) en vooruitskatting en model spesifikasie stappe. Laastens sal ek 'n Excel implementering ek geskep het en hoe om dit te gebruik om jou tyd reeks voorspellings te maak verduidelik. Outoregressiemodelle Die outoregressiewe model word gebruik vir die beskrywing van ewekansige prosesse en-time wisselende prosesse en spesifiseer die uitset veranderlike hang lineêr op sy vorige waardes. Die model word beskryf as: Xt c som varphii, Xt-i varepsilont Waar varphi1, ldots, varphivarphi is die parameters van die model, C konstant is, en varepsilont is 'n wit geraas termyn. In wese, wat die model beskryf is vir enige gegewe waarde X (t), dit verduidelik kan word deur funksies van sy vorige waarde. Vir 'n model met 'n parameter, varphi 1, X (t) word verklaar deur sy verlede waarde X (t-1) en ewekansige fout varepsilont. Vir 'n model met meer as een parameter, byvoorbeeld varphi 2, X (t) word gegee deur x (t-1), X (t-2) en ewekansige fout varepsilont. Bewegende gemiddelde Model Die bewegende gemiddelde (MA) model word dikwels gebruik vir modellering eenveranderlike tydreekse en word gedefinieer as: Xt mu varepsilont theta1, varepsilon ldots thetaq, varepsilon mu is die gemiddeld van die tydreeks. theta1, ldots, thetaq is die parameters van die model. varepsilont, varepsilon, ldots is die wit geraas fout terme. Q is aan die orde van die bewegende gemiddelde model. Die bewegende gemiddelde model is 'n lineêre regressie van die huidige waarde van die reeks in vergelyking met varepsilont terme in die vorige tydperk, t, varepsilon. Byvoorbeeld, 'n MA-model van Q 1, X (t) word verklaar deur die huidige fout varepsilont in dieselfde tydperk en die afgelope fout waarde, varepsilon. Vir 'n model van orde 2 (V 2), X (t) word verklaar deur die afgelope twee foutwaardes, varepsilon en varepsilon. Die AR (p) en MA (Q) terme gebruik in die ARMA model, wat nou sal bekendgestel word. Outoregressiewe bewegende gemiddelde Model outoregressiewe bewegende gemiddelde modelle gebruik twee polinome, AR (p) en MA (Q) en beskryf 'n stilstaande stogastiese proses. 'N Stilstaande proses verander nie wanneer verskuif in tyd of ruimte, dus, 'n stilstaande proses het konstante gemiddelde en variansie. Die ARMA model word dikwels in terme van sy polinome, ARMA (p, q) verwys. Die notering van die model is geskrywe: Xt c varepsilont som varphi1 X som thetai varepsilon Selektering, beraming en verifikasie van die model is beskryf deur die Box-Jenkins proses. Box-Jenkins Metode vir modelidentifisering Die onderstaande is meer van 'n uiteensetting van die Box-Jenkins metode, soos die werklike proses om hierdie waardes kan nogal oorweldigend sonder 'n statistiese pakket wees. Die Excel vel opgeneem op hierdie blad bepaal outomaties die beste pas model. Die eerste stap van die Box-Jenkins metode is model identifikasie. Die stap sluit die identifisering van seisoenaliteit, breukmetodes indien nodig en die bepaling van die orde van p en q deur die plot die outokorrelasie en gedeeltelike outokorrelasiefunksies. Na afloop van die model is geïdentifiseer, is die volgende stap die skatte van die parameters. Parameter beraming gebruik statistiese pakkette en berekening algoritmes om die beste pas parameters vind. Sodra die parameters gekies, is die laaste stap nagaan van die model. Model nagaan word gedoen deur die toets om te sien of die model voldoen aan 'n stilstaande eenveranderlike tydreekse. 'N Mens moet ook bevestig die residue is onafhanklik van mekaar en toon konstante gemiddelde en variansie met verloop van tyd, wat kan gedoen word deur die uitvoering van 'n Ljung-Box toets of weer plot die outokorrelasie en gedeeltelike outokorrelasie van die residue. Let op die eerste stap behels die nagaan vir die seisoen. As die data wat jy besig is met 'bevat seisoenale tendense, jy 8220difference8221 om die data stilstaande maak. Dit breukmetodes stap veralgemeen die ARMA model in 'n ARIMA model, of outoregressiewe geïntegreerde bewegende gemiddelde, waar 8216Integrated8217 ooreenstem met die breukmetodes stap. Outoregressiewe geïntegreerde bewegende gemiddelde modelle Die ARIMA model het drie parameters, p, d, q. Met die oog op die ARMA model definieer die breukmetodes termyn sluit, het ons begin deur rangskik die standaard ARMA model om X (t) en varepsilont skei van die opsomming. (1 8211 som alphai Li) Xt (1 som thetai Li) varepsilont waar l die lag operateur en alphai, thetai, varepsilont is outoregressiewe en bewegende gemiddelde parameters, en die fout terme, onderskeidelik. Ons maak nou die aanname van die eerste polinoom van die funksie, (1 8211 som alphai Li) het 'n unitêre wortel van multiplisiteit d. Ons kan dan herskryf dit na die volgende: Die ARIMA model spreek die polinoom faktorisering met p p8217 8211 d en gee ons: (1 8211 som phii Li) (1 8211 L) d Xt (1 som thetai Li) varepsilont Laastens, ons veralgemeen die model verder deur die toevoeging van 'n drif termyn, wat die ARIMA model as ARIMA (p, d, q) met drif frac definieer. (1 8211 som phii Li) (1 8211 L) d Xt delta (1 som thetai Li) varepsilont Met die model nou gedefinieer is, kan ons die ARIMA model sien as twee aparte dele, een nie-stasionêre en die ander 'n wye sin stilstaande (gesamentlike kans verdeling nie verander wanneer verskuif in tyd of ruimte). Die nie-stasionêre model: Yt (1 8211 L) d Xt die wye sin stilstaande model: (1 8211 som phii Li) Yt (1 som thetai Li) varepsilont Voorspellings nou gemaak kan word op Yt behulp van 'n algemene outoregressiewe vooruitskatting metode. Noudat ons die ARMA en ARIMA modelle bespreek, ons nou kyk na hoe kan ons dit gebruik in praktiese toepassings te voorspelling verskaf. I8217ve gebou 'n uitvoering met Excel gebruik van R te ARIMA voorspellings te maak, sowel as 'n opsie om Monte Carlo simulasie loop op die model om die waarskynlikheid van die voorspellings te bepaal. Excel Implementering en Hoe om te gebruik voordat die gebruik van die vel, moet jy R en RExcel aflaai van die Statconn webwerf. As jy reeds R geïnstalleer is, kan jy net RExcel aflaai. As jy R don8217t geïnstalleer is, kan jy RAndFriends wat die nuutste weergawe van R en RExcel bevat te laai. Let wel, RExcel werk net op 32bit Excel vir sy nie-kommersiële lisensie. As jy 64bit Excel geïnstalleer is, sal jy 'n kommersiële lisensie van Statconn kry. Dit word aanbeveel om RAndFriends aflaai, want dit maak vir die vinnigste en maklikste installasie As jy egter reeds R het en wil dit met die hand te installeer, volg hierdie volgende stappe. Met die hand te installeer RExcel Om RExcel en die ander pakkette te installeer om R werk in Excel, eerste oop R maak as 'n administrateur deur regs te klik op die exe. In die R konsole, installeer RExcel deur te tik die volgende stellings: Bogenoemde opdragte sal RExcel installeer op jou rekenaar. Die volgende stap is om kamertemperatuur, wat ook 'n pakket van Statconn vir die RExcel pakket te installeer. Om dit te installeer, tik die volgende opdragte, wat ook outomaties installeer rscproxy as van R weergawe 2.8.0. Met hierdie pakkette geïnstalleer, kan jy gaan na om die opstel van die verband tussen R en Excel. Alhoewel dit nie nodig is om die installasie, 'n handige pakket te laai is Rcmdr, wat ontwikkel is deur John Fox. Rcmdr skep R spyskaarte wat spyskaarte in Excel kan word. Hierdie funksie kom by verstek met die RAndFriends installasie en maak 'n paar R beveel beskikbaar in Excel. Tik die volgende opdragte in R tot Rcmdr installeer. Ons kan die skakel na R en Excel te skep. Let onlangse weergawes van RExcel hierdie verband gemaak word met 'n eenvoudige dubbel-klik van die voorwaarde bat lêer 8220ActivateRExcel20108221, so moet jy net nodig het om hierdie stappe te volg as jy met die hand geïnstalleer R en RExcel of vir een of ander rede die verband isn8217t gemaak tydens die RAndFriends installasie. Skep die verband tussen R en Excel Open 'n nuwe boek in Excel en gaan na die opsies skerm. Klik Options en dan Add-Ins. Jy moet 'n lys van al die aktiewe en onaktiewe add-ins wat jy tans het te sien. Klik op die 8216Go8217 knoppie aan die onderkant. Op die dialoog Add-Ins boks, sal jy al die add-in verwysings wat jy gemaak het sien. Klik op Browse. Gaan na die gids RExcel, gewoonlik in C: Program FilesRExcelxls of iets soortgelyks. Vind die RExcel. xla add-in en klik dit. Die volgende stap is om 'n verwysing sodat makros met behulp van R om behoorlik te werk te skep. In jou Excel dokument, tik Alt F11. Dit sal Excel8217s VBA editor te bekom. Gaan na Tools - gt Verwysings en vind die RExcel verwysing, 8216RExcelVBAlib8217. RExcel moet nou gereed om te gebruik Gebruik die Excel Sheet Noudat R en RExcel behoorlik gekonfigureer wees, it8217s tyd om te doen 'n paar voorspellings Maak die voorspelling vel en klik 8216Load Server8217. Dit is om die kamertemperatuur bediener begin en ook laai die nodige funksies na die voorspelling te doen. 'N dialoog sal oopmaak. Kies die 8216itall. R8217 lêer ingesluit met die vel. Die lêer bevat die funksies van die voorspelling instrument gebruik. Die meeste van die funksies wat is ontwikkel deur Professor Stoffer aan die Universiteit van Pittsburgh. Hulle brei die vermoëns van R en gee ons 'n paar nuttige diagnostiese grafieke saam met ons vooruitskatting uitset. Daar is ook 'n funksie om die beste pas parameters van die ARIMA model outomaties bepaal. Na afloop van die bediener vragte, gee jy jou data in die kolom Data. Kies die omvang van die data, regs-kliek en kies 8216Name Range8217. Noem die reeks as 8216Data8217. Volgende, het die frekwensie van jou data in Cell C6. Frekwensie verwys na die tydperke van jou data. As dit is n weeklikse, sal die frekwensie 7. maandeliks sou 12 wees, terwyl sou kwartaallikse 4 wees, en so aan. Tik die tydperke voor te voorspel. Let daarop dat ARIMA modelle word baie onakkurate na 'n paar opeenvolgende frekwensie voorspellings. 'N Goeie reël is om nie 30 stappe as enigiets meer as verlede wat eerder onbetroubaar kan wees. Dit beteken afhang van die grootte van jou data sowel stel. As jy het 'n beperkte data beskikbaar is, word dit aanbeveel om 'n kleiner stappe te kies wat voorlê nommer. Na die begin van jou data, noem dit, en die opstel van die verlangde frekwensie en stappe vooruit te voorspel, kliek op Doen. Dit kan 'n rukkie neem vir die vooruitskatting te verwerk. Sodra it8217s voltooi, sal jy voorspelde waardes uit die getal wat u verskaf het, die standaardfout van die resultate, en twee kaarte. Die links is die voorspelde waardes geplot met die data, terwyl die reg bevat handige diagnoses met gestandaardiseerde residue, die outokorrelasie van die residue, 'n gg plot van die residue en 'n Ljung-Box statistieke grafiek om te bepaal of die model is goed toegerus. Ek won8217t kry in te veel detail oor hoe jy kyk vir 'n goed toegeruste model, maar op die ACF grafiek wat jy don8217t wil enige (of baie) van die lag are kruising oor die stippellyn blou lyn. Op die gg plot, hoe meer sirkels wat gaan deur die lyn, hoe meer genormaliseer en beter toegerus die model is. Vir groter datastelle kan dit 'n baie sirkels kruis. Laastens, die Ljung-Box toets is 'n artikel op sigself egter die meer sirkels wat bo die stippellyn blou lyn, hoe beter is die model is. As die diagnose lei doesn8217t goed lyk, kan jy probeer om die toevoeging van meer inligting of vanaf 'n ander punt nader aan die omvang jy wil hê om te voorspel. Jy kan maklik die gegenereerde resultate duidelik deur te kliek op die 8216Clear Geskatte Values8217 knoppies. En that8217s dit Tans is die datum kolom doesn8217t doen enigiets anders as vir jou verwysing, maar it8217s nie nodig vir die instrument. As ek tyd kry, I8217ll gaan terug en voeg dit so die vertoon grafiek toon die korrekte tyd. Jy kan ook 'n fout ontvang wanneer loop die skatting. Dit is gewoonlik as gevolg van die funksie wat die beste parameters bevind is nie in staat om die korrekte volgorde te bepaal. Jy kan volg die bogenoemde stappe te probeer en jou data beter vir die funksie om te werk te reël. Ek hoop jy gebruik uit die instrument It8217s gered my baie tyd by die werk, soos nou al wat ek hoef te doen is tik die data, die bediener laai en voer dit uit. Ek hoop ook hierdie wys jou hoe ontsagwekkende R kan wees, veral wanneer dit gebruik word met 'n front-end soos Excel. Kode, Excel werkblad en. bas lêer is ook op GitHub hier. ARIMA Die ARIMA opdrag bied funksies vir die Box-Jenkins benadering (sien kassie en Jenkins 1976) om die ontleding van outoregressiewe geïntegreerde bewegende gemiddelde modelle van eenveranderlike tydreekse. Shazam gebruik 'n aangepaste weergawe van programme geskryf deur Charles Nelson en beskryf in Nelson 1973. Daar is 3 vorme van die opdrag: identifikasie. Beraming. en vooruitskatting. Die gespesifiseerde opsies te bepaal watter vorm van die opdrag ARIMA is in effek. Die identifisering stadium verslae van die monster outokorrelasie funksie en die monster gedeeltelike outokorrelasie funksie wat kan ondersoek word om 'n dossier vir 'n ARIMA model te bepaal. Die skatting stadium skat die parameters van 'n ARIMA model en gee diagnostiese toetse vir die beheer van die model toereikendheid. Die Box-Jenkins metode is om die identifikasie en belasting verhoog herhaal totdat 'n geskikte model is gevind. Die vooruitskatting stadium bied punt voorspellings en vertrouensintervalle. IDENTIFIKASIE FASE In die algemeen, die formaat is: ARIMA Vars / opsies waar Vars is 'n lys van veranderlikes. Die beskikbare opsies is: Slaat die monster outokorrelasie funksie in die veranderlike gespesifiseer. Bere die tydreeks eiendom te alle bestellings breukmetodes tot die gespesifiseerde met NDIFF en NSDIFF waardes. Spesifiseer die begin waarneming wat gebruik word in skatting. Hierdie opsie oorheers die monster opdrag en gebreke om die monster reeks van krag. Spesifiseer die beëindiging van waarneming om gebruik te word in skatting. Hierdie opsie oorheers die monster opdrag en gebreke om die monster reeks van krag. Bere omgekeerde outokorrelasies. Die aantal lags soos aangedui met die NLAG opsie (die maksimum is 20). Plotte die monster outokorrelasie funksie met behulp van die Gnuplot program. Die aantal lags gespesifiseer met die opsie NLAG. 'N geskatte 95 vertrouensinterval vir die outokorrelasies word bereken op grond van / -2 standaard foute. Plotte die data met behulp van die Gnuplot program. As die puntelys, NDIFF of NSDIFF opsies word dan gebruik om die plot is van die getransformeerde data. Plotte die monster gedeeltelike outokorrelasie funksie met behulp van die Gnuplot program. Die aantal lags gespesifiseer met die opsie NLAGP. 'N geskatte 95 vertrouensinterval vir die gedeeltelike outokorrelasies word bereken op grond van / - 2 standaard foute. Neem logs van die data.
No comments:
Post a Comment