Trading System C
BarsMonster Jeg kunne se om ting som nettverksstabler, som er helt plattformavhengige, ville kreve litt kunnskap før de kunne bytte plattformer. Pluss ting som gaffel som er vanlige i POSIX verden, men det er ikke mulig i et Windows-miljø, jeg tror det et rimelig svar Billy ONeal Aug 29 10 på 0 55.Linux UNIX er mye mer anvendelig for samtidige eksterne brukere, noe som gjør det enklere å skanne rundt systemene, bruk standard verktøy som grep sed awk perl ruby mindre på logger ssh scp alt det som s bare der. Det er også tekniske problemer, for eksempel for å måle forløpt tid på Windows, kan du velge mellom et sett med funksjoner basert på Windows-klokkefliken og den maskinvarebaserte QueryPerformanceCounter Den tidligere er trinn hver 10-16 millisekunder merk noe dokumentasjon innebærer mer presisjon - for eksempel verdiene fra GetSystemTimeAsFileTime måles til 100ns, men de rapporterer den samme 100ns kanten av klokkefeltet til den flettes igjen. Sistnevnte - QueryPerformanceCounter - har show-stoppe problemer der forskjellige kjerner cpus kan rapportere klokker siden starten som varierer med flere sekunder på grunn av oppvarming på forskjellige tidspunkter under systemstart MSDN dokumenterer dette som en mulig BIOS-feil, men det er vanlig. Så, som ønsker å utvikle systemer med lav latenshandel på en plattform som ikke kan instrumenteres på riktig måte. Det finnes løsninger, men du vil ikke finne noen programvare som sitter beleilig i boost eller ACE. Mange Linux UNIX-varianter har mange enkelt tilpassbare parametere for handel latens for en enkelt hendelse mot gjennomsnittlig ventetid under belastning, tidsskala størrelser, planlegging politikk osv. På open source operativsystemer, er det også forsikringen som følger med å kunne henvise til koden når du tror noe skal være raskere enn det er, og kunnskapen om at et potensielt stort samfunn av mennesker har vært og gjør det så kritisk - med Windows er det åpenbart hovedsakelig de som skal tilordnes å se på det. n FUDs rykte side - noe immateriell, men en viktig del av årsakene til OS-valg - Jeg tror de fleste programmerere i bransjen bare vil stole på Linux UNIX mer for å gi pålitelig planlegging og oppførsel. Linux UNIX har et rykte for å krasje mindre, selv om Windows er ganske pålitelig i disse dager, og Linux har en mye mer flyktig kodebase enn Solaris eller FreeBSD. answered 29 Aug 10 på 0 42. Windows-klientens operativsystem tillater bare en person å bruke RDP om gangen. Men Windows Terminal Server har eksistert for alltid var det faktisk den opprinnelige bruken av RDP, og det tillater så mange tilkoblinger som du har Client Access-lisenser. Windows Server-operativsystemer kommer med muligheten til å ha mer enn én ekstern bruker som standard Hvis du kunne kilden kommentaren om planlegging, så jeg ville 1 her - den delen av svaret ser ut til å være FUD på dette punktet til meg, resten av svaret er bra YMMV Billy ONeal Aug 29 10 på 0 50. Det er ingen UNIX Linux planlegging Det er en av de områder der implementeringer er forskjellige Og Linux har faktisk hatt mer enn ett planleggervalg google Helt rettferdig Scheduler Linux for bakgrunn, så du kan ikke engang si Linux-planlegging er pålitelig MSalters 30 aug 10 kl 11 37.I andre meninger om historisk og tilgang til kjernemanipulering. I tillegg til disse grunnene tror jeg også at akkurat som hvordan de slår av søppelkolleksjon av og lignende mekanisme i Java når du bruker disse teknologiene i litt lav latens. De kan unngå Windows på grunn av API s på høyt nivå som interagerer med lavt nivå os og deretter kjernen. Så kjernen er selvfølgelig kjernen som kan interagere med å bruke lavt nivå os API-ene på høyt nivå er gitt bare for å gjøre de vanlige brukerne enklere. Men i tilfelle av lav latens viser dette seg til være et fettlag og brøkdelers sekundstap rundt hver operasjon Så et lukrativt alternativ for å få noen brøkdeler per samtale. I tillegg til dette er en annen ting å vurdere integrering De fleste se rvers, datasentre, utvekslinger bruker UNIX ikke Windows, slik at bruk av klienter av samme familie gjør integrasjonen og kommunikasjonen enklere. Da har du sikkerhetsproblemer, kan mange mennesker der ute kanskje ikke være enige med dette punktet, men hacking UNIX er ikke lett i forhold til hacking av Windows I ikke enig i lisensiering må være problemet for banker fordi de bruser penger på hver eneste maskinvare og programvare og folkene som tilpasser dem, så kjøpslisenser vil ikke være like større problemet når de vurderes hva de får ved å kjøpe. 12 på 20 05. Din Svar.2017 Stack Exchange, Inc. Hvordan du skal utvikle et handelssystem. Det er også viktig at kanten er robust. Et system er robust når det opprettholder positiv forventning. Systemet bør testes på en opp, ned og sidelengs bevegelse Mange trendsystemer fungerer bra når instrumentet trender, men det gjør det ikke så bra når instrumentet befinner seg i en sidelengs piggsperiode. Det er avgjørende at perioden tas i betraktning under ryggen testing. Jeg anbefaler tilbakestesting på minst 2000 barer. Hvis du testet et system på de daglige diagrammene, anbefaler jeg at du bruker 10 år. På dagdagsdiagrammer anbefaler jeg at du tester systemene så langt tilbake som dataleverandøren tillater dette. vanligvis 6 måneder til et år. Bakk Testing Programs. It er viktig å bruke profesjonell nivå programvare med back-testing evner når du utvikler systemet For å nevne noen. En av de beste back testing programmer der ute selv om programmering kan være vanskelig som det er i Pascal Det er ingen telefonkundeservice for rikdomslab, enten NCMfx tilbyr programmeringstjenester til konkurransedyktige priser, og til enorme rabatter for sine eksisterende forex-kunder. Riskestyringsfunksjoner. Systemutviklingstropp. Profesjonelt nivå tilbaketesting og analyse programvare Metastock tilbyr mange handelssystemer og indikatorer Metastock har sitt eget språk, det kan være litt enklere enn Wealth-Lab, men langt mer begrenset Kundeservice er bra Og det er nume Rous legger til oss og plugger inn at du kan kjøpe for å passe din stil med handel. NCMfx tilbyr programmeringstjenester til konkurransedyktige priser og til enorme rabatter for sine eksisterende forex-kunder. Alexander Nekritin er en profesjonell forhandler med over 8 års erfaring. Hans spesialiteter inkluderer risiko ledelse og systemutvikling Alexander er konsernsjef som er en forex som innfører megler og utdanningsselskap som hjelper suite kundens behov i forex trading Alexander har en grad med en konsentrasjon i Investment Banking og derivater fra Babson College i Massachusetts. Best Programming Language for Algoritmiske handelssystemer. Et av de vanligste spørsmålene jeg mottar i QS-postbaggen er Hva er det beste programmeringsspråket for algoritmisk handel. Det korte svaret er at det ikke er noe beste språk. Strategiparametere, ytelse, modularitet, utvikling, fleksibilitet og kostnad må alle bli vurdert Denne artikkelen vil skissere de nødvendige komponentene i en algorit mic trading systemarkitektur og hvordan beslutninger om implementering påvirker valg av språk. Først vil hovedkomponentene i et algoritmisk handelssystem bli vurdert, for eksempel forskningsverktøy, porteføljeoptimerer, risikostyring og utførelsesmotor. Deretter vil ulike handelsstrategier være undersøkt og hvordan de påvirker systemets utforming. Spesielt vil hyppigheten av handel og det sannsynlige handelsvolumet bli diskutert. Når handelsstrategien er valgt, er det nødvendig å arkivere hele systemet. Dette inkluderer valg av maskinvare, driften system s og systemresistens mot sjeldne, potensielt katastrofale hendelser Mens arkitekturen vurderes, må det tas hensyn til ytelse - både til forskningsverktøyene og i live-utførelsesmiljøet. Hva er handelssystemet som prøver å gjøre. Før du bestemmer deg for det På det beste språket som å skrive et automatisert handelssystem er det nødvendig å definere requir ements Er systemet til å være rent utførelsesbasert Vil systemet kreve en risikostyring eller porteføljekonstruksjonsmodul Vil systemet kreve en høy ytelse backtester For de fleste strategier kan handelssystemet deles inn i to kategorier Forskning og signalgenerering. Forskning er bekymret med vurdering av en strategisk ytelse over historiske data Prosessen med å evaluere en handelsstrategi over tidligere markedsdata kalles backtesting Datastørrelsen og algoritmisk kompleksitet vil ha stor innvirkning på beregningsintensiteten til backtesteren CPU-hastighet og samtidighet er ofte begrensende faktorer i optimalisering av utførelseshastigheten for forskning. Signalgenerering er opptatt av å generere et sett av handelssignaler fra en algoritme og sende slike ordrer til markedet, vanligvis via en megling. For visse strategier er et høyt ytelsesnivå nødvendig. IO-problemer som nettverksbåndbredde og latens er ofte den begrensende faktoren i optimalisering av utførelse s ystems Dermed kan valg av språk for hver komponent i hele systemet være ganske annerledes. Type, frekvens og volum av strategi. Type algoritmisk strategi som brukes vil ha stor innvirkning på systemets utforming. Det vil være nødvendig å vurdere Markedene blir handlet, tilkoblingen til eksterne dataleverandører, frekvensen og volumet av strategien, avstanden mellom enkel utvikling og ytelsesoptimalisering, samt tilpasset maskinvare, inkludert samleplasserte egendefinerte servere, GPUer eller FPGAer som kan være nødvendig. Teknologifallene for en lavfrekvens US-aksjestrategi vil være vesentlig forskjellig fra en høyfrekvent statistisk arbitrage-strategi handel på futures markedet. Før valg av språk må mange dataleverandører vurderes som vedrører en strategi for hånden. Det vil være nødvendig å vurdere tilkobling til leverandøren, strukturen til eventuelle APIer, datakommunikasjon, lagringskrav og resiliency i th Et ansikt på en leverandør som går frakoblet Det er også lurt å ha rask tilgang til flere leverandører. Ulike instrumenter har alle sine egne lagringsbehov, eksempler på hvilke inkluderer flere tickersymboler for aksjer og utløpsdatoer for futures, for ikke å nevne noen spesifikke OTC-data. Dette trenger å bli delt inn i plattformen design. Frekvensen av strategien er sannsynligvis en av de største driverne for hvordan teknologibakken vil bli definert. Strategier som bruker data hyppigere enn små eller andre barer krever betydelig vurdering med hensyn til ytelse. En strategi som overstiger For det andre stenger, dvs. kryssdata fører til en ytelsesdrevet design som det primære kravet. For høyfrekvente strategier må en betydelig mengde markedsdata lagres og evalueres. Programmer som HDF5 eller kdb brukes ofte til disse rollene. For å behandle omfattende datamengder som trengs for HFT-applikasjoner, må en omfattende optimert backtester og kjøresystem være brukt CC muligens med noen assembler er sannsynligvis den sterkeste språkkandidaten Ultra-høyfrekvente strategier vil nesten absolutt kreve tilpasset maskinvare som FPGAer, bytte samlokalisering og kernal nettverksgrensesnitt tuning. Research Systems. Research Systems involverer vanligvis en blanding av interaktiv utvikling og automatisert skripting Den tidligere finner ofte sted innenfor en IDE som Visual Studio, MatLab eller R Studio. Sistnevnte innebærer omfattende numeriske beregninger over mange parametere og datapunkter. Dette fører til et språkvalg som gir et rettferdig miljø for å teste koden, men gir også tilstrekkelig ytelse for å evaluere strategier over flere parameter dimensjoner. Typiske IDEer i dette rommet inkluderer Microsoft Visual CC, som inneholder omfattende feilsøkingsverktøy, kode ferdigstillingsfunksjoner via Intellisense og enkle oversikter over hele prosjektstakken via databasen ORM, LINQ MatLab som er designet for omfattende numerisk linje ar algebra og vektoriserte operasjoner, men på en interaktiv konsoll måte R Studio som bryter R statistisk språkkonsoll i en fullverdig IDE Eclipse IDE for Linux Java og C og semi-proprietary IDEs som Enthought Canopy for Python, som inkluderer data analyse biblioteker som NumPy SciPy scikit-lær og pandas i et enkelt interaktivt konsollmiljø. For numerisk backtesting er alle ovennevnte språk egnet, selv om det ikke er nødvendig å bruke en GUI IDE som koden vil bli utført i bakgrunnen. hensyn på dette stadiet er det med eksekveringshastighet Et kompilert språk som C er ofte nyttig hvis parameterdimensjonene er store. Husk at det er nødvendig å være forsiktig med slike systemer hvis det er tilfelle. Interpreterte språk som Python bruker ofte av høyytelsesbiblioteker som NumPy pandas for backtesting-trinnet, for å opprettholde en rimelig grad av konkurranseevne med kompilerte ekvivalenter Ultim det språket som er valgt for backtesting, vil bli bestemt av spesifikke algoritmiske behov, så vel som omfanget av biblioteker tilgjengelig på språket mer på det under. Språket som brukes til backtester og forskningsmiljøer kan imidlertid være helt uavhengig av de som brukes i porteføljen konstruksjon, risikostyring og eksekveringskomponenter, som det vil bli sett. Porteføljebygging og risikostyring. Porteføljebygging og risikostyringskomponenter blir ofte oversett av detaljhandelsalgoritmiske forhandlere. Dette er nesten alltid en feil. Disse verktøyene gir mekanismen som kapital vil bli bevart De forsøker ikke bare å lette antall risikable spill, men også minimere kvelning av handelen selv, og redusere transaksjonskostnadene. Avanserte versjoner av disse komponentene kan ha en betydelig innvirkning på kvaliteten og konsistensen av lønnsomhet. Det er greit å skape en stabil av strategier som porteføljens byggemekanisme og risiko mana Ger kan enkelt modifiseres for å håndtere flere systemer Dermed skal de betraktes som viktige komponenter ved inngangen til utformingen av et algoritmisk handelssystem. Arbeidet med porteføljes konstruksjonssystemet er å ta et sett av ønskede bransjer og produsere settet av faktiske bransjer som minimerer churn, opprettholder eksponeringer mot ulike faktorer som sektorer, aktivaklasser, volatilitet etc. og optimaliserer kapitalfordelingen til ulike strategier i en portefølje. Porteføljebygging reduserer ofte til et lineært algebraproblem som matrisefaktorisering og dermed ytelse er høyt avhengig av effektiviteten av den numeriske lineære algebra-implementeringen tilgjengelig. Felles biblioteker inkluderer uBLAS LAPACK og NAG for C MatLab har også omfattende optimaliserte matriseprosesser. Python benytter NumPy SciPy for slike beregninger. En ofte gjenbalansert portefølje vil kreve et kompilert og godt optimalisert matrisebibliotek for å bære dette gå ut, for ikke å flaskehals handel system. Risikostyring er en annen ekstremt viktig del av et algoritmisk handelssystem Risiko kan komme i mange former Økt volatilitet, selv om dette kan ses som ønskelig for enkelte strategier, økte korrelasjoner mellom aktivaklasser, motpartsstandard, serverbrudd, svarte svanehendelser og uoppdagede feil i handelskoden, for å nevne noen. Risikostyringskomponenter forsøker og forutsier effekten av overdreven volatilitet og korrelasjon mellom aktivaklasser og deres påfølgende effekt s på handelskapital Ofte reduseres dette til et sett med statistiske beregninger som Monte Carlo Stresstester Dette er veldig lik de beregningsmessige behovene til en derivatprisemotor og som sådan vil være CPU-bundet. Disse simuleringene er svært parallelliserbare se nedenfor, og i en viss grad er det mulig å kaste maskinvare på problemet. Ekspedisjonssystemer. Arbeidet med eksekveringssystemet er å motta filtrerte handelssignaler fra porteføljekonstruksjon og risikostyring komponenter og sende dem videre til megling eller annen form for markedsadgang. For de fleste detaljhandelsalgoritmiske handelsstrategier innebærer dette en API eller FIX-tilkobling til en megling som Interactive Brokers. De primære hensynene når man bestemmer seg for et språk inkluderer kvalitet på API, Tilgjengelighet av språkpakker for en API, eksekveringsfrekvens og forventet sliping. Kvaliteten på API-en refererer til hvor godt dokumentert det er, hvilken type ytelse det gir, om det er behov for frittstående programvare, eller om en gateway kan etableres på en hodeløs måte, dvs ingen GUI. For Interactive Brokers må Trader WorkStation-verktøyet kjøres i et GUI-miljø for å få tilgang til API-en. Jeg måtte en gang installere en Desktop Ubuntu-utgave på en Amazon Cloud-server for å få tilgang til interaktive meglere eksternt, bare av denne grunn. De fleste APIer vil gi et C - eller Java-grensesnitt. Det er vanligvis opp til samfunnet å utvikle språkspesifikke wr appers for C, Python, R, Excel og MatLab. Merk at med hver ekstra plugin som brukes spesielt API wrappers, finnes det muligheter for feil å krype inn i systemet. Test alltid plugins av denne typen og sørg for at de holdes aktivt. En verdig måler er å se hvordan mange nye oppdateringer til en kodebase har blitt gjort i de siste månedene. Ekspedisjonsfrekvensen er av største betydning i utførelsesalgoritmen. Merk at hundrevis av ordrer kan sendes hvert minutt, og som sådan er ytelsen kritisk. Slippage vil bli pådratt gjennom en dårlig utførelse system, og dette vil ha en dramatisk innvirkning på lønnsomheten. Statisk skrivte språk se nedenfor, slik som C Java er generelt optimal for utførelse, men det er en avgang i utviklingstid, testing og vedlikeholdssituasjon Dynamisk typede språk, som Python og Perl er nå generelt raskt nok. Sørg alltid for at komponentene er utformet på en modulær måte, se nedenfor slik at de kan byttes ut som systemet sca les. Architectural Planning and Development Process. Komponentene i et handelssystem, frekvens - og volumkrav er omtalt ovenfor, men systeminfrastruktur har ennå ikke blitt dekket. De som handler som en detaljhandler eller arbeider i et lite fond, vil trolig ha på seg mange hatter Det vil være nødvendig å dekke alfa-modellen, risikostyring og utførelsesparametere, og også den endelige implementeringen av systemet. Før du drar til bestemte språk, vil utformingen av en optimal systemarkitektur bli diskutert. Del av bekymringer. En av de mest viktige beslutninger som må gjøres i begynnelsen er hvordan å skille bekymringene til et handelssystem. I programvareutvikling betyr dette i hovedsak hvordan man bryter opp de ulike aspektene av handelssystemet i separate modulære komponenter. Ved å utsette grensesnitt på hver av komponentene Det er enkelt å bytte ut deler av systemet for andre versjoner som hjelper ytelse, pålitelighet eller vedlikehold uten å endre En hvilken som helst ekstern avhengighetskode Dette er den beste praksisen for slike systemer. For strategier ved lavere frekvenser anbefales slik praksis. For ultrahøyfrekvenshandel må regelboken ignoreres på bekostning av å tilpasse systemet for enda bedre ytelse. Et mer tett koblet system kan være ønskelig. Å lage et komponentkart av et algoritmisk handelssystem er verdt en artikkel i seg selv. En optimal tilnærming er imidlertid å sørge for at det er separate komponenter for de historiske og sanntidsmarkedsdatainngangene, datalagring, dataadgang API, backtester , strategiparametere, porteføljekonstruksjon, risikostyring og automatiserte eksekveringssystemer. For eksempel, hvis datalageret som brukes, for tiden er underpresterende, selv ved betydelige optimaliseringsnivåer, kan det byttes ut med minimal omskrivning til datainntak eller datatilgang API Så langt som backtester og påfølgende komponenter er bekymret, er det ingen forskjell. En annen fordel med separerte compone nts er at det tillater at en rekke programmeringsspråk brukes i det overordnede systemet. Det er ikke nødvendig å være begrenset til et enkelt språk dersom kommunikasjonsmetoden til komponentene er språkavhengig Dette vil være tilfelle hvis de kommuniserer via TCP IP , ZeroMQ eller noen andre språkavhengige protokoller. Som et konkret eksempel, vurder på at et backtesting system skrives i C for antall knasende ytelse, mens porteføljestyring og utførelsessystemer er skrevet i Python ved hjelp av SciPy og IBPy. Performance Considerations. Ytelse er et vesentlig hensyn til de fleste handelsstrategier. For høyere frekvensstrategier er det den viktigste faktoren. Ytelsen dekker et bredt spekter av problemer, for eksempel algoritmisk eksekveringshastighet, nettverksforsinkelse, båndbredde, data IO, parallell parallellisering og skalering. Hver av disse områdene er individuelt dekket av store lærebøker, så denne artikkelen vil bare skrape overflaten av hvert emne Arkitektur og langu alder valg vil nå bli diskutert med hensyn til deres effekter på ytelse. Den rådende visdom som fremgår av Donald Knuth en av fedrene til datalogi, er at for tidlig optimalisering er roten til alt ondt. Dette er nesten alltid tilfelle - unntatt når man bygger en høyfrekvent handelsalgoritme For de som er interessert i lavere frekvensstrategier, er en felles tilnærming å bygge et system på den enkleste måten og bare optimalisere etter hvert som flaskehalser begynner å vises. Profilverktøy brukes til å avgjøre hvor flaskehalser oppstår. Profiler kan gjøres for alle faktorene som er oppført ovenfor, enten i et MS Windows - eller Linux-miljø. Det er mange operativsystem og språkverktøy tilgjengelig for å gjøre det, samt tredjepartsverktøy. Språkvalg vil nå bli diskutert i sammenheng med ytelse. C, Java , Python, R og MatLab inneholder alle høyytelsesbiblioteker enten som en del av deres standard eller eksternt for grunnleggende datastruktur og algoritmisk arbeid C-skip med S tandardmallbibliotek, mens Python inneholder NumPy SciPy Vanlige matematiske oppgaver finnes i disse bibliotekene, og det er sjelden gunstig å skrive en ny implementering. Ett unntak er om svært tilpasset maskinvarearkitektur kreves, og en algoritme gjør mye bruk av proprietære utvidelser for eksempel tilpassede caches. Men ofte gjenoppfinnelse av hjulavfallet som kan brukes bedre til å utvikle og optimalisere andre deler av handelsinfrastrukturen. Utviklingstiden er ekstremt verdifull, spesielt i sammenheng med eneste utviklere. Latency er ofte et problem med kjøringssystemet som Forskningsverktøyene er vanligvis plassert på samme maskin For det første kan latens forekomme på flere punkter langs utførelsesbanen. Databaser må konsulteres i nettverksdriftstid, signaler må genereres operativsystem, kjernalmeldingsforsinkelse, handelssignaler sendt NIC-latens og ordrer prosesserte utvekslingssystemer intern latency. For høyere frekvens operasjoner det er nødvendig å bli godt kjent med kernaloptimalisering, samt optimalisering av nettverksoverføring. Dette er et dypt område og er betydelig utenfor artikkelen, men hvis en UHFT-algoritme er ønsket, så vær oppmerksom på dybden av kunnskap som kreves. veldig nyttig i verktøykassen til en kvantitativ handelsutvikler. Caching refererer til begrepet lagring av ofte tilgangsdata på en måte som tillater høyere ytelse, på bekostning av potensiell stallhet av dataene. En vanlig brukstilfelle skjer i webutvikling når data tas fra en diskbasert relasjonsdatabase og sette den i minnet. Eventuelle etterfølgende forespørsler om dataene behøver ikke å treffe databasen, og prestasjonsgevinster kan derfor være signifikante. For handelssituasjoner kan caching være ekstremt gunstig. For eksempel, dagens tilstand av en strategi Porteføljen kan lagres i en cache til den er rebalansert, slik at listen ikke trenger å bli regenerert på hver loop av trad Algoritme En slik regenerering vil trolig være en høy CPU - eller disk-IO-operasjon. Imidlertid er caching ikke uten egne problemer. Regenerering av hurtigbufferdata på en gang, på grunn av volatiliseringen av hurtiglagringsplassen, kan stille betydelig etterspørsel etter infrastruktur. Et annet problem er hundespann hvor flere generasjoner av en ny cache kopi utføres under ekstremt høy belastning, noe som fører til kaskadfeil. Dynamisk minneallokering er en dyr operasjon i programvareutførelse Dermed er det viktig at høyere prestasjonshandelsapplikasjoner skal være godt oppmerksomme hvordan minne blir tildelt og fordelt under programflyten Nyttige språkstandarder som Java, C og Python utfører automatisk automatisk søppelsamling som refererer til deallokering av dynamisk allokert minne når gjenstander går utenfor omfanget. Innsamling av gjenvinning er ekstremt nyttig under utviklingen som det reduserer feil og hjelpemidler lesbarhet Det er imidlertid ofte suboptimal for visse high-frequency trading strategier Custo m søppelkolleksjon er ofte ønsket for disse tilfellene I Java, for eksempel ved å stille inn søppelkollektor og haugkonfigurasjon, er det mulig å oppnå høy ytelse for HFT-strategier. C gir ikke en innfødt søppelkollektor, og så er det nødvendig å håndtere all deling av minneallokering som en del av en objekt s implementering Mens potensielt feilproblemer potensielt fører til dangling pointers er det ekstremt nyttig å ha finkornet kontroll over hvordan objekter vises i bunken for bestemte applikasjoner. Når du velger språk, må du kontrollere hvordan søppelkollektor fungerer og om det kan modifiseres for å optimalisere for en bestemt brukstilfelle. Mange operasjoner i algoritmiske handelssystemer kan brukes til parallellisering. Dette refererer til konseptet om å utføre flere programmatiske operasjoner samtidig, dvs. parallelt. Såkalt embarassingly parallelle algoritmer inkluderer trinn som kan beregnes helt uavhengig av andre trinn Visse statistiske operaer satser, som Monte Carlo simuleringer, er et godt eksempel på embarassingly parallelle algoritmer som hver tilfeldig tegning og etterfølgende banen kan beregnes uten kjennskap til andre baner. Andre algoritmer er bare delvis parallelliserbare Fluiddynamiske simuleringer er et eksempel der domenet av beregning kan deles opp, men i siste omgang må disse domenene kommunisere med hverandre og dermed operasjonene er delvis sekvensielle. Paralleliserbare algoritmer er underlagt Amdahl s Law som gir en teoretisk øvre grense for ytelsesøkningen av en parallellisert algoritme når den er underlagt N separate prosesser f. eks. på en CPU-kjerne eller - tråd. Parallellisering har blitt stadig viktigere som et middel til optimalisering siden prosessorens klokkeslett har stagnert, da nyere prosessorer inneholder mange kjerner som skal utføre parallelle beregninger. Stigningen av forbruksgrafikkhardware som hovedsakelig for videospill har ført til til utvikling av grafisk prosessering Un dets GPUer, som inneholder hundrevis av kjerner for svært samtidige operasjoner. Slike GPUer er nå veldig rimelige. Høytstående rammer, for eksempel Nvidia s CUDA, har ført til utbredt adopsjon i akademia og finans. Slik GPU-maskinvare er generelt bare egnet for forskningsaspektet av kvantitativ finans, mens andre mer spesialiserte maskinvare, inkludert Feltprogrammerbare Gate Arrays - FPGAs brukes til U HFT I dag støtter de fleste moderne langauges en grad av samtidighet multithreading. Det er derfor greit å optimalisere en backtester, siden alle beregninger er generelt uavhengige av de andre. Scaling i programvare engineering og operasjoner refererer til systemets evne til å håndtere stadig økende belastninger i form av større forespørsler, høyere prosessorbruk og mer minneallokering. I algoritmisk handel kan en strategi skalere hvis den kan akseptere større mengder kapital og produserer fortsatt konsistent avkastning. Teknologistakken skaleres hvis den kan e større handelsvolumer og økt latens uten flaskehalsing. Selv om systemene skal utformes for å skalere, er det ofte vanskelig å forutse hvor en flaskehals vil oppstå. Fast logging, testing, profilering og overvåking vil hjelpe sterkt til å la et system skalere seg selv er ofte beskrevet som unscalable Dette er vanligvis et resultat av feilinformasjon, i stedet for hardt faktum. Det er den totale teknologistakken som skal fastslås for skalerbarhet, ikke språket. Det er klart at enkelte språk har større ytelse enn andre i spesielle brukstilfeller, men ett språk er aldri bedre enn en annen i alle forstand. En måte å styre skalering på er å skille bekymringer som nevnt ovenfor For å ytterligere introdusere evnen til å håndtere pigger i systemet, dvs. plutselig volatilitet som utløser en rekke fag, er det nyttig å skape en Message Queue Architecture Dette betyr ganske enkelt å plassere et meldings-køsystem mellom komponenter slik at ordrene blir stablet hvis AC oppnå komponent kan ikke behandle mange forespørsler. I stedet for at forespørsler går tapt, holdes de bare i en stabel til meldingen håndteres. Dette er spesielt nyttig for å sende handel til en utførelsesmotor. Hvis motoren lider under tung ventetid, vil den sikkerhetskopiere handler En kø mellom handelssignalgeneratoren og utførelses-API-en vil lindre dette problemet på bekostning av potensiell handel slippage. En respektert åpen kildekode-meldingskjøpsmann er RabbitMQ. Hardware og operativsystemer. Den maskinvaren som kjører strategien, kan ha en betydelig innvirkning på lønnsomheten til algoritmen Dette er ikke et problem som er begrenset til høyfrekvente forhandlere, enten Et dårlig valg i maskinvare og operativsystem kan føre til maskinkrasj eller omstart på det mest uopprettelige øyeblikket. Det er derfor nødvendig å vurdere hvor søknaden din skal være Den valg er vanligvis mellom en personlig stasjonær maskin, en ekstern server, en skyleverandør eller en utvekslingssambehandlet server ktop-maskiner er enkle å installere og administrere, spesielt med nyere brukervennlige operativsystemer som Windows 7 8, Mac OSX og Ubuntu Desktop-systemer har noen betydelige ulemper, men det aller viktigste er at versjoner av operativsystemer designet for stasjonære maskiner er sannsynlige å kreve omstart av patching og ofte i verste fall De benytter seg også av flere beregningsmessige ressurser i kraft av å kreve et grafisk brukergrensesnitt GUI. Bruke maskinvare i et hjem eller lokalt kontormiljø kan føre til internettforbindelse og strømtilkoblingsproblemer Hovedfordelen of a desktop system is that significant computational horsepower can be purchased for the fraction of the cost of a remote dedicated server or cloud based system of comparable speed. A dedicated server or cloud-based machine, while often more expensive than a desktop option, allows for more significant redundancy infrastructure, such as automated data backups, the ability to more straightforward ly ensure uptime and remote monitoring They are harder to administer since they require the ability to use remote login capabilities of the operating system. In Windows this is generally via the GUI Remote Desktop Protocol RDP In Unix-based systems the command-line Secure SHell SSH is used Unix-based server infrastructure is almost always command-line based which immediately renders GUI-based programming tools such as MatLab or Excel to be unusable. A co-located server, as the phrase is used in the capital markets, is simply a dedicated server that resides within an exchange in order to reduce latency of the trading algorithm This is absolutely necessary for certain high frequency trading strategies, which rely on low latency in order to generate alpha. The final aspect to hardware choice and the choice of programming language is platform-independence Is there a need for the code to run across multiple different operating systems Is the code designed to be run on a particular type of proc essor architecture, such as the Intel x86 x64 or will it be possible to execute on RISC processors such as those manufactured by ARM These issues will be highly dependent upon the frequency and type of strategy being implemented. Resilience and Testing. One of the best ways to lose a lot of money on algorithmic trading is to create a system with no resiliency This refers to the durability of the sytem when subject to rare events, such as brokerage bankruptcies, sudden excess volatility, region-wide downtime for a cloud server provider or the accidental deletion of an entire trading database Years of profits can be eliminated within seconds with a poorly-designed architecture It is absolutely essential to consider issues such as debuggng, testing, logging, backups, high-availability and monitoring as core components of your system. It is likely that in any reasonably complicated custom quantitative trading application at least 50 of development time will be spent on debugging, testing and maintenance. Nearly all programming languages either ship with an associated debugger or possess well-respected third-party alternatives In essence, a debugger allows execution of a program with insertion of arbitrary break points in the code path, which temporarily halt execution in order to investigate the state of the system The main benefit of debugging is that it is possible to investigate the behaviour of code prior to a known crash point. Debugging is an essential component in the toolbox for analysing programming errors However, they are more widely used in compiled languages such as C or Java, as interpreted languages such as Python are often easier to debug due to fewer LOC and less verbose statements Despite this tendency Python does ship with the pdb which is a sophisticated debugging tool The Microsoft Visual C IDE possesses extensive GUI debugging utilities, while for the command line Linux C programmer, the gdb debugger exists. Testing in software development refers to the process of applying known parameters and results to specific functions, methods and objects within a codebase, in order to simulate behaviour and evaluate multiple code-paths, helping to ensure that a system behaves as it should A more recent paradigm is known as Test Driven Development TDD , where test code is developed against a specified interface with no implementation Prior to the completion of the actual codebase all tests will fail As code is written to fill in the blanks , the tests will eventually all pass, at which point development should cease. TDD requires extensive upfront specification design as well as a healthy degree of discipline in order to carry out successfully In C , Boost provides a unit testing framework In Java, the JUnit library exists to fulfill the same purpose Python also has the unittest module as part of the standard library Many other languages possess unit testing frameworks and often there are multiple options. In a production environment, sophisticated logging is absolutely essential Logging refers to the process of outputting messages, with various degrees of severity, regarding execution behaviour of a system to a flat file or database Logs are a first line of attack when hunting for unexpected program runtime behaviour Unfortunately the shortcomings of a logging system tend only to be discovered after the fact As with backups discussed below, a logging system should be given due consideration BEFORE a system is designed. Both Microsoft Windows and Linux come with extensive system logging capability and programming languages tend to ship with standard logging libraries that cover most use cases It is often wise to centralise logging information in order to analyse it at a later date, since it can often lead to ideas about improving performance or error reduction, which will almost certainly have a positive impact on your trading returns. While logging of a system will provide information about what has transpired in the past, monito ring of an application will provide insight into what is happening right now All aspects of the system should be considered for monitoring System level metrics such as disk usage, available memory, network bandwidth and CPU usage provide basic load information. Trading metrics such as abnormal prices volume, sudden rapid drawdowns and account exposure for different sectors markets should also be continuously monitored Further, a threshold system should be instigated that provides notification when certain metrics are breached, elevating the notification method email, SMS, automated phone call depending upon the severity of the metric. System monitoring is often the domain of the system administrator or operations manager However, as a sole trading developer, these metrics must be established as part of the larger design Many solutions for monitoring exist proprietary, hosted and open source, which allow extensive customisation of metrics for a particular use case. Backups and high availab ility should be prime concerns of a trading system Consider the following two questions 1 If an entire production database of market data and trading history was deleted without backups how would the research and execution algorithm be affected 2 If the trading system suffers an outage for an extended period with open positions how would account equity and ongoing profitability be affected The answers to both of these questions are often sobering. It is imperative to put in place a system for backing up data and also for testing the restoration of such data Many individuals do not test a restore strategy If recovery from a crash has not been tested in a safe environment, what guarantees exist that restoration will be available at the worst possible moment. Similarly, high availability needs to be baked in from the start Redundant infrastructure even at additional expense must always be considered, as the cost of downtime is likely to far outweigh the ongoing maintenance cost of such syst ems I won t delve too deeply into this topic as it is a large area, but make sure it is one of the first considerations given to your trading system. Choosing a Language. Considerable detail has now been provided on the various factors that arise when developing a custom high-performance algorithmic trading system The next stage is to discuss how programming languages are generally categorised. Type Systems. When choosing a language for a trading stack it is necessary to consider the type system The languages which are of interest for algorithmic trading are either statically - or dynamically-typed A statically-typed language performs checks of the types e g integers, floats, custom classes etc during the compilation process Such languages include C and Java A dynamically-typed language performs the majority of its type-checking at runtime Such languages include Python, Perl and JavaScript. For a highly numerical system such as an algorithmic trading engine, type-checking at compile time can be extremely beneficial, as it can eliminate many bugs that would otherwise lead to numerical errors However, type-checking doesn t catch everything, and this is where exception handling comes in due to the necessity of having to handle unexpected operations Dynamic languages i e those that are dynamically-typed can often lead to run-time errors that would otherwise be caught with a compilation-time type-check For this reason, the concept of TDD see above and unit testing arose which, when carried out correctly, often provides more safety than compile-time checking alone. Another benefit of statically-typed languages is that the compiler is able to make many optimisations that are otherwise unavailable to the dynamically - typed language, simply because the type and thus memory requirements are known at compile-time In fact, part of the inefficiency of many dynamically-typed languages stems from the fact that certain objects must be type-inspected at run-time and this carries a performa nce hit Libraries for dynamic languages, such as NumPy SciPy alleviate this issue due to enforcing a type within arrays. Open Source or Proprietary. One of the biggest choices available to an algorithmic trading developer is whether to use proprietary commercial or open source technologies There are advantages and disadvantages to both approaches It is necessary to consider how well a language is supported, the activity of the community surrounding a language, ease of installation and maintenance, quality of the documentation and any licensing maintenance costs. The Microsoft stack including Visual C , Visual C and MathWorks MatLab are two of the larger proprietary choices for developing custom algorithmic trading software Both tools have had significant battle testing in the financial space, with the former making up the predominant software stack for investment banking trading infrastructure and the latter being heavily used for quantitative trading research within investment funds. Micr osoft and MathWorks both provide extensive high quality documentation for their products Further, the communities surrounding each tool are very large with active web forums for both The software allows cohesive integration with multiple languages such as C , C and VB, as well as easy linkage to other Microsoft products such as the SQL Server database via LINQ MatLab also has many plugins libraries some free, some commercial for nearly any quantitative research domain. There are also drawbacks With either piece of software the costs are not insignificant for a lone trader although Microsoft does provide entry-level version of Visual Studio for free Microsoft tools play well with each other, but integrate less well with external code Visual Studio must also be executed on Microsoft Windows, which is arguably far less performant than an equivalent Linux server which is optimally tuned. MatLab also lacks a few key plugins such as a good wrapper around the Interactive Brokers API, one of the few brokers amenable to high-performance algorithmic trading The main issue with proprietary products is the lack of availability of the source code This means that if ultra performance is truly required, both of these tools will be far less attractive. Open source tools have been industry grade for sometime Much of the alternative asset space makes extensive use of open-source Linux, MySQL PostgreSQL, Python, R, C and Java in high-performance production roles However, they are far from restricted to this domain Python and R, in particular, contain a wealth of extensive numerical libraries for performing nearly any type of data analysis imaginable, often at execution speeds comparable to compiled languages, with certain caveats. The main benefit of using interpreted languages is the speed of development time Python and R require far fewer lines of code LOC to achieve similar functionality, principally due to the extensive libraries Further, they often allow interactive console based dev elopment, rapidly reducing the iterative development process. Given that time as a developer is extremely valuable, and execution speed often less so unless in the HFT space , it is worth giving extensive consideration to an open source technology stack Python and R possess significant development communities and are extremely well supported, due to their popularity Documentation is excellent and bugs at least for core libraries remain scarce. Open source tools often suffer from a lack of a dedicated commercial support contract and run optimally on systems with less-forgiving user interfaces A typical Linux server such as Ubuntu will often be fully command-line oriented In addition, Python and R can be slow for certain execution tasks There are mechanisms for integrating with C in order to improve execution speeds, but it requires some experience in multi-language programming. While proprietary software is not immune from dependency versioning issues it is far less common to have to deal with incorrect library versions in such environments Open source operating systems such as Linux can be trickier to administer. I will venture my personal opinion here and state that I build all of my trading tools with open source technologies In particular I use Ubuntu, MySQL, Python, C and R The maturity, community size, ability to dig deep if problems occur and lower total cost ownership TCO far outweigh the simplicity of proprietary GUIs and easier installations Having said that, Microsoft Visual Studio especially for C is a fantastic Integrated Development Environment IDE which I would also highly recommend. Batteries Included. The header of this section refers to the out of the box capabilities of the language - what libraries does it contain and how good are they This is where mature languages have an advantage over newer variants C , Java and Python all now possess extensive libraries for network programming, operating system interaction, GUIs, regular expressions regex , iterati on and basic algorithms. C is famed for its Standard Template Library STL which contains a wealth of high performance data structures and algorithms for free Python is known for being able to communicate with nearly any other type of system protocol especially the web , mostly through its own standard library R has a wealth of statistical and econometric tools built in, while MatLab is extremely optimised for any numerical linear algebra code which can be found in portfolio optimisation and derivatives pricing, for instance. Outside of the standard libraries, C makes use of the Boost library, which fills in the missing parts of the standard library In fact, many parts of Boost made it into the TR1 standard and subsequently are available in the C 11 spec, including native support for lambda expressions and concurrency. Python has the high performance NumPy SciPy Pandas data analysis library combination, which has gained widespread acceptance for algorithmic trading research Further, high-p erformance plugins exist for access to the main relational databases, such as MySQL MySQL C , JDBC Java MatLab , MySQLdb MySQL Python and psychopg2 PostgreSQL Python Python can even communicate with R via the RPy plugin. An often overlooked aspect of a trading system while in the initial research and design stage is the connectivity to a broker API Most APIs natively support C and Java, but some also support C and Python, either directly or with community-provided wrapper code to the C APIs In particular, Interactive Brokers can be connected to via the IBPy plugin If high-performance is required, brokerages will support the FIX protocol. As is now evident, the choice of programming language s for an algorithmic trading system is not straightforward and requires deep thought The main considerations are performance, ease of development, resiliency and testing, separation of concerns, familiarity, maintenance, source code availability, licensing costs and maturity of libraries. The benefit o f a separated architecture is that it allows languages to be plugged in for different aspects of a trading stack, as and when requirements change A trading system is an evolving tool and it is likely that any language choices will evolve along with it. Just Getting Started with Quantitative Trading.
Comments
Post a Comment