Matematikprofessor fra MIT flytter grænser for databehandling med den største kendte klynge, der nogensinde er bygget i den offentlige sky

Ved hjælp af Google Compute Engine til administration af LMFDB (L-Functions and Modular Forms Database) lykkedes det Andrew V. Sutherland, som er talteoretiker i beregningstal og ledende forsker på MIT, at slå sin egen rekord for avanceret databehandling med 580.000 kerner.

Hvis du bruger mere end fem minutter på et hold, hvor der undervises i matematikkens filosofi, vil du med stor sandsynlighed høre om "objekter". Objekter er i bund og grund alt, hvad du kan anvende matematisk, f.eks. tal og funktioner eller resultaterne af matematiske beregninger, f.eks. kurver. LMFDB (L-Functions and Modular Forms Database) er et detaljeret atlas over objekter og forbindelserne mellem dem. LMFDB er et samarbejde mellem internationale forskere og ledes af et internationalt team, der befinder sig på universiteter rundt omkring i Europa og Nordamerika, herunder MIT.

Det siger forskerne

Hele ens perspektiv på forskning ændres, når man kan stille et spørgsmål og få et svar på få timer i stedet for måneder.

Andrew V. Sutherland, Algoritmisk talteoretiker og Principal Research Scientist, MIT

Deling af data mellem forskere

LMFDB støtter videnskaben ved at gøre det meget lettere for forskerne at dele data om objekter med de forskellige fællesskaber inden for fysik, datalogi og matematik rundt omkring i verden. Nogle af beregningerne til generering af objekterne er så komplekse, at det kun er ganske få mennesker på jorden, der ved, hvordan man udfører dem. Andre beregninger er så omfattende, at det er bedst kun at køre dem én gang, fordi det er så dyrt og tidskrævende.

Det team, der kørte LMFDB, havde brug for en skytjeneste, der kunne håndtere deres stigende krav til lagerplads. For at sætte tingene i perspektiv har det taget næsten 1.000 års databehandlingstid at skabe objekterne i LMFDB. Foruden det overvældende problem med tilstrækkelig lagerplads var der et stort problem med skalering. LMFDB er tilgængelig for alle på lmfdb.org, hvilket betyder, at projektet skulle skaleres for at understøtte de utallige søgninger hver eneste dag. Eftersom LMFDB er et samarbejdsprojekt, havde teamet desuden brug for et system, som folk i forskellige lande let kunne administrere.

Fokus på forskning i stedet for infrastruktur

LMFDB-teamet undersøgte flere forskellige skyløsninger og valgte Google Cloud Platform (GCP) på grund af den høje ydeevne, muligheden for automatisk skalering og den høje grad af brugervenlighed og pålidelighed.

En af de primære forskere, der var involveret i LMFDB og selve beslutningsprocessen, var Andrew V. Sutherland, som er underviser i matematik, talteoretiker for beregningstal og ledende forsker på MIT.

"Vi er matematikere og ønsker at fokusere på vores forskning og ikke at bruge tid på at bekymre os om hardwarefejl eller skaleringsproblemer med websitet," siger Andrew.

Andrew og den resterende del af LMFDB-teamet valgte at bruge Google Compute Engine (GCE) og Google Persistent Disk til at hoste webserverne og spejlede MongoDB-databaser for at lagre en halv terabyte onlinedata og tre terabyte data, der ikke anvendes så ofte. Denne konfiguration gjorde det muligt for LMFDB at skalere efter behov og levere beregningsresultater og matematiske objekter hurtigt, når forskerne havde brug for dem. LMFDB bruger også en række forskellige GCP-værktøjer, der gør det lettere for forskere i forskellige dele af verden at administrere og samarbejde om databasen. Disse værktøjer omfatter Google Stackdriver, Google Cloud Console og Google Cloud Load Balancing.

Andrew havde en særligt kompleks tabulering, som han havde brug for at udføre og lagre i LMFDB, og den var så enorm, at den ville kræve databehandlingskræfter, der brød alle grænser for, hvad der tidligere var blevet udført i den offentlige sky. Til denne opgave valgte han GCE og kørte 580.000 kerner med Preemptible VM'er – den største, mest avancerede computerklynge, der nogensinde er kørt i den offentlige sky.

Beregningen resulterede i 70.000 forskellige kurver, der hver især har sin egen LMFDB-post. Det er en ekstremt kompleks opgave at skulle finde bare én af disse kurver, og det kræver et stort antal databehandlingscyklusser. "Det er som at lede efter en nål i en høstak," siger Andrew.

Inden Andrew valgte at bruge GCE til at udføre beregningen, havde han kørt opgaver på sin egen 64-bit computer, hvilket tog alt for lang tid. Hans eneste alternativ var at reservere databehandlingstid på MIT's klynger, og det kunne være svært at få og begrænsede desuden, hvilke softwarekonfigurationer han kunne bruge. Med GCE kan han bruge så mange kerner, som han har brug for, installere lige netop det operativsystem, de biblioteker og de applikationer, han har brug for, og opdatere miljøet, når det passer ham.

Takket være den skalerbarhed, som LMFDB får med GCP, kan alle lige fra elever til erfarne forskere let søge og navigere i indholdet via en webgrænseflade. Andrew underviser f.eks. i elliptiske kurver, og eleverne bruger LMFDB til deres hjemmearbejde.

Lavere omkostninger til omfattende beregninger

Mange forskere og uddannelsesinstitutioner er underlagt begrænsede budgetter, men med GCP får de mulighed for at udføre meget store beregninger til en rimelig pris. De GCE Preemptible VM'er, som Andrew bruger, betyder, at han kan reducere omkostningerne markant, samtidig med at han kan udføre ekstremt komplekse beregninger. Disse forekomster med alle funktioner koster op til 80 procent mindre end en tilsvarende, da de kan afbrydes af GCE. Afbrydelser af beregninger har ikke nogen alvorlige konsekvenser for præstationen. I gennemsnit er det kun to til tre procent af hans forekomster, der afbrydes inden for hver times beregning, og et script genstarter dem automatisk, indtil hele jobbet er udført, så det er kun ganske lidt tid, der mistes. Ved at tillade disse små afbrydelser kan han køre kæmpemæssige beregninger til en lav pris og stort set uden nogen forsinkelse.

Det siger forskerne

Vi kortlægger matematikken i det 21. århundrede

Andrew V. Sutherland, Algoritmisk talteoretiker og Principal Research Scientist, MIT

Organisationsprofil

Massachusetts Institute of Technology, der blev grundlagt i 1861, er en privat institution uden for Boston i Cambridge, Massachusetts. MIT er en af verdens førende forskningsinstitutioner og fokuserer på at give eleverne den bedste viden og uddannelse inden for videnskab og teknologi.

Anvendte produkter

Tak for din tilmelding

Fortæl os mere om dine interesser.