Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

Data science har seglat upp som nytt forskningsparadigm

Området ”data science” handlar om hur man behandlar, analyserar och utvinner kunskap från mycket stora datamängder, det man brukar kalla ”big data”. Området växer just nu lika explosionsartat som datamängderna i sig och IT-fakulteten planerar att hösten 2017 starta ett nytt masterprogram inom data science.

Vad gör vi med alla datamängder som genereras runt om i samhället? Vad innebär de för möjligheter och risker ur ett samhällsperspektiv? Vad kan de tillföra forskningen? Hur kan man samköra dem? Och hur undviker vi att datamängderna feltolkas?

Området data science, storskalig databehandling, har vuxit fram som ett resultat av de senaste årens ökade tillgång till en allt större mängd komplex data. Datamängderna har inneburit helt nya möjligheter för vitt skilda fält, från kartläggning av arvsmassa till att göra affärsanalyser och att förutspå klimatscenarier. Data science används även inom många områden som ett stöd för beslutsfattande, där de mönster som kan urskiljas i befintliga datamängder blir ett underlag för prognoser inför framtiden.

Berör alla områden där datamängder genereras

Data science berör alla områden där stora mängder data genereras – och vilka områden genererar inte data idag? Kollektivtrafiken, sökningar på internet, sjukjournaler, passerkort, övervakningskameror, intrångsdetektering, EAN-koder, försäkringskassans statistik, GPS-er, samtalsstatistik, ekonomiska transaktioner, miljöstationer, färdskrivare, inbyggda datorer i hemelektronik och i våra bilar, incidentrapportering, rörelsedetektorer, datorer i maskinparker i industrin. Listan blir oändlig.

Något som är utmärkande för data science som område är att det är tekniken som i stor utsträckning styr utvecklingen; vilket både innefattar att datamängderna genereras, att det sedan finns möjligheter att lagra dem – och slutligen att det finns datorprogram som gör analyserna möjliga.

Komplex kombination av teknik, tvärvetenskap och analys

Utvecklingen ställer stora krav på de datavetare och analytiker som ska hantera tekniken och datamängderna, eftersom området befinner sig i skärningspunkten mellan statistik, artificiell intelligens och databashantering. För att få något användbart ur de enorma datamängderna måste man ställa rätt frågor, kombinera och samköra väldefinierade datamängder på ett mycket genomtänkt sätt – och ha mycket god analytisk kunskap för att tolka de resultat man får och vilka variabler som påverkat vad.

Att ägna sig åt data science kräver goda kunskaper i det område man utforskar, oavsett om det handlar om biologiska data, webbstatistik eller data genererad från finansmarknaden. Det ställer krav på tvärvetenskapligt arbete, att biologen eller börsmäklaren har insikter i förutsättningarna när man ska analysera datamängder och vice versa – att datavetaren behärskar och förstår villkor och samband inom det område som ska undersökas.

Nya möjligheter för forskningen – och krav på ny forskning

Helt nya möjligheter har också uppstått inom forskningen, där man ur datamängderna kan extrahera forskningsmaterial som tidigare inte varit åtkomliga. Det handlar både om mer välkänd forskning som kartläggning av DNA till exempel, men också om nya forskningsområden som uppstått just för att datamängderna gör det möjligt.

En annan aspekt är att det nu krävs forskning på området som sådant – hur ska man lämpligast hantera de enorma datamängderna?

Några forskares syn på området:

Vad är data science för dig och vad i din forskning anknyter till området?

 

Graham Kemp, institutionen för data- och informationsteknik:

– Dataintensiv vetenskap är det jag kommer att tänka på när jag ska beskriva data science. Området har också kallats ”det fjärde forskningsparadigmet” och med det syftar man på att man har nått en ny era inom forskningen där datorer är en grundförutsättning för de vetenskapliga undersökningarna. Man kan nu ta sig igenom enorma datamängder och använda olika variabler för att urskilja mönster och samband, snarare än direkt observation av någonting fysiskt.

– Inom strukturell bioinformatik är Protein Data Bank den dataresurs vi huvudsakligen använder oss av och databasen innehåller idag uppgifter om över 100.000 experimentellt bestämda makromolekylära strukturer. I ett projekt i samarbete med University of Edinburgh har vi med utgångspunkt från databasen analyserat proteiners ytor och funnit att viss rumslig placering av atomgrupperna ger en högre benägenhet att vara belägen i en så kallad ligand.

– I ett annat projekt i samarbete med Biognos AB använder vi oss av maskininlärningsmetoder för att kunna bygga modeller som underlättar förutsägelser om olika bindningsenergier. Ett aktuellt projekt är att använda befintlig data som erhållits från utforskandet av många kända proteinstrukturer som underlag och hjälp för att bygga nya proteinmodeller.

– Stora datamängder från vetenskapliga tillämpningar innebär också stora utmaningar för databastekniken. I mer än 15 år har jag intresserat mig för de tekniska utmaningarna när man ska köra frågor i sinsemellan helt olika databassystem som kopplas samman.

 

Marie Eneman, institutionen för tillämpad IT:

– När det gäller data science i relation till mitt forskningsområde som handlar om IT och sexuell exploatering av barn; relaterar jag direkt till ett projekt som jag håller på att starta upp som handlar om att undersöka hur polisens praktik ser ut när det handlar omutredning av barnpornografibrott. De stora mängderna material i form av bilder och filmer som polisen har att hantera i sitt utredningsarbete innebär att det ofta tar mycket lång tid att gå igenom materialet. Befintliga metoder inte är anpassade för att hantera så stora datamängder på ett effektivt sätt.

– Komplexiteten med att använda och bearbeta dessa stora datamängder blir också mycket tydlig när jag studerat hur polisen går tillväga för att identifiera offer som förekommer i materialet. Offeridentifieringsarbetet blir inte alltid utfört, vilket bland annat beror på att mängderna av material är svårhanterliga och en del poliser har även uttryckt att de inte vet hur de skall använda teknologin för att genomföra den här typen av arbete.

 

Devdatt Dubhashi, institutionen för data- och informationsteknik:

– Termerna data science och big data dyker upp överallt idag – till och med i ett flygmagasin från Finnair upptäckte jag häromdagen. Företagen är i behov av data science, det naturvetenskapliga området talar om det fjärde paradigmet och även samhällsvetare och humaniora har anammat användningsområdet när det gäller sådant som smarta städer och digitaliserad kultur.

– I projektet Culturomics använder vi data science för sådant som att automatiskt dra slutsatser om vad ett tvetydigt ord har för betydelse i en viss kontext. Betyder det engelska ordet ”rock” rockmusik eller en sten? Syftar ”java” på semesterön eller på kaffe? Systemet spårar även mönster där man urskiljer förändringar i språket över tid. Ordet ”gemen” är ett mycket negativt ord i svenska språket idag till exempel, medan det bara för ett sekel sedan betydde ”folklig”!

– Inom ett Vinnova/Marie-Curie karriärutvecklings- och utbytesstipendium arbetar vi istället med data science som metod för att hitta nya användningsområden för befintliga läkemedel. När IT-fakulteten med stor sannolikhet startar ett nytt masterprogram i ”Data Science” under 2017 ser vi fram emot att få vara med och utveckla en kursstruktur för denna spännande nya satsning!

 

Text: Catharina Jerkbrant

IT-fakulteten startar ett masterprogram inom data science 2017

En starkt ökande efterfrågan på kompetens inom Data Science gör att IT-fakulteten startar en masterutbildning på området hösten 2017.

Grundtanken är att ha en tvärvetenskaplig ansats och ett antal olika fakulteter vid Göteborgs universitet har kontaktats för att diskutera möjliga samarbeten när det gäller programmets kursinnehåll.

Nytt internationellt masterprogram: Applied Data Science

Sidansvarig: Catharina Jerkbrant|Sidan uppdaterades: 2015-08-17
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?