The Basics of Big Data

Author: Maria Silvia Martinson, lawyer at RestMark METIDA

shutterstock_331429310On 10 January 2017, the European Commission issued a communication titled „Building a European Data Economy“ which explains the need for free movement of data and explores both the obstacles and possibilities of overcoming them in pursuit of a digital single market for data. In the context of the new General Data Protection Regulation, which will apply from 25 May 2018, and further data protection reforms taking place in the future, Big Data with its benefits and complications has become the dominating topic of many discussions. What are the basics of this phenomenon that should be kept in mind by everyone?

Interestingly enough, there is no single agreed upon definition of Big Data and in various context the term might be understood differently. This article understands the term „Big Data“ in conformity with the explanation offered by the European Commission: „Big Data refers to large amounts of different types of data produced from various types of sources, such as people, machines or sensors“. In other definitions it has also been brought out that the data sets which are considered Big Data are either so complex or just so large that they have outgrown traditional processing applications and require innovative data management software. However, it is considered standard that Big Data is defined by the following three characteristics: volume, velocity and variety.

„Volume“ indicates extremely large amounts of data which have been derived from different sources. The extent of collected and stored data has grown explosively after the beginning of the so-called „digital age“ in global information storage capacity in 2002. More precisely, a study conducted by Martin Hilbert and Priscila López demonstrated that year 2002 was the tipping point where more data became stored in digital format rather than in analog data format such as paper and films. By 2007 94% of all data was being stored digitally, whereas the amount of data had multiplied several times by then. And that was even before cloud computing, the practice of storing and accessing data using remote servers hosted on the internet which offers exceptional storage capability, which started its growth spurt in 2009 and became widespread in 2013.

„Velocity“ and „variety“ respectively describe the unprecedented speed of data streams and the different formats in which data is received. Due to the advanced machine-to-machine communication and the increasing number of objects which have the Internet of Things qualities (such as embedded sensors), more and more tiny bits of data are transmitted by the second. Additionally, people produce a massive amount of data each day, for example Facebook users are said to upload over 900 million photos every day. Since the data comes from very different sources, it can be in the form of emails, numeric data, video or something else. Additionally, although some of the data might be structured, most of it is not and thus is more difficult to manage and analyse.

Considering the aforementioned, it can be easily agreed upon that more data is collected, stored and managed than ever before. While there are some issues related to additional storage capacity, it is not even close to being the most actual question about Big Data. The objective of most discussions and developments is finding the best way to extract knowledge from Big Data and use it as an accelerant to innovation. Having access to large amounts of data is only half the victory, since not all of it is useful and the parts that are can be as difficult to find as a needle from a haystack. However, once that needle is found, possibilities are endless.

The extraction of value from Big Data requires vastly intelligent software packages, which can perform extensive search operations to retrieve intended results. After that, said results need to be analysed to identify trends, quite often as fast as to allow real-time response. This process mostly is and should be automated as otherwise it would be highly labour-intensive. In his 2016 article in Huffington Post, entrepreneur James Canton stated that autonomous decision-making is becoming the norm. Additionally, he brought out that although identifying trends is useful, extracting meaning to advise us and determine better outcomes faster may be possible by combining Big Data with artificial intelligence.

The benefits of Big Data are widespread. Knowledge extracted from it can be used by businesses to better target their customers (personalised advertisements), optimise supply planning and product quality, or by healthcare specialists to optimise patients’ treatment or even prevent and find new cures for diseases. With the help of Big Data, traffic flows can be managed and our homes improved. The public sector also uses Big Data to prevent cyber attacks, fight terrorism and prevent different types of criminal activity.

In other words, Big Data is highly valuable and not only in the sense of the benefits it can offer. According to the European Commission, the value of European citizens’ personal data has the potential to grow to EUR 643 billion by 2020, which would correspond to 3.17% of the overall European Union GDP. Big Data can be and already is monetized by many enterprises as large amounts of data, both personal and non-personal, are available to them. However, that raises the question of data protection and privacy. Transparency and trust are the keywords here, since according to the study conducted in 2015 by Eurobarometer 81% of Europeans feel that they do not have complete control over their personal data online.

Some of the concerns have been already addressed with the General Data Protection Regulation (GDPR), which was adopted on 27 April 2016 and will apply from 25 May 2018. More precisely, the GDPR provides a single set of rules for the entire European Union, which regulates the processing of personal data. That also includes machine-generated data, which is deemed sufficient to identify a natural person. One of the biggest changes the GDPR brings to the table is expanded territorial reach: even companies which are located outside the European Union, but target consumers in the European Union, will be subject to the regulation. However, as stated previously, GDPR does not answer all of the concerns in this matter nor entirely clear the way for optimal „data economy“. Therefore the European Commission is launching a wide dialogue on the issues brought out in the aforementioned 10 January 2017 communication, starting with a public consultation.

 More blog posts:



Posted in Uncategorized | Parašykite komentarą

Esminiai didžiųjų duomenų (angl. Big Data) principai

Autorė: Maria Silvia Martinson, RestMark METIDA teisininkė

shutterstock_331429310.jpg2017 m. sausio 10 d. Europos Komisija paskelbė komunikatą „Europos duomenų ekonomikos kūrimas“, kuriame aiškinamas laisvo duomenų judėjimo poreikis, atskleidžiamos kliūtys ir galimybės jas įveikti siekiant sukurti bendrą skaitmeninę duomenų rinką. Kalbant apie naująjį Bendrąjį duomenų apsaugos reglamentą, kuris bus taikomas nuo 2018 m. gegužės 25 d. ir ateityje vyksiančias papildomas duomenų apsaugos reformas, didžiųjų duomenų (angl. Big Data) nauda ir sudėtingumas – dominuojanti daugelio diskusijų tema. Taigi, į kokius esminius šio reiškinio principus turi atsižvelgti kiekvienas?

Įdomu tai, kad nėra vieno bendrai sutarto ir įtvirtinto didžiųjų duomenų (angl. Big data) apibrėžimo, todėl skirtinguose kontekstuose terminas gali būti suprantamas įvairiai. Šiame straipsnyje terminas „didieji duomenys“  (angl. Big Data) suprantamas taip, kaip Europos Komisijos paaiškinime: „Didieji duomenys – dideli įvairių rūšių duomenų kiekiai, kuriuos sukuria įvairūs šaltiniai, pavyzdžiui, žmonės, mašinos ar jutikliai“. Kituose apibrėžimuose teigiama, kad duomenų rinkiniai, kurie yra laikomi didžiaisiais duomenimis (angl. Big Data), yra arba tokie sudėtingi, arba tiesiog tokie dideli, kad tradicinės duomenų apdorojimo programos jų netenkina ir reikalauja novatoriškos duomenų valdymo programinės įrangos. Tačiau standartu laikoma, kad didieji duomenys (angl. Big Data) apibūdinami remiantis šiomis trimis savybėmis: apimtimi, sparta ir įvairove.

„Apimtis“ nurodo labai didelius duomenų kiekius, gaunamus iš skirtingų šaltinių. 2002 m., prasidedant vadinamajam „skaitmeniniam amžiui“ visuotinės informacijos saugojimo srityje, surinktų ir saugomų duomenų mastas staigiai išaugo. Tiksliau, Martino Hilberto ir Priscila López atliktas tyrimas atskleidė, kad 2002-ieji buvo lūžio taškas, kai vis daugiau duomenų pradėta saugoti skaitmeniniu formatu, o ne analoginiu duomenų formatu, pavyzdžiui, popieriuje ir juostelėse. Iki 2007 m. 94 % visų duomenų buvo saugomi skaitmeniniu formatu, o duomenų kiekis išaugo kelis kartus. Ir tai buvo dar prieš atsirandant debesijai (angl. Cloud Computing), informacijos saugojimo ir prieigos prie jos per nuotolinius interneto serverius, siūlančius išskirtinius saugojimo pajėgumus, veikla įgavo pagreitį dar 2009 m. ir paplito 2013 m.

„Sparta“ ir „įvairovė“ atitinkamai apibūdina precedento neturinčią duomenų srautų spartą ir skirtingus formatus, kuriais gaunami duomenys. Dėl pažangaus telemetrijos sprendimo M2M (angl. machine-to-machine) ir augančio objektų, kurie pasižymi daiktų interneto savybėmis (pavyzdžiui, įmontuoti jutikliai), skaičiaus vis daugiau ir daugiau mažyčių duomenų bitų perduodama per sekundę. Be to, per dieną žmonės sukuria didžiulius duomenų kiekius, pavyzdžiui, teigiama, kad kasdien „Facebook“ vartotojai įkelia daugiau nei 900 milijonų nuotraukų. Duomenys atkeliauja iš  daugybės šaltinių – tai gali būti laiškai, skaitiniai duomenys, vaizdai ar kažkas kito. Be to, nors kai kurie duomenys gali būti struktūrizuoti, tačiau dauguma jų – nestruktūrizuoti, todėl juos valdyti ir analizuoti sunkiau.

Atsižvelgiant į tai, kas jau paminėta, galima neabejotinai sutikti, kad duomenų surenkama, saugoma ir tvarkoma daugiau nei bet kada anksčiau. Nors kyla klausimų, susijusių su papildomais saugojimo pajėgumais, tačiau tai nėra labiausiai aktualus didžiųjų duomenų (angl. Big Data) klausimas. Daugumos diskusijų ir pokyčių tikslas – rasti geriausią būdą, kaip išgauti informaciją iš didžiųjų duomenų (angl. Big Data) ir juos panaudoti siekiant paspartinti naujoves. Prieiga prie didelių duomenų kiekių – tik pusė pergalės, nes ne visi duomenys yra naudingi ir rasti tas dalis, kurios gali būti naudingos, yra taip pat sunku, kaip rasti adatą šieno kupetoje. Tačiau suradus adatą, atsiveria neribotos galimybės.

Norint išgauti vertingą informaciją iš didžiųjų duomenų (angl. Big Data), reikia labai pažangios programinės įrangos paketo, kuris galėtų atlikti išsamios paieškos operacijas siekiant gauti norimų rezultatų. Po to gauti rezultatai turi būti analizuojami siekiant nustatyti tendencijas, gana dažnai, taip greitai, kaip būtų galima reaguoti realiuoju laiku. Šis procesas dažniausiai yra ir turėtų būti automatizuotas, priešingu atveju, reikėtų įdėti labai daug darbo. Savo 2016 m. straipsnyje, patalpintame JAV naujienų portale „Huffington Post“, verslininkas Jamesas Cantonas pareiškė, kad savarankiškas sprendimų priėmimas tampa norma. Be to,  pabrėžė, kad nors nustatyti tendencijas yra naudinga, tačiau išgavimas, kurio tikslas – informuoti ir greičiau nustatyti geresnius rezultatus, gali būti įmanomas derinant didžiuosius duomenis (angl. Big Data) ir dirbtinį intelektą.

Didžiųjų duomenų (angl. Big Data) nauda yra plačiai paplitusi. Išgauta informacija gali būti naudojama versle siekiant geriau pritraukti klientus (individualizuoti skelbimai), optimizuoti tiekimo planavimą ir produkto kokybę, arba padėti sveikatos priežiūros specialistams optimizuoti pacientų gydymą ar net užkirsti kelią ligoms ir rasti naujų vaistų. Didieji duomenys (angl. Big Data) gali padėti valdyti eismo srautus ir atnaujinti namus. Viešasis sektorius taip pat naudoja didžiuosius duomenis (angl. Big Data) siekiant išvengti kibernetinių atakų, kovoti su terorizmu ir išvengti įvairių rūšių nusikalstamos veiklos.

Kitaip tariant, „didieji duomenys“ (angl. Big Data) yra labai vertingi ne tik dėl jų teikiamos naudos. Pasak Europos Komisijos, iki 2020 m. Europos piliečių asmens duomenų vertė turi potencialą augti iki 643 bilijonų eurų, kurie atitiktų 3,17 % iš visos Europos Sąjungos BVP. Daugelis įmonių gali ir jau pateikia didžiuosius duomenis (angl. Big Data) pinigine išraiška, nes turi prieigą prie didelio duomenų (tiek asmeninių, tiek neasmeninių) kiekio. Tačiau dėl to kyla duomenų apsaugos ir privatumo klausimas. Šiuo atveju, skaidrumas ir pasitikėjimas yra raktiniai žodžiai, nes, atsižvelgiant į 2015 m. Eurobarometro atlikto tyrimo rezultatus, 81% europiečių mano, kad negali visiškai kontroliuoti savo asmens duomenų internete.

Dalis minėtų klausimų buvo išnagrinėti Bendrajame duomenų apsaugos reglamente, kuris buvo priimtas 2016 m. balandžio 27 d. ir bus taikomas nuo 2018 m. gegužės 25 d. Tiksliau tariant, Bendrasis duomenų apsaugos reglamentas pateikia bendrą taisyklių rinkinį visai Europos Sąjungai, kuris reglamentuoja asmens duomenų tvarkymą. Tai taip pat apima automatiškai sukurtus duomenis, kurių pakanka siekiant identifikuoti fizinį asmenį. Vienas didžiausių pokyčių, kuriuos pateikia Bendrasis duomenų apsaugos reglamentas – išplėstas teritorinis pasiekiamumas: net įmonėms, esančioms už Europos Sąjungos ribų, bet turinčioms tikslinius vartotojus Europos Sąjungoje, bus taikomos šio reglamento nuostatos. Tačiau, kaip nurodyta anksčiau, Bendrasis duomenų apsaugos reglamentas neišsprendžia visų su šiuo klausimu susijusių problemų, neatveria galimybių optimaliai „duomenų ekonomikai“. Todėl Europos Komisija, pradėdama plataus masto dialogą klausimais, iškeltais minėtame 2017 m. sausio 10 d. komunikate, rengs viešąsias konsultacijas.

Daugiau autorės tinklaraščio įrašų:

Posted in Uncategorized | Parašykite komentarą