본문 바로가기

비즈니스 모델/비즈니스 모델의 이해

빅데이터의 분석(GE의 사례)

728x90
반응형

‘빅데이터 분석’이라고 하면, 엄청난 분량의 데이터를 수집하고, 고성능 컴퓨터로 지속적으로 분석을 반복하는 모습 등을 상상해, 빅데이터 분석이라는 것이 어렵게 느낄지도 모른다. 하지만 궁극적으로 무엇을 얻고 싶은 바가 분명하다면, 빅데이터 분석 작업은 오히려 간단하게 느껴질 수도 있다. 투자 비용을 정당화할 수 있는 성과를 얻고, 부가가치를 창출하는 빅데이터 분석이란 대체 무엇일까? GE디지털의 데이터 과학자 알렉산더 로스(Alexander Ross)에게 들어본다.


알렉산더 로스, GE디지털 이사 (데이터 과학자)


​​빅데이터는 자산일까? 부채일까?

빅데이터가 반드시 자산이 되는 것은 아니다. 빅데이터는 현명하게 수집되고 관리되지 않는다면, 단순히 부채일 뿐이다. 2020년까지 500억 대의 기기가 인터넷에 연결될 것으로 전망되고 있고, 산업 현장에서도 천문학적인 양의 데이터가 오고 갈 것이다.

그런데 알렉산더 로스, GE디지털의 데이터 과학자는 이런 트렌드에 대해 이렇게 말한다. “현재 제대로 태그(Tag)가 붙어 있어 유용하게 사용할 수 있는 데이터는 전체의 3%에 불과합니다. 그리고 실제 분석에 사용되는 것은 그보다 훨씬 적습니다. 빅데이터라는 말은 엄청난 잠재력을 풍기고 있지만, 현재, 데이터에서 가치를 창출하는 기회는 제한적 입니다.”


빅데이터의 3V - Volume, Variety, Velocity 인포그래픽

빅데이터를 정의하면서, 자주 언급되는 것은 3V이다. 볼륨(Volume: 데이터 양), 버라이어티(Variety: 데이터 다양성), 벨로시티(Velocity: 발생 빈도)를 말한다. 그 중에서 특히 버라이어티와 벨로시티는 까다롭다.

“볼륨은 하드웨어와 소프트웨어의 조합으로 밀어붙이면 어떻게든 대응할 수 있을지 모릅니다. 하지만 버라이어티에 대응하기 위해서는 시계열 데이터 및 데이터 속성의 차이, 이력 및 버전 관리, 비구조적 데이터 취급 등 여러 관점에서 유의해야 합니다. 또한 벨로시티 측면에서는 데이터가 오래되진 않았는지, 언제 생성된 것인지 등을 항상 추적해야 합니다. 따라서 빅데이터를 확실하게 다루려면, 높은 수준의 기술이 필요하고, 비용도 많이 들 것으로 예상됩니다.”

조사기관인 가트너는 “2018년까지는 도입된 데이터 레이크의 90%는 이용 목적이 명확하지 않은 상태에서 수집된 방대한 데이터라 무의미하게 될 우려가 있다”라고 말한다. (Gartner Predicts 2015 보고서) 현재는 데이터 관리 비용만 들고, 아무 성과도 내놓지 못하는 상황이다. 이런 상태라면 빅데이터는 자산이 아니라, 부채가 된다. 데이터는 그것이 정보가 되고, 행동을 이끌어내는 통찰(지식)이 되며, 여기에 더 나아가 실제로 이용자의 행동에 영향을 주는 과정을 거쳐 가치를 갖게 된다.


​​​​
​​​빅데이터 분석 기반 네비게이션 시스템의 메커니즘

“모든 자산에 센서를 장착하고, 생성되는 데이터를 수집하려는 고객도 있습니다. 이것은 올바른 접근 방법이 아니라고 말하고 싶습니다. 부가가치가 창출되는 지점에서 데이터를 취득하는 것이 더 현명한 방법이 됩니다. 가장 고려해야 할 것은 빅데이터의 4번째 V, 즉 데이터의 영향력을 의미하는 가치(Value) 입니다. 데이터가 가치를 갖는 것은 사업의 성과(Outcome)으로 이어질 수 있을 지 여부입니다. 사업 성과로 이어지지 않는다면, 데이터 수집이나 분석도 의미가 없습니다. 시스템으로 수집하고 분석할 수 있는 데이터와 사업 목표를 향해 가는 여정, 그 접점을 판별하는 것이 중요합니다.”

​​

빅데이터의 4V - Volume, Variety, Velocity, Value 인포그래픽


​​산업을 위한 데이터 과학. 그 세 가지의 분석 방법

데이터 과학자는 어떻게 빅데이터를 분석할까? 다음의 세 가지 방법을 조합한 하이브리드 분석이 효과적이라고 알렉산더 로스는 말한다.

첫째는 물리 및 엔지니어링 기반 모델이다. 이것은 물리 법칙에 기반하여 분석하는 전통적인 방법으로, 제조업 종사자라면 누구든지 그 경험을 살릴 수 있다. 그러나 유지 보수 및 변경이 어렵기 때문에 시간이 지나면서 현실에 맞지 않을 수 있다.
다음은 경험, 입증된 규칙 그리고 지식에 근거한 분석 방법이다. 이 방법은 운영에 전문 지식이 있는 직원이 경험을 통해 올바른지 여부를 감각적으로 판단할 수 있는 것이다. 그러나 사람에 따라 좌우되고 디지털화되어 있지 않을 수 있기에 전환이나 응용이 어렵다.
마지막은 데이터 기반(Data-driven) 기법이다. 일반적으로 데이터 과학이라고 하는 영역인데, 현재 화제가 되는 기계학습이나 딥러닝을 예로 들 수 있다. 그러나 산업 영역에서는 아직 데이터가 부족하고, 과거에 발생하지 않았던 사건은 데이터가 없기 때문에 분석할 수 없는 등 약점이 있다.

이처럼, 어떤 방법이라도 장단점이 있기에 세 가지 방법을 상호 검증하는 하이브리드적인 접근 방식이 필요하다.

하이브리드 접근 방식을 통해 분석 가치가 있는 데이터 추출이 필요


디지털 트윈 – 산업용 데이터 과학을 위한 분석기법

GE는 자사가 제조하고 관리하는 모든 제품에 대해, 다양한 종류의 방대한 데이터를 축적 중이다. 이를 바탕으로 사이버 공간에서 그 제품과 동일한 특성을 가진 가상 모형(디지털 트윈)을 만들고, 이 디지털 트윈으로 현실의 제품이 어떻게 변화하고 작동하는지를 시뮬레이션한다. 이것이 디지털 트윈을 활용한 하이브리드 분석이다.

GE의 디지털 트윈 모델링 기법을 적용시킨 풍력발전

기존의 컴퓨터 시뮬레이션은 입력 변수를 변화시키면서 진행하지만, 분석 모델 자체는 고정된 것이다. 그러나 이런 방법은 시계열로 변화하는 현실 상황을 반영하지 못한다. 디지털 트윈은 모델 자체를 업데이트하는 동적인 분석 기법이다. 특성 변화를 모델 자체에 직접 반영하는 것이다. 항공기 엔진을 예로 들어 보자. 모래 먼지나 열 등의 가혹한 환경에서 동작하는 항공기의 엔진이 생성하는 데이터는, 그렇지 않은 엔진이 제공하는 데이터와 동일하다고 해도, , 운항 상황이 상이하기 때문에 각각 다른 평가가 이루어져야 한다. 디지털 트윈을 사용하면 일반적인 ‘엔진’과 비교하는 것이 아니라 ‘자사가 보유한 특정 항공기의 엔진’과 같이 각각의 대상에 최적화된 분석이 가능해진다.

디지털 트윈은 장비뿐만 아니라 공장 전체, 운영 분석 등 산업에서 다양한 현장에서 널리 사용할 수 있다. 이에 적합한 템플릿이 다양하게 준비되어 있고, 비용적으로도 유익한 장점이 있다.

다양한 현장에 적용 가능한 디지털 트윈의 템플릿


​​디지털 트윈의 응용 사례

“어떻게 운영을 최적화할 수 있고, 어떤 데이터를 수집하면 좋을지 고민하는 기업이 많을 것입니다. 그러나 그에 대한 대답은 이미 가지고 있는 데이터 안에도 분명 있습니다”라고 알렉산더 로스는 말합니다. 데이터 과학으로 새로운 기회를 발견하고, 실행할 수 있는 통찰력을 이끌어내고, 솔루션으로 발전시켜 전개해야 합니다. 프레딕스플랫폼과 디지털 트윈을 활용한 분석을 통해 GE는 기업의 사업 성과에 적합한 서비스를 제공하고 있습니다.

(자료출처 : GE report korea,2016.12.8)

반응형