Cost : 데이터의 수가 갈수록 늘어가며 분석을 위한 비용을 갈수록 늘어가고 있습니다
- DWH(Data Warehouse)의 비용 : 빅쿼리등 데이터 웨어하우스 제품군의 데이터 저장비용은 저렴하나, 연산비용은 규모에 따라 기하급수적으로 증가하고 있습니다. 플랫폼 다변화, 데이터 기반 결정등을 위해 기업들은 데이터 웨어하우스에서 막대한 비용을 쓰고 삼성전자의 경우 AWS Redshift로 인한 비용이 부담되어 데이터 레이크로 플랫폼을 이전 준비하고 있습니다.
- 데이터 엔지니어 : 데이터 엔지니어가 하는 일은 매우 많습니다. 이벤트와 관련된 로그 수집부터, 웨어하우스의 인터페이스를 위한 데이터 정제, 언급한 데이터 레이크에서 쿼리작업을 위한 prep, MLOps의 일부 작업을 도와주기도 합니다. 데이터 레이크에서의 쿼리작업을 위한 ad-hoc한 요청들은 많은 비효율성을 발생시키고 이런 부분들 때문에, 데이터 레이크와 데이터 웨어하우스를 동시에 움직이는 회사들도 매우 많습니다.
- 데이터 엔지니어들의 수도 매우 적습니다. 카카오스타일의 경우 100여명이 넘어가는 엔지니어링 조직에서 데이터 엔지니어는 3명에 불과한 상황입니다. 안 뽑는다기보다는 이러한 역량을 갖춘 엔지니어분을 모시는 것은 매우 어렵습니다.
- 시간 비용 : 데이터 분석을 하는 것은 데이터 기반으로 정확한 의사결정을 빨리 내리는 것입니다. 앞서 말했듯이, 적은 데이터 엔지니어의 수, 증가하는 SQL을 다루는 인원의 수가 겹치며 병목현상이 계속 되고 있습니다. 데이터 분석에서 중요한 것은 툴을 다루는 하드스킬이 아니라, 스키마를 보고 필요한 데이터를 판단할 수 있는 도메인 지식이나, 데이터 레이크 시장에서는 도메인 지식과 하드 스킬이 양분화되어 사일로 현상을 발생시키고 많은 불필요성을 야기하고 있습니다.