데이터 사이언티스트가 갖춰야 할 역량은 빅데이터의 처리 및 분석에 필요한 이론적 지식과 기술적 숙련에 관련된
능력인 하드스킬과 데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력인 소프트스킬로 나누어진다.
구분 | 요구역량 | 내용 |
하드스킬 | 빅데이터에 대한 이론적 지식 분석 기술에 대한 숙련 |
관련 기법에 대한 이해와 방법론 습득 최적의 분석 설계 및 노하우 축적 |
소프트스킬 | 통찰력 있는 분석 설득력 있는 전달 다분야간 협력 |
창의적 사고, 호기심, 논리적 비판 스토리텔링, 시각화 커뮤니케이션 |
정보는 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 것이며,
지식을 도출하기 위한 재료가 된다.
-DIKW 피라미드: 데이터, 정보, 지식을 통해 최종적으로 지혜를 얻는 과정을 계층구조로 설명한 것
- 지혜: 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
- 지식: 상호 연결된 정보패턴을 이해하여 이를 예측한 결과물
- 정보: 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터
- 데이터: 존재형식을 불문하고 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미
기업의 의사결정 과정을 지원하기 위한 주제 중심적으로 통합적이며 시간성을 가지는
비휘발성 데이터의 집합을 데이터 웨어하우스라고 한다.
지난 몇 년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다.
전사적으로 쉽게 인사이트를 공유하는 데 도움이 되기 때문이다.
다시말해 별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트인 데이터레이크를 기업들이 구현하는 것은 2017년 새롭게 등장한 트랜드가 아니다. 그러나 2017년은 이를 적절히 관리해 운영하는 첫해가 될 전망이다.
정량적데이터는 지역별 매출액, 영업이익률 같이 수치로 명확하게 표현되는 데이터로, 그 양이 크게 증가하더라도
이를 DBMS에 저장, 검색, 분석하여 활용하기가 용이하다.
하둡은 대규모 분산 병렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 플랫폼 기술이며, 선형적인 성능과 용량 확장성, 고장 감내성을 가지고 있다. 아마존은 S3와 BC2환경을 제공함으로써 플랫폼을 위한 클라우드 서비스를 최초로 실현하였다.
빅데이터 활용 기본 테크닉
1) 생명의 진화를 모방하여 최적해를 구하는 알고리즘으로 존 홀랜드가 1975년에 개발하였다.
2) '최대의 시청률을 얻으려면 어떤 시간대에 방송해야하는가?'와 같은 문제를 해결할 때 사용된다.
3) 어떤 미지의 함수를 최적화하는 해를 찾기 위해, 진화를 모방한 탐색 알고리즘이다.
유전자 알고리즘
- 빅데이터 활용 기본 테크닉
-연관규칙 학습
- 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
- ex) A를 구매한 사람이 B를 더 많이 사는가?
-유형분석
- 새로운 사건이 속하게 될 범주를 찾아내는 일
- ex)이 사용자가 어떤 특성을 가진 집단에 속하는가?
-유전 알고리즘
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
- ex)최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송
-기계학습
- 훈련 데이터로부터 학습한 알려진 특성을 활용해 '예측'하는데 초점
- ex)기존 시청기록을 바탕으로 시청자는 보유한 영화 중 어떤 영화를 가장 보고싶어하는가?
-회귀분석
- 독립변수를 조작하며, 종속변수가 어떻게 변하는지를 보며 두 변인의 관계를 파악
- ex)구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
-감정분석
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
- ex)새로운 환불 정책에 대한 고객의 평가는 어떤가?
-소셜네트워크 분석
- 오피니언 리더, 즉 영향력있는 사람을 찾아낼 수 있으며, 고객들 간 소셜 관계를 파악
- ex) 특정인가 다른 사람이 몇 촌 정도의 관계인가?
출처 : ADsP 데이터 분석 준전문가(2021) | 윤종식 | 데이터에듀 - 교보문고 (kyobobook.co.kr)
ADsP 데이터 분석 준전문가(2021) - 교보문고
합격을 위한 완벽 요약집 | 본 도서는 한국데이터베이스진흥원에서 실시하고 있는 『데이터 분석 전문가(ADP)』 자격증과 『데이터 분석 준전문가(ADsP)』 자격증을 준비하는 수험생들을 위한 도
www.kyobobook.co.kr
'자격증 > ADsP' 카테고리의 다른 글
ADsP(비전공자 독학)3과목/2장 R프로그래밍 기초 (0) | 2021.10.29 |
---|---|
ADsP(비전공자 독학)3과목/1장 데이터 분석 개요 (0) | 2021.10.27 |
ADsP(비전공자 독학)2과목. 데이터 분석 기획 (단답형) (0) | 2021.10.27 |
ADsP(비전공자 독학)2과목. 데이터 분석 기획 (오답+헷갈리는 부분 정리) (0) | 2021.10.27 |
ADsP(비전공자 독학)1과목. 데이터이해 (오답+헷갈리는 부분 정리) (0) | 2021.10.26 |